关键问题已不再是医疗人工智能原则上是否可行

医疗人工智能已经走过了新奇阶段。医院正在把 AI 用于记录笔记、病历审阅、分诊支持、影像解读和治疗相关建议。所提供的《MIT Technology Review》来源清楚表明,这一领域如今面临的是另一个问题:技术性能的证据来得比真实世界临床获益的证据更快。

这种区别很容易被混淆。模型可以在识别模式、分类扫描图像或总结对话方面表现准确。但这些任务上的输出更好,并不自动意味着患者健康状况更好。一个工具可以为临床医生节省时间、生成更整洁的文书,或给出看似合理的建议,却仍然无法改善诊断、治疗或结局。

环境 AI 的兴起凸显了这一差距

最明显的例子之一,是所谓 ambient AI 记录助手的扩散。这些系统会聆听医患对话,转写并生成摘要。来源指出,它们已经被广泛采用,临床医生通常也表示满意度很高。早期研究还显示,它们可能减轻职业倦怠。

这些都是有意义的收益。行政负担过重确实是医学中的重要压力来源。如果 AI 能减轻部分负担,就可能改善临床医生的工作环境。但来源中引用的研究者 Jenna Wiens 和 Anna Goldenberg 认为,这仍然留下了核心问题:患者会怎样?如果 AI 记录助手以细微方式改变了哪些内容被记录、被强调或被省略,它可能会在之后的决策中产生并不容易从满意度调查中看出的影响。

准确性不等于影响

同样的问题也延伸到预测和建议系统。医院越来越多地使用模型来识别哪些患者可能需要干预、疾病可能如何演变,或临床医生下一步应考虑什么行动。这些系统通常以更高效率和一致性的承诺被引入。但除非它们是以患者结局为标准来评估的,否则这个领域就有把运营便利误认为医学进步的风险。

模型也许能标记出正确的患者,但来得太晚而失去意义。它也许给出正确建议,但临床医生并不采纳。它还可能以有利于某一群体、却让另一群体落后的方式转移工作人员的注意力。这些都不是边缘情况,而是在繁忙临床环境中部署软件时的现实。

为何现在这波部署浪潮重要

来源引用 Wiens 的话说,过去几年发生了明显变化:临床医生和医疗系统已经从怀疑转向积极部署。这个时间点很重要。一旦工具嵌入工作流程,它们就更难被干净地评估,也更难被移除。采购、培训、整合和员工习惯都会形成惯性。实际上,医疗系统可能在建立支持这些技术的证据基础之前,就已经把它们锁定进去了。

这并不是反对医疗人工智能,而是反对把采用本身当作证据。医学早就承认替代性指标与真正终点之间的区别。这里也应当遵循同样的纪律。更快的文书速度、更整洁的摘要和高基准准确率都可能有用。但除非能被测量为健康改善,否则都不应与健康改善混为一谈。

这个领域需要结局级证据

《Nature Medicine》论点最重要的贡献在于,它重设了举证责任。问题不是 AI 是否能产出令人印象深刻的结果。它显然可以。问题在于,这些结果是否会以可衡量的方式改善患者护理。

这意味着需要更严格的研究设计、更强的部署后监测,以及愿意追问某个流行工具是否真的让决策或结局变得更好。医疗有充分理由采用有用的自动化,也有同样充分的理由拒绝把便利误认为疗效。

随着医院继续把 AI 融入日常实践,这种纪律只会更重要,而不是不重要。系统已经在那里了。尚未定论的是,它们究竟是在何处真正让医学变得更好。

本文基于 MIT Technology Review 的报道。阅读原文

Originally published on technologyreview.com