医疗 AI 的扩散速度快于其背后的证据
Nature Medicine 发表的一篇社论,对医疗技术领域最大的缺口之一提出了尖锐意见:行业在构建 AI 工具方面已经进步很快,但仍缺乏一致证据证明这些工具在实际中能改善医疗。预测模型、决策支持系统和生成式工具已经进入临床环境,而大型语言模型也被公众用于健康信息查询。该社论指出,医疗领域的采用正在加速,但真实世界价值的证据仍然有限。
这一区分正是文章的核心。医疗 AI 在纸面上看起来可能很出色,尤其当开发者报告灵敏度、特异性、区分度或校准等统计指标时。这些数字描述的是系统在计算层面的表现,但并不能自动证明患者得到了更好的治疗、临床医生做出了更好的决策,或者卫生系统在部署后运行得更有效率。
为什么性能指标还不够
这篇社论认为,医疗领域已经偏向对验证形成了过于狭窄的理解。一个模型在回顾性测试中可能得分很高,但如果它出现得不是时候、难以解释、被医护人员忽视,或者扰乱现有工作流,临床上仍可能失败。换句话说,技术成功不等于医疗收益。
这并不是无关紧要的学术抱怨。如果医院或医疗机构主要依据性能指标采用工具,它们可能会把时间和金钱花在实际价值不明确的产品上。更糟的是,它们还可能引入新的伤害或效率损失,而这些问题在基准测试研究中并不明显。社论警告说,当前行业习惯有导致过早实施的风险,部分原因是论文和产品材料中关于影响的说法越来越多,但证据标准仍然模糊。
当真实临床收益成为焦点时,医学一直要求更强的证据链。药物开发就是一个明显的参照。新药不会仅仅因为产生了生化反应,或者在早期实验中看起来很有前景,就被判定有效。它们要经历分阶段的证据要求,而公共监管机制会帮助决定何时证据足以支持批准、推荐或报销。
社论指出,医疗 AI 并没有形成类似的规范。这并不意味着软件应该像药物一样被完全同等监管。技术发展很快,应用场景差异很大,而且证据生成的激励并不均衡。但如果公司和机构想声称 AI 能改善医疗,那么这个领域就需要一个框架,让这些主张与所宣称影响相匹配的证据相对应。
该领域仍然缺少的框架
这篇社论最重要的贡献,是坚持“证据要与主张相匹配”。一个关于工作流支持的温和主张,可能只需要一层验证;而声称某个工具能改善患者结局、改变治疗决策,或节省整个系统的成本,则应当需要更多得多的证据。根据这篇文章,目前这些区别常常被混为一谈。
这很重要,因为 AI 产品并不是在一个中性的环境中进入医疗体系。临床环境拥挤、压力大,而且变化多。一个在某家机构表现很好的工具,到了另一家机构可能就会不同,因为人员配置、患者群体、数据系统和运营约束都不同。如果没有统一的评估框架,医疗系统在采购和部署时就可能依赖供应商叙事或不完整的研究设计。
社论还指出更广泛的制度滞后。监管框架仍在制定中,而且尚不足以跟上 AI 部署的速度和多样性。与此同时,已发表的研究往往并不能说明某个系统是否改变了诊室、病房或护理流程中实际发生的事情。这使得医疗机构、支付方和政策制定者在决策时缺少稳定基础。

