为何医疗 AI 需要更强的临床价值证据

医疗 AI 的扩散速度快于其背后的证据

Nature Medicine 发表的一篇社论，对医疗技术领域最大的缺口之一提出了尖锐意见：行业在构建 AI 工具方面已经进步很快，但仍缺乏一致证据证明这些工具在实际中能改善医疗。预测模型、决策支持系统和生成式工具已经进入临床环境，而大型语言模型也被公众用于健康信息查询。该社论指出，医疗领域的采用正在加速，但真实世界价值的证据仍然有限。

这一区分正是文章的核心。医疗 AI 在纸面上看起来可能很出色，尤其当开发者报告灵敏度、特异性、区分度或校准等统计指标时。这些数字描述的是系统在计算层面的表现，但并不能自动证明患者得到了更好的治疗、临床医生做出了更好的决策，或者卫生系统在部署后运行得更有效率。

为什么性能指标还不够

这篇社论认为，医疗领域已经偏向对验证形成了过于狭窄的理解。一个模型在回顾性测试中可能得分很高，但如果它出现得不是时候、难以解释、被医护人员忽视，或者扰乱现有工作流，临床上仍可能失败。换句话说，技术成功不等于医疗收益。

这并不是无关紧要的学术抱怨。如果医院或医疗机构主要依据性能指标采用工具，它们可能会把时间和金钱花在实际价值不明确的产品上。更糟的是，它们还可能引入新的伤害或效率损失，而这些问题在基准测试研究中并不明显。社论警告说，当前行业习惯有导致过早实施的风险，部分原因是论文和产品材料中关于影响的说法越来越多，但证据标准仍然模糊。

当真实临床收益成为焦点时，医学一直要求更强的证据链。药物开发就是一个明显的参照。新药不会仅仅因为产生了生化反应，或者在早期实验中看起来很有前景，就被判定有效。它们要经历分阶段的证据要求，而公共监管机制会帮助决定何时证据足以支持批准、推荐或报销。

社论指出，医疗 AI 并没有形成类似的规范。这并不意味着软件应该像药物一样被完全同等监管。技术发展很快，应用场景差异很大，而且证据生成的激励并不均衡。但如果公司和机构想声称 AI 能改善医疗，那么这个领域就需要一个框架，让这些主张与所宣称影响相匹配的证据相对应。

FDA approves first treatment for chronic hepatitis delta virus infection

FDA 批准慢性丁型肝炎首个获批治疗药物

美国 FDA 已批准 Hepcludex 用于慢性丁型肝炎病毒感染的成人患者，标志着该疾病在美国迎来首个获批疗法。

Read article

该领域仍然缺少的框架

这篇社论最重要的贡献，是坚持“证据要与主张相匹配”。一个关于工作流支持的温和主张，可能只需要一层验证；而声称某个工具能改善患者结局、改变治疗决策，或节省整个系统的成本，则应当需要更多得多的证据。根据这篇文章，目前这些区别常常被混为一谈。

这很重要，因为 AI 产品并不是在一个中性的环境中进入医疗体系。临床环境拥挤、压力大，而且变化多。一个在某家机构表现很好的工具，到了另一家机构可能就会不同，因为人员配置、患者群体、数据系统和运营约束都不同。如果没有统一的评估框架，医疗系统在采购和部署时就可能依赖供应商叙事或不完整的研究设计。

社论还指出更广泛的制度滞后。监管框架仍在制定中，而且尚不足以跟上 AI 部署的速度和多样性。与此同时，已发表的研究往往并不能说明某个系统是否改变了诊室、病房或护理流程中实际发生的事情。这使得医疗机构、支付方和政策制定者在决策时缺少稳定基础。

更好的证据应是什么样

文章并没有把问题简化为单一方法，但它明确推动行业走向更强形式的评估。这意味着要超越回顾性性能报告，转而提出更难的问题，例如时机、可用性、采用率、临床行为、工作流整合以及可衡量的结果。也就是说，要在语境中评估 AI，而不是把它当作一个独立的计算产物。

对于决策支持模型，更好的证据可能意味着证明临床医生能够一致地理解并采取行动；对于分诊或预测工具，可能需要证明护理质量提高，同时没有带来新的不平等或延误；对于生成式系统，则可能意味着证明输出在真实场景中可靠、可理解且有益，而不仅仅是“看起来合理”。

这里还有一个责任问题。如果对临床影响的主张持续快于证据，结果将是医院和临床医生的困惑，以及患者的不信任。社论实际上是在说，更强的标准不是创新的刹车，而是让 AI 采用更可信、更持久的一种方式。

Senior NIH official pushes MAHA strategy to skeptical ADA audience

新世代螺旋蝇卷土重来之际，美国在得州依赖无菌蝇方案

在新世界螺旋蝇重返得克萨斯州南部后，美国官员正转向一种久经验证的生物防治手段：向当地投放大量经过灭菌处理的螺旋蝇，以切断这种害虫的繁殖周期。

Read article

医疗系统面临的风险

医疗保健尤其容易受到技术炒作影响，因为提升效率、减轻负担、缓解劳动力压力的需求非常强烈。AI 产品正好契合这一需求。但社论警告说，医疗系统可能正在投资于收益不确定、且潜在副作用可能相当大的工具。

这一警告出现的时点也很关键。AI 正从试点项目跨入常规临床环境。这个领域讨论的已经不只是设想中的部署，而是在当下做运营决策。在这种背景下，缺少共享证据框架就不只是方法学上的空白，而是治理问题。

社论的立场很直接：如果 AI 要在医学中主张其价值，就必须通过与所承诺影响类型相适应的证据来赢得这种主张。技术指标仍然重要，但它们只是评估的起点，不是终点。

对医疗 AI 下一阶段的有用纠偏

当前医疗 AI 的讨论常常在热情和担忧之间摆动。《Nature Medicine》提出的是更有纪律的东西：一种把工具在计算上做了什么，与它在临床上改变了什么连接起来的证明标准。这比宣称 AI 将改变医疗更不炫目，但却更必要。

如果该领域建立起这些规范，采用可能会更审慎，也更值得信赖；如果做不到，医疗就有可能重复一个熟悉的模式，即技术新颖性跑在已证实收益前面。对于一个错误后果尤其严重的行业来说，这是一个值得尽快弥补的缺口。

本文基于 Nature Medicine 的报道。阅读原文。

What stripping civil service protections for thousands of federal workers will mean for HHS

HHS的职位保护调整或将重塑联邦卫生政策

据报，针对数千名HHS政策工作人员的雇佣保护发生变化，可能使该机构的人事安排和卫生规则制定更容易受到政治更迭影响。

Read article

Originally published on nature.com

医疗 AI 真的有帮助，正被要求拿出更强证据

医疗 AI 的扩散速度快于其背后的证据

为什么性能指标还不够

FDA 批准慢性丁型肝炎首个获批治疗药物

该领域仍然缺少的框架

更好的证据应是什么样

新世代螺旋蝇卷土重来之际，美国在得州依赖无菌蝇方案

医疗系统面临的风险

对医疗 AI 下一阶段的有用纠偏

HHS的职位保护调整或将重塑联邦卫生政策

Comments (0)

Related Articles

脓毒症AI研究中的时序缺陷可能误导护理决策

新测试或可加快检测 C. diff 药物耐药性

最高法院裁决支持 Hikma，涉“瘦标签”案件

Keep Reading