高期望,有限信任

一项新的瑞典调查揭示了医疗领域AI应用的一个悖论:人们希望这项技术先比人类更好,才会完全愿意信任它。根据哥德堡大学的一项研究,瑞典的医生和公众都期望用于医疗保健的AI系统达到超过当前人类表现的准确性标准,尤其是在严重的临床情境中。

这一结果捕捉到了医疗AI开发者和医疗系统面临的一个残酷现实。在许多行业中,新软件只要有用,或者在成本或速度上略有优势,就可以被引入。但在临床护理中,社会门槛不同。人们要的不只是效率,而是一个比它所支持、或部分替代的专业人员犯更少危险错误的系统。与此同时,调查发现,人们对AI的信任度仍然只是中等,而非强烈,这表明更高的期望正在比信心更快到来。

这项研究基于2025年春季发出的一项调查,调查对象为瑞典随机抽取的1,000人,医生和普通公众各占一半。医生的回复率为45%,公众为31%。参与者被要求评估不同的医疗场景,并说明与当前医疗表现相比,AI系统可接受的漏诊或误判水平应当是多少。

为什么AI一进入医疗场景,标准就会提高

最清晰的发现之一是,在高风险情境中,期望会变得更严格。在胸痛等案例中,许多公众希望没有任何病例被漏掉。医生则更能接受较小的误差范围,这反映了他们对筛查和诊断的实际理解,即其中总是存在假阴性与假阳性之间的权衡。

这种差异很重要,因为它凸显了AI部署争论中一个反复出现的问题。准确率不是一个可以一锤定音的单一数字。一个系统可以被调到尽量少漏掉严重病例,但这样做可能会带来更多误报。反过来,这又会引发不必要的检查、占用医护时间,并使患者接受额外的程序。正如研究摘要中研究人员Rasmus Arvidsson所指出的,一个把所有人都标记为患病的系统,确实能避免漏掉严重疾病,但那并不是有用的医学。

因此,挑战不只是让AI更敏感,而是要决定什么样的错误平衡是可接受的、对谁可接受,以及在什么情境下可接受。调查表明,公众和临床医生的起点并不总是相同。许多公民似乎在严重情况上对AI持近乎零错误的理想,而医生则更习惯于在临床不确定性中工作。

这种错位很可能会影响采用。如果患者期待近乎完美,而医院采购的工具只能带来渐进式改进,反弹是可以预见的。因此,这项研究支持更明确地公开讨论权衡,而不是把AI包装成仿佛它能够消除这些权衡。

使用扩散得比信心更快

调查还发现,许多受访者已经在以某种形式使用AI,但真正表现出高度信任的人相对较少。在医生群体中,对基于聊天的AI工具的信任度,大致与对已用于解读心电图的AI系统的信任度相当。超过十分之七的医生尝试过基于聊天的工具,但真正将其用于临床决策的人并不多。

这一模式很有说明性。试用很普遍,但专业依赖仍然有限。临床医生在测试这些工具、观察它们的潜力,也许还把它们非正式地用于背景任务或想法生成,但他们还没有将其深度纳入直接关系患者结局的决策之中。

在普通公众中,大约十分之一的受访者表示曾使用AI获取健康建议。即使信任度仍然只是中等,这一点也值得注意。这表明面向消费者的AI已经开始进入日常健康行为,而关于这项技术应当处于正式医疗路径中的哪个位置,广泛的机构共识甚至还没有形成。

中等信任与有意义的使用并存,形成了一个过渡阶段。AI在医疗中已不再只是假设,但也还没有被正常化为可靠的临床权威。对政策制定者和医疗提供者来说,这个中间阶段可能最为微妙。人们已经接触到足以形成预期,但又还不足以放心接受那些若由人类系统造成也许会被容忍的错误。

这项研究说明了什么,以及没有说明什么

  • 瑞典的医生和公众都希望医疗AI比人类更准确。
  • 在胸痛等严重情境中,期望尤其高。
  • 人们对AI的信任度为中等,表示高度信任的受访者不多。
  • 超过十分之七的医生尝试过基于聊天的AI工具,但很少用于临床决策。
  • 约十分之一的公众曾使用AI获取健康建议。

作者指出,回复率与类似研究相当,但这也带来了不确定性,即这些结果在多大程度上代表更广泛的人群。即便如此,这项调查捕捉到的动态很可能不只局限于瑞典。医疗AI所接受的评判标准并不仅是技术性的,它还具有社会、伦理和比较维度。人们问的是AI能否超越现有医疗,而不只是它能否运行。

这一区别很可能定义健康AI的下一阶段。那些能改善工作流程、却无法清楚证明其错误特征合理性的系统,可能难以赢得信任。那些能够显示出可衡量改进的系统,仍然需要透明地说明它们会漏掉什么、会过度报警什么,以及责任如何在机器和临床医生之间分担。瑞典这项调查表明,门槛已经很高。而对行业来说,更难的发现可能是,公众和医生希望在他们准备依赖医疗AI之前,把这个门槛抬得更高。

本文基于Medical Xpress的报道。阅读原文

Originally published on medicalxpress.com