医学流畅度仍然领先于医学可靠性

Medical Xpress 总结的一项新研究表明,流行的 AI 聊天机器人在提供健康建议方面仍远未可靠。研究人员测试了五个广泛使用的系统,提出了涵盖癌症、疫苗、干细胞、营养和运动表现的 50 个问题。最直接的结果是:一半答案被评为有问题,近 20% 被认为问题严重。

这项发表在 BMJ Open 的研究评估了 ChatGPT、Gemini、Grok、Meta AI 和 DeepSeek 的回答。两位专家独立对每个答案进行了评分。尽管这些工具常常给出打磨精致、看起来权威的回答,但研究人员发现了频繁的事实错误、不可靠的参考文献,以及几乎完全不会拒绝不安全或误导性提示的问题。

在 250 个总问题中,只有两个被直接拒绝。这一点很重要,因为许多健康问题并不是在请求已被充分证实的事实,而是带着焦虑、开放式,或建立在薄弱前提上的。当聊天机器人顺畅回应而不质疑前提时,它造成的伤害可能比一个简单说“我不能帮你”的系统更大。

研究发现了什么

根据原文,五个系统都没有稳定地生成完全准确的参考文献列表。研究还发现,不同模型之间的表现相对接近,这表明问题是结构性的,而不只局限于某个平台。在这项比较中,Grok 表现最差,58% 的回答被标记为有问题,其次是 ChatGPT 的 52% 和 Meta AI 的 50%。

表现因主题而异。疫苗和癌症获得了最好的结果,文章将此归因于这些领域可获得的大量且相对结构化的研究基础。即便如此,聊天机器人仍有大约四分之一的回答存在问题。营养和运动表现更令人担忧,可能因为这些主题充斥着相互冲突的主张、薄弱证据和低质量网络内容。

当提示变成开放式时,差距明显扩大。研究发现,32% 的开放式回答被评为高度有问题,而封闭式问题仅为 7%。这一差异在实验室之外尤其重要,因为真实患者通常不会用选择题的形式提问。他们会问很宽泛的问题,例如哪种补充剂最好、哪种治疗最快,或者某家诊所的说法是否可信。

为什么“自信”是风险的一部分

最值得注意的问题并不只是错误本身,而是错误可以被包装在具有说服力的语言里。文章举了一个假设:一位癌症患者向 AI 系统询问替代诊所。风险不仅在于未经证实的医疗说法,还在于虚假的或损坏的引用,以及对问题设定本身没有任何反驳。

这种组合在医疗场景中很危险。用户可能把风格误认为实质,尤其当答案看起来有脚注且措辞专业时。聊天机器人可能比随机论坛帖子更像“安全”的来源,因为它听起来条理清晰、中立。研究表明,这种表象可能具有误导性。

健康信息不仅需要记忆,还需要判断:识别错误前提、区分证据质量,并将紧急情况升级给合格的临床医生。一个只是在预测下一个合理词语的模型,可能听起来很有能力,却并没有真正完成这些工作。

这对患者和平台意味着什么

这些发现进一步说明,消费级 AI 系统不应被视为可靠的一线医疗权威。它们也许可用于起草问题、解释术语或帮助用户理解一般概念,但这些好处并不能消除临床监督的必要性。在肿瘤学、疫苗或未经证实疗法等敏感领域,一个只错了一半的答案仍可能把决策引向错误方向。

这些结果也提出了产品设计问题。如果 250 个问题里只有两个被拒绝,那么健康场景中的拒绝阈值可能过于狭窄。更有针对性的防护措施可能包括更强的有害前提识别、对不确定性的更好校准,以及不会在没有依据时暗示支持的引用系统。

同样重要的是,模型开发者可能需要重新思考系统如何处理开放式健康提示。安全的答案并不总是直接回答。在某些情况下,正确做法是质疑问题、缩小范围,或建议咨询临床医生,而不是生成一段精致的回复。

更广泛的启示

这项研究并不表明 AI 在健康信息方面没有作用。它表明,当前通用聊天机器人在用户难以察觉的方式上仍然过于频繁地失误。被测试的系统可以用流畅的散文回答每个问题,但流畅性并不等于可信度。

这正是对患者和开发者的核心启示。人们在与医生交谈之前越来越多地转向 AI,尤其是在感到害怕或不耐烦时。如果系统在需要谨慎时给出确定语气,用户可能要到很久之后才意识到风险。在医学领域,这是一种严重的失效模式。

在准确性、引用完整性和拒答行为显著改进之前,AI 聊天机器人更适合被理解为起草和导向工具,而不是可靠的医疗指南。BMJ Open 的结果表明,这个行业仍然有一个不小的安全缺口需要弥补。

  • 研究人员用 50 个健康问题测试了五个主流聊天机器人。
  • 所有答案中有一半被评为有问题,近 20% 被评为高度有问题。
  • 开放式健康问题带来的安全问题远大于封闭式问题。
  • 没有任何聊天机器人能稳定生成完全准确的参考文献列表。

本文基于 Medical Xpress 的报道。阅读原文

Originally published on medicalxpress.com