新研究发现，一半 AI 健康回答存在问题

医学流畅度仍然领先于医学可靠性

Medical Xpress 总结的一项新研究表明，流行的 AI 聊天机器人在提供健康建议方面仍远未可靠。研究人员测试了五个广泛使用的系统，提出了涵盖癌症、疫苗、干细胞、营养和运动表现的 50 个问题。最直接的结果是：一半答案被评为有问题，近 20% 被认为问题严重。

这项发表在 BMJ Open 的研究评估了 ChatGPT、Gemini、Grok、Meta AI 和 DeepSeek 的回答。两位专家独立对每个答案进行了评分。尽管这些工具常常给出打磨精致、看起来权威的回答，但研究人员发现了频繁的事实错误、不可靠的参考文献，以及几乎完全不会拒绝不安全或误导性提示的问题。

在 250 个总问题中，只有两个被直接拒绝。这一点很重要，因为许多健康问题并不是在请求已被充分证实的事实，而是带着焦虑、开放式，或建立在薄弱前提上的。当聊天机器人顺畅回应而不质疑前提时，它造成的伤害可能比一个简单说“我不能帮你”的系统更大。

研究发现了什么

根据原文，五个系统都没有稳定地生成完全准确的参考文献列表。研究还发现，不同模型之间的表现相对接近，这表明问题是结构性的，而不只局限于某个平台。在这项比较中，Grok 表现最差，58% 的回答被标记为有问题，其次是 ChatGPT 的 52% 和 Meta AI 的 50%。

表现因主题而异。疫苗和癌症获得了最好的结果，文章将此归因于这些领域可获得的大量且相对结构化的研究基础。即便如此，聊天机器人仍有大约四分之一的回答存在问题。营养和运动表现更令人担忧，可能因为这些主题充斥着相互冲突的主张、薄弱证据和低质量网络内容。

当提示变成开放式时，差距明显扩大。研究发现，32% 的开放式回答被评为高度有问题，而封闭式问题仅为 7%。这一差异在实验室之外尤其重要，因为真实患者通常不会用选择题的形式提问。他们会问很宽泛的问题，例如哪种补充剂最好、哪种治疗最快，或者某家诊所的说法是否可信。

After assault, OCD risk rises fastest in first year, pointing to a critical care window

科学家发现袭击暴露与显著更高的强迫症风险相关，尤其是在第一年内

一项大规模瑞典队列研究发现，经历袭击或受害的人后来更可能发展为强迫症，且风险在第一年内上升最快。研究结果指向一个

Read article

为什么“自信”是风险的一部分

最值得注意的问题并不只是错误本身，而是错误可以被包装在具有说服力的语言里。文章举了一个假设：一位癌症患者向 AI 系统询问替代诊所。风险不仅在于未经证实的医疗说法，还在于虚假的或损坏的引用，以及对问题设定本身没有任何反驳。

这种组合在医疗场景中很危险。用户可能把风格误认为实质，尤其当答案看起来有脚注且措辞专业时。聊天机器人可能比随机论坛帖子更像“安全”的来源，因为它听起来条理清晰、中立。研究表明，这种表象可能具有误导性。

健康信息不仅需要记忆，还需要判断：识别错误前提、区分证据质量，并将紧急情况升级给合格的临床医生。一个只是在预测下一个合理词语的模型，可能听起来很有能力，却并没有真正完成这些工作。

这对患者和平台意味着什么

这些发现进一步说明，消费级 AI 系统不应被视为可靠的一线医疗权威。它们也许可用于起草问题、解释术语或帮助用户理解一般概念，但这些好处并不能消除临床监督的必要性。在肿瘤学、疫苗或未经证实疗法等敏感领域，一个只错了一半的答案仍可能把决策引向错误方向。

这些结果也提出了产品设计问题。如果 250 个问题里只有两个被拒绝，那么健康场景中的拒绝阈值可能过于狭窄。更有针对性的防护措施可能包括更强的有害前提识别、对不确定性的更好校准，以及不会在没有依据时暗示支持的引用系统。

同样重要的是，模型开发者可能需要重新思考系统如何处理开放式健康提示。安全的答案并不总是直接回答。在某些情况下，正确做法是质疑问题、缩小范围，或建议咨询临床医生，而不是生成一段精致的回复。

更广泛的启示

这项研究并不表明 AI 在健康信息方面没有作用。它表明，当前通用聊天机器人在用户难以察觉的方式上仍然过于频繁地失误。被测试的系统可以用流畅的散文回答每个问题，但流畅性并不等于可信度。

这正是对患者和开发者的核心启示。人们在与医生交谈之前越来越多地转向 AI，尤其是在感到害怕或不耐烦时。如果系统在需要谨慎时给出确定语气，用户可能要到很久之后才意识到风险。在医学领域，这是一种严重的失效模式。

在准确性、引用完整性和拒答行为显著改进之前，AI 聊天机器人更适合被理解为起草和导向工具，而不是可靠的医疗指南。BMJ Open 的结果表明，这个行业仍然有一个不小的安全缺口需要弥补。

研究人员用 50 个健康问题测试了五个主流聊天机器人。
所有答案中有一半被评为有问题，近 20% 被评为高度有问题。
开放式健康问题带来的安全问题远大于封闭式问题。
没有任何聊天机器人能稳定生成完全准确的参考文献列表。

本文基于 Medical Xpress 的报道。阅读原文。

Originally published on medicalxpress.com

医学流畅度仍然领先于医学可靠性

研究发现了什么

科学家发现袭击暴露与显著更高的强迫症风险相关，尤其是在第一年内

一项大规模瑞典队列研究发现，经历袭击或受害的人后来更可能发展为强迫症，且风险在第一年内上升最快。研究结果指向一个

Read article

为什么“自信”是风险的一部分

这对患者和平台意味着什么

更广泛的启示

研究人员用 50 个健康问题测试了五个主流聊天机器人。
所有答案中有一半被评为有问题，近 20% 被评为高度有问题。
开放式健康问题带来的安全问题远大于封闭式问题。
没有任何聊天机器人能稳定生成完全准确的参考文献列表。

本文基于 Medical Xpress 的报道。阅读原文。

Originally published on medicalxpress.com

研究发现，AI 聊天机器人在健康问题上仍以惊人的自信给出不安全答案

医学流畅度仍然领先于医学可靠性

研究发现了什么

科学家发现袭击暴露与显著更高的强迫症风险相关，尤其是在第一年内

为什么“自信”是风险的一部分

这对患者和平台意味着什么

更广泛的启示

Comments (0)

Keep Reading

研究发现，AI 聊天机器人在健康问题上仍以惊人的自信给出不安全答案

医学流畅度仍然领先于医学可靠性

研究发现了什么

科学家发现袭击暴露与显著更高的强迫症风险相关，尤其是在第一年内

为什么“自信”是风险的一部分

这对患者和平台意味着什么

更广泛的启示

Comments (0)

Keep Reading