ChatGPT Health 分诊研究发现急症建议存在安全缺口

AI 分诊在中间表现最佳，而非边缘

Nature Medicine 中一篇新的简报，为消费者 AI 最敏感的用途之一增添了更明确的警示：告诉人们需要多紧急地就医。根据该报告，ChatGPT Health 在中度紧急情况上表现出较高准确率，但在临床两端经常做出错误判断。轻症往往被判得比实际更紧急，而真正的急症有时又被排得过低。

这一模式很重要，因为分诊不只是知识测试。它是一个决定系统，会影响人们接下来怎么做。如果某个工具告诉一个轻微不适的人需要紧急就医，结果可能是焦虑、不必要的开支，以及对已然紧张的诊所和急诊科造成更大压力。但如果同一系统告诉一个危急病情的人其症状并不紧急，后果就可能严重得多。

这篇简报把这些错误定义为安全风险，而不是仍在成熟中的技术的普通怪癖。这一区分很重要。大型语言模型常因流畅度和知识广度而受到评价，但分诊要求的是更窄也更困难的能力：在不确定条件下保持一致的临床优先级判断。简报表明，ChatGPT Health 在病情处于中等紧急程度时或许相当可靠，但当最安全的答案最重要时，它的稳定性就差得多。

为何极端情况比平均值更重要

总体准确率可能掩盖危险的失败模式。一个在许多常规或中度紧急情境中表现不错的模型，如果在罕见急症或自我护理与立即干预之间的区分上出问题，仍然可能是不安全的。在现实使用中，患者恰恰最可能在这些时刻依赖工具给出建议。

简报的总结指出了两种方向相反、但同样重要的倾向。一种是对非紧急情况过度分诊。这会让系统看起来更谨慎，但过度谨慎并不是没有代价的。它会扭曲就医行为，让更多人不必要地进入紧急医疗场景，并在用户反复感到建议过于危言耸听时削弱信任。

另一种倾向是对急症分诊不足，这才是更严重的问题。漏掉一个时间敏感的病情，是医疗系统在分诊设计中试图避免的核心失误。一个低估急症的工具，表面上可能显得高效或冷静，但在高风险场景中，这种风险很难被合理化。

这两种错误类型同时出现在同一次评估中，颇具启发性。它说明该模型并不是单纯保守，也不是单纯鲁莽。相反，它可能缺乏对不同情境下临床紧急程度的稳定内部判断。这是更深层的可靠性问题，因为它不能靠假定系统总是朝同一方向出错来修正。

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

More in Health

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

低剂量地高辛未达主要终点，但暗示心衰事件更少

一项纳入1,001名患者的随机试验发现，低剂量地高辛未能显著降低心力衰竭的主要复合终点，不过其事件数较安慰剂组呈下降趋势。

Read article

这些发现对 AI 医疗争论的补充

这篇简报进入了一个更大的争论：通用语言模型能否安全支持面向患者的医疗决策。人们对这些工具的兴趣增长很快，因为它们易获得、可对话，而且往往很有说服力。它们可以总结症状、解释可能的疾病，并以一种看似贴合且自信的语气给出建议。

但说服力不等于准确性，自信也不等于校准。简报所引用的以往研究已经指出，人们即使面对错误的 AI 医疗建议，也可能过度信任。其他被引用的研究则记录了临床决策能力方面的不足，并主张在部署前进行严格的外部验证。

这份新报告并不是说 AI 在分诊中没有作用，而是缩小了可以大胆宣称其安全性的范围。如果它在中度紧急病例上的表现稳定，但在分值两端不稳定，那么将其广泛定位为消费级产品就很难站得住脚。一个对常见、模糊症状有帮助的分诊助手，如果用户无法判断何时不该相信它，仍然可能是不安全的。

这一挑战在紧急护理中尤为明显，因为用户往往处于压力、疼痛之中，或者是在替他人做决定。在这些时刻，细微差别会迅速变成行动。建议等待、观察症状或寻求急诊护理，不再被当作背景信息，而是被当作指令。

对开发者、临床医生和监管者的启示

对开发者而言，结论很直接：健康分诊不能像普通聊天机器人功能那样评估。它需要针对边缘病例、罕见急症和常见会触发不必要升级的低严重度抱怨进行专项测试。总体分数并不够。安全取决于系统在哪里失效，而不只是失效率有多高。

对临床医生和医疗机构而言，这些发现强化了在采用面向患者的 AI 工具作为前门引导系统时保持谨慎的必要性。即使这些工具有助于获取信息，其输出仍可能需要护栏、明确免责声明和精心设计的升级路径。一个在许多情境下看起来有帮助的模型，如果被用户当作医学上可靠的工具，仍可能带来风险。

对监管者和政策制定者而言，这份报告进一步支持对症状检查器和类似临床决策辅助的生成式 AI 产品加强审查。关键问题不在于软件使用的是大型语言模型还是其他架构，而在于它的风险状况是否已在现实条件下得到证明。

更大的教训是，医学暴露了对话能力与决策可靠性之间的鸿沟。ChatGPT Health 可能很会“听起来有用”，而且在某些情况下它确实可能有用。但这项评估表明，当问题是紧急程度时，这个工具最容易在最不能出错的地方出错。

这并没有关上 AI 参与就医导航的大门。不过，它确实支持一种更窄、更依赖证据的角色定位。在此类工具能在整个紧急程度范围内，尤其是在急症场景中，展现可靠表现之前，将它们视为信息辅助工具，而不是值得信赖的分诊权威，更为妥当。

本文基于 Nature Medicine 的报道。阅读原文。

CSL sinks to nine-year low on revenue warning, $5B write-down

More in Health

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

CSL 将全年收入指引下调约 4%，并披露了一笔新的 50 亿美元减值，导致其股价跌至 2017 年初以来的最低水平。

Read article

Originally published on nature.com

AI 分诊在中间表现最佳，而非边缘

为何极端情况比平均值更重要

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

More in Health

$Low-dose digoxin in patients with heart failure with reduced or mildly reduced ejection fraction: a randomized controlled trial - Nature Medicine$

低剂量地高辛未达主要终点，但暗示心衰事件更少

一项纳入1,001名患者的随机试验发现，低剂量地高辛未能显著降低心力衰竭的主要复合终点，不过其事件数较安慰剂组呈下降趋势。

Read article

这些发现对 AI 医疗争论的补充

对开发者、临床医生和监管者的启示

本文基于 Nature Medicine 的报道。阅读原文。

More in Health

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

CSL 将全年收入指引下调约 4%，并披露了一笔新的 50 亿美元减值，导致其股价跌至 2017 年初以来的最低水平。

Read article

Originally published on nature.com

研究指出 ChatGPT Health 分诊建议存在安全缺口

AI 分诊在中间表现最佳，而非边缘

为何极端情况比平均值更重要

低剂量地高辛未达主要终点，但暗示心衰事件更少

这些发现对 AI 医疗争论的补充

对开发者、临床医生和监管者的启示

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

Comments (0)

Related Articles

Amazon 正在扩展当日药房自助柜，并新增 Ozempic 口服药选项

大日本住友制药撤回 ADC 产能计划后近 10 亿美元受挫

有关 FDA 领导层拟议调整的报道使该机构优先事项受到新的审视

2型糖尿病中早期胰高血糖素变化被关联至脂肪肝疾病

超灵敏 TDP-43 检测或可提升一种难以识别痴呆症的诊断精度

Keep Reading

研究指出 ChatGPT Health 分诊建议存在安全缺口

AI 分诊在中间表现最佳，而非边缘

为何极端情况比平均值更重要

低剂量地高辛未达主要终点，但暗示心衰事件更少

这些发现对 AI 医疗争论的补充

对开发者、临床医生和监管者的启示

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

Comments (0)

Related Articles

Amazon 正在扩展当日药房自助柜，并新增 Ozempic 口服药选项

大日本住友制药撤回 ADC 产能计划后近 10 亿美元受挫

有关 FDA 领导层拟议调整的报道使该机构优先事项受到新的审视

2型糖尿病中早期胰高血糖素变化被关联至脂肪肝疾病

超灵敏 TDP-43 检测或可提升一种难以识别痴呆症的诊断精度

Keep Reading

研究指出 ChatGPT Health 分诊建议存在安全缺口

AI 分诊在中间表现最佳，而非边缘

为何极端情况比平均值更重要

低剂量地高辛未达主要终点，但暗示心衰事件更少

这些发现对 AI 医疗争论的补充

对开发者、临床医生和监管者的启示

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

Comments (0)

Related Articles

Amazon 正在扩展当日药房自助柜，并新增 Ozempic 口服药选项

大日本住友制药撤回 ADC 产能计划后 近 10 亿美元受挫

有关 FDA 领导层拟议调整的报道使该机构优先事项受到新的审视

2型糖尿病中早期胰高血糖素变化被关联至脂肪肝疾病

超灵敏 TDP-43 检测或可提升一种难以识别痴呆症的诊断精度

Keep Reading

研究指出 ChatGPT Health 分诊建议存在安全缺口

AI 分诊在中间表现最佳，而非边缘

为何极端情况比平均值更重要

低剂量地高辛未达主要终点，但暗示心衰事件更少

这些发现对 AI 医疗争论的补充

对开发者、临床医生和监管者的启示

CSL 因收入预警和 50 亿美元减值拖累，股价跌至九年低点

Comments (0)

Related Articles

Amazon 正在扩展当日药房自助柜，并新增 Ozempic 口服药选项

大日本住友制药撤回 ADC 产能计划后 近 10 亿美元受挫

有关 FDA 领导层拟议调整的报道使该机构优先事项受到新的审视

2型糖尿病中早期胰高血糖素变化被关联至脂肪肝疾病

超灵敏 TDP-43 检测或可提升一种难以识别痴呆症的诊断精度

Keep Reading

大日本住友制药撤回 ADC 产能计划后近 10 亿美元受挫

大日本住友制药撤回 ADC 产能计划后近 10 亿美元受挫