AI 分诊在中间表现最佳,而非边缘
Nature Medicine 中一篇新的简报,为消费者 AI 最敏感的用途之一增添了更明确的警示:告诉人们需要多紧急地就医。根据该报告,ChatGPT Health 在中度紧急情况上表现出较高准确率,但在临床两端经常做出错误判断。轻症往往被判得比实际更紧急,而真正的急症有时又被排得过低。
这一模式很重要,因为分诊不只是知识测试。它是一个决定系统,会影响人们接下来怎么做。如果某个工具告诉一个轻微不适的人需要紧急就医,结果可能是焦虑、不必要的开支,以及对已然紧张的诊所和急诊科造成更大压力。但如果同一系统告诉一个危急病情的人其症状并不紧急,后果就可能严重得多。
这篇简报把这些错误定义为安全风险,而不是仍在成熟中的技术的普通怪癖。这一区分很重要。大型语言模型常因流畅度和知识广度而受到评价,但分诊要求的是更窄也更困难的能力:在不确定条件下保持一致的临床优先级判断。简报表明,ChatGPT Health 在病情处于中等紧急程度时或许相当可靠,但当最安全的答案最重要时,它的稳定性就差得多。
为何极端情况比平均值更重要
总体准确率可能掩盖危险的失败模式。一个在许多常规或中度紧急情境中表现不错的模型,如果在罕见急症或自我护理与立即干预之间的区分上出问题,仍然可能是不安全的。在现实使用中,患者恰恰最可能在这些时刻依赖工具给出建议。
简报的总结指出了两种方向相反、但同样重要的倾向。一种是对非紧急情况过度分诊。这会让系统看起来更谨慎,但过度谨慎并不是没有代价的。它会扭曲就医行为,让更多人不必要地进入紧急医疗场景,并在用户反复感到建议过于危言耸听时削弱信任。
另一种倾向是对急症分诊不足,这才是更严重的问题。漏掉一个时间敏感的病情,是医疗系统在分诊设计中试图避免的核心失误。一个低估急症的工具,表面上可能显得高效或冷静,但在高风险场景中,这种风险很难被合理化。
这两种错误类型同时出现在同一次评估中,颇具启发性。它说明该模型并不是单纯保守,也不是单纯鲁莽。相反,它可能缺乏对不同情境下临床紧急程度的稳定内部判断。这是更深层的可靠性问题,因为它不能靠假定系统总是朝同一方向出错来修正。
这些发现对 AI 医疗争论的补充
这篇简报进入了一个更大的争论:通用语言模型能否安全支持面向患者的医疗决策。人们对这些工具的兴趣增长很快,因为它们易获得、可对话,而且往往很有说服力。它们可以总结症状、解释可能的疾病,并以一种看似贴合且自信的语气给出建议。
但说服力不等于准确性,自信也不等于校准。简报所引用的以往研究已经指出,人们即使面对错误的 AI 医疗建议,也可能过度信任。其他被引用的研究则记录了临床决策能力方面的不足,并主张在部署前进行严格的外部验证。
这份新报告并不是说 AI 在分诊中没有作用,而是缩小了可以大胆宣称其安全性的范围。如果它在中度紧急病例上的表现稳定,但在分值两端不稳定,那么将其广泛定位为消费级产品就很难站得住脚。一个对常见、模糊症状有帮助的分诊助手,如果用户无法判断何时不该相信它,仍然可能是不安全的。
这一挑战在紧急护理中尤为明显,因为用户往往处于压力、疼痛之中,或者是在替他人做决定。在这些时刻,细微差别会迅速变成行动。建议等待、观察症状或寻求急诊护理,不再被当作背景信息,而是被当作指令。
对开发者、临床医生和监管者的启示
对开发者而言,结论很直接:健康分诊不能像普通聊天机器人功能那样评估。它需要针对边缘病例、罕见急症和常见会触发不必要升级的低严重度抱怨进行专项测试。总体分数并不够。安全取决于系统在哪里失效,而不只是失效率有多高。
对临床医生和医疗机构而言,这些发现强化了在采用面向患者的 AI 工具作为前门引导系统时保持谨慎的必要性。即使这些工具有助于获取信息,其输出仍可能需要护栏、明确免责声明和精心设计的升级路径。一个在许多情境下看起来有帮助的模型,如果被用户当作医学上可靠的工具,仍可能带来风险。
对监管者和政策制定者而言,这份报告进一步支持对症状检查器和类似临床决策辅助的生成式 AI 产品加强审查。关键问题不在于软件使用的是大型语言模型还是其他架构,而在于它的风险状况是否已在现实条件下得到证明。
更大的教训是,医学暴露了对话能力与决策可靠性之间的鸿沟。ChatGPT Health 可能很会“听起来有用”,而且在某些情况下它确实可能有用。但这项评估表明,当问题是紧急程度时,这个工具最容易在最不能出错的地方出错。
这并没有关上 AI 参与就医导航的大门。不过,它确实支持一种更窄、更依赖证据的角色定位。在此类工具能在整个紧急程度范围内,尤其是在急症场景中,展现可靠表现之前,将它们视为信息辅助工具,而不是值得信赖的分诊权威,更为妥当。
本文基于 Nature Medicine 的报道。阅读原文。
Originally published on nature.com







