将AI投入临床测试
一项发表在Nature Medicine上的研究对OpenAI的ChatGPT进行了结构化评估,以测试其进行医学分诊建议的能力——这是急诊护理中的关键第一步,患者按照其病情紧急程度进行分类。该研究代表了迄今为止最具方法论严谨性的评估,以判断大型语言模型是否能在临床环境中可靠地执行,其中错误可能导致生死攸关的后果。
分诊对于AI系统来说是特别具有挑战性的测试,因为它需要整合多个信息流——报告的症状、患者病史、生命体征和情景线索——来做出关于患者需要多么紧急护理的快速判断。在任何方向上出错都会带来严重风险:分诊不足可能导致关键患者治疗延迟和可预防的死亡,而过度分诊会浪费稀缺的急诊资源。
研究设计和方法论
研究人员使用标准化临床病例设计了一个结构化测试——这些是患者表现的详细书面描述,在医学教育和委员会考试中常见。每个病例包含有关患者主诉、相关医学史、生命体征和体格检查结果的信息。
要求ChatGPT将每个病例分配到五个标准分诊类别之一,范围从需要立即干预的危及生命的紧急情况到可以安全地等待常规护理的非紧急情况。然后将AI的建议与经验丰富的急诊医学医生做出的共识分诊分配进行比较。
该研究控制了多个使以前对AI医学性能的评估复杂化的变量。提示工程得到了标准化,以消除向模型提出问题方式的变异。进行了多次运行以评估一致性,研究人员不仅分析了最终分诊分配的准确性,还分析了模型提供的推理。
主要发现
该研究发现ChatGPT在不同严重程度上表现出混合结果。对于最严重的病例——呈现明确危及生命的紧急情况的患者,如心脏停跳、严重外伤或严重呼吸困难——该模型通常表现良好,在大多数情况下正确识别了需要立即干预的需求。
然而,性能在中间分诊类别中下降,其中紧急和半紧急病例之间的区别需要更微妙的临床判断。这些恰好是即使在经验丰富的临床医生中分诊错误也最常见的病例,错误分类的临床后果最为重大。
该模型在重复评估相同病例时也表现出不一致性。当多次呈现相同的临床病例时,ChatGPT有时会分配不同的分诊类别,这一发现引发了对基于LLM的临床工具在现实世界环境中可靠性的担忧,其中一致性至关重要。
- ChatGPT在明确的关键病例上表现最佳,但在微妙的中等急性分诊决策中表现不佳
- 该模型在多次呈现相同病例时表现出不一致性
- 推理质量差异很大,一些评估表现出合理的临床逻辑,而其他评估反映了明显的虚构
- 该研究使用标准化病例和受控提示以确保严格的评估
对医疗保健AI的影响
这些发现对将AI整合到医疗工作流程的日益增长的运动具有重要意义。医学AI的倡导者辩称,大型语言模型可以帮助缓解急诊医生和分诊护士的严重短缺,特别是在资源不足的医疗保健设置和医疗专业人员可及性有限的发展中国家。
该研究表明,虽然ChatGPT可能作为补充工具有用——帮助临床医生思考诊断鉴别或标记可能被忽视的考虑——但它还不够可靠,不能作为自主分诊系统。重复评估中的不一致性尤其令人担忧,因为临床决策支持工具需要在给定相同输入的情况下产生相同的建议。
研究人员指出,他们的发现特别适用于所测试的ChatGPT版本,而模型能力正在迅速发展。具有增强推理能力和医学微调的较新模型可能表现得显著更好。然而,他们警告不要在没有对真实患者结果进行广泛验证的情况下部署任何AI系统进行临床分诊,而不仅仅是标准化测试案例。
监管问题
该研究还突出了监管机构面临的挑战,因为AI工具越来越多地进入临床实践。在许多国家,医疗决策支持软件受到作为医疗设备的监管批准约束。然而,AI模型更新的快速步伐——每隔几个月发布新版本——产生了监管挑战,因为每次更新都可能改变系统的临床性能。
美国食品药品监督管理局(FDA)一直在开发基于AI的医疗设备的监管框架,包括针对随时间发展的持续学习系统的条款。但该框架仍在进行中,AI开发速度与监管适应速度之间的差距继续扩大。
展望前景
Nature Medicine研究对日益增长的证据提供了贡献,表明大型语言模型在医学应用中展现出真正的前景,但还没有为自主临床部署做好准备。前进的道路可能涉及精心设计的人工智能协作系统,其中模型的建议始终受到人类审查的约束,结合对临床结果的持续监测,以确保AI援助实际上改善了患者护理,而不是引入新风险。
对于已经在过度拥挤和人员短缺中苦苦挣扎的急诊科来说,即使是不完美的AI工具,如果它能捕捉一些被遗漏的关键病例,也可能拯救生命。但负责任地部署这样的工具需要这项研究所示范的那种严格的结构化评估——而不仅仅是在精心挑选的例子上展示令人印象深刻的性能。
这篇文章基于Nature Medicine的报道。阅读原文。



