当风险最高时,AI 的表现最为突出
一项由哈佛主导、于本周发表在
Science
上的研究,为人工智能在医学中的应用争论提供了一个重要数据点。在论文最受关注的实验之一中,研究人员将 OpenAI 模型在贝斯以色列女执事医疗中心真实急诊病例中的诊断结果,与两位内科主治医生的诊断进行了比较。根据研究结果,OpenAI 的 o1 模型在每个诊断检查点上的表现都与人类医生相当,甚至更好,其中最明显的优势出现在最初的急诊分诊阶段。这很重要,因为分诊是临床医生信息最少、时间最紧张的环节。研究指出,这种差异在第一个接触点尤其明显,也就是医生和医院在更全面检查结果到来之前,试图判断患者病情最可能原因的阶段。在这一早期环节中,研究人员报告称,o1 在 67% 的病例中给出了完全正确或非常接近的诊断,而两位主治医生的比例分别为 55% 和 50%。
这项比较是如何设计的
这项研究由哈佛医学院和贝斯以色列女执事医疗中心的医生与计算机科学家共同领导。在原始材料强调的急诊实验中,团队聚焦了 76 名来到贝斯以色列急诊科的患者。两个 OpenAI 模型 o1 和 4o 给出的诊断,与两位内科主治医生的诊断进行了对比。
随后,另外两名主治医生在不知道哪些诊断来自人类、哪些来自 AI 系统的情况下,对这些结果进行了审阅。这种盲法很重要,因为它能降低评审者因预期而不是质量偏向某一来源的风险。
研究人员还强调,他们在把患者数据交给模型之前并未对其做预处理。相反,AI 系统接收到的是每次诊断时电子病历中可获得的同样信息。这一点直接回应了 AI 医学研究中的一个反复出现的批评:模型只有在接受经过清洗、简化或异常完整的输入时才会显得出色。研究团队的主张是,这些模型是在现实中可见到的、同样粗糙且不完整的临床图景上接受测试的。
这些结果意味着什么,又不意味着什么
头条结果确实值得注意,但解读时必须谨慎。原始材料描述的是一项诊断表现研究,而不是医生替代测试。更准确的分诊建议,并不等同于能够独立管理患者护理、传达风险、安排治疗或为结果承担责任。急诊医学依赖的正是这些全部功能,而 TechCrunch 的报道也明确指出,这项研究并未声称医生已经可以被取代。
即便如此,这项研究加强了这样一种观点:大语言模型可能会成为急性医疗场景中非常有用的决策支持工具,尤其是在信息稀缺、时间压力极大的时刻。如果模型能够更早缩小诊断范围,它就可能提高进一步升级处理、检查或专科介入的速度。它也可以在临床医生承受高强度认知负荷时,作为防止遗漏可能性的补充检查。
该研究的一位主要作者、哈佛医学院的 Arjun Manrai 在校方新闻稿中表示,团队用广泛的基准测试了 AI,并发现它超越了论文中使用的既有模型和医生基线。就所提供的源文本而言,这也是研究者自身解读最清晰的表述:不仅仅是 AI 具有竞争力,而是其中一个模型在这项研究设计中设定了新的内部基准。






