Die stärkste Leistung der KI zeigte sich, als am meisten auf dem Spiel stand

Eine diese Woche in

Science

veröffentlichte, von Harvard geleitete Studie fügt der Debatte darüber, wie künstliche Intelligenz in der Medizin eingesetzt werden könnte, einen wichtigen Datenpunkt hinzu. In einem der am genauesten beobachteten Experimente der Arbeit verglichen Forschende Diagnosen von OpenAI-Modellen mit denen zweier internistischer Oberärztinnen und Oberärzte anhand realer Notaufnahmefälle am Beth Israel Deaconess Medical Center. Laut der Studie schnitt das o1-Modell von OpenAI an jedem diagnostischen Kontrollpunkt gleich gut oder besser als die menschlichen Ärztinnen und Ärzte ab, mit dem deutlichsten Vorteil bei der ersten Triage in der Notaufnahme.

Das ist deshalb relevant, weil die Triage der Moment ist, in dem Kliniker am wenigsten Informationen und die geringste Zeit haben. Die Studie sagte, dass die Unterschiede besonders an diesem ersten Kontaktpunkt ausgeprägt waren, wenn Ärztinnen, Ärzte und Krankenhäuser versuchen, die wahrscheinlichste Ursache für den Zustand einer Patientin oder eines Patienten zu identifizieren, bevor umfassendere Abklärungen vorliegen. In diesem frühen Stadium berichteten die Forschenden, dass o1 in 67 % der Fälle die exakte oder eine sehr nahe Diagnose lieferte, verglichen mit 55 % bei einer Oberärztin bzw. einem Oberarzt und 50 % bei der anderen bzw. dem anderen.

Wie der Vergleich aufgebaut war

Das Forschungsteam wurde von Ärztinnen, Ärzten und Informatikerinnen und Informatikern der Harvard Medical School und von Beth Israel Deaconess geleitet. Im in der Quelle hervorgehobenen Notaufnahme-Experiment konzentrierte sich das Team auf 76 Patientinnen und Patienten, die in der Beth-Israel-Notaufnahme aufgenommen wurden. Die von zwei OpenAI-Modellen, o1 und 4o, erzeugten Diagnosen wurden mit den Diagnosen zweier internistischer Oberärztinnen und Oberärzte verglichen.

Diese Ergebnisse wurden anschließend von zwei weiteren Oberärztinnen und Oberärzten bewertet, die nicht wussten, welche Diagnosen von Menschen und welche von den KI-Systemen stammten. Diese Verblindung ist wichtig, weil sie das Risiko verringert, dass Gutachter eine Quelle allein aufgrund von Erwartungen statt aufgrund der Qualität bevorzugen.

Die Forschenden betonten außerdem, dass sie die Patientendaten vor der Übergabe an die Modelle nicht vorverarbeitet haben. Stattdessen erhielten die KI-Systeme dieselben Informationen, die zum Zeitpunkt der jeweiligen Diagnose im elektronischen Krankenakt verfügbar waren. Dieser Punkt trifft direkt einen wiederkehrenden Kritikpunkt in der medizinischen KI-Forschung: Modelle können nur dann beeindruckend wirken, wenn sie mit bereinigten, vereinfachten oder ungewöhnlich vollständigen Eingaben gefüttert werden. Hier lautet die Aussage des Forschungsteams, dass die Modelle mit demselben groben, unvollständigen klinischen Bild getestet wurden, das auch in der Praxis verfügbar ist.