KI auf den klinischen Prüfstand gestellt

Eine in Nature Medicine veröffentlichte Studie hat OpenAIs ChatGPT einer strukturierten Bewertung seiner Fähigkeit unterzogen, medizinische Triage-Empfehlungen zu geben — der kritischen ersten Schritt in der Notfallversorgung, bei dem Patienten nach der Dringlichkeit ihres Zustands sortiert werden. Die Forschung stellt eine der bisher methodisch strengsten Bewertungen dar, ob große Sprachmodelle in klinischen Umgebungen zuverlässig funktionieren können, wo Fehler tödliche Folgen haben können.

Triage ist ein besonders herausfordernder Test für KI-Systeme, weil es erfordert, mehrere Informationsströme zu integrieren — berichtete Symptome, Krankengeschichte des Patienten, Vitalzeichen und kontextuelle Hinweise — um schnelle Urteile darüber zu fällen, wie dringend ein Patient Versorgung benötigt. Es in einer Richtung falsch zu machen trägt erhebliche Risiken: Unterbewertung eines kritischen Patienten kann zu verzögerter Behandlung und vermeidbarem Tod führen, während Überbewertung eines stabilen Patienten knappe Notfallressourcen verschwendet.

Studiendesign und Methodik

Die Forscher konzipierten einen strukturierten Test mit standardisierten klinischen Vignetten — detaillierte schriftliche Beschreibungen von Patientenpräsentationen, die häufig in der medizinischen Ausbildung und bei Prüfungen verwendet werden. Jede Vignette enthielt Informationen über die Beschwerde des Patienten, seine relevante medizinische Vorgeschichte, Vitalzeichen und körperliche Untersuchungsergebnisse.

ChatGPT wurde aufgefordert, jeden Fall einer von fünf Standard-Triage-Kategorien zuzuordnen, die von unmittelbar lebensbedrohlichen Notfällen, die sofortige Maßnahmen erfordern, bis zu nicht dringenden Zuständen reichen, die sicher auf routinemäßige Behandlung warten können. Die Empfehlungen der KI wurden dann mit Konsens-Triage-Zuweisungen verglichen, die von erfahrenen Notfallmedizinern gemacht wurden.

Die Studie kontrollierte mehrere Variablen, die frühere Bewertungen der KI-medizinischen Leistung kompliziert haben. Das Prompt-Engineering wurde standardisiert, um Unterschiede in der Fragestellung an das Modell zu eliminieren. Es wurden mehrere Läufe durchgeführt, um die Konsistenz zu bewerten, und die Forscher analysierten nicht nur die Genauigkeit der endgültigen Triage-Zuweisung, sondern auch die vom Modell bereitgestellte Begründung.

Wichtige Ergebnisse

Die Studie ergab, dass ChatGPT über verschiedene Schweregradebenen hinweg gemischte Ergebnisse lieferte. Bei den kritischsten Fällen — Patienten mit klaren lebensbedrohlichen Notfällen wie Herzstillstand, schwerem Trauma oder schwerer Atemnot — funktionierte das Modell generell gut und identifizierte in der Mehrzahl der Fälle korrekt die Notwendigkeit für sofortige Intervention.

Die Leistung verschlechterte sich jedoch in den mittleren Triage-Kategorien, wo die Unterscheidung zwischen dringenden und halbdringenden Fällen ein differenzierteres klinisches Urteilsvermögen erfordert. Dies sind genau die Fälle, bei denen Triage-Fehler auch unter erfahrenen Klinikern am häufigsten vorkommen, und wo die Folgen einer Fehlklassifizierung klinisch am signifikantesten sind.

Das Modell zeigte auch Inkonsistenz bei wiederholten Bewertungen derselben Fälle. Wenn ChatGPT mehrfach mit identischen klinischen Vignetten konfrontiert wurde, ordnete es manchmal unterschiedliche Triage-Kategorien zu, ein Befund, der Bedenken bezüglich der Zuverlässigkeit von LLM-basierten klinischen Tools in realen Umgebungen aufwirft, wo Konsistenz wesentlich ist.

  • ChatGPT schnitt bei klaren Notfällen am besten ab, hatte aber Schwierigkeiten bei differenzierten mittleren Triage-Entscheidungen
  • Das Modell zeigte Inkonsistenz, wenn es mehrfach mit identischen Fällen konfrontiert wurde
  • Die Qualität der Begründung variierte erheblich, wobei einige Bewertungen solide klinische Logik zeigten und andere anscheinende Konfabulation widerspiegelten
  • Die Studie verwendete standardisierte Vignetten und kontrolliertes Prompting, um eine rigorose Bewertung zu gewährleisten

Auswirkungen für Gesundheitswesen-KI

Die Ergebnisse haben erhebliche Auswirkungen auf die wachsende Bewegung, KI in Gesundheitswesen-Workflows zu integrieren. Befürworter von medizinischer KI argumentieren, dass große Sprachmodelle helfen könnten, die schwere Knappheit an Notfallmedizinern und Triage-Krankenpflegern zu lindern, besonders in unterversorgten Gesundheitseinrichtungen und Entwicklungsländern, wo der Zugang zu ausgebildetem medizinischem Personal begrenzt ist.

Die Studie deutet darauf hin, dass ChatGPT zwar als ergänzendes Werkzeug nützlich sein kann — um Kliniker bei der Durcharbeitung von Differentialdiagnosen zu helfen oder möglicherweise übersehene Überlegungen hervorzuheben — aber noch nicht zuverlässig genug ist, um als autonomes Triage-System zu fungieren. Die Inkonsistenz bei wiederholten Bewertungen ist besonders besorgniserregend, da klinische Entscheidungsunterstützungswerkzeuge bei denselben Eingaben die gleiche Empfehlung liefern müssen.

Die Forscher merken an, dass ihre Ergebnisse speziell für die getestete Version von ChatGPT gelten und dass die Modellkapazitäten sich schnell entwickeln. Neuere Modelle mit verbesserter Begründungsfähigkeit und medizinischer Feinabstimmung könnten erheblich besser abschneiden. Sie warnen jedoch davor, ein KI-System zur klinischen Triage ohne umfangreiche Validierung gegen reale Patientenergebnisse einzusetzen, nicht nur standardisierte Testfälle.

Die regulatorische Frage

Die Studie hebt auch die Herausforderung hervor, der sich Behörden gegenübersehen, wenn KI-Tools zunehmend in die klinische Praxis gelangen. In vielen Ländern unterliegt medizinische Entscheidungsunterstützungssoftware einer behördlichen Zulassung als medizinisches Gerät. Allerdings schafft das schnelle Tempo von KI-Modell-Updates — mit neuen Versionen, die alle paar Monate veröffentlicht werden — eine regulatorische Herausforderung, da jedes Update möglicherweise die klinische Leistung des Systems verändern könnte.

Die U.S. Food and Drug Administration hat an einem Rahmenwerk zur Regulierung von KI-basierten medizinischen Geräten gearbeitet, einschließlich Bestimmungen für kontinuierliche Lernalgorithmen, die sich im Laufe der Zeit weiterentwickeln. Der Rahmen ist aber noch nicht fertig, und die Lücke zwischen der Geschwindigkeit der KI-Entwicklung und dem Tempo der behördlichen Anpassung wird immer breiter.

Ausblick

Die Nature Medicine-Studie trägt zu einer wachsenden Menge von Belegen bei, die darauf hindeutet, dass große Sprachmodelle echte Versprechen in medizinischen Anwendungen zeigen, aber noch nicht bereit für autonome klinische Bereitstellung sind. Der weitere Weg wird wahrscheinlich sorgfältig gestaltete Mensch-KI-Zusammenarbeitssysteme einbeziehen, bei denen die Empfehlungen des Modells immer einer menschlichen Überprüfung unterliegen, kombiniert mit laufender Überwachung klinischer Ergebnisse, um sicherzustellen, dass KI-Unterstützung die Patientenversorgung tatsächlich verbessert und nicht neue Risiken einführt.

Für Notaufnahmen, die bereits mit Überbelegung und Personalknappheit kämpfen, könnte selbst ein unvollkommenes KI-Tool, das einige verpasste kritische Fälle erfasst, Leben retten. Aber die verantwortungsvolle Bereitstellung eines solchen Tools erfordert die Art rigoroser, strukturierter Bewertung, die diese Studie exemplifiziert — nicht nur Demonstrationen beeindruckender Leistung an ausgewählten Beispielen.

Dieser Artikel basiert auf Berichten von Nature Medicine. Lesen Sie den Originalartikel.