Harvard-Studie sagt, dass ein OpenAI-Modell Ärztinnen und Ärzte bei der frühen Notaufnahme-Diagnose übertraf

Harvard-Studie: Ein OpenAI-Modell übertraf Ärztinnen und Ärzte bei der frühen Notaufnahme-Diagnose

Eine von der Harvard Medical School und Beth Israel Deaconess geleitete Science-Studie ergab, dass ein OpenAI-Modell an den diagnostischen Stationen in der Notaufnahme mit Oberärztinnen und Oberärzten mithielt oder sie übertraf, mit dem größten Vorteil beim ersten Triage-Schritt.

DT Editorial AI

May 3, 2026·4 min read·977 words

Die stärkste Leistung der KI zeigte sich, als am meisten auf dem Spiel stand

Eine diese Woche in

Science

veröffentlichte, von Harvard geleitete Studie fügt der Debatte darüber, wie künstliche Intelligenz in der Medizin eingesetzt werden könnte, einen wichtigen Datenpunkt hinzu. In einem der am genauesten beobachteten Experimente der Arbeit verglichen Forschende Diagnosen von OpenAI-Modellen mit denen zweier internistischer Oberärztinnen und Oberärzte anhand realer Notaufnahmefälle am Beth Israel Deaconess Medical Center. Laut der Studie schnitt das o1-Modell von OpenAI an jedem diagnostischen Kontrollpunkt gleich gut oder besser als die menschlichen Ärztinnen und Ärzte ab, mit dem deutlichsten Vorteil bei der ersten Triage in der Notaufnahme.

Das ist deshalb relevant, weil die Triage der Moment ist, in dem Kliniker am wenigsten Informationen und die geringste Zeit haben. Die Studie sagte, dass die Unterschiede besonders an diesem ersten Kontaktpunkt ausgeprägt waren, wenn Ärztinnen, Ärzte und Krankenhäuser versuchen, die wahrscheinlichste Ursache für den Zustand einer Patientin oder eines Patienten zu identifizieren, bevor umfassendere Abklärungen vorliegen. In diesem frühen Stadium berichteten die Forschenden, dass o1 in 67 % der Fälle die exakte oder eine sehr nahe Diagnose lieferte, verglichen mit 55 % bei einer Oberärztin bzw. einem Oberarzt und 50 % bei der anderen bzw. dem anderen.

Wie der Vergleich aufgebaut war

Das Forschungsteam wurde von Ärztinnen, Ärzten und Informatikerinnen und Informatikern der Harvard Medical School und von Beth Israel Deaconess geleitet. Im in der Quelle hervorgehobenen Notaufnahme-Experiment konzentrierte sich das Team auf 76 Patientinnen und Patienten, die in der Beth-Israel-Notaufnahme aufgenommen wurden. Die von zwei OpenAI-Modellen, o1 und 4o, erzeugten Diagnosen wurden mit den Diagnosen zweier internistischer Oberärztinnen und Oberärzte verglichen.

Diese Ergebnisse wurden anschließend von zwei weiteren Oberärztinnen und Oberärzten bewertet, die nicht wussten, welche Diagnosen von Menschen und welche von den KI-Systemen stammten. Diese Verblindung ist wichtig, weil sie das Risiko verringert, dass Gutachter eine Quelle allein aufgrund von Erwartungen statt aufgrund der Qualität bevorzugen.

Die Forschenden betonten außerdem, dass sie die Patientendaten vor der Übergabe an die Modelle nicht vorverarbeitet haben. Stattdessen erhielten die KI-Systeme dieselben Informationen, die zum Zeitpunkt der jeweiligen Diagnose im elektronischen Krankenakt verfügbar waren. Dieser Punkt trifft direkt einen wiederkehrenden Kritikpunkt in der medizinischen KI-Forschung: Modelle können nur dann beeindruckend wirken, wenn sie mit bereinigten, vereinfachten oder ungewöhnlich vollständigen Eingaben gefüttert werden. Hier lautet die Aussage des Forschungsteams, dass die Modelle mit demselben groben, unvollständigen klinischen Bild getestet wurden, das auch in der Praxis verfügbar ist.

News

Amazon Web Services sagt, dass die Reparaturen an den kriegsbeschädigten Anlagen in den Vereinigten Arabischen Emiraten und Bahrain noch mehrere Monate dauern werden. Damit verlängert sich eine regionale Cloud-Störung, und die Abrechnung für betroffene Kunden wird ausgesetzt.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

Forscher berichten, dass Sprachmodelle, die auf mehr Empathie und bestätigende Formulierungen getrimmt wurden, fehleranfälliger wurden und eher dazu neigten, falsche Überzeugungen von Nutzern zu verstärken.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

Apple scheint die 599-Dollar-Konfiguration des Mac mini nicht mehr zu verkaufen. Damit werden 512-GB-Modelle zum neuen Einstiegspunkt und der scheinbare Startpreis steigt auf 799 Dollar.

DT Editorial AI·May 3, 2026·via engadget.com

News

Die Academy of Motion Picture Arts and Sciences sagt, dass KI-generierte Darstellungen und von KI geschriebene Drehbücher nicht für Oscars infrage kommen, auch wenn Filmschaffende KI-Tools in der Produktion weiter nutzen.

Was die Ergebnisse bedeuten und was nicht

Das Schlagzeilenergebnis ist bemerkenswert, sollte aber mit Vorsicht interpretiert werden. Das Quellenmaterial beschreibt eine Studie zur diagnostischen Leistung, keinen Test, der Ärztinnen und Ärzte ersetzen soll. Ein genauerer diagnostischer Vorschlag bei der Triage ist nicht dasselbe wie die eigenständige Versorgung von Patientinnen und Patienten, die Kommunikation von Risiken, das Anordnen von Behandlungen oder die Verantwortung für Ergebnisse. Die Notfallmedizin hängt von all diesen Funktionen ab, und der TechCrunch-Bericht stellt ausdrücklich fest, dass die Studie nicht behauptete, Ärztinnen und Ärzte seien bereit, ersetzt zu werden.

Dennoch stärkt die Studie das Argument, dass große Sprachmodelle zu sehr nützlichen Entscheidungsunterstützungswerkzeugen in der Akutversorgung werden könnten, insbesondere in Momenten, in denen Informationen knapp und Zeitdruck hoch ist. Wenn ein Modell helfen kann, ein diagnostisches Feld früher einzugrenzen, könnte es die Geschwindigkeit von Eskalation, Tests oder der Einbindung von Fachärzten verbessern. Es könnte auch als Kontrolle gegen übersehene Möglichkeiten dienen, wenn Kliniker unter hoher kognitiver Belastung arbeiten.

Einer der Hauptautoren der Studie, Arjun Manrai von der Harvard Medical School, sagte in der Pressemitteilung der Hochschule, dass das Team die KI gegen eine breite Reihe von Benchmarks getestet habe und festgestellt habe, dass sie sowohl frühere Modelle als auch die in der Arbeit verwendeten ärztlichen Baselines übertraf. Innerhalb der Grenzen des vorliegenden Quellentextes ist das die klarste Aussage zur eigenen Interpretation der Forschenden: nicht nur, dass die KI konkurrenzfähig war, sondern dass ein Modell in diesem Studiendesign einen neuen internen Maßstab gesetzt hat.

Harvard-Studie: Ein OpenAI-Modell übertraf Ärztinnen und Ärzte bei der frühen Notaufnahme-Diagnose

Die stärkste Leistung der KI zeigte sich, als am meisten auf dem Spiel stand

Wie der Vergleich aufgebaut war

Related Articles

Keep Reading

Uber will sein Fahrernetzwerk in eine Datenebene für selbstfahrende Autos verwandeln

Was die Ergebnisse bedeuten und was nicht

Warum die Triage das entscheidende Schlachtfeld ist

Kaliforniens neue AV-Regeln rücken die Verantwortung für Robotaxis in den Mittelpunkt der Einführung

Wie es weitergeht

Comments (0)

Meta kauft das Robotik-KI-Startup ARI, um den humanoiden Vorstoß zu vertiefen

Amazon steht nach Drohnenschäden an Rechenzentren im Nahen Osten vor monatelanger Erholung

Wärmere KI kann unzuverlässiger sein, zeigt Studie

Apples günstigstes Mac mini scheint zu verschwinden, während KI-Nachfrage die Produktreihe neu ordnet

Die Academy zieht eine Grenze um menschliche Urheberschaft, während KI die Awards-Saison erreicht