Medizinische KI verbreitet sich schneller als die Belege, die sie stützen

Ein in Nature Medicine veröffentlichter Leitartikel bringt einen klaren Punkt zu einer der größten Lücken in der Gesundheitstechnologie vor: Die Branche wird zwar immer besser darin, KI-Tools zu bauen, verfügt aber immer noch nicht über konsistente Belege dafür, dass diese Tools die Versorgung in der Praxis verbessern. Prädiktive Modelle, Entscheidungsunterstützungssysteme und generative Werkzeuge gelangen bereits in klinische Umgebungen, während große Sprachmodelle auch von der Öffentlichkeit für Gesundheitsinformationen genutzt werden. Der Leitartikel sagt, dass die Einführung im gesamten Gesundheitswesen rasant zunimmt, der Nachweis eines echten Nutzens in der Praxis jedoch weiterhin begrenzt ist.

Genau diese Unterscheidung steht im Zentrum des Textes. Medizinische KI kann auf dem Papier beeindruckend wirken, insbesondere wenn Entwickler statistische Kennzahlen wie Sensitivität, Spezifität, Diskriminierung oder Kalibrierung berichten. Diese Zahlen beschreiben, wie ein System rechnerisch funktioniert. Sie belegen jedoch nicht automatisch, dass Patienten besser behandelt werden, Ärzte bessere Entscheidungen treffen oder Gesundheitssysteme nach dem Einsatz effektiver arbeiten.

Warum Leistungsmetriken nicht ausreichen

Der Leitartikel argumentiert, dass sich das Gesundheitswesen zu einem zu engen Verständnis von Validierung entwickelt hat. Ein Modell kann in retrospektiven Tests gut abschneiden und dennoch klinisch scheitern, wenn es zum falschen Zeitpunkt erscheint, schwer zu interpretieren ist, vom Personal ignoriert wird oder bestehende Arbeitsabläufe stört. Anders gesagt: Technischer Erfolg ist nicht dasselbe wie medizinischer Nutzen.

Das ist keine kleine akademische Beschwerde. Wenn Krankenhäuser oder Anbieter Tools vor allem auf Basis von Leistungsmetriken einführen, können sie Zeit und Geld für Produkte ausgeben, deren praktischer Wert unklar ist. Schlimmer noch: Sie können neue Schäden oder Ineffizienzen einführen, die in Benchmark-Studien nicht sichtbar sind. Der Leitartikel warnt davor, dass die aktuellen Gewohnheiten des Feldes eine vorzeitige Umsetzung riskieren, auch weil Behauptungen über Wirkung in Papieren und Produktmaterialien häufiger werden, obwohl die Evidenzstandards weiterhin unscharf bleiben.

Die Medizin hat bei echtem klinischem Nutzen seit jeher eine stärkere Beweiskette verlangt. Die Arzneimittelentwicklung ist dafür ein naheliegender Vergleich. Neue Medikamente werden nicht nur danach beurteilt, ob sie einen biochemischen Effekt erzeugen oder in frühen Laborarbeiten vielversprechend aussehen. Sie durchlaufen gestufte Evidenzanforderungen, und die öffentliche Aufsicht hilft zu entscheiden, wann die Belege für Zulassung, Empfehlung oder Erstattung ausreichen.

Der Leitartikel sagt, dass medizinische KI keine vergleichbaren Normen entwickelt hat. Das bedeutet nicht, dass Software genau wie ein Medikament reguliert werden sollte. Die Technologien entwickeln sich schnell, die Anwendungen sind sehr unterschiedlich, und die Anreize zur Evidenzproduktion sind ungleich verteilt. Aber wenn Unternehmen und Institutionen behaupten wollen, dass KI die Versorgung verbessert, braucht das Feld einen Rahmen, der diese Behauptungen mit einer dem behaupteten Einfluss angemessenen Evidenz verbindet.