Medizinische Sprachgewandtheit übertrifft medizinische Verlässlichkeit noch immer

Eine neue, von Medical Xpress zusammengefasste Studie deutet darauf hin, dass populäre KI-Chatbots als Quellen für Gesundheitsrat noch weit von verlässlich entfernt sind. Forschende testeten fünf weit verbreitete Systeme und stellten ihnen 50 Fragen zu Krebs, Impfungen, Stammzellen, Ernährung und sportlicher Leistung. Das Ergebnis war klar: Die Hälfte der Antworten wurde als problematisch bewertet, und fast 20 % galten als stark problematisch.

Die in BMJ Open veröffentlichte Studie bewertete Antworten von ChatGPT, Gemini, Grok, Meta AI und DeepSeek. Zwei Expertinnen oder Experten bewerteten jede Antwort unabhängig. Obwohl die Tools oft polierte, autoritativ klingende Antworten lieferten, fanden die Forschenden häufig sachliche Fehler, unzuverlässige Quellen und ein nahezu vollständiges Versagen, unsichere oder irreführende Aufforderungen abzulehnen.

Nur zwei der 250 Fragen wurden überhaupt abgelehnt. Das ist wichtig, weil viele Gesundheitsfragen keine neutralen Bitten um gut etablierte Fakten sind. Sie sind oft angstbehaftet, offen formuliert oder auf schwachen Annahmen aufgebaut. In solchen Fällen kann ein Chatbot, der flüssig antwortet, ohne die Prämisse zu hinterfragen, schädlicher sein als ein System, das schlicht sagt, dass es nicht helfen kann.

Was die Forschenden fanden

Laut dem Quelltext erzeugte keines der fünf Systeme zuverlässig vollständig korrekte Literaturlisten. Die Studie fand außerdem eine relativ ähnliche Leistung über die Modelle hinweg, was darauf hindeutet, dass das Problem strukturell ist und nicht auf eine einzelne Plattform beschränkt. Grok schnitt in diesem Vergleich am schlechtesten ab, mit 58 % problematischen Antworten, gefolgt von ChatGPT mit 52 % und Meta AI mit 50 %.

Die Leistung variierte je nach Thema. Impfungen und Krebs erzielten die besten Ergebnisse, was der Artikel der großen und relativ strukturierten Forschungsbasis in diesen Bereichen zuschreibt. Dennoch lieferten die Chatbots auch dort in etwa einem Viertel der Fälle problematische Antworten. Ernährung und sportliche Leistung waren besorgniserregender, vermutlich weil diese Themen von widersprüchlichen Behauptungen, schwacher Evidenz und minderwertigen Online-Inhalten überflutet sind.

Die Lücke wurde deutlich größer, sobald die Prompts offen formuliert waren. Die Studie ergab, dass 32 % der offenen Antworten als stark problematisch bewertet wurden, gegenüber 7 % bei geschlossenen Fragen. Dieser Unterschied ist außerhalb des Labors besonders wichtig, weil reale Patienten ihre Fragen normalerweise nicht als Multiple-Choice-Aufgabe stellen. Sie fragen breit gefasste Dinge wie, welche Nahrungsergänzungsmittel am besten sind, welche Behandlung am schnellsten wirkt oder ob die Behauptungen einer Klinik plausibel klingen.

Warum Zuversicht Teil des Risikos ist

Das Auffälligste ist nicht nur, dass Fehler passieren. Es ist, dass diese Fehler in überzeugender Sprache verpackt werden können. Der Artikel nennt als Beispiel einen hypothetischen Krebspatienten, der ein KI-System nach alternativen Kliniken fragt. Die Sorge betrifft nicht nur unbelegte medizinische Behauptungen, sondern auch gefälschte oder defekte Zitate und das Fehlen jeglichen Widerspruchs gegen die Fragestellung selbst.

Diese Kombination ist im Gesundheitskontext gefährlich. Nutzende können Stil mit Substanz verwechseln, besonders wenn eine Antwort Fußnoten zu haben scheint und professionell formuliert ist. Ein Chatbot kann sicherer wirken als ein zufälliger Forenbeitrag, weil er geordnet und neutral klingt. Die Studie legt nahe, dass dieser Eindruck täuschen kann.

Gesundheitsinformationen erfordern nicht nur Erinnerung, sondern Urteilsvermögen: schlechte Prämissen erkennen, Evidenzqualität unterscheiden und dringende Fälle an qualifizierte Kliniker weiterleiten. Ein Modell, das lediglich wahrscheinliche nächste Wörter vorhersagt, kann kompetent klingen, ohne diese Dinge tatsächlich zu tun.

Was das für Patientinnen, Patienten und Plattformen bedeutet

Die Ergebnisse untermauern die Ansicht, dass Verbraucher-KI-Systeme nicht als verlässliche medizinische Erstautoritäten behandelt werden sollten. Sie können hilfreich sein, um Fragen zu formulieren, Begriffe zu erklären oder Nutzende bei allgemeinen Konzepten zu unterstützen, aber diese Vorteile ersetzen keine klinische Aufsicht. In sensiblen Bereichen wie Onkologie, Impfungen oder unbewiesenen Therapien kann schon eine teilweise falsche Antwort Entscheidungen in die falsche Richtung lenken.

Die Resultate werfen auch Produktdesign-Fragen für KI-Unternehmen auf. Wenn nur zwei von 250 Fragen abgelehnt wurden, könnten Ablehnungsschwellen für den Gesundheitsbereich zu eng sein. Zielgerichtetere Schutzmaßnahmen könnten eine bessere Erkennung schädlicher Prämissen, eine präzisere Kalibrierung von Unsicherheit und Referenzsysteme umfassen, die keinen Rückhalt suggerieren, wo keiner existiert.

Ebenso wichtig ist, dass Modellbauer ihre Systeme möglicherweise neu darüber nachdenken müssen, wie sie offene Gesundheitsanfragen behandeln. Eine sichere Antwort ist nicht immer eine direkte Antwort. In manchen Fällen ist es richtig, die Frage zu hinterfragen, den Umfang einzugrenzen oder zu einer ärztlichen Rücksprache zu raten, statt eine polierte Antwort zu generieren.

Die größere Lehre

Diese Studie zeigt nicht, dass KI keine Rolle bei Gesundheitsinformationen spielen kann. Sie zeigt, dass aktuelle Allzweck-Chatbots noch zu oft auf eine Weise versagen, die für Nutzende schwer zu erkennen ist. Die getesteten Systeme konnten jede Frage in flüssiger Prosa beantworten, aber Sprachgewandtheit war kein Ersatz für Vertrauenswürdigkeit.

Das ist die Kernlehre für Patientinnen und Patienten ebenso wie für Entwickler. Menschen wenden sich zunehmend zuerst an KI, bevor sie mit einer Ärztin oder einem Arzt sprechen, besonders wenn sie verängstigt oder ungeduldig sind. Wenn ein System dort mit Gewissheit antwortet, wo Vorsicht geboten ist, erkennen Nutzende das Risiko möglicherweise erst viel später. In der Medizin ist das ein ernstes Versagensmuster.

Bis Genauigkeit, Zitierintegrität und Ablehnungsverhalten deutlich besser werden, sind KI-Chatbots eher als Werkzeuge für Entwürfe und Orientierung zu verstehen denn als verlässliche medizinische Leitfäden. Die BMJ-Open-Ergebnisse deuten darauf hin, dass die Branche noch eine beträchtliche Sicherheitslücke schließen muss.

  • Forschende testeten fünf große Chatbots mit jeweils 50 Gesundheitsfragen.
  • Die Hälfte aller Antworten war problematisch, fast jede fünfte stark problematisch.
  • Offene Gesundheitsfragen erzeugten die größten Sicherheitsprobleme.
  • Die Ergebnisse zeigen, dass polierte KI-Antworten medizinisch weiterhin unzuverlässig sein können.

Dieser Artikel basiert auf einem Bericht von Medical Xpress. Den Originalartikel lesen.

Originally published on medicalxpress.com