Die Hälfte der KI-Antworten zu Gesundheit war in neuer Studie problematisch

KI-Chatbots liefern bei Gesundheitsfragen weiter unsichere Antworten mit alarmierender Zuversicht, zeigt Studie

Eine BMJ-Open-Studie ergab, dass die Hälfte der Antworten von fünf großen Chatbots auf Gesundheitsfragen problematisch war, fast jede fünfte wurde als stark problematisch bewertet. Die Ergebnisse zeigen eine anhaltende Sicherheitslücke zwischen polierten

DT Editorial AI

Apr 25, 2026·4 min read·872 words

Medizinische Sprachgewandtheit übertrifft medizinische Verlässlichkeit noch immer

Eine neue, von Medical Xpress zusammengefasste Studie deutet darauf hin, dass populäre KI-Chatbots als Quellen für Gesundheitsrat noch weit von verlässlich entfernt sind. Forschende testeten fünf weit verbreitete Systeme und stellten ihnen 50 Fragen zu Krebs, Impfungen, Stammzellen, Ernährung und sportlicher Leistung. Das Ergebnis war klar: Die Hälfte der Antworten wurde als problematisch bewertet, und fast 20 % galten als stark problematisch.

Die in BMJ Open veröffentlichte Studie bewertete Antworten von ChatGPT, Gemini, Grok, Meta AI und DeepSeek. Zwei Expertinnen oder Experten bewerteten jede Antwort unabhängig. Obwohl die Tools oft polierte, autoritativ klingende Antworten lieferten, fanden die Forschenden häufig sachliche Fehler, unzuverlässige Quellen und ein nahezu vollständiges Versagen, unsichere oder irreführende Aufforderungen abzulehnen.

Nur zwei der 250 Fragen wurden überhaupt abgelehnt. Das ist wichtig, weil viele Gesundheitsfragen keine neutralen Bitten um gut etablierte Fakten sind. Sie sind oft angstbehaftet, offen formuliert oder auf schwachen Annahmen aufgebaut. In solchen Fällen kann ein Chatbot, der flüssig antwortet, ohne die Prämisse zu hinterfragen, schädlicher sein als ein System, das schlicht sagt, dass es nicht helfen kann.

Was die Forschenden fanden

Laut dem Quelltext erzeugte keines der fünf Systeme zuverlässig vollständig korrekte Literaturlisten. Die Studie fand außerdem eine relativ ähnliche Leistung über die Modelle hinweg, was darauf hindeutet, dass das Problem strukturell ist und nicht auf eine einzelne Plattform beschränkt. Grok schnitt in diesem Vergleich am schlechtesten ab, mit 58 % problematischen Antworten, gefolgt von ChatGPT mit 52 % und Meta AI mit 50 %.

Die Leistung variierte je nach Thema. Impfungen und Krebs erzielten die besten Ergebnisse, was der Artikel der großen und relativ strukturierten Forschungsbasis in diesen Bereichen zuschreibt. Dennoch lieferten die Chatbots auch dort in etwa einem Viertel der Fälle problematische Antworten. Ernährung und sportliche Leistung waren besorgniserregender, vermutlich weil diese Themen von widersprüchlichen Behauptungen, schwacher Evidenz und minderwertigen Online-Inhalten überflutet sind.

Die Lücke wurde deutlich größer, sobald die Prompts offen formuliert waren. Die Studie ergab, dass 32 % der offenen Antworten als stark problematisch bewertet wurden, gegenüber 7 % bei geschlossenen Fragen. Dieser Unterschied ist außerhalb des Labors besonders wichtig, weil reale Patienten ihre Fragen normalerweise nicht als Multiple-Choice-Aufgabe stellen. Sie fragen breit gefasste Dinge wie, welche Nahrungsergänzungsmittel am besten sind, welche Behandlung am schnellsten wirkt oder ob die Behauptungen einer Klinik plausibel klingen.

Health

Wissenschaftler, die mit aus Stammzellen gewonnenem Herzgewebe arbeiten, sagen, dass Mikrogravitation sowohl einen herzähnlichen Verfall beschleunigen als auch den Aufbau komplexerer Herzstrukturen erleichtern kann und damit Studien zu Herzinsuffizienz und Reparatur beschleunigen könnte.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Eine nationale Medicaid-Analyse ergab, dass der ambulante Antibiotikaeinsatz mit medizinischer Komplexität bei Kindern stark zunimmt, wobei die höchste Belastung bei Kindern mit mehreren chronischen Erkrankungen liegt.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Eine landesweite Versicherungsanalyse ergab, dass weniger als die Hälfte der schwangeren Frauen mit einer Opioidkonsumstörung während der Schwangerschaft eine medikamentöse Behandlung erhielt, was auf erhebliche Lücken in der evidenzbasierten Versorgung hinweist.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Die größere Lehre

Diese Studie zeigt nicht, dass KI keine Rolle bei Gesundheitsinformationen spielen kann. Sie zeigt, dass aktuelle Allzweck-Chatbots noch zu oft auf eine Weise versagen, die für Nutzende schwer zu erkennen ist. Die getesteten Systeme konnten jede Frage in flüssiger Prosa beantworten, aber Sprachgewandtheit war kein Ersatz für Vertrauenswürdigkeit.

Das ist die Kernlehre für Patientinnen und Patienten ebenso wie für Entwickler. Menschen wenden sich zunehmend zuerst an KI, bevor sie mit einer Ärztin oder einem Arzt sprechen, besonders wenn sie verängstigt oder ungeduldig sind. Wenn ein System dort mit Gewissheit antwortet, wo Vorsicht geboten ist, erkennen Nutzende das Risiko möglicherweise erst viel später. In der Medizin ist das ein ernstes Versagensmuster.

Bis Genauigkeit, Zitierintegrität und Ablehnungsverhalten deutlich besser werden, sind KI-Chatbots eher als Werkzeuge für Entwürfe und Orientierung zu verstehen denn als verlässliche medizinische Leitfäden. Die BMJ-Open-Ergebnisse deuten darauf hin, dass die Branche noch eine beträchtliche Sicherheitslücke schließen muss.

Forschende testeten fünf große Chatbots mit jeweils 50 Gesundheitsfragen.
Die Hälfte aller Antworten war problematisch, fast jede fünfte stark problematisch.
Offene Gesundheitsfragen erzeugten die größten Sicherheitsprobleme.
Die Ergebnisse zeigen, dass polierte KI-Antworten medizinisch weiterhin unzuverlässig sein können.

Dieser Artikel basiert auf einem Bericht von Medical Xpress. Den Originalartikel lesen.

KI-Chatbots liefern bei Gesundheitsfragen weiter unsichere Antworten mit alarmierender Zuversicht, zeigt Studie

Medizinische Sprachgewandtheit übertrifft medizinische Verlässlichkeit noch immer

Was die Forschenden fanden

Related Articles

Keep Reading

Forscher bringen Gewalterfahrung mit deutlich höherem OCD-Risiko in Verbindung, besonders im ersten Jahr

Warum Zuversicht Teil des Risikos ist

Was das für Patientinnen, Patienten und Plattformen bedeutet

In Haarfollikeln verborgene Immun-„Sentinel“-Zellen könnten der Haut helfen, Bedrohungen zu erkennen

Die größere Lehre

Comments (0)

Warum Forschende Herzgewebe ins All Bringen

Kinder mit mehreren chronischen Erkrankungen sind deutlich stärker Antibiotika ausgesetzt, berichten Forschende

Schwangere Patientinnen mit Opioidkonsumstörung erhalten weiterhin nicht die Goldstandard-Behandlung, wie eine Studie zeigt

Die Sicherheit von Herzimplantaten tritt in eine neue Phase ein, während Forscher ein lebenslanges Lead-Management fordern

KI-Chatbots liefern bei Gesundheitsfragen weiter unsichere Antworten mit alarmierender Zuversicht, zeigt Studie

Medizinische Sprachgewandtheit übertrifft medizinische Verlässlichkeit noch immer

Was die Forschenden fanden

Related Articles

Keep Reading

Forscher bringen Gewalt­erfahrung mit deutlich höherem OCD-Risiko in Verbindung, besonders im ersten Jahr

Warum Zuversicht Teil des Risikos ist

Was das für Patientinnen, Patienten und Plattformen bedeutet

In Haarfollikeln verborgene Immun-„Sentinel“-Zellen könnten der Haut helfen, Bedrohungen zu erkennen

Die größere Lehre

Comments (0)

Warum Forschende Herzgewebe ins All Bringen

Kinder mit mehreren chronischen Erkrankungen sind deutlich stärker Antibiotika ausgesetzt, berichten Forschende

Schwangere Patientinnen mit Opioidkonsumstörung erhalten weiterhin nicht die Goldstandard-Behandlung, wie eine Studie zeigt

Die Sicherheit von Herzimplantaten tritt in eine neue Phase ein, während Forscher ein lebenslanges Lead-Management fordern

Forscher bringen Gewalterfahrung mit deutlich höherem OCD-Risiko in Verbindung, besonders im ersten Jahr