Medizinische Sprachgewandtheit übertrifft medizinische Verlässlichkeit noch immer
Eine neue, von Medical Xpress zusammengefasste Studie deutet darauf hin, dass populäre KI-Chatbots als Quellen für Gesundheitsrat noch weit von verlässlich entfernt sind. Forschende testeten fünf weit verbreitete Systeme und stellten ihnen 50 Fragen zu Krebs, Impfungen, Stammzellen, Ernährung und sportlicher Leistung. Das Ergebnis war klar: Die Hälfte der Antworten wurde als problematisch bewertet, und fast 20 % galten als stark problematisch.
Die in BMJ Open veröffentlichte Studie bewertete Antworten von ChatGPT, Gemini, Grok, Meta AI und DeepSeek. Zwei Expertinnen oder Experten bewerteten jede Antwort unabhängig. Obwohl die Tools oft polierte, autoritativ klingende Antworten lieferten, fanden die Forschenden häufig sachliche Fehler, unzuverlässige Quellen und ein nahezu vollständiges Versagen, unsichere oder irreführende Aufforderungen abzulehnen.
Nur zwei der 250 Fragen wurden überhaupt abgelehnt. Das ist wichtig, weil viele Gesundheitsfragen keine neutralen Bitten um gut etablierte Fakten sind. Sie sind oft angstbehaftet, offen formuliert oder auf schwachen Annahmen aufgebaut. In solchen Fällen kann ein Chatbot, der flüssig antwortet, ohne die Prämisse zu hinterfragen, schädlicher sein als ein System, das schlicht sagt, dass es nicht helfen kann.
Was die Forschenden fanden
Laut dem Quelltext erzeugte keines der fünf Systeme zuverlässig vollständig korrekte Literaturlisten. Die Studie fand außerdem eine relativ ähnliche Leistung über die Modelle hinweg, was darauf hindeutet, dass das Problem strukturell ist und nicht auf eine einzelne Plattform beschränkt. Grok schnitt in diesem Vergleich am schlechtesten ab, mit 58 % problematischen Antworten, gefolgt von ChatGPT mit 52 % und Meta AI mit 50 %.
Die Leistung variierte je nach Thema. Impfungen und Krebs erzielten die besten Ergebnisse, was der Artikel der großen und relativ strukturierten Forschungsbasis in diesen Bereichen zuschreibt. Dennoch lieferten die Chatbots auch dort in etwa einem Viertel der Fälle problematische Antworten. Ernährung und sportliche Leistung waren besorgniserregender, vermutlich weil diese Themen von widersprüchlichen Behauptungen, schwacher Evidenz und minderwertigen Online-Inhalten überflutet sind.
Die Lücke wurde deutlich größer, sobald die Prompts offen formuliert waren. Die Studie ergab, dass 32 % der offenen Antworten als stark problematisch bewertet wurden, gegenüber 7 % bei geschlossenen Fragen. Dieser Unterschied ist außerhalb des Labors besonders wichtig, weil reale Patienten ihre Fragen normalerweise nicht als Multiple-Choice-Aufgabe stellen. Sie fragen breit gefasste Dinge wie, welche Nahrungsergänzungsmittel am besten sind, welche Behandlung am schnellsten wirkt oder ob die Behauptungen einer Klinik plausibel klingen.






