Ein Problem der Publikationsintegrität wird in großem Maßstab messbar
Eine umfassende Auswertung biomedizinischer Arbeiten hat seit 2023 einen starken Anstieg gefälschter Referenzen festgestellt und damit die Sorge geweckt, dass KI-generierte Zitationsfehler in Literatur einsickern, die das klinische Verständnis und in einigen Fällen auch Leitlinien mitprägt. Laut dem bereitgestellten Ausgangstext untersuchten Forschende der Columbia University und anderer Institutionen 2,47 Millionen Arbeiten im offenen PubMed-Central-Archiv, die den Zeitraum von Januar 2023 bis Februar 2026 abdeckten. Von 97,1 Millionen geprüften Referenzen wurden 4.046 als gefälscht markiert, verteilt auf 2.810 Arbeiten.
Die Größe des Datensatzes ist entscheidend. Bedenken über erfundene Zitationen durch Sprachmodelle kursieren seit Jahren, doch das vorliegende Material beschreibt dies als die bislang größte Auswertung biomedizinischer Referenzen. Damit wird aus einem anekdotischen Problem eine Warnung mit systemischer Dimension. Wenn in Tausenden von Arbeiten gefälschte Referenzen auftauchen, handelt es sich nicht mehr um einzelne Fehler oder unsachgemäßen Amateurgebrauch. Es wird zu einer Herausforderung für die wissenschaftlichen Publikationsprozesse selbst.
Der auffälligste Punkt im Ausgangstext ist die Trendlinie. Im gesamten Jahr 2023 lag die Rate Berichten zufolge bei etwa vier gefälschten Referenzen pro 10.000 Arbeiten. Ab Mitte 2024 stieg sie stark an, erreichte Ende 2025 51,3 pro 10.000 Arbeiten und in den ersten sieben Wochen des Jahres 2026 56,9 pro 10.000. Das entspricht mehr als dem Zwölffachen des früheren Ausgangsniveaus.
Das Timing stützt die KI-Hypothese, beweist sie aber nicht exklusiv
Die im Ausgangstext zitierten Autoren sehen einen naheliegenden Zusammenhang mit der weiten Verbreitung von Sprachmodellen wie ChatGPT. Ihre Begründung ist sowohl chronologisch als auch technisch. Da allgemeine Textgeneratoren nach Ende 2022 breit angenommen wurden und wissenschaftliche Veröffentlichungen oft 100 bis 200 Tage von der Einreichung bis zum Erscheinen brauchen, wäre der Effekt KI-gestützter Entwürfe in Archiven wie PubMed Central etwa ab Mitte 2024 zu erwarten. Genau dort beginnt der berichtete Anstieg.
Gleichzeitig weist das Ausgangsmaterial darauf hin, dass die Forschenden andere Ursachen nicht ausschließen. Paper-Mill-Aktivitäten und Änderungen bei den Indexierungspraktiken werden beide als mögliche Faktoren genannt. Diese Vorsicht ist wichtig. Die Daten scheinen mit einer Zunahme KI-getriebener Zitationsfälschungen vereinbar zu sein, aber die Quelle behauptet nicht, dass Sprachmodelle allein jeden Fall erklären oder dass andere Erklärungen ausgeschlossen sind.
Dennoch ist die Logik überzeugend. Große Sprachmodelle sind dafür bekannt, Referenzen zu erzeugen, die plausibel wirken, das richtige Format haben und sogar reale Forschende mit nicht existierenden Arbeiten verknüpfen. In einer akademischen Umgebung mit hohem Durchsatz können solche Fehler durchrutschen, wenn weder Autorinnen und Autoren noch Redaktionen sie sorgfältig prüfen.
Das Problem sind nicht nur falsche Referenzen, sondern glaubwürdig aussehende falsche Referenzen
Einer der alarmierendsten Details im bereitgestellten Material ist, wie schwer diese gefälschten Zitate bei bloßer Sichtprüfung zu erkennen sein können. Der Ausgangstext sagt, dass die falschen Referenzen oft zum Thema der Arbeit passen, korrekt formatiert sind, reale Forschende nennen und plausible Erscheinungsjahre enthalten. In einem genannten Beispiel enthielt eine urologische Arbeit 18 gefälschte Referenzen von 30 geprüften.
Genau das macht das Problem in der biomedizinischen Publikation besonders gefährlich. Eine sichtbar fehlerhafte Zitation kann schnell entdeckt werden. Eine sauber formatierte, aber nicht existierende Referenz kann Peer Review und Publikationsprozess durchlaufen, wenn niemand sie gegen vertrauenswürdige Datenbanken prüft. Die im Studium verwendete Definition von „gefälscht“ spiegelt diese Sorge wider: Ein zitierter Titel wurde markiert, wenn er sich weder in PubMed, Crossref, OpenAlex noch in Google Scholar finden ließ.
Das Ausgangsmaterial betont auch, wo das Risiko besonders gravierend wird. Gefälschte Referenzen sind besonders problematisch in Übersichtsartikeln, weil diese oft Evidenz für ein breiteres Publikum zusammenfassen und klinische Leitlinien beeinflussen können. Wenn das Fundament einer Review aus erfundener Literatur besteht, können die Folgewirkungen weit über eine einzelne Veröffentlichung hinausreichen.
Die vorgeschlagene Antwort lautet mehr Automatisierung, nicht weniger Kontrolle
Die Forschenden fordern dem Ausgangstext zufolge automatisierte Referenzprüfungen vor der Veröffentlichung und eine rückwirkende Überprüfung bereits veröffentlichter Arbeiten. Das ist praktisch, weil das Problem selbst zum Teil eine Frage der Skalierung ist. Menschliche Gutachter können nicht realistisch jede Zitation über Millionen von Arbeiten hinweg manuell prüfen, insbesondere wenn die falschen Referenzen absichtlich legitim wirken sollen.
Das Ausgangsmaterial verweist darauf, dass Plattformen wie arXiv bereits erste Sanktionen für KI-bezogene Fehler eingeführt haben. Das deutet auf strengere Normen hin, doch die biomedizinische Publikation braucht vermutlich mehr als Warnhinweise. Referenzvalidierung könnte zu einem routinemäßigen technischen Schritt in redaktionellen Workflows werden, ähnlich wie Plagiatsprüfungen oder Bildscreening.
Es gibt hier auch eine breitere Lehre. KI-Tools können die Kosten des Textentwurfs senken, aber auch die Kosten für die Produktion autoritativ wirkender Falschbehauptungen. In der wissenschaftlichen Kommunikation ist dieser Tausch besonders gefährlich, weil Lesende oft davon ausgehen, dass das Zitiergerüst bereits geprüft wurde. Wenn diese Annahme bröckelt, erodiert das Vertrauen in die Literatur.
Die Integritätsfrage ist nun Teil der KI-Adoptionsgeschichte
Der neue Audit legt nahe, dass gefälschte Zitationen in der biomedizinischen Publikation kein Randthema mehr sind. Sie treten häufig genug auf und steigen schnell genug an, um Prozessänderungen zu verlangen. Ob der Haupttreiber der Missbrauch von Sprachmodellen, Paper Mills oder eine Kombination aus beidem ist, die praktische Konsequenz bleibt dieselbe: Referenzen können nicht mehr allein deshalb als zuverlässig gelten, weil sie professionell aussehen.
Das ist in jedem Fachgebiet ein ernstes Problem, besonders aber in einem Feld, dessen Reviews und Synthesen klinische Leitlinien mitprägen können. Die Lehre aus dem Ausgangsmaterial ist nicht, dass KI aus Forschungsabläufen ausgeschlossen werden muss. Sie lautet, dass KI-gestütztes Schreiben ohne strenge Verifikation die Evidenzkette kontaminieren kann. Wenn das in großem Maßstab geschieht, reichen die Glaubwürdigkeitskosten weit über ein einzelnes Paper hinaus.
- Ein Audit von 2,47 Millionen biomedizinischen Arbeiten fand 4.046 gefälschte Referenzen in 2.810 Arbeiten.
- Die Rate gefälschter Zitationen soll sich von 2023 bis Anfang 2026 mehr als verzwölffacht haben.
- Die Forschenden sehen Sprachmodelle als wahrscheinlichen Treiber, schließen andere Ursachen aber nicht aus.
- Gefälschte Zitate sind besonders riskant in Übersichtsarbeiten, die klinisches Verständnis und Leitlinien beeinflussen.
- Die Autoren der Studie fordern automatisierte Referenzprüfungen und eine rückwirkende Überprüfung veröffentlichter Arbeiten.
Dieser Artikel basiert auf einer Berichterstattung von The Decoder. Zum Originalartikel.
Originally published on the-decoder.com
