KI-Modelle zitieren oft die falsche Quelle, selbst wenn die Antwort richtig ist

Die richtige Antwort reicht nicht mehr

Eine wachsende Zahl von Arbeiten in der künstlichen Intelligenz verschiebt den Fokus weg von der Frage, ob ein Modell eine Frage beantworten kann, hin zu der Frage, ob es belegen kann, woher die Antwort stammt. Eine neue, von The Decoder hervorgehobene Studie deutet darauf hin, dass viele führende Systeme bei diesem zweiten Teil weiterhin Schwierigkeiten haben.

Forschende der Peking-Universität und des Shanghai Artificial Intelligence Laboratory haben einen Benchmark namens CiteVQA entwickelt, um sowohl die Antwortgenauigkeit als auch die Quellenzuordnung bei Fragen zu Dokumenten zu messen. Ihr Fazit ist ernüchternd für alle, die in sicherheitskritischen Bereichen auf KI setzen wollen: Ein Modell kann die richtige Antwort liefern und trotzdem auf die falschen Belege verweisen.

Das Team nennt diesen Fehlermodus „Attribution-Halluzination“. In der Praxis bedeutet das, dass ein KI-System vertrauenswürdig wirken kann, weil seine finale Antwort korrekt ist, während das angegebene Zitat die Antwort tatsächlich nicht stützt.

Warum die Qualität von Zitaten wichtig ist

Standard-Benchmarks zur Dokumentenanalyse wie DocVQA und MMLongBench-Doc bewerten in der Regel nur die finale Antwort. Das hinterlässt einen großen blinden Fleck. Ein Modell kann aus dem Quellmaterial heraus argumentiert haben, aber es kann auch aus Vorwissen, Mustererkennung oder partiellen Hinweisen im Prompt geraten haben.

In vielen Verbraucheranwendungen mag dieser Unterschied untergehen. In Recht, Medizin, Finanzen und Prüfung kann er das nicht. Die Arbeit argumentiert, dass Nachvollziehbarkeit das ist, was KI-Ausgaben überhaupt erst nutzbar macht. Wenn ein System den Absatz, die Tabelle oder die Abbildung, die seine Antwort stützt, nicht zuverlässig identifizieren kann, kann eine elegant formulierte Antwort dennoch betrieblich unsicher sein.

CiteVQA ist darauf ausgelegt, diese Lücke direkt sichtbar zu machen. Eine Seitenzahl reicht nicht. Modelle müssen präzise Quellorte im Dokument identifizieren, bis hin zum konkreten unterstützenden Element.

Google und OpenAI legen getrennte, mit China verbundene KI-Missbrauchsoperationen offen

Google reichte Klage gegen ein mutmaßliches KI-gestütztes Betrugsnetzwerk ein, während OpenAI erklärte, zwei mit China verbundene Einfluss-Cluster gestoppt zu haben, die auf US-Debatten und Infrastruktur-Narrative zielten.

Read article

Ein härterer Test als gewöhnliche Dokumenten-QA

Der Benchmark umfasst 1.897 Fragen über 711 PDFs aus sieben Themenbereichen, davon 451 Dokumente in Englisch und 260 in Chinesisch. Die durchschnittliche Länge der Dokumente beträgt 40,6 Seiten, wodurch das Set deutlich länger ist als viele bestehende Dokumenten-Benchmarks.

Anstatt vollständig auf manuelle Kennzeichnung zu setzen, bauten die Forschenden eine automatisierte Pipeline. Dokumente werden in einzelne Elemente zerlegt, anschließend verfolgen Modelle Beweisketten. Das System prüft, ob jede zitierte Komponente wirklich notwendig ist, indem es Dokumente einzeln entfernt und überprüft, ob das Modell weiterhin antworten kann. Wenn nicht, gilt dieser Beleg als wesentlich.

Die Kernmetrik ist Strict Attributed Accuracy. Nach dieser Bewertung erhält ein Modell nur dann Punkte, wenn beide Teile erfolgreich sind: Die Antwort ist korrekt und das Zitat landet beim richtigen unterstützenden Material. Eine richtige Antwort mit falschem Zitat erhält null Punkte.

Top-Modelle verlieren dennoch viel Boden

Zwanzig aktuelle Modelle wurden bewertet. Das leistungsstärkste System, Gemini-3.1-Pro-Preview, erreichte auf der strengen Metrik 76 von 100. Das ist relativ stark, lässt aber immer noch eine beträchtliche Lücke zwischen dem besten verfügbaren Ergebnis und einer verlässlichen, nahezu perfekten Zuordnung.

Der Benchmark machte außerdem einen deutlichen Unterschied zwischen Antwortqualität und Belegqualität sichtbar. GPT-5.4 erzielte laut Bericht 87,1 bei der reinen Antwortleistung, fiel aber auf 59, sobald eine korrekte Zitierung verlangt wurde. Anders gesagt: Das Modell wusste oft, was es sagen sollte, zeigte aber nicht konsistent, wo im Dokument die Antwort herkam.

Open-Source-Systeme schnitten in den berichteten Ergebnissen deutlich schlechter ab. Qwen3-VL-235B-A22B, als das stärkste frei verfügbare Modell im Vergleich beschrieben, erreichte 22,5. Kleinere offene Modelle lagen meist unter 10. Die Forschenden bezeichnen dieses Leistungsniveau als äußerst riskant für regulierte Branchen.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 macht einen 2.000-Stunden-Robotik-Datensatz offen zugänglich

X Square Robot hat XRZero-G0 und einen multimodalen Datensatz mit 2.000 Stunden veröffentlicht, um die Menge an realen Roboterdaten für verkörperte KI-Systeme zu verringern.

Read article

Die richtige Seite zu finden ist weiterhin eine große Hürde

Eine der klarsten Aussagen des Benchmarks ist, dass viele Modelle schon scheitern, bevor die feinere Zitieraufgabe überhaupt beginnt. Sie finden häufig nicht die richtige Seite, was eine präzise Zuordnung auf Absatz- oder Abbildungsebene noch schwieriger macht.

Das ist wichtig, weil Nutzer Zitate oft als eingebaute Sicherheitsfunktion verstehen. In Wirklichkeit kann ein Zitierformat einen schwachen Abrufschritt verschleiern. Ein System, das einer Antwort belegend wirkende Referenzen anhängt, kann vertrauenswürdiger erscheinen als eines ohne Referenzen, selbst wenn die Belege falsch sind.

CiteVQA legt nahe, dass die Branche vorsichtiger damit umgehen sollte, quellverknüpfte Ausgaben als per se vertrauenswürdig zu behandeln. Attribution muss gemessen werden, nicht angenommen.

Ein Benchmark für praktische Vertrauenswürdigkeit

Die Bedeutung der Studie liegt weniger darin, einen Sieger zu küren, als vielmehr darin, das Ziel neu zu definieren. Wenn KI für professionelles Lesen, Compliance-Prüfungen, Due Diligence oder evidenzbasierte Unterstützung eingesetzt werden soll, darf die Messlatte nicht bei flüssigen Zusammenfassungen und meist richtigen Antworten enden.

Entscheidend ist, ob ein Modell genau die Belege abrufen kann, die es angeblich nutzt. Der Benchmark macht das sichtbar und messbar. Er zeigt auch, dass aktuelle Systeme, einschließlich der Spitzenmodelle, in diesem Punkt weiterhin uneinheitlich sind.

Das bedeutet nicht, dass Dokumenten-KI unbrauchbar ist. Es bedeutet aber, dass Bereitstellungsentscheidungen zwischen „gut antworten“ und „gut begründen“ unterscheiden sollten. CiteVQA behandelt diese Fähigkeiten als getrennt, und die Ergebnisse deuten darauf hin, dass die zweite noch hinterherhinkt.

Für Unternehmenskunden, Regulierer und Teams, die KI in Forschungs-Workflows integrieren, ist das wahrscheinlich die wichtigste Erkenntnis. Die nächste Wettbewerbsfront in der Dokumentenintelligenz könnte nicht darin bestehen, selbstsicherere Texte zu erzeugen. Sie könnte darin liegen, präzise zu belegen, dass der Text an der richtigen Zeile der richtigen Quelle verankert ist.

Dieser Artikel basiert auf der Berichterstattung von The Decoder. Zum Originalartikel.

Anthropic fordert verbindliche Audits und rahmt KI als strategische Infrastruktur neu

Anthropics CEO Dario Amodei sagt, Transparenzregeln reichten nicht mehr aus, und fordert verpflichtende Drittprüfungen für Frontier-KI-Systeme.

Read article

Originally published on the-decoder.com

Benchmark zeigt: KI-Systeme antworten oft richtig, zitieren aber die falschen Belege

Die richtige Antwort reicht nicht mehr

Warum die Qualität von Zitaten wichtig ist

Google und OpenAI legen getrennte, mit China verbundene KI-Missbrauchsoperationen offen

Ein härterer Test als gewöhnliche Dokumenten-QA

Top-Modelle verlieren dennoch viel Boden

XRZero-G0 macht einen 2.000-Stunden-Robotik-Datensatz offen zugänglich

Die richtige Seite zu finden ist weiterhin eine große Hürde

Ein Benchmark für praktische Vertrauenswürdigkeit

Anthropic fordert verbindliche Audits und rahmt KI als strategische Infrastruktur neu

Comments (0)

Keep Reading