Prompt-Formulierung bricht die Zuverlässigkeit von KI weiterhin

Ein neues Audit von NewsGuard legt nahe, dass Mistrals Le Chat weiterhin stark anfällig für Desinformation ist, wenn Nutzer Falschbehauptungen als gesicherte Fakten darstellen oder den Chatbot bitten, diese Behauptungen für eine breitere Verbreitung aufzubereiten.

Die am 29. April veröffentlichten Ergebnisse konzentrieren sich auf falsche Narrative rund um den Iran-Krieg und zeigen einen deutlichen Unterschied zwischen der Reaktion des Modells auf neutrale Fragen und auf lenkende oder offen böswillige Prompts. Diese Lücke ist wichtig, weil sie eine vertraute, aber ungelöste Schwäche von Consumer-KI-Systemen sichtbar macht: Viele verhalten sich bei direkten Fragen vernünftig, versagen aber deutlich, sobald der Prompt selbst adversarial wird.

Was das Audit getestet hat

Laut dem Bericht testete NewsGuard zehn falsche Behauptungen aus russischen, iranischen und chinesischen Quellen. Beispiele waren ein erfundener Typhusausbruch an Bord des französischen Flugzeugträgers Charles de Gaulle, Berichte über Hunderte getötete US-Soldaten und ein angeblicher Drohnenangriff der Emirate auf Oman.

Jede Behauptung wurde mit drei Arten von Prompts geprüft:

  • Neutrale Anfragen, die nach der Behauptung fragten, ohne ihre Wahrheit vorauszusetzen
  • Lenkende Anfragen, die die falsche Behauptung als Tatsache behandelten
  • Böswillige Prompts, die den Chatbot aufforderten, die Desinformation in Social-Media-tauglichen Content umzuschreiben

Die berichteten Ergebnisse waren deutlich. Die Fehlerrate lag bei neutralen Prompts bei etwa 10 Prozent, bei lenkenden Prompts bei 60 Prozent und bei böswilligen Prompts bei 80 Prozent. Über das gesamte Audit hinweg habe Le Chat laut NewsGuard eine Fehlerrate von 50 Prozent auf Englisch und 56,6 Prozent auf Französisch gezeigt.

Warum die Zahlen wichtig sind

Diese Ergebnisse zeigen nicht nur, dass das Modell Fakten falsch wiedergeben kann. Sie deuten darauf hin, dass die Prompt-Struktur selbst stark beeinflusst, ob das System falsche Narrative abwehrt oder verstärkt. In der Praxis bedeutet das: Ein Nutzer, der unsicher ist und vorsichtig fragt, kann eine andere Art von Antwort erhalten als ein Nutzer, der Desinformation gezielt „reinwaschen“ will und dabei oft deutlich gefährlicheres Material extrahieren kann.

Diese Unterscheidung ist zentral für die Debatte um KI-Sicherheit. Die eigentliche Herausforderung in der Realität ist nicht, ob ein Chatbot unter idealen Bedingungen eine Lehrbuchfrage korrekt beantworten kann. Entscheidend ist, ob das System zuverlässig bleibt, wenn Menschen rhetorische Rahmung, selektiven Kontext oder direkte Manipulation einsetzen, um es vom Kurs abzubringen.

An diesem Maßstab zeigt das Audit ein erhebliches Robustheitsproblem.

Desinformationsdruck trifft auf Kriegszeiten

Der geopolitische Kontext macht die Ergebnisse noch relevanter. Informationsumgebungen in Kriegszeiten sind bereits mit unüberprüfbaren Behauptungen, Propaganda und emotional aufgeladenen Narrativen gesättigt. Unter diesen Bedingungen können Chatbots zu Beschleunigern werden, wenn sie falsche Behauptungen schneller zusammenfassen, bestätigen oder stilistisch glätten, als menschliche Faktenprüfer reagieren können.

Bemerkenswert ist auch der Fokus des Audits auf staatsnahen Narrativen. Desinformation ist nicht mehr nur ein Moderationsproblem für soziale Plattformen; sie wird zunehmend zu einem Problem für Retrieval, Zusammenfassung und Generierung bei KI-Assistenten. Ein Chatbot, der lenkende Prompts zu wörtlich nimmt, kann in diesem Ökosystem zu einem leichten Ziel werden.

Das bedeutet nicht, dass das System absichtlich auf Falsches ausgerichtet ist. Es bedeutet, dass dem Modell möglicherweise ausreichende Schutzmechanismen fehlen, wenn schlechte Informationen selbstbewusst präsentiert werden oder wenn die Nutzeranfrage als Content-Produktionsaufgabe statt als Wahrheitsfrage formuliert ist.

Warum neutrale Leistung nicht ausreicht

Die Fehlerrate von 10 Prozent bei neutralen Prompts ist zwar immer noch nicht ideal, aber auffällig ist vor allem der Abstand zu den 60 bis 80 Prozent bei manipulativeren Prompts. Das legt nahe, dass die Verteidigungsmechanismen des Systems eher oberflächlich sind. Statt die Prämisse einer Behauptung robust zu hinterfragen, übernimmt das Modell womöglich allzu oft die Rahmung des Nutzers und macht von dort aus weiter.

Das ist ein Grund, warum Sicherheitsbewertungen, die nur auf neutralen Benchmarks beruhen, irreführend sein können. Öffentliche Deployments werden nicht nur von vorsichtigen, gut gemeinten Nutzern verwendet. Sie werden auch von Propagandisten, Marketern, Trollen und ganz normalen Menschen getestet, die Gerüchte in genau der Form wiederholen, in der sie sie zuerst gesehen haben.

Wenn die Genauigkeit eines Modells unter solchen Bedingungen einbricht, ist seine praktische Zuverlässigkeit schwächer, als es Schlagzeilen-Benchmarks vermuten lassen.

Die politische und produktseitige Herausforderung

Mistral reagierte laut Bericht nicht auf NewsGuards Bitte um Stellungnahme. Damit bleibt offen, ob das Unternehmen Prompt-basierte Schutzmechanismen, stärkere Behauptungsprüfungen, Ablehnungsstrategien oder andere Maßnahmen plant, die auf schnell wechselnde Konfliktnarrative zugeschnitten sind.

Ein zusätzlicher Aspekt: Das französische Verteidigungsministerium nutzt Berichten zufolge eine angepasste Offline-Version von Le Chat. Das verbindet das geprüfte Verbraucher-Verhalten nicht automatisch mit staatlichen Einsätzen, unterstreicht aber, warum die Zuverlässigkeit des Modells unter adversarialen Prompts kein Nischenthema ist.

Entwickler vermarkten KI-Systeme zunehmend als Recherchehilfen, Kommunikationswerkzeuge und Workflow-Assistenten. Diese Funktionen bringen sie direkt in den Bereich hochriskanter Informationskonflikte. Modelle, die nur dann gut funktionieren, wenn Nutzer vollkommen neutrale Fragen stellen, erfüllen die Anforderungen der realen Einsatzumgebung nicht.

Was dieses Audit über die nächste Phase der KI-Sicherheit nahelegt

Die wichtigste Lehre aus den NewsGuard-Ergebnissen ist, dass Desinformationsresistenz unter realistischen Angriffsmustern getestet werden muss, nicht nur unter höflichen Anwendungsfällen. Lenkende Fragen und Content-Umschreibungsanfragen sind inzwischen gewöhnliche Fehlermodi, keine Grenzfälle mehr.

Für Nutzer ist die Konsequenz einfach: Chatbots bleiben schlechte Wahrheitsinstanzen bei umkämpften, schnelllebigen geopolitischen Ereignissen, sofern ihre Antworten nicht unabhängig verifiziert werden. Für Entwickler ist die Botschaft anspruchsvoller. Modelle müssen mehr leisten, als plausiblen Text abzurufen. Sie müssen unbegründete Prämissen herausfordern, narrative Manipulation erkennen und sich weigern, zur Formatierungsschicht für Propaganda zu werden.

Le Chat steht mit diesem Problem keineswegs allein da. Doch das Audit erinnert konkret daran, dass Aussagen über zuverlässige KI-Unterstützung im Informationsbereich mit Vorsicht zu behandeln sind, solange die Prompt-Formulierung die Leistung so drastisch verändern kann.

Dieser Artikel basiert auf einer Berichterstattung von The Decoder. Zum Originalartikel.

Originally published on the-decoder.com