OpenAI IH-Challenge trainiert LLMs, Manipulation zu widerstehen

AI-Modelle lehren, die richtigen Anweisungen zu befolgen

OpenAI hat eine Forschungsarbeit zu einer neuen Trainingsmethodik namens IH-Challenge veröffentlicht, die eines der hartnäckigsten Probleme in eingesetzten AI-Systemen lösen soll: Modelle dazu zu bringen, Anweisungen von vertrauenswürdigen Prinzipalen – Entwicklern, Operatoren und verifizierten Benutzern – zuverlässig gegenüber potenziell gegnerischen Anweisungen zu priorisieren, die über nicht vertrauenswürdige Kanäle wie Webinhalte oder Tool-Ausgaben ankommen.

Die Arbeit befasst sich mit dem, was die AI-Sicherheitsgemeinde das Anweisungshierarchie-Problem nennt. Ein großes Sprachmodell, das als Agent fungiert, kann gleichzeitig Anweisungen aus mehreren Quellen erhalten: einen System-Prompt vom Entwickler, Anweisungen vom Benutzer und Inhalte, die aus dem Web oder externen Tools abgerufen werden. Wenn diese Anweisungen in Konflikt geraten, benötigt das Modell eine prinzipiengetreue Möglichkeit zu entscheiden, welche zu befolgen sind.

Warum sich die Anweisungshierarchie als schwierig erwiesen hat

Theoretisch ist die Lösung einfach: ein System-Prompt sollte immer Vorrang vor Benutzereingaben haben, die wiederum Vorrang vor Inhalten aus externen Quellen haben sollten. In der Praxis haben sich Sprachmodelle, die hauptsächlich durch menschliches Feedback trainiert wurden, überraschend schwach darin erwiesen, diese Hierarchien unter gegnerischem Druck beizubehalten.

Angreifer haben diese Schwachstelle umfangreich ausgenutzt. Prompt-Injection-Angriffe – bei denen bösartiger Text, der in eine Webseite oder ein Dokument eingebettet ist, die AI anweist, ihren System-Prompt zu ignorieren und neuen Richtlinien zu folgen – haben AI-Agenten in Dutzenden von realen Einsätzen kompromittiert. Die Angriffe sind oft trivial einfach und verwenden Phrasen wie „Ignoriere alle vorherigen Anweisungen", die in ansonsten unauffällig aussehende Inhalte eingebettet sind.

IH-Challenge befasst sich damit, indem es Trainingsbeispiele generiert, die speziell dafür entworfen sind, die Einhaltung der Anweisungshierarchie zu testen. Der Datensatz umfasst Szenarien, in denen gegnerische Anweisungen aus niedrig vertrauenswürdigen Quellen direkt den hochvertrauenswürdigen System-Prompts widersprechen, und trainiert das Modell, diese Manipulationsversuche zu erkennen und abzuwehren.

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic verbietet KI-Tools in Interviews, um Bewerber zu prüfen

Anthropic verbietet Berichten zufolge KI-Hilfe in Live-Jobinterviews, sofern dies nicht ausdrücklich erlaubt ist, während das Unternehmen prüfen will, wie Bewerber eigenständig denken.

Read article

Drei Säulen der Verbesserung

OpenAI meldet Verbesserungen über drei verschiedene Dimensionen. Erstens, Einhaltung der Anweisungshierarchie: Mit IH-Challenge trainierte Modelle sind erheblich eher geneigt, System-Prompt-Richtlinien zu befolgen, wenn sie mit widersprechenden Benutzeranweisungen konfrontiert werden. Zweitens, Sicherheitssteuerbarkeit: Operatoren können das Modellverhalten zuverlässiger innerhalb der von OpenAIs Richtlinien festgelegten Grenzen anpassen. Drittens, Widerstandsfähigkeit gegen Prompt-Injection: Modelle zeigen eine erheblich reduzierte Anfälligkeit für Injektionsangriffe in beiden direkten und indirekten Formen.

Die Forschung zeigt auch, dass IH-Challenge-Training über die spezifischen Szenarien, die im Training verwendet wurden, hinaus verallgemeinert wird. Modelle scheinen eine robustere interne Darstellung von Vertrauensstufen zu entwickeln und wenden die gelernte Hierarchie auf neuartige Angriffsmuster an, die während des Trainings nicht gesehen wurden.

Auswirkungen auf die Bereitstellung von AI-Agenten

Die Arbeit kommt zu einem kritischen Moment. Da AI-Agenten Zugang zu E-Mail, Browsern, Code-Ausführungsumgebungen und Unternehmensoftware erhalten, eskalieren die Folgen erfolgreicher Prompt-Injection-Angriffe von peinlich zu katastrophal. Ein Agent, der über eine bösartige Webseite gehijackt werden kann, könnte sensible Daten preisgeben, Anmeldeinformationen exfiltrieren oder destruktive Aktionen in großem Maßstab durchführen.

IH-Challenge stellt ein Stück eines größeren Puzzles dar. Technische Verteidigungsmaßnahmen auf Trainingsebene müssen mit architektonischen Schutzmaßnahmen kombiniert werden – isolierte Ausführungsumgebungen, Bestätigungsgates für hochriskante Aktionen und sorgfältige Festlegung von Tool-Berechtigungen – um bedeutungsvolle Schutzmaßnahmen zu bieten. Aber als grundlegende Verteidigung, die in das Modell selbst integriert ist, erhöht es die Messlatte erheblich.

Dieser Artikel basiert auf Berichten von OpenAI. Lesen Sie den ursprünglichen Artikel.

KI-Modelle trennen Rezeptlogik von Geschmackschemie

Neue Forschung von Kaikaku.AI argumentiert, dass Lebensmittelempfehlungssysteme zwischen Zutaten unterscheiden sollten, die in Rezepten gemeinsam auftreten, und solchen, die chemisch ähnlich sind.

Read article

Originally published on openai.com