Die Sicherheitsherausforderung bei Agenten

Da sich AI-Modelle von passiven Chatbots zu autonomen Agenten entwickeln, die das Web durchsuchen, Code ausführen und Dateien verwalten können, sind die Sicherheitsrisiken dramatisch gestiegen. Ein Chatbot, der eine falsche Antwort gibt, ist ein Ärgernis. Ein Agent, der eine falsche Aktion ausführt – eine E-Mail sendet, eine Datei löscht, eine Transaktion durchführt – weil ein Angreifer seine Anweisungen manipuliert hat, könnte echten Schaden anrichten. OpenAI hat nun einen detaillierten technischen Blog-Beitrag veröffentlicht, in dem erklärt wird, wie die Agenten-Funktionen von ChatGPT so gestaltet werden, dass sie Prompt-Injection- und Social-Engineering-Angriffe widerstehen.

Prompt-Injection ist eine Klasse von Angriffen, bei denen bösartige Anweisungen in Daten eingebettet werden, die ein AI-Agent verarbeitet. Ein Angreifer könnte beispielsweise Anweisungen in einer Webseite, E-Mail oder einem Dokument verstecken, die den Agenten anweisen, seine ursprünglichen Anweisungen zu ignorieren und stattdessen unbefugte Maßnahmen zu ergreifen. Wenn der Agent diesen Inhalt liest und verarbeitet, kann er den eingespritzten Anweisungen folgen und möglicherweise sensible Daten preisgeben oder im Namen des Angreifers schädliche Maßnahmen ergreifen.

Defense in Depth

OpenAIs Ansatz zur Abwehr von Prompt-Injection in Agent-Workflows folgt einer Defense-in-Depth-Strategie mit mehreren überlappenden Schichten. Keine einzelne Verteidigung wird als ausreichend erachtet; das System verlässt sich auf die Kombination mehrerer Mechanismen, um robusten Schutz zu bieten, auch wenn einzelne Schichten umgangen werden.

Die erste Schicht ist die Anweisungshierarchie. Die Agenten-Funktionen von ChatGPT sind so gestaltet, dass sie Anweisungen aus verschiedenen Quellen mit unterschiedlichen Vertrauensstufen behandeln. Systemebenen-Anweisungen vom Anwendungsentwickler erhalten das höchste Vertrauen. Benutzeranweisungen erhalten mittleres Vertrauen. Inhalte aus externen Quellen – Webseiten, E-Mails, Dokumente – erhalten das niedrigste Vertrauen. Wenn Anweisungen aus einer niedrigeren Vertrauensquelle mit denen aus einer höheren Vertrauensquelle in Konflikt geraten, haben die Anweisungen mit höherem Vertrauen Vorrang.

Diese Hierarchie bedeutet, dass selbst wenn eine Webseite Text mit der Aufforderung „ignoriere deine bisherigen Anweisungen" enthält, der Agent von ChatGPT diese als Anweisungen mit niedrigem Vertrauen erkennt, die System- oder Benutzerebenen-Direktiven nicht außer Kraft setzen können.

Einschränkung riskanter Maßnahmen

Der zweite große Abwehrmechanismus besteht darin, die Maßnahmen zu begrenzen, die Agenten als Reaktion auf externe Inhalte ergreifen können. OpenAI kategorisiert Agent-Maßnahmen entlang eines Risikobereichs, von risikoarmen schreibgeschützten Operationen wie der Websuche bis zu hochriskanten Operationen wie dem Versenden von E-Mails, Einkäufen oder dem Ändern von Dateien.

Hochrisikante Maßnahmen erfordern vor der Ausführung explizite Benutzerbestätigung, unabhängig davon, welche Anweisungen der Agent erhalten hat. Dies schafft einen Human-in-the-Loop-Kontrollpunkt, der eine automatisierte Ausbeutung verhindert, selbst wenn ein Angreifer erfolgreich Anweisungen einspritzt, die die anderen Abwehrmaßnahmen des Agenten nicht erkennen.

Bei mittleren Risikoma­ßnahmen wendet das System kontextuelle Analyse an, um festzustellen, ob die angeforderte Maßnahme mit der ursprünglichen Absicht des Benutzers übereinstimmt. Wenn ein Agent aufgefordert wird, Webseiten zusammenzufassen und eine dieser Seiten Anweisungen zum Verfassen einer E-Mail enthält, löst die kontextuelle Unstimmigkeit eine zusätzliche Überprüfung und Benutzerbestätigung aus.

Schutz sensibler Daten

Eine dritte Abwehrschicht konzentriert sich auf die Verhinderung von Datenabfluss – das Szenario, in dem Prompt-Injection verwendet wird, um sensible Informationen aus dem Kontext des Agenten zu extrahieren und an einen Angreifer zu senden. OpenAIs Ansatz beinhaltet die Überwachung des Informationsflusses durch Agent-Workflows und das Kennzeichnen von Mustern, die darauf hindeuten, dass Daten zu unbefugten Zielen geleitet werden.

Wenn beispielsweise ein Agent ein Dokument mit persönlichen Informationen verarbeitet und versucht, diese Informationen dann in eine Webanfrage an eine unbekannte Domain einzubeziehen, erkennt das System dies als einen möglichen Abflussversuch und blockiert die Maßnahme.

Training auf Modellebene

Zugrundeliegend bei all diesen architektonischen Abwehrmaßnahmen ist das Training auf Modellebene. OpenAI hat die Widerstandsfähigkeit gegen Prompt-Injection in den Trainingsprozess von ChatGPT integriert und nutzt sowohl überwachtes Fine-Tuning mit Beispielen von Injektionsversuchen als auch Reinforcement Learning aus menschlichem Feedback, um das Modell zu lehren, Manipulationsversuche zu erkennen und abzuwehren.

Dieses Training umfasst die Exposition gegenüber einer breiten Palette von Injektionstechniken: direkte Anweisungsüberschreibungen, Rollenspiel-Szenarien, die Sicherheitsrichtlinien umgehen sollen, verschlüsselte oder verschleierte Anweisungen, mehrstufige Manipulationsketten und Social-Engineering-Taktiken, die an die Hilfsbereitschaft des Modells appellieren, um seine Sicherheitseinschränkungen zu überwinden.

Das Ergebnis ist ein Modell, das nicht nur einem Satz statischer Sicherheitsregeln folgt, sondern ein Verständnis dafür internalisiert hat, wie Prompt-Injection aussieht und warum es abgewehrt werden sollte.

Ein andauerndes Wettrüsten

OpenAI räumt ein, dass die Abwehr von Prompt-Injection ein andauerndes Wettrüsten ist, kein gelöstes Problem. Angreifer werden neue Techniken entwickeln, und Abwehrmaßnahmen müssen sich weiterentwickeln. Der Blog-Beitrag dient sowohl als Transparenzmaßnahme als auch als Beitrag zum Verständnis der Sicherheitsherausforderungen bei Agenten in der breiteren AI-Sicherheitsgemeinschaft.

Während AI-Agenten fähiger werden und häufiger eingesetzt werden, werden die Einsätze von Prompt-Injection-Angriffen weiter steigen. Der Defense-in-Depth-Ansatz, den OpenAI beschreibt – die Kombination von Anweisungshierarchie, Handlungsbeschränkungen, Datenflussüberwachung und Training auf Modellebene – bietet einen Rahmen, den andere AI-Entwickler wahrscheinlich übernehmen und erweitern werden, wenn sich die Industrie mit den Sicherheitsauswirkungen zunehmend autonomer AI-Systeme auseinandersetzt.

Dieser Artikel basiert auf Berichten von OpenAI. Lesen Sie den Originalartikel.