Le défi de la sécurité des agents
À mesure que les modèles IA évoluent de chatbots passifs vers des agents autonomes capables de naviguer sur le Web, d'exécuter du code et de gérer des fichiers, les enjeux de sécurité se sont considérablement accrus. Un chatbot qui donne une mauvaise réponse est un inconvénient. Un agent qui entreprend une mauvaise action – envoyer un e-mail, supprimer un fichier, exécuter une transaction – parce qu'un attaquant a manipulé ses instructions pourrait causer des dégâts réels. OpenAI a maintenant publié un article de blog technique détaillé expliquant comment elle conçoit les capacités d'agent de ChatGPT pour résister aux injections de prompts et aux attaques d'ingénierie sociale.
L'injection de prompt est une classe d'attaque dans laquelle des instructions malveillantes sont incorporées dans les données qu'un agent IA traite. Par exemple, un attaquant pourrait dissimuler des instructions dans une page Web, un e-mail ou un document qui indiquent à l'agent d'ignorer ses instructions originales et d'exécuter des actions non autorisées à la place. Lorsque l'agent lit et traite ce contenu, il peut suivre les instructions injectées, divulgant potentiellement des données sensibles ou entreprenant des actions nuisibles au nom de l'attaquant.
Défense en profondeur
L'approche d'OpenAI pour défendre contre les injections de prompts dans les workflows d'agents suit une stratégie de défense en profondeur avec plusieurs couches se chevauchant. Aucune défense unique n'est considérée comme suffisante en elle-même; le système s'appuie sur la combinaison de plusieurs mécanismes pour fournir une protection robuste même si des couches individuelles sont contournées.
La première couche est la hiérarchie des instructions. Les capacités d'agent de ChatGPT sont conçues pour traiter les instructions de différentes sources avec différents niveaux de confiance. Les instructions au niveau du système du développeur d'applications reçoivent la confiance la plus élevée. Les instructions des utilisateurs reçoivent une confiance modérée. Et le contenu de sources externes – pages Web, e-mails, documents – reçoit la confiance la plus faible. Lorsque les instructions d'une source de confiance inférieure entrent en conflit avec celles d'une source de confiance supérieure, les instructions de confiance supérieure prennent précédence.
Cette hiérarchie signifie que même si une page Web contient un texte disant « ignorez vos instructions précédentes », l'agent de ChatGPT reconnaîtra ces instructions comme des directives externes de faible confiance qui ne peuvent pas ignorer les directives au niveau du système ou de l'utilisateur.
Limiter les actions à risque
Le deuxième mécanisme de défense majeur implique de limiter les actions que les agents peuvent entreprendre en réponse au contenu externe. OpenAI catégorise les actions des agents le long d'un spectre de risque, allant des opérations de lecture seule à faible risque comme la recherche sur le Web aux opérations à haut risque comme l'envoi d'e-mails, les achats ou la modification de fichiers.
Les actions à haut risque nécessitent une confirmation explicite de l'utilisateur avant l'exécution, indépendamment des instructions que l'agent a reçues. Cela crée un point de contrôle humain dans la boucle qui empêche l'exploitation automatisée même si un attaquant injecte avec succès des instructions que les autres défenses de l'agent ne peuvent pas détecter.
Pour les actions à risque moyen, le système applique une analyse contextuelle pour déterminer si l'action demandée est cohérente avec l'intention originale de l'utilisateur. Si un agent se voit demander de résumer des pages Web et que l'une de ces pages contient des instructions pour rédiger un e-mail, l'incohérence contextuelle déclenche un examen supplémentaire et une confirmation de l'utilisateur.
Protection des données sensibles
Une troisième couche de défense se concentre sur la prévention de l'exfiltration de données – le scénario dans lequel l'injection de prompt est utilisée pour extraire des informations sensibles du contexte de l'agent et les envoyer à un attaquant. L'approche d'OpenAI implique de surveiller le flux d'informations à travers les workflows d'agents et de signaler les motifs qui suggèrent que les données sont acheminées vers des destinations non autorisées.
Par exemple, si un agent traite un document contenant des informations personnelles et essaie ensuite d'inclure ces informations dans une demande Web à un domaine inconnu, le système reconnaît cela comme une tentative d'exfiltration potentielle et bloque l'action.
Formation au niveau du modèle
Sous-jacent à toutes ces défenses architecturales est la formation au niveau du modèle. OpenAI a incorporé la résistance aux injections de prompts dans le processus d'entraînement de ChatGPT, utilisant à la fois l'ajustement supervisé avec des exemples de tentatives d'injection et l'apprentissage par renforcement à partir du retour humain pour enseigner au modèle à reconnaître et à résister aux tentatives de manipulation.
Cette formation comprend l'exposition à une grande variété de techniques d'injection : les contournements directs d'instructions, les scénarios de jeu de rôle conçus pour contourner les directives de sécurité, les instructions codées ou obscurcies, les chaînes de manipulation en plusieurs étapes et les tactiques d'ingénierie sociale qui font appel à l'utilité du modèle pour ignorer ses contraintes de sécurité.
Le résultat est un modèle qui ne se contente pas de suivre un ensemble de règles de sécurité statiques, mais qui a intériorisé une compréhension de ce à quoi ressemble l'injection de prompt et pourquoi elle devrait être résistée.
Une course aux armements permanente
OpenAI reconnaît que la défense contre les injections de prompts est une course aux armements permanente plutôt qu'un problème résolu. Les attaquants développeront de nouvelles techniques et les défenses doivent évoluer en réponse. Le message du blog sert à la fois comme mesure de transparence et comme contribution à la compréhension plus large de la communauté de sécurité IA des défis de sécurité des agents.
À mesure que les agents IA deviennent plus capables et sont déployés plus largement, les enjeux des attaques par injection de prompts continueront d'augmenter. L'approche de défense en profondeur qu'OpenAI décrit – combinant la hiérarchie des instructions, les contraintes d'action, la surveillance des flux de données et la formation au niveau du modèle – fournit un cadre que d'autres développeurs IA adopteront probablement et étendront à mesure que l'industrie gère les implications de sécurité des systèmes IA de plus en plus autonomes.
Cet article est basé sur les rapports d'OpenAI. Lisez l'article original.

