Enseigner aux Modèles d'AI à Suivre les Bonnes Instructions

OpenAI a publié des recherches sur une nouvelle méthodologie d'entraînement appelée IH-Challenge, conçue pour résoudre l'un des problèmes les plus persistants des systèmes AI déployés : amener les modèles à prioriser de manière fiable les instructions provenant de principaux de confiance — développeurs, opérateurs et utilisateurs vérifiés — par rapport aux instructions potentiellement adversariales qui proviennent de canaux non fiables comme le contenu web ou les sorties d'outils.

Le travail aborde ce que la communauté de la sécurité de l'AI appelle le problème de hiérarchie des instructions. Un modèle de langage de grande taille fonctionnant comme un agent peut recevoir des instructions provenant de plusieurs sources simultanément : un system prompt du développeur, des instructions de l'utilisateur et du contenu récupéré sur le web ou des outils externes. Lorsque ces instructions entrent en conflit, le modèle a besoin d'un moyen fondé de décider laquelle suivre.

Pourquoi la Hiérarchie des Instructions S'Est Avérée Difficile

En théorie, la solution est simple : un system prompt devrait toujours avoir la priorité sur l'entrée utilisateur, qui devrait avoir la priorité sur le contenu provenant de sources externes. En pratique, les modèles de langage entraînés principalement sur la rétroaction humaine se sont avérés étonnamment mauvais pour maintenir ces hiérarchies sous une pression adversariale.

Les attaquants ont largement exploité cette faiblesse. Les attaques par injection de prompt — où du texte malveillant intégré dans une page web ou un document demande à l'AI d'ignorer son system prompt et de suivre de nouvelles directives — ont compromis les agents AI dans des dizaines de déploiements du monde réel. Les attaques sont souvent trivialement simples, utilisant des phrases comme ignorez tous les commentaires précédents intégrées dans un contenu apparemment inoffensif.

IH-Challenge aborde cela en générant des exemples d'entraînement spécifiquement conçus pour tester sous contrainte la conformité à la hiérarchie des instructions. L'ensemble de données inclut des scénarios où les instructions adversariales provenant de sources de faible confiance contredisent directement les system prompts de confiance élevée, entraînant le modèle à reconnaître et à résister à ces tentatives de manipulation.

Trois Piliers d'Amélioration

OpenAI signale des améliorations selon trois dimensions distinctes. Premièrement, le respect de la hiérarchie des instructions : les modèles entraînés avec IH-Challenge sont nettement plus susceptibles de suivre les directives du system prompt lorsqu'ils font face à des instructions utilisateur conflictuelles. Deuxièmement, la dirigeabilité de la sécurité : les opérateurs peuvent adapter de manière plus fiable le comportement du modèle dans les limites établies par les politiques d'OpenAI. Troisièmement, la résistance à l'injection de prompt : les modèles montrent une susceptibilité nettement réduite aux attaques par injection sous des formes directes et indirectes.

La recherche découvre également que l'entraînement IH-Challenge se généralise au-delà des scénarios spécifiques utilisés dans l'entraînement. Les modèles semblent développer une représentation interne plus robuste des niveaux de confiance, appliquant la hiérarchie apprise à des modèles d'attaque nouveaux non vus pendant l'entraînement.

Implications pour le Déploiement d'Agents AI

Le travail arrive à un moment critique. À mesure que les agents AI accèdent à l'email, aux browsers, aux environnements de code execution et aux logiciels d'entreprise, les conséquences des attaques par injection de prompt réussies passent de gênantes à catastrophiques. Un agent qui peut être détourné via une page web malveillante pourrait divulguer des données sensibles, voler des identifiants ou mener des actions destructrices à grande échelle.

IH-Challenge représente une pièce du puzzle plus large. Les défenses techniques au niveau de l'entraînement doivent être combinées avec des mesures de protection architecturales — environnements d'exécution en bac à sable, portes de confirmation pour les actions à haut risque et délimitation prudente des permissions d'outils — pour fournir une protection significative. Mais en tant que défense au niveau fondamental intégrée au modèle lui-même, cela élève considérablement la ligne de base.

Cet article est basé sur le reportage d'OpenAI. Lire l'article original.