Les agents d’IA d’entreprise pourraient hériter du plus ancien problème de confiance du web

Des chercheurs de Google avertissent que des pages web publiques malveillantes empoisonnent activement les agents d’IA d’entreprise par injection indirecte de prompt, selon les métadonnées candidates et l’extrait fournis. Cet avertissement renforce une inquiétude qui plane depuis des mois sur l’IA agentique : plus on donne d’autonomie aux systèmes pour lire, résumer et agir à travers des sources externes, plus ils héritent du caractère adversarial du web ouvert.

La menace décrite ici n’est pas une exploitation logicielle conventionnelle au sens strict. Il s’agit d’une manipulation du comportement du modèle. Une page hostile peut intégrer des instructions ou du contenu conçus pour influencer un agent d’IA qui la visite, l’indexe ou la résume. Si cet agent est relié à des outils ou à des workflows d’entreprise, le risque ne se limite pas à de mauvaises sorties. Il peut se propager aux décisions, aux chaînes de récupération et aux actions opérationnelles en aval.

Pourquoi l’injection indirecte de prompt est structurellement difficile à résoudre

L’avertissement est notable parce qu’il vise une hypothèse de conception au cœur de nombreux produits d’IA actuels : les agents peuvent opérer en sécurité sur un large ensemble de documents si les développeurs mettent suffisamment de garde-fous autour du modèle. Les attaques d’injection indirecte de prompt remettent cette hypothèse en cause en contaminant la couche d’entrée elle-même. Le problème ne tient pas seulement à ce que l’utilisateur demande au modèle. Il tient à ce que l’environnement alentour demande au modèle sans que l’utilisateur s’en rende compte.

L’extrait fourni indique que des équipes de sécurité ayant parcouru le dépôt Common Crawl ont trouvé des éléments liés à ce risque. Ce détail compte, car Common Crawl est immense et largement utilisé dans les travaux sur les données à l’échelle du web. Si des schémas d’injection de prompt y sont déjà visibles, le problème n’est pas théorique. Cela suggère que du contenu hostile peut être semé dans le même environnement public d’information sur lequel les systèmes d’IA s’appuient de plus en plus pour la recherche, le résumé ou la navigation.

Pourquoi les agents font monter les enjeux

Les chatbots peuvent halluciner ou mal interpréter des instructions, mais les agents créent une surface plus lourde de conséquences parce qu’ils sont conçus pour agir. Ils récupèrent des pages, connectent des systèmes, rédigent des actions et déclenchent parfois des workflows. Cela signifie qu’une page empoisonnée n’a pas besoin de « pirater » le logiciel au sens traditionnel pour être dangereuse. Il lui suffit de détourner suffisamment le raisonnement du modèle pour modifier la suite des événements.

Pour les entreprises, cela crée une nouvelle question de périmètre de sécurité. Le web a toujours contenu du spam, des arnaques, des scripts malveillants et des contenus trompeurs. Les humains naviguent dans cet environnement avec un mélange de formation, de défenses du navigateur et de contrôles institutionnels. Les agents d’IA ne disposent pas encore d’un jugement équivalent, et ils peuvent traiter du contenu hostile à la vitesse et à l’échelle de la machine. Cette asymétrie transforme un problème familier d’internet en un problème clairement propre à l’ère de l’IA.

La leçon plus large pour le déploiement de l’IA

L’avertissement de Google doit être lu comme un problème d’architecture produit, et pas seulement comme une note de recherche. Tout système qui permet à un agent d’IA de naviguer ou d’ingérer des pages publiques doit supposer que ces pages peuvent contenir des instructions adversariales. Le mode par défaut sûr n’est pas la confiance. C’est la suspicion, l’isolement et la validation en couches avant que la sortie d’un agent puisse influencer des systèmes sensibles.

Le matériel fourni n’inclut pas la totalité des recommandations de mitigation de Google, donc les éléments disponibles ici sont directionnels plutôt qu’exhaustifs. Mais la direction est assez claire. Les agents d’IA d’entreprise se heurtent à la réalité suivante : les modèles de langage interprètent du texte, et le web contient du texte écrit par des attaquants. À mesure que davantage d’entreprises se hâtent d’industrialiser les agents, la question de sécurité la plus importante n’est peut-être plus ce que le modèle peut faire, mais ce qu’on peut le piéger à faire.

Cet article s’appuie sur un reportage de AI News. Lire l’article original.