Évaluer une frontière de capacités plus dangereuse

Des chercheurs de Carnegie Mellon University ont présenté un nouveau benchmark conçu pour tester jusqu’où des agents d’IA peuvent aller lorsqu’ils exploitent de véritables vulnérabilités du moteur JavaScript V8 de Google. Le résultat, selon le texte source fourni par The Decoder, offre une image plus concrète du comportement des modèles de pointe en sécurité offensive : certains systèmes ne se contentent plus d’identifier des bugs ou de déclencher des plantages, mais progressent vers l’exécution complète de code.

Ce benchmark est important parce qu’il mesure les performances par étapes, au lieu de réduire les résultats à un simple test réussi ou échoué. Comme décrit dans la source, le cadre attribue des scores aux agents sur cinq niveaux, jusqu’à l’exécution arbitraire de code sur le système cible. Cette structure donne une vision plus réaliste de ce qu’un modèle autonome ou semi-autonome peut réellement accomplir pendant un flux de travail de développement d’exploit.

Claude Mythos en tête, GPT-5.5 décroche

Le principal résultat rapporté est un écart important entre les deux systèmes les plus performants du test. Claude Mythos Preview d’Anthropic, avec quelques interventions humaines ponctuelles, a obtenu un score moyen de 9.90 sur 16 et atteint le niveau le plus élevé sur 21 des 41 vulnérabilités. GPT-5.5 d’OpenAI a obtenu 5.51 et n’a atteint ce niveau que sur deux de ces vulnérabilités.

L’écart est resté large en mode entièrement autonome. Mythos a affiché 9.55 points avec une faible baisse, tandis que GPT-5.5 via Codex n’a obtenu que 4.30. La source indique qu’aucun autre modèle testé n’a atteint l’exécution complète de code. Si ces chiffres résistent à un examen plus large, ils suggèrent que la pointe des capacités des modèles dans les tâches offensives de cybersécurité se détache du reste du peloton plus vite que beaucoup d’évaluations publiques ne l’ont montré.

Le coût change l’interprétation

Le benchmark ne désigne pas un vainqueur simple. Le texte source de The Decoder souligne que la performance de Mythos a eu un coût élevé. Une exécution complète de Mythos sur 122 épisodes aurait coûté environ 36,428 dollars, tandis que GPT-5.5 a exécuté 123 épisodes pour environ 3,075 dollars. Cela représente un écart d’environ douze fois.

Cela compte, car une capacité sans contexte de coût peut être trompeuse. Un modèle bien plus performant mais qui exige beaucoup plus de dépenses ne sera pas toujours l’histoire la plus importante, surtout si un concurrent moins cher peut s’améliorer en utilisant davantage de calcul ou des durées d’exécution plus longues. L’article souligne précisément cette possibilité, en suggérant qu’OpenAI pourrait éventuellement réduire l’écart en allouant plus de calcul à la tâche.

Pourquoi V8 est une cible importante

Le fait de se concentrer sur V8 augmente les enjeux. La source note que V8 alimente Chrome, Edge, Node.js et Cloudflare Workers, ce qui en fait l’un des moteurs logiciels les plus influents de l’internet moderne. Un benchmark lié à de vraies vulnérabilités V8 en dit donc plus sur les implications pratiques en matière de sécurité qu’un environnement jouet ou un défi de type puzzle.

C’est aussi pourquoi la conception par paliers est remarquable. Elle reflète la différence entre découvrir un problème et le transformer en arme. Dans le travail de sécurité, cette distinction est essentielle. Un agent capable de raisonner à travers les étapes, de la découverte du bug à l’exploitation réussie, opère dans une catégorie de risque très différente de celui qui peut seulement signaler des motifs de code suspects.

Les comparaisons au niveau humain exigent de la prudence

Le texte source indique que Seunghyun Lee, co-auteur d’ExploitBench et chercheur en sécurité expérimenté avec plus de 20 vulnérabilités de navigateur signalées, a examiné les résultats et a jugé Mythos comparable à un chercheur humain compétent en sécurité des navigateurs. C’est une affirmation frappante, mais elle doit être lue avec prudence. Les benchmarks peuvent mettre en lumière une capacité réelle tout en laissant ouvertes des questions sur la fiabilité, la reproductibilité et la manière dont les modèles se comportent hors d’un cadre d’évaluation structuré.

Malgré cela, la direction est difficile à ignorer. Le benchmark suggère qu’au moins certains systèmes d’IA de pointe se rapprochent du développement d’exploits de bout en bout dans un grand moteur logiciel. Les débats restants portent de plus en plus sur le degré, le coût et les contraintes opérationnelles, et non sur l’existence de cette trajectoire.

Pour les décideurs, les opérateurs de plateformes et les laboratoires, cela déplace la discussion. La question la plus importante n’est peut-être plus de savoir si les modèles peuvent aider dans le travail offensif de cybersécurité, mais à quelle vitesse cette aide devient moins coûteuse, plus autonome et plus largement disponible.

Cet article s’appuie sur un reportage de The Decoder. Lire l’article original.

Originally published on the-decoder.com