De nouveaux résultats de benchmark réduisent l’écart entre le récit sur la sécurité de l’IA et les performances mesurées
De nouveaux tests de cybersécurité menés par l’Institute of AI Security du Royaume-Uni compliquent l’un des récits récents les plus bruyants dans l’IA de pointe : l’idée que Mythos Preview d’Anthropic représente une menace cybernétique singulièrement élevée. Selon ces nouveaux résultats, GPT-5.5 d’OpenAI a atteint un niveau de performance similaire dans les évaluations cyber de l’institut, ce qui suggère que Mythos pourrait être moins un saut unique qu’un signe d’un progrès plus large des modèles.
C’est la conclusion centrale rapportée par Ars Technica à partir des résultats de l’AISI. Cela compte parce qu’Anthropic avait auparavant insisté sur le risque inédit de cybersécurité de Mythos Preview et limité son lancement initial à des partenaires industriels critiques. La nouvelle comparaison ne dit pas que ces risques sont irréels. Elle dit que des capacités comparables pourraient déjà émerger dans plusieurs modèles de premier plan à mesure que l’autonomie à long terme, le raisonnement et le codage progressent.
Ce que les tests ont mesuré
Depuis 2023, l’AISI soumet des systèmes d’IA de pointe à 95 défis Capture the Flag conçus pour sonder les capacités de cybersécurité dans des domaines comme l’ingénierie inverse, l’exploitation web et la cryptographie. Il ne s’agit pas d’impressions vagues de la compétence d’un modèle. Ce sont des évaluations fondées sur des tâches, destinées à révéler jusqu’où les systèmes peuvent aller dans des travaux cyber offensifs concrets.
Dans les tâches de plus haut niveau, « Expert », GPT-5.5 a obtenu en moyenne 71.4 pour cent, légèrement au-dessus des 68.6 pour cent de Mythos Preview et dans la marge d’erreur. Ce cadrage est important. Le résultat n’établit pas un vainqueur décisif. Il établit une parité à un niveau suffisamment élevé pour remettre en cause l’idée qu’un seul modèle serait passé dans une nouvelle catégorie de risque.








