GPT-5.5 égale Mythos Preview dans les tests britanniques de cybersécurité IA

De nouveaux résultats de benchmark réduisent l’écart entre le récit sur la sécurité de l’IA et les performances mesurées

De nouveaux tests de cybersécurité menés par l’Institute of AI Security du Royaume-Uni compliquent l’un des récits récents les plus bruyants dans l’IA de pointe : l’idée que Mythos Preview d’Anthropic représente une menace cybernétique singulièrement élevée. Selon ces nouveaux résultats, GPT-5.5 d’OpenAI a atteint un niveau de performance similaire dans les évaluations cyber de l’institut, ce qui suggère que Mythos pourrait être moins un saut unique qu’un signe d’un progrès plus large des modèles.

C’est la conclusion centrale rapportée par Ars Technica à partir des résultats de l’AISI. Cela compte parce qu’Anthropic avait auparavant insisté sur le risque inédit de cybersécurité de Mythos Preview et limité son lancement initial à des partenaires industriels critiques. La nouvelle comparaison ne dit pas que ces risques sont irréels. Elle dit que des capacités comparables pourraient déjà émerger dans plusieurs modèles de premier plan à mesure que l’autonomie à long terme, le raisonnement et le codage progressent.

Ce que les tests ont mesuré

Depuis 2023, l’AISI soumet des systèmes d’IA de pointe à 95 défis Capture the Flag conçus pour sonder les capacités de cybersécurité dans des domaines comme l’ingénierie inverse, l’exploitation web et la cryptographie. Il ne s’agit pas d’impressions vagues de la compétence d’un modèle. Ce sont des évaluations fondées sur des tâches, destinées à révéler jusqu’où les systèmes peuvent aller dans des travaux cyber offensifs concrets.

Dans les tâches de plus haut niveau, « Expert », GPT-5.5 a obtenu en moyenne 71.4 pour cent, légèrement au-dessus des 68.6 pour cent de Mythos Preview et dans la marge d’erreur. Ce cadrage est important. Le résultat n’établit pas un vainqueur décisif. Il établit une parité à un niveau suffisamment élevé pour remettre en cause l’idée qu’un seul modèle serait passé dans une nouvelle catégorie de risque.

News

L’Académie des arts et des sciences du cinéma affirme que les performances générées par IA et les scénarios écrits par IA ne seront pas éligibles aux Oscars, même si les cinéastes continuent d’utiliser des outils d’IA en production.

DT Editorial AI·May 3, 2026·via engadget.com

News

Meta a acquis Assured Robot Intelligence, intégrant ses fondateurs et son équipe à Superintelligence Labs, tandis que l’entreprise affine son cap sur les logiciels, le contrôle des robots et les systèmes humanoïdes intégrés.

DT Editorial AI·May 3, 2026·via engadget.com

News

Tesla vend de nouveau au Canada des berlines Model 3 fabriquées à Shanghai, abaissant fortement le prix d’entrée après des changements de droits de douane qui ont modifié l’économie des importations depuis les États-Unis et la Chine.

DT Editorial AI·May 3, 2026·via engadget.com

News

OpenAI a introduit des compagnons animés optionnels pour Codex qui affichent l’état des tâches, l’activité des fils de discussion et les demandes de saisie utilisateur sans obliger les développeurs à quitter leur environnement de travail actuel.

Pourquoi cela compte maintenant

L’importance réelle du résultat de GPT-5.5 n’est pas le droit de se vanter. C’est la preuve que la capacité cyber avancée se diffuse plus largement parmi les modèles leaders. Cela change la manière dont les laboratoires, les régulateurs et les utilisateurs d’entreprise devraient penser l’évaluation, le contrôle d’accès, les red team et la préparation aux incidents. Cela élève aussi le niveau des discussions empiriques sur la sécurité. Les entreprises peuvent formuler des affirmations spectaculaires sur l’unicité d’un modèle, mais les tests comparatifs fournissent de plus en plus un contrepoids à ces récits.

Pour l’instant, les éléments disponibles soutiennent une conclusion plus étroite mais néanmoins importante. GPT-5.5 a obtenu des performances à peu près équivalentes à Mythos Preview dans les évaluations cyber de l’AISI, l’a légèrement dépassé sur certaines mesures, et a suivi le schéma général de modèles de pointe devenant plus capables sur des tâches techniques prolongées. L’écart de battage semble se réduire. La courbe des capacités, en revanche, paraît toujours en hausse.

Cet article est basé sur un reportage d’Ars Technica. Lire l’article original.

GPT-5.5 égalise Mythos Preview dans les tests britanniques de cybersécurité, remettant en cause l’écart de battage

De nouveaux résultats de benchmark réduisent l’écart entre le récit sur la sécurité de l’IA et les performances mesurées

Ce que les tests ont mesuré

Related Articles

Keep Reading

Amazon fait face à des mois de remise en état après des dégâts causés par des drones dans des centres de données au Moyen-Orient

Des performances de plus en plus opérationnelles

Les limites comptent toujours

Une IA plus chaleureuse peut être moins fiable, selon une étude

Le débat sur la manière dont les entreprises parlent du risque

Pourquoi cela compte maintenant

Le Mac mini le moins cher d’Apple semble disparaître tandis que la demande liée à l’IA redessine la gamme

Comments (0)

Les pièces du procès Musk-Altman révèlent les premières luttes de pouvoir chez OpenAI

L’Académie trace une ligne autour de l’auteur humain à l’heure où l’IA entre dans la saison des récompenses

Meta rachète la start-up d’IA robotique ARI pour renforcer son pari sur les humanoïdes

Tesla rouvre au Canada une voie à bas coût pour la Model 3 grâce à des importations de Shanghai

OpenAI ajoute des animaux de compagnie générés par IA à Codex comme nouvelle couche de visibilité des agents