Le récit cybersécurité d’Anthropic se heurte à la pression de la réplication

Anthropic a présenté Claude Mythos comme un modèle de cybersécurité étroitement contrôlé, doté de capacités suffisamment fortes pour justifier un accès restreint. Selon le texte source fourni, l’entreprise a limité Mythos Preview via Project Glasswing à un consortium de onze organisations, en invoquant un potentiel offensif. Des tests internes et un audit de l’AI Security Institute du Royaume-Uni auraient conclu que le modèle pouvait repérer des bugs logiciels, construire des exploits fonctionnels de manière autonome et compromettre des réseaux d’entreprise entiers en simulation, à condition que ces réseaux soient petits, peu défendus et vulnérables.

Cela constitue un ensemble d’affirmations sérieux, et la nouveauté n’est pas que ces affirmations aient été réfutées. C’est que des éléments du récit d’exclusivité sont désormais contestés. Deux efforts de réplication indépendants décrits dans la source suggèrent que des modèles plus petits et plus ouverts peuvent reproduire une grande partie de l’analyse des vulnérabilités qu’Anthropic a présentée publiquement.

La distinction est importante. Le débat passe de la question de savoir si Mythos est capable à celle de savoir si les capacités mises en avant sont réellement uniques.

Ce que les efforts de réplication ont trouvé

Le premier effort de réplication est venu d’AISLE, une entreprise qui mène depuis la mi-2025 une chasse aux bugs assistée par l’IA sur des logiciels open source. La source indique qu’AISLE a signalé 15 vulnérabilités dans OpenSSL et cinq dans curl. Le fondateur Stanislav Fort aurait utilisé des extraits de code provenant des exemples publics d’Anthropic pour tester jusqu’où une série de modèles plus petits et partiellement ouverts pouvaient aller par eux-mêmes.

Le second effort est venu de Vidoc Security, qui a associé GPT-5.4 et Claude Opus 4.6 à l’agent de codage open source OpenCode. Ensemble, ces études cherchent à répondre à une question pratique : lorsque Anthropic démontre une capacité impressionnante à détecter des bugs ou à raisonner sur des exploits, quelle part de cette performance est propre à Mythos, et quelle part reflète une frontière de capacités qui s’élargit dans l’ensemble du paysage des modèles ?

La réponse initiale du texte source semble être que la frontière est peut-être plus large que ne le laissent entendre les contrôles d’accès d’Anthropic.