A história de cibersegurança da Anthropic encontra pressão de replicação

A Anthropic apresentou o Claude Mythos como um modelo de cibersegurança rigidamente controlado, com capacidades fortes o suficiente para justificar acesso restrito. De acordo com o texto-fonte fornecido, a empresa limitou o Mythos Preview por meio do Project Glasswing a um consórcio de onze organizações, citando potencial ofensivo. Testes internos e uma auditoria do AI Security Institute do Reino Unido teriam constatado que o modelo podia localizar bugs de software, construir exploits funcionais por conta própria e comprometer redes corporativas inteiras em simulação, desde que essas redes fossem pequenas, pouco protegidas e vulneráveis.

Esse é um conjunto sério de alegações, e o novo desenvolvimento não é que elas tenham sido refutadas. É que partes da narrativa de exclusividade agora estão sendo contestadas. Dois esforços independentes de replicação descritos na fonte sugerem que modelos menores e mais abertos podem reproduzir grande parte da análise de vulnerabilidades que a Anthropic mostrou publicamente.

Essa distinção importa. O debate está mudando de se o Mythos é capaz para se as capacidades demonstradas são realmente únicas.

O que os esforços de replicação encontraram

O primeiro esforço de replicação veio da AISLE, uma empresa que vem conduzindo caça a bugs assistida por IA em software de código aberto desde meados de 2025. A fonte diz que a AISLE relatou 15 vulnerabilidades no OpenSSL e cinco no curl. O fundador Stanislav Fort teria usado trechos de código das amostras públicas da Anthropic para testar até onde uma série de modelos menores e parcialmente abertos poderia chegar sozinha.

O segundo esforço veio da Vidoc Security, que combinou GPT-5.4 e Claude Opus 4.6 com o agente de codificação aberto OpenCode. Juntos, esses estudos tentam responder a uma pergunta prática: quando a Anthropic demonstra uma capacidade impressionante de encontrar bugs ou raciocinar sobre exploits, quanto desse desempenho é exclusivo do Mythos e quanto reflete uma fronteira de capacidade que está se ampliando em todo o panorama de modelos?

A resposta inicial do texto-fonte parece ser que a fronteira pode ser mais ampla do que os controles de acesso da Anthropic sugerem.