Novos resultados de benchmark reduzem a distância entre a narrativa de segurança em IA e o desempenho medido

Novos testes de cibersegurança do Instituto de Segurança de IA do Reino Unido estão complicando uma das narrativas mais barulhentas recentes na IA de fronteira: a ideia de que o Mythos Preview da Anthropic representa uma ameaça cibernética singularmente elevada. Segundo os novos resultados, o GPT-5.5 da OpenAI alcançou um nível de desempenho semelhante nas avaliações cibernéticas do instituto, sugerindo que o Mythos pode ser menos um salto isolado e mais um sinal de progresso mais amplo dos modelos.

Essa é a conclusão central reportada pela Ars Technica a partir dos achados do AISI. Isso importa porque a Anthropic havia enfatizado anteriormente o risco incomum de cibersegurança do Mythos Preview e limitado seu lançamento inicial a parceiros críticos da indústria. A nova comparação não diz que esses riscos são irreais. Ela diz que capacidades comparáveis já podem estar surgindo em vários modelos de ponta à medida que autonomia de longo prazo, raciocínio e programação melhoram.

O que os testes mediram

Desde 2023, o AISI vem submetendo sistemas de IA de fronteira a 95 desafios Capture the Flag projetados para testar capacidades de cibersegurança em áreas como engenharia reversa, exploração web e criptografia. Não são impressões vagas sobre a competência de um modelo. São avaliações baseadas em tarefas, destinadas a revelar até onde os sistemas conseguem ir em trabalhos cibernéticos ofensivos concretos.

Nas tarefas de nível mais alto, “Expert”, o GPT-5.5 obteve média de 71.4 por cento, ligeiramente acima dos 68.6 por cento do Mythos Preview e dentro da margem de erro. Esse enquadramento é importante. O resultado não estabelece um vencedor decisivo. Ele estabelece paridade em um nível alto o bastante para desafiar a ideia de que apenas um modelo cruzou para uma nova categoria de risco.