GPT-5.5 iguala o Mythos Preview em testes de cibersegurança de IA no Reino Unido

Novos resultados de benchmark reduzem a distância entre a narrativa de segurança em IA e o desempenho medido

Novos testes de cibersegurança do Instituto de Segurança de IA do Reino Unido estão complicando uma das narrativas mais barulhentas recentes na IA de fronteira: a ideia de que o Mythos Preview da Anthropic representa uma ameaça cibernética singularmente elevada. Segundo os novos resultados, o GPT-5.5 da OpenAI alcançou um nível de desempenho semelhante nas avaliações cibernéticas do instituto, sugerindo que o Mythos pode ser menos um salto isolado e mais um sinal de progresso mais amplo dos modelos.

Essa é a conclusão central reportada pela Ars Technica a partir dos achados do AISI. Isso importa porque a Anthropic havia enfatizado anteriormente o risco incomum de cibersegurança do Mythos Preview e limitado seu lançamento inicial a parceiros críticos da indústria. A nova comparação não diz que esses riscos são irreais. Ela diz que capacidades comparáveis já podem estar surgindo em vários modelos de ponta à medida que autonomia de longo prazo, raciocínio e programação melhoram.

O que os testes mediram

Desde 2023, o AISI vem submetendo sistemas de IA de fronteira a 95 desafios Capture the Flag projetados para testar capacidades de cibersegurança em áreas como engenharia reversa, exploração web e criptografia. Não são impressões vagas sobre a competência de um modelo. São avaliações baseadas em tarefas, destinadas a revelar até onde os sistemas conseguem ir em trabalhos cibernéticos ofensivos concretos.

Nas tarefas de nível mais alto, “Expert”, o GPT-5.5 obteve média de 71.4 por cento, ligeiramente acima dos 68.6 por cento do Mythos Preview e dentro da margem de erro. Esse enquadramento é importante. O resultado não estabelece um vencedor decisivo. Ele estabelece paridade em um nível alto o bastante para desafiar a ideia de que apenas um modelo cruzou para uma nova categoria de risco.

News

A Academia de Artes e Ciências Cinematográficas diz que performances geradas por IA e roteiros escritos por IA não serão elegíveis ao Oscar, mesmo com cineastas continuando a usar ferramentas de IA na produção.

DT Editorial AI·May 3, 2026·via engadget.com

News

A Meta adquiriu a Assured Robot Intelligence, levando seus fundadores e equipe para a Superintelligence Labs enquanto a empresa reforça seu foco em software, controle de robôs e sistemas humanoides de corpo inteiro.

DT Editorial AI·May 3, 2026·via engadget.com

News

A Tesla voltou a vender sedãs Model 3 fabricados em Xangai no Canadá, reduzindo drasticamente o preço de entrada depois que mudanças tarifárias alteraram a economia de importar dos EUA e da China.

DT Editorial AI·May 3, 2026·via engadget.com

News

A OpenAI introduziu companheiros animados opcionais para o Codex que exibem o status das tarefas, a atividade das conversas e pedidos de entrada do usuário sem obrigar os desenvolvedores a sair do ambiente de trabalho atual.

Por que isso importa agora

A verdadeira importância do resultado do GPT-5.5 não é o direito de se gabar. É a evidência de que a capacidade cibernética avançada está se tornando mais amplamente distribuída entre os principais modelos. Isso muda como laboratórios, reguladores e usuários corporativos devem pensar em avaliação, controle de acesso, red teaming e preparação para incidentes. Também eleva o nível das discussões empíricas sobre segurança. Empresas podem fazer alegações dramáticas sobre a singularidade de um modelo, mas testes comparativos oferecem cada vez mais um controle sobre essas narrativas.

Por ora, as evidências disponíveis sustentam uma conclusão mais estreita, mas ainda relevante. O GPT-5.5 teve desempenho aproximadamente no mesmo nível do Mythos Preview nas avaliações cibernéticas do AISI, superou-o levemente em algumas métricas e acompanhou o padrão mais amplo de modelos de fronteira se tornando mais capazes em tarefas técnicas sustentadas. A distância do hype pode estar diminuindo. A curva de capacidade, no entanto, ainda parece estar subindo.

Este artigo é baseado na reportagem da Ars Technica. Leia o artigo original.

GPT-5.5 iguala o Mythos Preview em testes britânicos de cibersegurança, desafiando a distância do hype

Novos resultados de benchmark reduzem a distância entre a narrativa de segurança em IA e o desempenho medido

O que os testes mediram

Related Articles

Keep Reading

Amazon enfrenta meses de recuperação após danos de drones atingirem data centers no Oriente Médio

Desempenho cada vez mais operacional

Os limites ainda importam

IA Mais Quente Pode Ser Menos Confiável, Indica Estudo

O debate sobre como as empresas falam de risco

Por que isso importa agora

O Mac mini mais barato da Apple parece ter desaparecido enquanto a demanda por IA redesenha a linha

Comments (0)

Provas do julgamento Musk-Altman expõem as primeiras disputas de poder na OpenAI

A Academia traça uma linha em torno da autoria humana enquanto a IA chega à temporada de premiações

Meta compra a startup de IA em robótica ARI para aprofundar sua aposta em humanoides

Tesla reabre no Canadá um caminho de baixo custo para o Model 3 por meio de importações de Xangai

OpenAI adiciona pets gerados por IA ao Codex como uma nova camada de visibilidade de agentes