Avaliar uma fronteira de capacidades mais perigosa
Pesquisadores da Carnegie Mellon University apresentaram um novo benchmark projetado para testar até onde agentes de IA conseguem ir ao explorar vulnerabilidades reais no mecanismo JavaScript V8 do Google. O resultado, segundo o texto-fonte fornecido pelo The Decoder, oferece uma imagem mais concreta do comportamento de modelos de fronteira em segurança ofensiva: alguns sistemas já não estão apenas identificando bugs ou provocando crashes, mas avançando em direção à execução completa de código.
O benchmark é importante porque mede o desempenho em etapas, em vez de reduzir os resultados a um simples teste de aprovado ou reprovado. Como descrito na fonte, o framework atribui pontuações aos agentes em cinco níveis, terminando com a execução arbitrária de código no sistema-alvo. Essa estrutura oferece uma visão mais realista do que um modelo autônomo ou semiautônomo realmente pode realizar durante um fluxo de trabalho de desenvolvimento de exploit.
Claude Mythos lidera, GPT-5.5 fica atrás
O principal resultado relatado é uma grande diferença entre os dois sistemas líderes no teste. O Claude Mythos Preview da Anthropic, com ocasionais intervenções humanas, alcançou uma pontuação média de 9.90 em 16 e chegou ao nível mais alto em 21 de 41 vulnerabilidades. O GPT-5.5 da OpenAI marcou 5.51 e alcançou o nível mais alto em apenas duas dessas vulnerabilidades.
A diferença permaneceu ampla no modo totalmente autônomo. O Mythos registrou 9.55 pontos com pouca queda, enquanto o GPT-5.5 via Codex conseguiu 4.30. A fonte diz que nenhum outro modelo testado atingiu execução completa de código. Se esses números se mantiverem sob escrutínio mais amplo, eles sugerem que a fronteira das capacidades dos modelos em tarefas ofensivas de cibersegurança está se separando do restante do campo mais rapidamente do que muitas avaliações públicas mostraram.
O custo muda a interpretação
O benchmark não aponta para um vencedor simples. O texto-fonte do The Decoder enfatiza que o desempenho do Mythos veio a um preço alto. Uma execução completa do Mythos em 122 episódios teria custado cerca de 36,428 dólares, enquanto o GPT-5.5 executou 123 episódios por aproximadamente 3,075 dólares. Isso representa uma diferença de cerca de doze vezes.
Isso importa porque capacidade sem contexto de custo pode ser enganosa. Um modelo que apresenta desempenho muito melhor, mas exige muito mais gasto, nem sempre será a história mais importante, especialmente se um concorrente mais barato puder melhorar com mais computação ou tempos de execução mais longos. O artigo destaca exatamente essa possibilidade, sugerindo que a OpenAI poderia potencialmente reduzir a diferença ao alocar mais computação para a tarefa.
Por que o V8 é um alvo importante
O foco no V8 eleva as apostas. A fonte observa que o V8 alimenta Chrome, Edge, Node.js e Cloudflare Workers, tornando-o um dos mecanismos de software mais consequentes da internet moderna. Um benchmark ligado a vulnerabilidades reais do V8, portanto, diz mais sobre implicações práticas de segurança do que um ambiente de brinquedo ou um desafio estilo quebra-cabeça.
Essa também é a razão pela qual o design em níveis é notável. Ele reflete a diferença entre encontrar um problema e transformá-lo em arma. Em trabalho de segurança, essa distinção é tudo. Um agente capaz de raciocinar pelos passos desde a descoberta do bug até a exploração bem-sucedida opera em uma categoria de risco muito diferente de um que apenas consegue apontar padrões de código suspeitos.
Comparações com nível humano exigem cautela
O texto-fonte diz que Seunghyun Lee, coautor do ExploitBench e pesquisador de segurança experiente com mais de 20 vulnerabilidades de navegador reportadas, revisou os resultados e considerou o Mythos no mesmo nível de um pesquisador humano competente em segurança de navegadores. É uma afirmação marcante, mas deve ser lida com cuidado. Benchmarks podem revelar capacidade real e ainda assim deixar perguntas em aberto sobre confiabilidade, reprodutibilidade e como os modelos se saem fora de um ambiente estruturado de avaliação.
Mesmo assim, a direção é difícil de ignorar. O benchmark sugere que pelo menos alguns sistemas de IA de fronteira estão se aproximando do desenvolvimento de exploits de ponta a ponta em um grande mecanismo de software. Os argumentos restantes cada vez mais giram em torno de grau, custo e restrições operacionais, e não sobre se a trajetória existe.
Para formuladores de políticas, operadores de plataformas e laboratórios, isso muda a conversa. A questão mais importante pode não ser mais se os modelos podem ajudar em trabalho ofensivo de cibersegurança, mas quão rápido essa ajuda se torna mais barata, mais autônoma e mais amplamente disponível.
Este artigo é baseado na reportagem do The Decoder. Leia o artigo original.
Originally published on the-decoder.com


