Evaluar una frontera de capacidades más peligrosa

Investigadores de la Universidad Carnegie Mellon han presentado un nuevo benchmark diseñado para medir hasta dónde pueden llegar los agentes de IA al explotar vulnerabilidades reales en el motor JavaScript V8 de Google. El resultado, según el texto fuente proporcionado por The Decoder, ofrece una imagen más concreta del comportamiento de los modelos de frontera en seguridad ofensiva: algunos sistemas ya no se limitan a identificar errores o provocar fallos, sino que avanzan hacia la ejecución completa de código.

El benchmark es importante porque mide el rendimiento por etapas, en lugar de reducir los resultados a una simple prueba de aprobado o suspenso. Como se describe en la fuente, el marco puntúa a los agentes en cinco niveles, culminando en la ejecución arbitraria de código en el sistema objetivo. Esa estructura ofrece una visión más realista de lo que un modelo autónomo o semiautónomo puede lograr realmente durante un flujo de trabajo de desarrollo de exploits.

Claude Mythos lidera, GPT-5.5 queda atrás

El resultado principal informado es una gran brecha entre los dos sistemas líderes en la prueba. Claude Mythos Preview de Anthropic, con empujones ocasionales de humanos, alcanzó una puntuación media de 9.90 sobre 16 y llegó al nivel superior en 21 de 41 vulnerabilidades. GPT-5.5 de OpenAI obtuvo 5.51 y alcanzó el nivel superior solo en dos de esas vulnerabilidades.

La brecha siguió siendo amplia en modo totalmente autónomo. Mythos registró 9.55 puntos con una caída mínima, mientras que GPT-5.5 a través de Codex logró 4.30. La fuente dice que ningún otro modelo probado logró ejecución completa de código. Si esas cifras resisten un escrutinio más amplio, sugieren que la vanguardia de la capacidad de los modelos en tareas ofensivas de ciberseguridad se está separando del resto del campo más rápido de lo que muchas evaluaciones públicas han mostrado.

El costo cambia la interpretación

El benchmark no apunta a un ganador simple. El texto fuente de The Decoder enfatiza que el rendimiento de Mythos tuvo un precio elevado. Una ejecución completa de Mythos en 122 episodios habría costado unos 36,428 dólares, mientras que GPT-5.5 ejecutó 123 episodios por aproximadamente 3,075 dólares. Eso supone una diferencia de unas doce veces.

Esto importa porque la capacidad sin contexto de costo puede ser engañosa. Un modelo que rinde mucho mejor pero requiere un gasto mucho mayor no siempre será la historia más importante, especialmente si un competidor más barato puede mejorar usando más cómputo o tiempos de ejecución más largos. El artículo señala precisamente esa posibilidad, sugiriendo que OpenAI podría potencialmente cerrar la brecha asignando más cómputo a la tarea.

Por qué V8 es un objetivo importante

El enfoque en V8 eleva las apuestas. La fuente señala que V8 impulsa Chrome, Edge, Node.js y Cloudflare Workers, lo que lo convierte en uno de los motores de software más influyentes de la Internet moderna. Un benchmark vinculado a vulnerabilidades reales de V8, por tanto, dice más sobre implicaciones prácticas de seguridad que un entorno de juguete o un reto tipo rompecabezas.

Esa también es la razón por la que el diseño por niveles resulta notable. Refleja la diferencia entre encontrar un problema y convertirlo en un arma. En el trabajo de seguridad, esa distinción lo es todo. Un agente que puede razonar a través de los pasos desde el descubrimiento del error hasta la explotación exitosa opera en una categoría de riesgo muy distinta a la de uno que solo puede señalar patrones de código sospechosos.

Las comparaciones con nivel humano requieren cautela

El texto fuente dice que Seunghyun Lee, coautor de ExploitBench y un investigador de seguridad con experiencia y más de 20 vulnerabilidades de navegador reportadas, revisó los resultados y consideró que Mythos está al nivel de un investigador humano competente en seguridad de navegadores. Es una afirmación llamativa, pero debe leerse con cuidado. Los benchmarks pueden revelar capacidad real y aun así dejar abiertas preguntas sobre fiabilidad, reproducibilidad y el desempeño de los modelos fuera de un entorno de evaluación estructurado.

Aun así, la dirección es difícil de ignorar. El benchmark sugiere que al menos algunos sistemas de IA de frontera se están acercando al desarrollo de exploits de extremo a extremo en un motor de software importante. Los argumentos restantes giran cada vez más en torno al grado, al costo y a las restricciones operativas, no a si la trayectoria existe.

Para legisladores, operadores de plataformas y laboratorios, eso cambia la conversación. La pregunta más importante quizá ya no sea si los modelos pueden ayudar en trabajos de ciberseguridad ofensiva, sino con qué rapidez esa ayuda se vuelve más barata, más autónoma y más ampliamente disponible.

Este artículo se basa en el reportaje de The Decoder. Leer el artículo original.

Originally published on the-decoder.com