GPT-5.5 iguala a Mythos Preview en pruebas de ciberseguridad de IA en el Reino Unido

Nuevos resultados de referencia reducen la distancia entre la narrativa de seguridad de la IA y el rendimiento medido

Nuevas pruebas de ciberseguridad del Instituto de Seguridad de IA del Reino Unido están complicando una de las narrativas más sonoras recientes en la IA de frontera: la idea de que Mythos Preview de Anthropic representa una amenaza cibernética singularmente elevada. Según los nuevos resultados, GPT-5.5 de OpenAI alcanzó un nivel de rendimiento similar en las evaluaciones cibernéticas del instituto, lo que sugiere que Mythos podría ser menos un salto aislado que una señal de progreso más amplio de los modelos.

Esa es la conclusión central que reporta Ars Technica a partir de los hallazgos del AISI. Importa porque Anthropic había destacado previamente el riesgo inusual de ciberseguridad de Mythos Preview y limitó su lanzamiento inicial a socios críticos de la industria. La nueva comparación no dice que esos riesgos sean irreales. Dice que capacidades comparables ya podrían estar emergiendo en varios modelos de primer nivel a medida que mejoran la autonomía de largo plazo, el razonamiento y la programación.

Qué midieron las pruebas

Desde 2023, el AISI ha sometido a sistemas de IA de frontera a 95 desafíos Capture the Flag diseñados para evaluar capacidades de ciberseguridad en áreas como ingeniería inversa, explotación web y criptografía. No son impresiones vagas de la competencia de un modelo. Son evaluaciones basadas en tareas, pensadas para mostrar hasta dónde pueden llegar los sistemas en trabajos cibernéticos ofensivos concretos.

En las tareas de nivel más alto, “Expert”, GPT-5.5 obtuvo un promedio de 71.4 por ciento, ligeramente por encima del 68.6 por ciento de Mythos Preview y dentro del margen de error. Ese encuadre es importante. El resultado no establece un ganador decisivo. Establece paridad en un nivel lo bastante alto como para cuestionar la idea de que solo un modelo ha cruzado una nueva categoría de riesgo.

News

La Academia de Artes y Ciencias Cinematográficas dice que las interpretaciones y los guiones generados por IA no podrán optar al Óscar, incluso cuando los cineastas siguen usando herramientas de IA en la producción.

DT Editorial AI·May 3, 2026·via engadget.com

News

Meta ha adquirido Assured Robot Intelligence, incorporando a sus fundadores y equipo a Superintelligence Labs mientras la compañía afina su enfoque en software, control de robots y sistemas humanoides de cuerpo completo.

DT Editorial AI·May 3, 2026·via engadget.com

News

Tesla vuelve a vender en Canadá sedanes Model 3 fabricados en Shanghái, reduciendo drásticamente el precio de entrada tras cambios arancelarios que alteraron la economía de importar desde Estados Unidos y China.

DT Editorial AI·May 3, 2026·via engadget.com

News

OpenAI ha presentado compañeros animados opcionales para Codex que muestran el estado de las tareas, la actividad de los hilos y las solicitudes de intervención del usuario sin obligar a los desarrolladores a salir de su espacio de trabajo actual.

Por qué importa ahora

La verdadera importancia del resultado de GPT-5.5 no es el derecho a presumir. Es la evidencia de que la capacidad cibernética avanzada se está distribuyendo de forma más amplia entre los modelos líderes. Eso cambia cómo los laboratorios, los reguladores y los usuarios empresariales deberían pensar sobre evaluación, control de acceso, red teaming y preparación ante incidentes. También eleva el listón de las discusiones empíricas sobre seguridad. Las empresas pueden hacer afirmaciones dramáticas sobre la singularidad de un modelo, pero las pruebas comparativas ofrecen cada vez más un control sobre esas narrativas.

Por ahora, la evidencia disponible respalda una conclusión más estrecha pero igualmente relevante. GPT-5.5 rindió aproximadamente al mismo nivel que Mythos Preview en las evaluaciones cibernéticas del AISI, lo superó ligeramente en algunas mediciones y siguió el patrón más amplio de modelos de frontera que se vuelven más capaces en tareas técnicas sostenidas. La brecha del bombo puede estar reduciéndose. La curva de capacidad, sin embargo, parece seguir subiendo.

Este artículo se basa en reportes de Ars Technica. Leer el artículo original.

GPT-5.5 iguala a Mythos Preview en pruebas británicas de ciberseguridad, desafiando la brecha del bombo

Nuevos resultados de referencia reducen la distancia entre la narrativa de seguridad de la IA y el rendimiento medido

Qué midieron las pruebas

Related Articles

Keep Reading

Amazon enfrenta meses de recuperación tras daños por drones en centros de datos de Medio Oriente

Un rendimiento cada vez más operativo

Los límites siguen importando

Un estudio encuentra que una IA más cálida puede ser menos fiable

El debate sobre cómo las empresas hablan del riesgo

Por qué importa ahora

El modelo más barato del Mac mini de Apple parece desaparecer mientras la demanda de IA reconfigura la gama

Comments (0)

Las pruebas del juicio Musk-Altman revelan las primeras luchas de poder en OpenAI

La Academia traza una línea en torno a la autoría humana mientras la IA llega a la temporada de premios

Meta compra la startup de IA robótica ARI para profundizar su apuesta por los humanoides

Tesla reabre en Canadá una vía de bajo costo para el Model 3 a través de importaciones desde Shanghái

OpenAI agrega mascotas generadas por IA a Codex como una nueva capa para la visibilidad de agentes