Un modelo de frontera se orienta primero a la defensa
Anthropic afirma que está entregando una versión preliminar de un nuevo modelo de IA a una coalición de organizaciones tecnológicas y de seguridad como parte de un esfuerzo de ciberseguridad destinado a encontrar debilidades en infraestructuras de software críticas antes de que lo hagan los atacantes.
La iniciativa, llamada Project Glasswing, reúne a empresas y organizaciones entre las que figuran Amazon, Apple, Broadcom, Cisco, CrowdStrike, la Linux Foundation, Microsoft y Palo Alto Networks. Anthropic dijo que el modelo se utilizará para trabajo de seguridad defensiva y que los hallazgos se compartirán de forma más amplia en toda la industria.
La medida refleja una tensión creciente en el centro del desarrollo de la IA. Los modelos más capaces pueden aumentar el riesgo de abuso cibernético ofensivo, pero también pueden dar a los defensores nuevas herramientas para descubrir vulnerabilidades a una escala y con una profundidad que las pruebas convencionales no logran igualar.
Lo que Anthropic dice que puede hacer el modelo
Según el informe, Anthropic descubrió sólidas aplicaciones de seguridad mientras entrenaba lo que llamó “Claude Mythos Preview” para tareas de programación y razonamiento. La empresa afirmó que el modelo ya ha identificado miles de vulnerabilidades de día cero en las últimas semanas, muchas de ellas críticas.
Entre los ejemplos que citó Anthropic hubo un error de 27 años en OpenBSD y una falla de 16 años en un software de video de uso extendido que las herramientas de pruebas automatizadas no habían detectado. La empresa también describió pruebas internas contra 1.000 repositorios de código abierto en las que Mythos Preview produjo resultados de fallos mucho más graves que los de modelos anteriores.
En la descripción de Anthropic, la generación anterior produjo muchos fallos de nivel inferior y solo un fallo de nivel 3, mientras que Mythos Preview generó 595 fallos en los niveles 1 y 2, algunos en los niveles 3 y 4, y secuestros completos del flujo de control en 10 objetivos completamente parcheados. Anthropic dijo que el modelo no fue entrenado específicamente para realizar esos exploits y que la capacidad surgió de mejoras más amplias en programación, razonamiento y comportamiento autónomo.
Por qué el foco está en el software crítico
Project Glasswing se centra en la infraestructura de software crítica porque las fallas en bases ampliamente utilizadas pueden extenderse a gobiernos, empresas y ecosistemas de código abierto. Anthropic afirmó que está ampliando el acceso más allá del grupo inicial de socios hasta unas 40 organizaciones adicionales que construyen o mantienen software crítico.
La empresa también se compromete a aportar hasta 100 millones de dólares en créditos de uso del modelo y 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto. Esa combinación sugiere un esfuerzo no solo por demostrar la capacidad del modelo, sino por impulsar un flujo de trabajo defensivo en torno al software que sustenta gran parte de la economía digital.
Si el modelo puede identificar de forma fiable vulnerabilidades que han sobrevivido durante años dentro de bases de código maduras, entonces su valor podría ser mayor precisamente donde el software es más antiguo, más confiable y más difícil de auditar de manera exhaustiva con las herramientas existentes.
La naturaleza de doble filo de una IA más potente
El anuncio llega en medio de una preocupación creciente de que los modelos avanzados podrían hacer que los ciberataques sean más sofisticados. Anthropic reconoció directamente esa tensión y argumentó que las capacidades de frontera podrían avanzar de forma sustancial en los próximos meses, por lo que los defensores deben actuar con rapidez si quieren mantenerse al ritmo.
Esa formulación es importante. Anthropic no presenta al modelo simplemente como una ayuda de productividad para investigadores de seguridad. Lo presenta como parte de una carrera entre capacidad ofensiva y defensiva, una en la que el retraso podría favorecer a los atacantes.
También hay un argumento implícito de política en la estructura del comunicado. La vista previa es limitada, no está disponible de forma general y está vinculada a una misión de seguridad definida. Eso sugiere que Anthropic intenta demostrar una vía de despliegue controlado para sistemas de alta capacidad en ámbitos donde la ventaja potencial es real, pero el riesgo de uso indebido también es inusualmente alto.
Un modelo emergente para el despliegue de seguridad en IA
La iniciativa podría resultar significativa incluso más allá del propio sistema de Anthropic. Si Project Glasswing tiene éxito, podría convertirse en una plantilla de cómo los laboratorios de frontera introducen capacidades sensibles: acceso limitado, socios verificados, uso delimitado por misión y la expectativa de que los resultados se compartan hacia afuera en lugar de acapararse.
Anthropic también dijo que ha mantenido conversaciones continuas con funcionarios del gobierno de Estados Unidos sobre las capacidades cibernéticas ofensivas y defensivas del modelo. Ese detalle apunta a otra realidad que ahora da forma al sector: la ciberseguridad ya no es una aplicación secundaria para los laboratorios de IA avanzados. Se está convirtiendo rápidamente en una de las pruebas centrales de cómo se gobernarán, evaluarán e integrarán estos sistemas en infraestructuras críticas.
Por ahora, la afirmación de la empresa es clara. Cree que la capacidad de clase Mythos puede fortalecer materialmente la defensa de software, y está intentando demostrar esa proposición en colaboración con algunas de las instituciones más grandes de la tecnología.
Qué observar después
La siguiente fase importará más que el titular. Las preguntas centrales son si las organizaciones asociadas validarán las afirmaciones de Anthropic en flujos de trabajo reales, si las vulnerabilidades descubiertas se corregirán y divulgarán de forma eficaz, y si la misma clase de modelo puede mantenerse alineada con un uso defensivo a medida que las capacidades sigan mejorando.
Las empresas de IA han pasado los últimos dos años argumentando que sus sistemas transformarán la programación. Project Glasswing pone a prueba una propuesta más estrecha y difícil: si pueden transformar la seguridad del software de formas que reduzcan de manera significativa el riesgo antes de que los adversarios alcancen ese nivel.
Este artículo se basa en un reportaje de Fast Company. Leer el artículo original.




