La historia de ciberseguridad de Anthropic se enfrenta a la presión de la replicación
Anthropic ha presentado a Claude Mythos como un modelo de ciberseguridad fuertemente controlado, con capacidades lo bastante potentes como para justificar un acceso restringido. Según el texto fuente proporcionado, la empresa limitó Mythos Preview mediante Project Glasswing a un consorcio de once organizaciones, citando su potencial ofensivo. Pruebas internas y una auditoría del AI Security Institute del Reino Unido habrían encontrado que el modelo podía localizar errores de software, construir exploits funcionales por sí solo y comprometer redes corporativas enteras en simulación, siempre que esas redes fueran pequeñas, estuvieran poco defendidas y fueran vulnerables.
Ese es un conjunto de afirmaciones serio, y el nuevo desarrollo no es que esas afirmaciones hayan sido refutadas. Es que partes de la narrativa de exclusividad están siendo cuestionadas. Dos esfuerzos independientes de replicación descritos en la fuente sugieren que modelos más pequeños y más abiertos pueden reproducir gran parte del análisis de vulnerabilidades que Anthropic ha mostrado públicamente.
La distinción importa. El debate está pasando de si Mythos es capaz a si las capacidades mostradas son realmente únicas.
Qué encontraron los esfuerzos de replicación
El primer esfuerzo de replicación vino de AISLE, una empresa que ha estado realizando búsqueda de errores asistida por IA en software de código abierto desde mediados de 2025. La fuente dice que AISLE ha informado de 15 vulnerabilidades en OpenSSL y cinco en curl. El fundador Stanislav Fort habría utilizado fragmentos de código de las muestras públicas de Anthropic para probar hasta dónde podían llegar por sí solos una serie de modelos más pequeños y parcialmente abiertos.
El segundo esfuerzo vino de Vidoc Security, que combinó GPT-5.4 y Claude Opus 4.6 con el agente de codificación abierto OpenCode. Juntos, estos estudios intentan responder una pregunta práctica: cuando Anthropic demuestra una capacidad impresionante para encontrar errores o razonar sobre exploits, ¿cuánto de ese rendimiento es exclusivo de Mythos y cuánto refleja un frente de capacidades que se está ampliando en todo el panorama de modelos?
La respuesta inicial del texto fuente parece ser que el frente puede ser más amplio de lo que sugieren los controles de acceso de Anthropic.




