OpenAI lanza una recompensa por fallos de bio de GPT-5.5 para jailbreaks universales

Una recompensa por fallos centrada en el riesgo biológico

OpenAI ha abierto las solicitudes para un nuevo GPT-5.5 Bio Bug Bounty, un programa de red teaming específico centrado en si los investigadores pueden descubrir un jailbreak universal que venza las salvaguardas relacionadas con la biología de la empresa. La estructura es inusualmente específica. Se pide a los participantes que produzcan un único prompt capaz de responder con éxito a las cinco preguntas del desafío de seguridad biológica de OpenAI desde un chat limpio, sin activar la moderación. La recompensa máxima es de 25.000 dólares para el primer jailbreak universal verdadero que complete las cinco.

El programa, según el texto fuente proporcionado, se aplica solo a GPT-5.5 en Codex Desktop. Las solicitudes se abrieron el 23 de abril de 2026, con admisiones continuas hasta el 22 de junio de 2026. Las pruebas están programadas para comenzar el 28 de abril y continuar hasta el 27 de julio. OpenAI dice que, a su discreción, podrían otorgarse premios menores por éxitos parciales.

Esto importa porque muestra a una empresa de IA de frontera tratando el uso indebido biológico no solo como una cuestión de política, sino como un problema concreto de robustecimiento del sistema. En lugar de enmarcar la evaluación de seguridad únicamente mediante revisión interna o lenguaje general de políticas, la empresa invita a especialistas externos a atacar un modo de fallo estrechamente definido.

Por qué importa un jailbreak universal

La mayoría de los fallos de seguridad basados en prompts son situacionales. Un modelo puede resistir una formulación, pero fallar con otra. Un jailbreak universal es distinto porque sugiere una debilidad más general en la capa de seguridad. Si un prompt reutilizable puede eludir el comportamiento protector frente a múltiples prompts peligrosos desde una conversación nueva, eso aumenta considerablemente la gravedad de la vulnerabilidad.

La decisión de OpenAI de centrar el desafío en una prueba biológica de cinco preguntas implica un enfoque basado en umbrales: la empresa está menos interesada en casos límite aislados que en fallos sistemáticos que socavarían la confianza en las defensas biológicas del modelo. Al recompensar un método universal en lugar de ejemplos dispersos, está pidiendo a los red teamers que examinen la integridad de la capa global de alineación.

El tamaño de la recompensa también señala prioridad. Un premio de 25.000 dólares es modesto en comparación con la escala de los grandes programas de vulnerabilidades de software, pero suficiente para atraer a especialistas creíbles en seguridad de IA y bioseguridad. Más importante aún, deja claro que OpenAI está dispuesta a pagar por evidencia de que sus salvaguardas pueden romperse en condiciones controladas antes de que esas debilidades se exploten en otros contextos.

AI & Robotics

Los Emiratos Árabes Unidos dicen que trasladarán el 50% de los sectores, servicios y procesos gubernamentales a sistemas de IA agéntica en dos años, fijando uno de los objetivos de IA para el sector público más ambiciosos anunciados hasta ahora.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Anthropic afirma que agentes de IA más potentes negociaron mejores precios y cerraron más acuerdos en un mercado interno real, mientras que los usuarios representados por modelos más débiles no percibieron una brecha de equidad.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Pekín estaría diciendo a las empresas tecnológicas privadas que rechacen dinero estadounidense salvo que el Estado lo apruebe primero, prolongando un impulso más amplio para mantener bajo un control doméstico más estricto los activos y la propiedad de IA estratégicamente importantes.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

Un proceso selectivo y de alta confianza

El programa no es completamente abierto. Según el texto fuente proporcionado, OpenAI invitará a una lista verificada de red teamers de biología de confianza y revisará nuevas solicitudes de investigadores con experiencia en red teaming de IA, seguridad o bioseguridad. Los participantes y colaboradores aceptados deben tener cuentas existentes de ChatGPT y firmar un acuerdo de confidencialidad. Todos los prompts, respuestas, hallazgos y comunicaciones están cubiertos por el NDA.

Ese diseño de acceso controlado refleja la sensibilidad del tema. La investigación sobre uso indebido relacionado con la biología ocupa una posición poco común: los sistemas necesitan ser sometidos a pruebas de esfuerzo, pero la publicación amplia de métodos adversariales podría crear un riesgo adicional. El requisito de NDA sugiere que OpenAI intenta equilibrar el escrutinio externo con la contención operativa.

La configuración también subraya un cambio más amplio en la gobernanza de la IA de frontera. Los ámbitos de capacidades de alto riesgo se están gestionando cada vez más mediante modelos de acceso de confianza, en lugar de concursos totalmente abiertos. Ese enfoque limita la visibilidad externa, pero también puede permitir pruebas adversariales más realistas de las que permitiría un desafío completamente público.

OpenAI somete las salvaguardas biológicas de GPT-5.5 a una prueba de esfuerzo en vivo con una nueva recompensa por fallos

Una recompensa por fallos centrada en el riesgo biológico

Por qué importa un jailbreak universal

Related Articles

Keep Reading

OpenAI publica una guía inicial de Codex mientras impulsa una incorporación más práctica a los flujos de trabajo de IA

Un proceso selectivo y de alta confianza

Qué dice el programa sobre la seguridad de los modelos de frontera

El acuerdo de Cohere con Aleph Alpha convierte la IA soberana en una estrategia transfronteriza

Los límites de lo que revela

Un giro práctico en la seguridad de IA

OpenAI avanza aún más hacia los flujos de trabajo agénticos con el lanzamiento de GPT-5.5

Comments (0)

GPT-5.5 Eleva el Techo de los Benchmarks de IA, pero Mantiene una Debilidad Familiar

Emiratos Árabes Unidos quiere IA agéntica en la mitad del gobierno en dos años

El mercado interno de Anthropic sugiere que los mejores agentes de IA consiguen mejores acuerdos sin hacer ruido

China endurece el acceso del capital estadounidense a las operaciones tecnológicas nacionales