Enseñando a los Modelos de AI a Seguir las Instrucciones Correctas
OpenAI ha publicado investigaciones sobre una nueva metodología de entrenamiento llamada IH-Challenge, diseñada para resolver uno de los problemas más persistentes en sistemas AI desplegados: lograr que los modelos prioricen de manera confiable las instrucciones de principales confiables —desarrolladores, operadores y usuarios verificados— sobre instrucciones potencialmente adversariales que llegan a través de canales no confiables como contenido web o salidas de herramientas.
El trabajo aborda lo que la comunidad de seguridad en AI llama el problema de jerarquía de instrucciones. Un modelo de lenguaje grande que funciona como agente puede recibir instrucciones de múltiples fuentes simultáneamente: un system prompt del desarrollador, instrucciones del usuario, y contenido recuperado de la web o herramientas externas. Cuando esas instrucciones entran en conflicto, el modelo necesita una forma principiada de decidir cuál seguir.
Por Qué la Jerarquía de Instrucciones Ha Resultado Difícil
En teoría, la solución es simple: un system prompt siempre debe tener precedencia sobre la entrada del usuario, que debe tener precedencia sobre contenido de fuentes externas. En la práctica, los modelos de lenguaje entrenados principalmente con retroalimentación humana han demostrado ser sorprendentemente malos manteniendo estas jerarquías bajo presión adversarial.
Los atacantes han explotado esta debilidad extensamente. Los ataques de inyección de prompt —donde texto malicioso incrustado en una página web o documento instruye al AI a ignorar su system prompt y seguir nuevas directivas— han comprometido agentes AI en docenas de despliegues del mundo real. Los ataques a menudo son trivialmente simples, utilizando frases como ignorar todas las instrucciones anteriores incrustadas en contenido aparentemente inocuo.
IH-Challenge aborda esto generando ejemplos de entrenamiento específicamente diseñados para probar bajo presión la adherencia a la jerarquía de instrucciones. El conjunto de datos incluye escenarios donde las instrucciones adversariales de fuentes de bajo nivel de confianza contradicen directamente los system prompts de alto nivel de confianza, entrenando al modelo para reconocer y resistir estos intentos de manipulación.
Tres Pilares de Mejora
OpenAI reporta mejoras en tres dimensiones distintas. Primero, adherencia a la jerarquía de instrucciones: los modelos entrenados con IH-Challenge son significativamente más propensos a seguir directivas de system prompt cuando se enfrentan a instrucciones de usuario conflictivas. Segundo, controlabilidad de seguridad: los operadores pueden personalizar de manera más confiable el comportamiento del modelo dentro de los límites establecidos por las políticas de OpenAI. Tercero, resistencia a la inyección de prompt: los modelos muestran una susceptibilidad sustancialmente reducida a ataques de inyección en formas directas e indirectas.
La investigación también encuentra que el entrenamiento de IH-Challenge se generaliza más allá de los escenarios específicos utilizados en el entrenamiento. Los modelos parecen desarrollar una representación interna más robusta de niveles de confianza, aplicando la jerarquía aprendida a patrones de ataque novedosos no vistos durante el entrenamiento.
Implicaciones para el Despliegue de Agentes AI
El trabajo llega en un momento crítico. Cuando los agentes AI ganan acceso a email, browsers, entornos de ejecución de código, y software empresarial, las consecuencias de ataques de inyección de prompt exitosos se escalan de embarazosas a catastróficas. Un agente que puede ser secuestrado a través de una página web maliciosa podría filtrar datos sensibles, exfiltrar credenciales, o tomar acciones destructivas a escala.
IH-Challenge representa una pieza de un rompecabezas más grande. Las defensas técnicas a nivel de entrenamiento necesitan combinarse con salvaguardas arquitectónicas —entornos de ejecución aislados, puertas de confirmación para acciones de alto riesgo, y alcance cuidadoso de permisos de herramientas— para proporcionar protección significativa. Pero como una defensa de nivel fundamental incorporada en el modelo mismo, eleva significativamente la línea de base.
Este artículo se basa en reportes de OpenAI. Lea el artículo original.




