IH-Challenge de OpenAI Entrena LLMs para Resistir Manipulación

Enseñando a los Modelos de AI a Seguir las Instrucciones Correctas

OpenAI ha publicado investigaciones sobre una nueva metodología de entrenamiento llamada IH-Challenge, diseñada para resolver uno de los problemas más persistentes en sistemas AI desplegados: lograr que los modelos prioricen de manera confiable las instrucciones de principales confiables —desarrolladores, operadores y usuarios verificados— sobre instrucciones potencialmente adversariales que llegan a través de canales no confiables como contenido web o salidas de herramientas.

El trabajo aborda lo que la comunidad de seguridad en AI llama el problema de jerarquía de instrucciones. Un modelo de lenguaje grande que funciona como agente puede recibir instrucciones de múltiples fuentes simultáneamente: un system prompt del desarrollador, instrucciones del usuario, y contenido recuperado de la web o herramientas externas. Cuando esas instrucciones entran en conflicto, el modelo necesita una forma principiada de decidir cuál seguir.

Por Qué la Jerarquía de Instrucciones Ha Resultado Difícil

En teoría, la solución es simple: un system prompt siempre debe tener precedencia sobre la entrada del usuario, que debe tener precedencia sobre contenido de fuentes externas. En la práctica, los modelos de lenguaje entrenados principalmente con retroalimentación humana han demostrado ser sorprendentemente malos manteniendo estas jerarquías bajo presión adversarial.

Los atacantes han explotado esta debilidad extensamente. Los ataques de inyección de prompt —donde texto malicioso incrustado en una página web o documento instruye al AI a ignorar su system prompt y seguir nuevas directivas— han comprometido agentes AI en docenas de despliegues del mundo real. Los ataques a menudo son trivialmente simples, utilizando frases como ignorar todas las instrucciones anteriores incrustadas en contenido aparentemente inocuo.

IH-Challenge aborda esto generando ejemplos de entrenamiento específicamente diseñados para probar bajo presión la adherencia a la jerarquía de instrucciones. El conjunto de datos incluye escenarios donde las instrucciones adversariales de fuentes de bajo nivel de confianza contradicen directamente los system prompts de alto nivel de confianza, entrenando al modelo para reconocer y resistir estos intentos de manipulación.

Anthropic bans AI tools during job interviews to see how candidates actually think

Anthropic prohíbe las herramientas de IA en las entrevistas para evaluar a los candidatos

Anthropic supuestamente prohíbe la asistencia de IA en las entrevistas de trabajo en vivo, salvo autorización explícita, mientras la empresa intenta evaluar cómo razonan los postulantes por su cuenta.

Read article

Tres Pilares de Mejora

OpenAI reporta mejoras en tres dimensiones distintas. Primero, adherencia a la jerarquía de instrucciones: los modelos entrenados con IH-Challenge son significativamente más propensos a seguir directivas de system prompt cuando se enfrentan a instrucciones de usuario conflictivas. Segundo, controlabilidad de seguridad: los operadores pueden personalizar de manera más confiable el comportamiento del modelo dentro de los límites establecidos por las políticas de OpenAI. Tercero, resistencia a la inyección de prompt: los modelos muestran una susceptibilidad sustancialmente reducida a ataques de inyección en formas directas e indirectas.

La investigación también encuentra que el entrenamiento de IH-Challenge se generaliza más allá de los escenarios específicos utilizados en el entrenamiento. Los modelos parecen desarrollar una representación interna más robusta de niveles de confianza, aplicando la jerarquía aprendida a patrones de ataque novedosos no vistos durante el entrenamiento.

Implicaciones para el Despliegue de Agentes AI

El trabajo llega en un momento crítico. Cuando los agentes AI ganan acceso a email, browsers, entornos de ejecución de código, y software empresarial, las consecuencias de ataques de inyección de prompt exitosos se escalan de embarazosas a catastróficas. Un agente que puede ser secuestrado a través de una página web maliciosa podría filtrar datos sensibles, exfiltrar credenciales, o tomar acciones destructivas a escala.

IH-Challenge representa una pieza de un rompecabezas más grande. Las defensas técnicas a nivel de entrenamiento necesitan combinarse con salvaguardas arquitectónicas —entornos de ejecución aislados, puertas de confirmación para acciones de alto riesgo, y alcance cuidadoso de permisos de herramientas— para proporcionar protección significativa. Pero como una defensa de nivel fundamental incorporada en el modelo mismo, eleva significativamente la línea de base.

Este artículo se basa en reportes de OpenAI. Lea el artículo original.

Los modelos de IA separan la lógica de las recetas de la química del sabor

Una nueva investigación de Kaikaku.AI sostiene que los sistemas de recomendación de comida deberían distinguir entre los ingredientes que aparecen juntos en las recetas y aquellos que son químicamente similares.

Read article

Originally published on openai.com

IH-Challenge de OpenAI Fortalece LLMs Contra la Manipulación

Enseñando a los Modelos de AI a Seguir las Instrucciones Correctas

Por Qué la Jerarquía de Instrucciones Ha Resultado Difícil

Anthropic prohíbe las herramientas de IA en las entrevistas para evaluar a los candidatos

Tres Pilares de Mejora

Implicaciones para el Despliegue de Agentes AI

Los modelos de IA separan la lógica de las recetas de la química del sabor

Comments (0)

Related Articles

Microsoft y Nvidia supuestamente impulsan las PC con IA hacia agentes locales

NIST propone un benchmark base para robots humanoides mientras se acelera la carrera de inversión

Keep Reading