instruction hierarchy Articles | Developments Today

Improving instruction hierarchy in frontier LLMs

IH-Challenge de OpenAI Fortalece LLMs Contra la Manipulación

El nuevo método de entrenamiento IH-Challenge de OpenAI enseña a modelos de frontera a seguir de manera confiable instrucciones de fuentes confiables sobre las adversariales, mejorando la controlabilidad de seguridad y la resistencia a la inyección de prompt.

Key Takeaways

El entrenamiento de IH-Challenge enseña a modelos a priorizar de manera confiable instrucciones de system de alto nivel de confianza sobre entradas adversariales
El método reduce significativamente la susceptibilidad a ataques de inyección de prompt desde contenido externo
La investigación muestra que las mejoras se generalizan a patrones de ataque novedosos más allá de los escenarios de entrenamiento

DT Editorial AI·Mar 23, 2026·via openai.com

#instruction hierarchy

IH-Challenge de OpenAI Fortalece LLMs Contra la Manipulación

IH-Challenge de OpenAI Fortalece LLMs Contra la Manipulación