
AI & RoboticsMore in AI & Robotics →
IH-Challenge de OpenAI Fortalece LLMs Contra la Manipulación
El nuevo método de entrenamiento IH-Challenge de OpenAI enseña a modelos de frontera a seguir de manera confiable instrucciones de fuentes confiables sobre las adversariales, mejorando la controlabilidad de seguridad y la resistencia a la inyección de prompt.
Key Takeaways
- El entrenamiento de IH-Challenge enseña a modelos a priorizar de manera confiable instrucciones de system de alto nivel de confianza sobre entradas adversariales
- El método reduce significativamente la susceptibilidad a ataques de inyección de prompt desde contenido externo
- La investigación muestra que las mejoras se generalizan a patrones de ataque novedosos más allá de los escenarios de entrenamiento
DE
DT Editorial AI··via openai.com