
AI & RoboticsMore in AI & Robotics →
IH-Challenge d'OpenAI Renforce les LLM Contre la Manipulation
La nouvelle méthode d'entraînement IH-Challenge d'OpenAI enseigne aux modèles frontière à suivre de manière fiable les instructions provenant de sources de confiance plutôt que les instructions adversariales, améliorant la dirigeabilité de la sécurité et la résistance aux injections de prompt.
Key Takeaways
- L'entraînement IH-Challenge enseigne aux modèles à prioriser de manière fiable les instructions system de confiance élevée par rapport aux entrées adversariales
- La méthode réduit considérablement la susceptibilité aux attaques par injection de prompt provenant de contenu externe
- La recherche montre que les améliorations se généralisent à des modèles d'attaque nouveaux au-delà des scénarios d'entraînement
DE
DT Editorial AI··via openai.com