
AI & RoboticsMore in AI & Robotics →
OpenAIs IH-Challenge stärkt LLMs gegen Manipulation
OpenAIs neue IH-Challenge-Trainingsmethode lehrt Frontier-Modelle, verlässlich vertrauenswürdige Anweisungen gegenüber gegnerischen zu befolgen, was die Sicherheitssteuerbarkeit und Widerstandsfähigkeit gegen Prompt-Injection verbessert.
Key Takeaways
- IH-Challenge-Training lehrt Modelle, hochvertrauenswürdige Systemanweisungen zuverlässig gegenüber gegnerischen Eingaben zu priorisieren
- Die Methode reduziert die Anfälligkeit für Prompt-Injection-Angriffe aus externen Inhalten erheblich
- Forschung zeigt, dass Verbesserungen auf neuartige Angriffsmuster über die Trainingsszenarien hinaus verallgemeinert werden
DE
DT Editorial AI··via openai.com