
AI & RoboticsMore in AI & Robotics →
OpenAI的IH-Challenge强化LLM抵御操纵
OpenAI的新型IH-Challenge训练方法教导前沿模型可靠地遵循来自可信来源的指令而非对抗性指令,提高安全可控性和抵御prompt injection的能力。
Key Takeaways
- IH-Challenge训练教导模型可靠地优先考虑高信任系统指令而非对抗性输入
- 该方法显著降低了来自外部内容的prompt injection攻击易受攻击性
- 研究表明改进泛化到超越训练场景的新颖攻击模式
DE
DT Editorial AI··via openai.com