
AI & RoboticsMore in AI & Robotics →
IH-Challenge do OpenAI Fortalece LLMs Contra Manipulação
O novo método de treinamento IH-Challenge do OpenAI ensina modelos de fronteira a seguir com segurança instruções de fontes confiáveis sobre as adversariais, melhorando a controlabilidade de segurança e a resistência a prompt injection.
Key Takeaways
- O treinamento IH-Challenge ensina modelos a priorizar com confiança instruções de system de alta confiança sobre entradas adversariais
- O método reduz significativamente a susceptibilidade a ataques de prompt injection de conteúdo externo
- A pesquisa mostra que melhorias generalizam para padrões de ataque novos além dos cenários de treinamento
DE
DT Editorial AI··via openai.com