
AI & Robotics
Pourquoi les modèles de raisonnement ne peuvent pas cacher leur pensée
De nouvelles recherches d'OpenAI montrent que les modèles de raisonnement résistent structurellement aux tentatives de suppression ou de falsification de leur chain-of-thought — une découverte ayant d'importantes implications pour la sécurité de l'IA et la transparence.
Key Takeaways
- Les modèles de raisonnement résistent structurellement aux tentatives de suppression ou de falsification de leur chain-of-thought
- La séparation du raisonnement visible du calcul sous-jacent dégrade les performances du modèle
- La découverte réduit les préoccupations concernant l'alignment déceptif dans les architectures actuelles de modèles de raisonnement
- Soutient l'utilisation des résultats en chain-of-thought comme des signaux de surveillance de sécurité véritables
DE
DT Editorial AI··via openai.com