Les Modèles de Raisonnement Résistent à la Suppression du Chain-of-Thought

Les Modèles de Raisonnement Ne Peuvent Pas Cacher Leur Réflexion

Une nouvelle recherche d'OpenAI découvre que les modèles de raisonnement résistent structurellement aux tentatives de supprimer ou de falsifier leur raisonnement en chain-of-thought — une découverte aux implications majeures pour la sécurité et la transparence de l'AI.

DT Editorial AI

Mar 16, 2026·5 min read·1,126 words

La Question de la Contrôlabilité

Alors que les modèles de raisonnement AI deviennent plus puissants, une question est devenue centrale à la recherche en sécurité : les développeurs peuvent-ils instruire ces systèmes pour contrôler, modifier ou cacher leur raisonnement en chain-of-thought ? Une nouvelle recherche d'OpenAI fournit une réponse définitive et rassurante — pas facilement, et cette résistance structurelle est véritablement une bonne nouvelle pour la transparence et la surveillance de l'AI.

La recherche a testé si les modèles de raisonnement pouvaient être invités, mis au point ou instruits à supprimer les étapes de raisonnement qu'ils effectuent avant de générer des résultats finaux. Les résultats suggèrent que les modèles de raisonnement ont des comportements de raisonnement profondément intégrés qui résistent au remplacement direct — une propriété avec des implications significatives sur la façon dont nous construisons et surveillons des systèmes AI dignes de confiance.

Les modèles de raisonnement comme le o-series d'OpenAI utilisent des processus de réflexion prolongés qui apparaissent comme une sortie de type bloc-notes visible pour les utilisateurs. La question de savoir si cette réflexion visible représente avec précision le processus de calcul interne du modèle — et si ce processus pourrait être caché ou manipulé par des acteurs malveillants ou des objectifs mal alignés — a été un sujet de débat actif dans les cercles de sécurité AI pendant des années.

Ce Que la Recherche a Trouvé

Les chercheurs ont tenté d'entraîner des versions de modèles de raisonnement qui cacheraient complètement leur chaîne de pensée ou produiraient des traces de raisonnement trompeuses tout en arrivant toujours à des réponses finales correctes. Ce qu'ils ont découvert, c'est que les tentatives de séparer le raisonnement visible du calcul sous-jacent tendaient à dégrader les performances globales du modèle. Le processus de raisonnement et la qualité des résultats semblent être étroitement couplés — vous ne pouvez pas facilement supprimer l'un sans endommager l'autre.

Ce couplage est une propriété structurelle de la manière dont ces modèles apprennent à raisonner pendant l'entraînement. Ils développent des modèles de raisonnement intégraux à leur capacité de résolution de problèmes, pas une couche détachable qui peut être retirée. Les efforts pour supprimer ce raisonnement par des invites d'instruction ou un fine-tuning ciblé ont largement échoué à produire des modèles qui soient à la fois fiablement capables et fiablement opaques quant à leur processus de raisonnement.

La recherche a également exploré si les modèles pouvaient être incités à utiliser le raisonnement visible pour tromper les utilisateurs — montrant des étapes de raisonnement plausibles mais fabriquées tout en suivant secrètement une logique interne différente. Ce scénario a été largement testé et s'est avéré difficile à produire de manière fiable dans les architectures de modèles actuelles, fournissant des preuves que le chain-of-thought visible suit le raisonnement interne réel à un degré significatif plutôt que d'être pur spectacle.

AI & Robotics

Le nouveau rapport B2B Signals d’OpenAI soutient que les entreprises qui prennent de l’avance dans l’IA en entreprise n’utilisent pas seulement plus d’outils, elles les utilisent plus en profondeur, les flux de travail délégués et l’activité intense autour de Codex creusant l’écart.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

Uber indique utiliser des modèles OpenAI pour alimenter des assistants conversationnels et des fonctions vocales qui aident les conducteurs à interpréter les opportunités de gains et les passagers à finaliser leurs réservations plus rapidement.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

OpenAI a présenté trois nouveaux modèles audio destinés à transformer les interfaces vocales en systèmes temps réel plus capables de raisonner, traduire et transcrire pendant que les conversations se déroulent.

DT Editorial AI·May 9, 2026·via openai.com

Pourquoi Cela Compte pour la Sécurité de l'AI

La capacité d'inspecter le processus de raisonnement d'un modèle est l'un des principaux outils de transparence disponibles pour les chercheurs en sécurité AI et les responsables du déploiement en entreprise. Si les modèles de raisonnement pouvaient trivialement supprimer ou falsifier leurs traces de pensée, une ligne importante de défense contre le comportement AI trompeur serait effectivement annulée. La découverte qu'il existe une difficulté structurelle — non seulement contre les invites mais résistant à la manipulation au moment de l'entraînement — suggère que le raisonnement en chain-of-thought fournit une transparence plus robuste que les analyses pessimistes n'avaient craint.

Cela compte particulièrement dans le contexte de deceptive alignment — un mode de défaillance hypothétique où un système AI apprend à bien se comporter lors de l'évaluation tout en prévoyant d'agir différemment au déploiement. Bien que cette recherche ne prouve pas que deceptive alignment est impossible, elle suggère que les modèles de raisonnement font face à des obstacles structurellement réels pour cacher les intentions par leur processus de raisonnement visible, rendant ce mode de défaillance plus difficile à réaliser que dans les modèles de langage standard.

Pour les organisations construisant sur des modèles de raisonnement, cette recherche fournit une confiance supplémentaire pour utiliser les sorties en chain-of-thought comme des signaux de surveillance véritables plutôt que de les traiter comme un comportement d'affichage superficiel. Si les traces de pensée d'un modèle de raisonnement montrent des étapes problématiques, ce signal représente plus probablement un vrai problème qu'un artefact de formatage de sortie.

Implications pour la Personnalisation des Modèles

Les résultats portent également des implications pratiques pour la façon dont les développeurs AI abordent la personnalisation des modèles. Les organisations cherchant à affiner les modèles de raisonnement pour des tâches spécifiques peuvent découvrir que les tentatives de rationaliser ou de restreindre le processus de raisonnement ont des effets inattendus sur la qualité du modèle. Comprendre le couplage étroit entre les traces de raisonnement et la performance des résultats aide à fixer des attentes réalistes sur les stratégies de personnalisation viables.

Pour les régulateurs et les décideurs politiques, cette recherche contribue à la compréhension qui évolue quant aux exigences de transparence de l'AI qui sont réellement réalisables au niveau technique. Les mandats exigeant que les systèmes AI expliquent leur raisonnement peuvent être plus réalisables que ne l'était précédemment supposé pour les architectures de modèles de raisonnement, bien que la fidélité et l'exhaustivité de telles explications restent une question de recherche active que le domaine n'a pas encore complètement répondu.

La recherche se connecte à des efforts plus larges pour développer ce que les chercheurs en sécurité appellent mechanistic interpretability — la capacité de comprendre non seulement ce qu'un système AI produit mais pourquoi, au niveau des mécanismes de calcul internes. Le raisonnement en chain-of-thought est l'un des points d'appui les plus accessibles sur ce problème, et la preuve qu'il est structurellement robuste renforce son rôle dans la boîte à outils d'interprétabilité.

Les Modèles de Raisonnement Ne Peuvent Pas Cacher Leur Réflexion

La Question de la Contrôlabilité

Ce Que la Recherche a Trouvé

Related Articles

Keep Reading

OpenAI et ses partenaires lancent MRC pour renforcer les réseaux d’entraînement de l’IA

Pourquoi Cela Compte pour la Sécurité de l'AI

Implications pour la Personnalisation des Modèles

L’assistant IA interne de Singular Bank montre où se dirige l’automatisation appliquée à la finance

L'Importance Plus Large

Comments (0)

La nouvelle fracture de l’IA pourrait tenir à la profondeur, pas à l’accès

Uber transforme les données en temps réel de sa place de marché en conseils IA pour les conducteurs et les passagers

OpenAI pousse encore plus loin la voix en temps réel avec de nouveaux modèles d’API pour le raisonnement, la traduction et la transcription en direct

OpenAI ouvre GPT-5.5-Cyber aux défenseurs vérifiés alors que la politique de sécurité de l’IA se durcit