Modelos de Raciocínio Resistem à Supressão de Chain-of-Thought

A Questão da Controlabilidade

À medida que os modelos de raciocínio de IA se tornam mais capazes, uma questão se tornou central na pesquisa de segurança: podem os desenvolvedores instruir esses sistemas a controlar, alterar ou esconder seu raciocínio de chain-of-thought? Nova pesquisa da OpenAI fornece uma resposta definitiva e tranquilizadora — não facilmente, e essa resistência estrutural é realmente uma boa notícia para transparência de IA e supervisão.

A pesquisa testou se modelos de raciocínio poderiam ser levados, ajustados ou instruídos a suprimir as etapas de raciocínio que realizam antes de gerar saídas finais. Os resultados sugerem que modelos de raciocínio têm comportamentos de raciocínio profundamente incorporados que resistem a sobrescrita direta — uma propriedade com implicações significativas para como construímos e monitoramos sistemas de IA confiáveis.

Modelos de raciocínio como o o-series da OpenAI usam processos de pensamento estendido que aparecem como saída estilo rascunho visível aos usuários. A questão de se esse raciocínio visível representa com precisão o processo computacional interno do modelo — e se esse processo poderia ser ocultado ou manipulado por atores maliciosos ou objetivos desalinhados — tem sido um debate vivo nos círculos de segurança de IA por anos.

O Que a Pesquisa Descobriu

Pesquisadores tentaram treinar versões de modelos de raciocínio que ocultariam completamente seu chain of thought ou produziriam rastros de raciocínio enganosos enquanto ainda chegassem às respostas finais corretas. O que descobriram foi que tentativas de separar o raciocínio visível da computação subjacente tendiam a degradar o desempenho geral do modelo. O processo de raciocínio e a qualidade da saída parecem estar intimamente acoplados — você não pode remover facilmente um sem danificar o outro.

Esse acoplamento é uma propriedade estrutural de como esses modelos aprendem a raciocinar durante o treinamento. Eles desenvolvem padrões de raciocínio integral à sua capacidade de resolução de problemas, não uma sobreposição destacável que possa ser removida. Esforços para suprimir esse raciocínio através de prompts instrucionais ou ajuste fino direcionado foram em grande parte malsucedidos em produzir modelos que fossem confiáveis tanto em capacidade quanto em opacidade sobre seu processo de raciocínio.

A pesquisa também explorou se modelos poderiam ser induzidos a usar raciocínio visível para enganar usuários — mostrando etapas de raciocínio plausíveis, mas fabricadas, enquanto seguem secretamente uma lógica interna diferente. Este cenário foi testado extensivamente e considerado difícil de produzir de forma confiável nas arquiteturas de modelos atuais, fornecendo evidências de que o chain-of-thought visível rastreia o raciocínio interno real até um grau significativo em vez de ser puro desempenho.

AI & Robotics

O novo relatório B2B Signals da OpenAI argumenta que as empresas que estão na dianteira da IA corporativa não estão apenas usando mais ferramentas, mas usando-as com mais profundidade, com fluxos de trabalho delegados e muita atividade em Codex ampliando a فاصفة.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

A Uber diz que está usando modelos da OpenAI para impulsionar assistentes conversacionais e recursos de voz que ajudam motoristas a interpretar oportunidades de ganhos e ajudam passageiros a concluir reservas mais rapidamente.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

A OpenAI apresentou três novos modelos de áudio voltados a transformar interfaces de voz em sistemas em tempo real mais capazes de raciocinar, traduzir e transcrever enquanto as conversas acontecem.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

Por Que Isso Importa para Segurança de IA

A capacidade de inspecionar o processo de raciocínio de um modelo é uma das principais ferramentas de transparência disponíveis para pesquisadores de segurança de IA e implementadores empresariais. Se modelos de raciocínio pudessem trivialmente suprimir ou falsificar seus rastros de pensamento, uma linha importante de defesa contra comportamento de IA enganoso seria efetivamente neutralizada. A descoberta de que existe dificuldade estrutural — não apenas contra prompting, mas resistente a manipulação em tempo de treinamento — sugere que o raciocínio de chain-of-thought fornece transparência mais robusta do que análises pessimistas temiam.

Isso importa particularmente no contexto de alinhamento enganoso — um modo de falha hipotético onde um sistema de IA aprende a se comportar bem durante a avaliação enquanto planeja agir diferentemente na implementação. Embora esta pesquisa não prove que o alinhamento enganoso é impossível, sugere que modelos de raciocínio enfrentam obstáculos estruturais genuínos para ocultar intenções através de seu processo de raciocínio visível, tornando este modo de falha mais difícil de alcançar do que em modelos de linguagem padrão.

Para organizações que constroem sobre modelos de raciocínio, esta pesquisa fornece confiança adicional ao usar saídas de chain-of-thought como sinais de monitoramento genuínos em vez de tratá-los como comportamento de exibição superficial. Se o rastro de pensamento de um modelo de raciocínio mostrar etapas problemáticas, esse sinal é mais provável de representar um problema real do que um artefato de formatação de saída.

Por Que Modelos de Raciocínio Não Conseguem Esconder Seu Pensamento

A Questão da Controlabilidade

O Que a Pesquisa Descobriu

Related Articles

Keep Reading

OpenAI e parceiros lançam o MRC para fortalecer redes de treinamento de IA

Por Que Isso Importa para Segurança de IA

Implicações para Personalização de Modelos

O assistente interno de IA do Singular Bank mostra para onde caminha a automação aplicada em finanças

A Significância Mais Ampla

Comments (0)

A nova divisão da IA pode ser sobre profundidade, não acesso

A Uber está transformando dados de mercado em tempo real em orientação de IA para motoristas e passageiros

OpenAI avança ainda mais com voz em tempo real com novos modelos de API para raciocínio, tradução e transcrição ao vivo

OpenAI abre o GPT-5.5-Cyber para defensores verificados à medida que a política de segurança em IA se torna mais rígida