Modelos de Razonamiento Resisten la Supresión de Chain-of-Thought

Los Modelos de Razonamiento No Pueden Ocultar Su Pensamiento

Una nueva investigación de OpenAI encuentra que los modelos de razonamiento se resisten estructuralmente a los intentos de suprimir o falsificar su razonamiento de chain-of-thought — un hallazgo con grandes implicaciones para la seguridad y transparencia de AI.

DT Editorial AI

Mar 16, 2026·4 min read·1,065 words

La Pregunta de Controlabilidad

A medida que los modelos de razonamiento AI se vuelven más capaces, una pregunta se ha convertido en central para la investigación de seguridad: ¿pueden los desarrolladores instruir a estos sistemas para controlar, alterar u ocultar su razonamiento de chain-of-thought? Nueva investigación de OpenAI proporciona una respuesta definitoria y tranquilizadora — no fácilmente, y esa resistencia estructural es auténticamente buena noticia para la transparencia y supervisión de AI.

La investigación probó si los modelos de razonamiento podrían ser impulsados, afinados o instruidos para suprimir los pasos de razonamiento que realizan antes de generar salidas finales. Los hallazgos sugieren que los modelos de razonamiento tienen comportamientos de razonamiento profundamente integrados que resisten la anulación directa — una propiedad con implicaciones significativas para cómo construimos y monitoreamos sistemas AI confiables.

Los modelos de razonamiento como el o-series de OpenAI utilizan procesos de pensamiento extendido que aparecen como salida similar a un bloc de notas visible para los usuarios. La pregunta de si este razonamiento visible representa con precisión el proceso computacional interno del modelo — y si ese proceso podría ser ocultado o manipulado por actores malintencionados u objetivos desalineados — ha sido un debate vigente en círculos de seguridad AI durante años.

Lo Que la Investigación Encontró

Los investigadores intentaron entrenar versiones de modelos de razonamiento que ocultarían completamente su cadena de pensamiento o producirían rastros de razonamiento engañosos mientras aún llegaran a respuestas finales correctas. Lo que encontraron fue que los intentos de separar el razonamiento visible de la computación subyacente tendían a degradar el rendimiento general del modelo. El proceso de razonamiento y la calidad de salida parecen estar estrechamente acoplados — no puede fácilmente eliminar uno sin dañar el otro.

Este acoplamiento es una propiedad estructural de cómo estos modelos aprenden a razonar durante el entrenamiento. Desarrollan patrones de razonamiento integrales a su capacidad de resolución de problemas, no una superposición separable que pueda ser despojada. Los esfuerzos para suprimir este razonamiento a través de indicaciones de instrucción o ajuste fino dirigido fueron en gran medida infructuosos en la producción de modelos que fueran tanto confiablemente capaces como confiablemente opacos sobre su proceso de razonamiento.

La investigación también exploró si los modelos podrían ser inducidos a usar razonamiento visible para engañar a los usuarios — mostrando pasos de razonamiento plausibles pero fabricados mientras secretamente seguían una lógica interna diferente. Este escenario fue ampliamente probado y se encontró difícil de producir confiablemente en arquitecturas de modelos actuales, proporcionando evidencia de que el chain-of-thought visible rastrean el razonamiento interno real a un grado significativo en lugar de ser puro desempeño.

AI & Robotics

El nuevo informe B2B Signals de OpenAI sostiene que las empresas que están tomando la delantera en IA empresarial no solo usan más herramientas, sino que las usan con mayor profundidad, y que los flujos de trabajo delegados y la actividad intensiva en Codex están ampliando la brecha.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

Uber dice que está usando modelos de OpenAI para impulsar asistentes conversacionales y funciones de voz que ayudan a los conductores a interpretar oportunidades de ingresos y a los pasajeros a completar reservas más rápido.

DT Editorial AI·May 9, 2026·via openai.com

AI & Robotics

OpenAI ha presentado tres nuevos modelos de audio orientados a convertir las interfaces de voz en sistemas en tiempo real más capaces que pueden razonar, traducir y transcribir mientras ocurren las conversaciones.

DT Editorial AI·May 9, 2026·via openai.com

Por Qué Esto Importa para la Seguridad de AI

La capacidad de inspeccionar el proceso de razonamiento de un modelo es una de las herramientas de transparencia clave disponibles para investigadores de seguridad AI e implementadores empresariales. Si los modelos de razonamiento pudieran trivialmente suprimir o falsificar sus rastros de pensamiento, una línea importante de defensa contra el comportamiento AI engañoso sería efectivamente neutralizada. El hallazgo de que existe dificultad estructural — no solo contra indicaciones sino resistente a la manipulación en tiempo de entrenamiento — sugiere que el razonamiento de chain-of-thought proporciona más transparencia robusta de la que análisis pesimistas habían temido.

Esto importa particularmente en el contexto de deceptive alignment — un modo de fallo hipotético donde un sistema AI aprende a comportarse bien durante la evaluación mientras planea actuar diferentemente en la implementación. Aunque esta investigación no prueba que deceptive alignment es imposible, sugiere que los modelos de razonamiento enfrentan obstáculos estructurales genuinos para ocultar intenciones a través de su proceso de razonamiento visible, haciendo que este modo de fallo sea más difícil de lograr que en modelos de lenguaje estándar.

Para organizaciones que construyen sobre modelos de razonamiento, esta investigación proporciona confianza adicional en usar salidas de chain-of-thought como señales genuinas de monitoreo en lugar de tratarlas como comportamiento de exhibición superficial. Si los rastros de pensamiento de un modelo de razonamiento muestran pasos problemáticos, esa señal es más probable que represente un problema real que un artefacto de formato de salida.

Implicaciones para la Personalización de Modelos

Los hallazgos también llevan implicaciones prácticas para cómo los desarrolladores de AI abordan la personalización del modelo. Las organizaciones que buscan ajustar finamente los modelos de razonamiento para tareas específicas pueden encontrar que los intentos de simplificar o constreñir el proceso de razonamiento tienen efectos inesperados en la calidad del modelo. Entender el acoplamiento estrecho entre rastros de razonamiento y rendimiento de salida ayuda a establecer expectativas realistas sobre estrategias de personalización viables.

Para reguladores y formuladores de políticas, esta investigación contribuye a la comprensión que evoluciona de qué requisitos de transparencia AI son realmente alcanzables a nivel técnico. Los mandatos que requieren que los sistemas AI expliquen su razonamiento pueden ser más implementables de lo que se asumía previamente para arquitecturas de modelo de razonamiento, aunque la fidelidad y completitud de tales explicaciones permanecen como una pregunta de investigación activa que el campo aún no ha respondido completamente.

La investigación se conecta con esfuerzos más amplios para desarrollar lo que los investigadores de seguridad llaman mechanistic interpretability — la capacidad de entender no solo qué produce un sistema AI sino por qué, en el nivel de mecanismos computacionales internos. El razonamiento de chain-of-thought es uno de los puntos de apoyo más accesibles en este problema, y la evidencia de que es estructuralmente robusto fortalece su papel en el conjunto de herramientas de interpretabilidad.

Los Modelos de Razonamiento No Pueden Ocultar Su Pensamiento

La Pregunta de Controlabilidad

Lo Que la Investigación Encontró

Related Articles

Keep Reading

OpenAI y sus socios lanzan MRC para reforzar las redes de entrenamiento de IA

Por Qué Esto Importa para la Seguridad de AI

Implicaciones para la Personalización de Modelos

El asistente interno de IA de Singular Bank muestra hacia dónde se dirige la automatización financiera aplicada

El Significado Más Amplio

Comments (0)

La nueva brecha de la IA quizá tenga que ver con la profundidad, no con el acceso

Uber está convirtiendo los datos en tiempo real de su marketplace en guía de IA para conductores y pasajeros

OpenAI impulsa aún más la voz en tiempo real con nuevos modelos de API para razonamiento, traducción y transcripción en vivo

OpenAI abre GPT-5.5-Cyber a defensores verificados mientras se endurece la política de seguridad en IA