
AI & Robotics
Por qué los modelos de razonamiento no pueden ocultar su pensamiento
Nueva investigación de OpenAI descubrió que los modelos de razonamiento estructuralmente resisten los intentos de suprimir o falsificar su cadena de pensamiento — un hallazgo con grandes implicaciones para la seguridad de la IA y la transparencia.
Key Takeaways
- Los modelos de razonamiento estructuralmente resisten los intentos de suprimir o falsificar su razonamiento de cadena de pensamiento
- Separar el razonamiento visible del cálculo subyacente degrada el rendimiento del modelo
- El hallazgo reduce las preocupaciones sobre alineación engañosa en las arquitecturas actuales de modelos de razonamiento
- Respalda el uso de salidas de cadena de pensamiento como señales genuinas de monitoreo de seguridad
DE
DT Editorial AI··via openai.com