Las matemáticas se están convirtiendo en el campo de pruebas para la IA avanzada

Los investigadores de OpenAI Sebastian Bubeck y Ernest Ryu están planteando un caso claro de por qué las matemáticas ocupan ahora un lugar cercano al centro del debate sobre la inteligencia artificial general. En una reciente conversación del OpenAI Podcast, recogida por The Decoder, ambos describieron las matemáticas como algo más que un dominio difícil para los modelos de lenguaje. Las presentaron como una prueba compacta de resistencia para las capacidades más amplias que necesitaría un sistema verdaderamente inteligente.

El argumento se basa en la naturaleza misma del trabajo matemático. Las demostraciones requieren un razonamiento largo y coherente internamente, a menudo sostenido durante periodos prolongados. Un solo error puede invalidar toda una línea de pensamiento. En ese sentido, las matemáticas no son solo otro punto de referencia. Son un dominio en el que el éxito depende de la fiabilidad, la autocorrección y la persistencia, no solo de la fluidez.

Un cambio rápido en la capacidad de los modelos

Bubeck dijo que el ritmo del cambio ha sido notable. Recordó que hace solo cuatro años le impresionó que el modelo Minerva de Google pudiera trazar una línea a través de puntos en un sistema de coordenadas. Hace dos años, los modelos centrados en el razonamiento no existían en la forma que hoy impulsa gran parte del progreso del campo. Hoy, dijo, estos sistemas ayudan a matemáticos al más alto nivel, incluidos ganadores de la Medalla Fields, en su trabajo diario.

Ese avance importa porque las matemáticas se han considerado durante mucho tiempo una de las áreas más difíciles de abordar para la IA de manera significativa. Según Bubeck, hace 18 meses la mayoría de los matemáticos en una conferencia todavía creía que los modelos de lenguaje de gran tamaño ampliados no podrían ayudar con problemas abiertos de investigación. El paso del escepticismo al uso práctico, por tanto, ha ocurrido en un plazo muy comprimido.

De asistente a socio de investigación

Ryu ofreció un ejemplo concreto de esa transición. Antiguo profesor de matemáticas en UCLA, dijo que resolvió con ayuda de ChatGPT un problema abierto de 42 años sobre el método de Nesterov en teoría de la optimización, a lo largo de tres noches que sumaron unas 12 horas. Antes de usar el modelo, ya había dedicado más de 40 horas al problema sin llegar a una solución.

Su relato es notable por lo que dice sobre la división del trabajo. Ryu no describió al modelo como un oráculo infalible. Él actuó como verificador, detectando errores y guiando el intercambio hacia direcciones más prometedoras. Ese enfoque es importante. El valor del sistema, en este relato, reside en acelerar la exploración y proponer caminos productivos, mientras el humano sigue siendo responsable de la validación.

Por qué las matemáticas encajan en el debate sobre la AGI

La afirmación más amplia de Bubeck es que las matemáticas funcionan como un punto de referencia para la AGI porque exigen los mismos ingredientes que otras áreas científicas y técnicas difíciles. Un sistema capaz de sostener una demostración larga debe poder mantener la concentración, conservar la coherencia interna, detectar errores y revisar su propio razonamiento. Son capacidades transferibles, no trucos específicos de las matemáticas.

También comparó la formación matemática con la educación humana. A los estudiantes se les enseña matemáticas no solo porque todos vayan a convertirse en matemáticos profesionales, sino porque la disciplina obliga a una forma de pensamiento estructurado. Del mismo modo, entrenar modelos con matemáticas puede producir hábitos de razonamiento que se trasladen a campos como la biología y la ciencia de materiales.

Las matemáticas tienen otra ventaja: la evaluación es inusualmente clara. Los problemas suelen estar bien especificados y las respuestas pueden comprobarse. En un campo lleno de métricas ambiguas y afirmaciones discutidas, eso ofrece a los investigadores un entorno relativamente limpio para medir el progreso.

La idea del “tiempo AGI”

Uno de los conceptos más interesantes que introdujo Bubeck es lo que llamó “tiempo AGI”. Usó la expresión para describir cuánto tiempo puede sostener eficazmente un modelo el equivalente a una línea coherente de pensamiento. Hace dos años, dijo, los sistemas podían simular ese tipo de pensamiento durante minutos. Ahora pueden hacerlo durante días o incluso una semana. El siguiente objetivo es ampliar ese horizonte a semanas y meses.

Ese enfoque es útil porque desplaza la discusión de las puntuaciones puntuales en pruebas de referencia hacia la resistencia. Si se espera que los futuros sistemas funcionen como investigadores automatizados, tendrán que seguir siendo productivos durante largos periodos y no limitarse a resolver tareas aisladas. Ampliar el “tiempo AGI” no es, por tanto, solo un lema. Señala un objetivo de desarrollo concreto.

La ambición del investigador automatizado

Los investigadores dijeron que OpenAI está construyendo un “investigador automatizado” capaz de trabajar en problemas durante largos periodos con cierto grado de independencia. También dijeron que los métodos de entrenamiento subyacentes son generales y no están especializados únicamente en matemáticas. Si eso es correcto, entonces las mejoras demostradas primero en matemáticas podrían acabar propagándose a otros campos científicos.

Eso no significa que el camino esté cerrado. El debate sobre lo que realmente prueban los avances matemáticos continuará, especialmente en torno a famosos problemas abiertos y a cuánta ayuda humana siguen necesitando los sistemas actuales. Pero la conversación ha pasado claramente más allá de la aritmética o de la novedad de estilo concurso. La pregunta emergente es si la IA puede volverse fiable en el tipo de razonamiento prolongado que exige la investigación seria.

Si las matemáticas son el terreno de pruebas para esa transición, entonces el argumento de Bubeck y Ryu es sencillo: el camino hacia una inteligencia de máquina más amplia puede pasar por la forma más difícil de pensamiento disciplinado que han ideado los seres humanos.

Este artículo se basa en una cobertura de The Decoder. Leer el artículo original.

Originally published on the-decoder.com