Les mathématiques deviennent le terrain d’épreuve de l’IA avancée
Les chercheurs d’OpenAI Sebastian Bubeck et Ernest Ryu avancent une thèse claire pour expliquer pourquoi les mathématiques occupent désormais une place centrale dans le débat sur l’intelligence artificielle générale. Dans une récente discussion du OpenAI Podcast, rapportée par The Decoder, les deux chercheurs ont présenté les mathématiques comme bien plus qu’un domaine difficile pour les modèles de langage. Ils les ont décrites comme un test de résistance compact pour les capacités plus larges dont aurait besoin un système véritablement intelligent au sens général.
L’argument repose sur la nature même du travail mathématique. Les démonstrations exigent un raisonnement long, cohérent en interne, souvent soutenu sur de longues périodes. Une seule erreur peut invalider toute une ligne de pensée. En ce sens, les mathématiques ne sont pas simplement un autre benchmark. C’est un domaine où la réussite dépend de la fiabilité, de l’auto-correction et de la persistance, et non de la seule fluidité.
Un changement rapide des capacités des modèles
Bubeck a déclaré que le rythme du changement avait été frappant. Il a rappelé qu’il y a seulement quatre ans, il avait été impressionné par le fait que le modèle Minerva de Google pouvait tracer une ligne à travers des points sur un repère. Il y a deux ans, les modèles axés sur le raisonnement n’existaient pas sous la forme qui alimente aujourd’hui une grande partie des progrès du domaine. Aujourd’hui, a-t-il dit, ces systèmes aident des mathématiciens au plus haut niveau, y compris des lauréats de la médaille Fields, dans leur travail quotidien.
Cette progression compte parce que les mathématiques ont souvent été considérées comme l’un des domaines les plus difficiles à faire franchir à l’IA de manière significative. Selon Bubeck, il y a 18 mois, la plupart des mathématiciens présents à une conférence pensaient encore que les grands modèles de langage à grande échelle ne seraient pas capables d’aider sur des problèmes de recherche ouverts. Le passage du scepticisme à l’usage concret s’est donc produit sur un calendrier très condensé.
D’assistant à partenaire de recherche
Ryu a donné un exemple concret de cette transition. Ancien professeur de mathématiques à UCLA, il a déclaré avoir résolu, avec l’aide de ChatGPT, un problème ouvert vieux de 42 ans concernant la méthode de Nesterov en théorie de l’optimisation, au cours de trois soirées totalisant environ 12 heures. Avant d’utiliser le modèle, il avait déjà passé plus de 40 heures sur le problème sans parvenir à une solution.
Son récit est remarquable pour ce qu’il dit de la répartition des rôles. Ryu n’a pas décrit le modèle comme un oracle infaillible. Il a agi en vérificateur, repérant les erreurs et orientant l’échange vers des pistes plus prometteuses. Ce cadrage est important. Dans ce récit, la valeur du système réside dans l’accélération de l’exploration et la proposition de voies productives, tandis que l’humain reste responsable de la validation.
Pourquoi les mathématiques conviennent au débat sur l’AGI
L’idée plus large de Bubeck est que les mathématiques constituent un bon benchmark pour l’AGI parce qu’elles exigent les mêmes ingrédients que d’autres domaines scientifiques et techniques difficiles. Un système capable de maintenir une longue preuve doit pouvoir soutenir sa concentration, conserver sa cohérence interne, détecter les erreurs et réviser son propre raisonnement. Ce sont des capacités transférables, et non des astuces spécifiques aux mathématiques.
Il a également comparé l’apprentissage des mathématiques à l’éducation humaine. Les étudiants apprennent les mathématiques non pas simplement parce qu’ils deviendront tous mathématiciens professionnels, mais parce que la discipline impose une forme de pensée structurée. De la même manière, entraîner des modèles sur les mathématiques peut produire des habitudes de raisonnement qui se prolongent vers des domaines comme la biologie et la science des matériaux.
Les mathématiques ont un autre avantage : l’évaluation y est particulièrement claire. Les problèmes sont généralement bien spécifiés et les réponses peuvent être vérifiées. Dans un domaine encombré de benchmarks flous et d’affirmations contestées, cela offre aux chercheurs un environnement relativement propre pour mesurer les progrès.
L’idée de « temps AGI »
L’un des concepts les plus intéressants introduits par Bubeck est ce qu’il a appelé le « temps AGI ». Il a utilisé cette expression pour décrire combien de temps un modèle peut effectivement soutenir l’équivalent d’une ligne de pensée cohérente. Il y a deux ans, a-t-il dit, les systèmes pouvaient simuler ce type de pensée pendant quelques minutes. Aujourd’hui, ils peuvent le faire pendant des jours, voire une semaine. Le prochain objectif est de porter cet horizon à des semaines et à des mois.
Ce cadrage est utile parce qu’il déplace la discussion des scores ponctuels de benchmark vers l’endurance. Si les futurs systèmes sont censés fonctionner comme des chercheurs automatisés, ils devront rester productifs sur de longues périodes plutôt que de résoudre seulement des tâches isolées. Étendre le « temps AGI » n’est donc pas qu’un slogan. Cela désigne une cible de développement concrète.
L’ambition du chercheur automatisé
Les chercheurs ont déclaré qu’OpenAI construit un « chercheur automatisé » capable de travailler sur des problèmes sur de longues périodes avec un certain degré d’indépendance. Ils ont aussi précisé que les méthodes d’entraînement sous-jacentes sont générales et ne sont pas spécialisées uniquement dans les mathématiques. Si cela est exact, les progrès d’abord démontrés en mathématiques pourraient finir par se diffuser à d’autres domaines scientifiques.
Cela ne signifie pas que la voie est tracée. Le débat sur ce que les progrès en mathématiques prouvent réellement se poursuivra, en particulier autour de problèmes ouverts célèbres et du degré d’assistance humaine dont les systèmes actuels ont encore besoin. Mais la discussion a clairement dépassé l’arithmétique ou la nouveauté de type concours. La question qui se pose est désormais de savoir si l’IA peut devenir fiable dans le type de raisonnement prolongé qu’exige la recherche sérieuse.
Si les mathématiques sont le terrain d’essai de cette transition, alors l’argument de Bubeck et Ryu est simple : la route vers une intelligence machine plus générale pourrait passer par la forme la plus exigeante de pensée disciplinée que les humains aient inventée.
Cet article s’appuie sur un reportage de The Decoder. Lire l’article original.
Originally published on the-decoder.com


