Un test de maths plus difficile pour l’IA

Un nouveau benchmark appelé SOOHAK tente de mesurer quelque chose que beaucoup d’évaluations d’IA populaires ignorent : un modèle peut-il raisonner sur des mathématiques réellement difficiles, et sait-il quand il doit refuser de répondre. Selon le texte source fourni, le benchmark a été construit par un consortium de 64 mathématiciens issus de groupes comme Carnegie Mellon University, EleutherAI et Seoul National University.

SOOHAK contient 439 tâches originales manuscrites. La collection est divisée en un ensemble “Challenge” de 340 problèmes, destiné aux mathématiques de niveau master et recherche, et en un ensemble “Refusal” de 99 problèmes composés d’énoncés volontairement défectueux, avec des contradictions ou des informations insuffisantes pour fournir une réponse claire. Cette deuxième section est la plus inhabituelle. Elle teste si un modèle peut identifier qu’un problème est mal posé plutôt que de produire quand même une réponse avec assurance.

Les créateurs du benchmark ont aussi cherché à réduire la probabilité que les modèles aient déjà vu ces contenus pendant l’entraînement. Le texte source précise que chaque problème a été rédigé de zéro plutôt que repris de manuels ou d’archives de concours. Les contributeurs comprenaient des professeurs, des doctorants, des postdoctorants et des médaillés de l’Olympiade internationale de mathématiques, et ils devaient confirmer qu’ils n’avaient pas utilisé d’assistance d’IA pour rédiger les questions.

Les mathématiques de niveau recherche restent une faiblesse nette

Les résultats rapportés montrent que les modèles avancés peinent encore fortement dès que les problèmes dépassent le terrain familier des concours. Dans l’ensemble Challenge, Gemini 3 Pro de Google a obtenu 30 %, suivi par des variantes de GPT-5 à 26 %. Claude Opus 4.5 est tombé à 10 %, tandis que les systèmes à poids ouverts comme Kimi-2.5, Qwen3-235B et GPT-OSS-120B sont restés sous 15 %.

Le point essentiel n’est pas qu’un modèle devance légèrement un autre. C’est qu’aucun n’est régulièrement performant sur cette catégorie de travaux inédits, de niveau recherche. Le texte source indique qu’aucun modèle n’a pu résoudre 124 des problèmes de l’ensemble Challenge. Cela suggère que le plafond du raisonnement mathématique de pointe reste bien plus bas que ne le laisseraient penser les récents discours publics sur les performances de niveau olympiade.

L’ensemble compagnon plus facile, SOOHAK-Mini, dresse un tableau différent. Là, les meilleurs systèmes sont bien plus proches les uns des autres et affichent des scores nettement plus élevés. La chute brutale n’apparaît que lorsque les tâches passent à des contenus moins standardisés et moins pré-digérés. Selon le texte source, les auteurs du benchmark estiment que cela pourrait révéler une plus faible transférabilité vers des problèmes inédits de niche, en particulier pour les modèles à poids ouverts.

Le problème du refus peut compter autant que celui de la résolution

La contribution la plus importante du benchmark est peut-être sa section de refus. En usage réel, un système d’IA n’est pas jugé seulement sur la fréquence à laquelle il donne la bonne réponse. Il est aussi jugé sur sa capacité à reconnaître qu’une requête est mal formulée, contradictoire ou impossible à traiter avec les informations fournies. SOOHAK traite cela comme une capacité à part entière.

Là encore, les résultats ont été faibles. Le texte source fourni indique que même le meilleur modèle est resté sous 50 % pour la reconnaissance des problèmes insolubles. Cela signifie que les systèmes de pointe préfèrent encore souvent deviner plutôt que d’identifier une hypothèse manquante ou une contradiction. En pratique, ce comportement est plus dangereux qu’une erreur arithmétique visible, car il peut sonner autoritaire tout en étant structurellement faux.

C’est un schéma récurrent dans l’évaluation de l’IA. À mesure que les modèles progressent sur des benchmarks familiers, le benchmark lui-même peut cesser de refléter les échecs restants les plus difficiles. SOOHAK semble conçu pour détourner le domaine des classements dominés par la couverture et la mémorisation, et le pousser vers des tests d’abstraction, de nouveauté et de retenue épistémique.

Pourquoi ce benchmark se distingue

  • Il utilise des tâches originales plutôt que du matériel recyclé de manuels ou de concours.
  • Il sépare la résolution de problèmes ordinaire du comportement de refus.
  • Il se concentre sur une difficulté de niveau recherche et pas seulement sur les maths scolaires ou olympiques.
  • Il montre qu’une bonne performance sur des ensembles de benchmark plus faciles ne se transfère pas nécessairement vers le haut.

Si les résultats rapportés se confirment sous un examen plus large, SOOHAK pourrait devenir un contrepoids utile à des évaluations de maths de plus en plus saturées. Pour les développeurs, il pointe deux problèmes non résolus : les modèles de pointe se heurtent encore à un mur sur des mathématiques de haut niveau peu familières, et ils répondent encore trop souvent lorsqu’ils devraient s’arrêter et expliquer pourquoi aucune réponse n’est possible.

Cette combinaison compte bien au-delà des mathématiques. Les systèmes qui ne peuvent pas distinguer de manière fiable les requêtes solvables des requêtes insolubles risquent de commettre le même type d’erreur en droit, en science, en ingénierie et dans l’analyse des politiques publiques. SOOHAK ne demande pas seulement si l’IA peut résoudre des problèmes plus difficiles. Il demande si l’IA peut reconnaître les limites de ce qu’elle sait.

Cet article est basé sur le reportage de The Decoder. Lire l’article original.

Originally published on the-decoder.com