Un tipo de examen de matemáticas más difícil para la IA
Un nuevo benchmark llamado SOOHAK intenta medir algo que muchas evaluaciones populares de IA pasan por alto: si un modelo puede razonar sobre matemáticas realmente difíciles y si sabe cuándo debe negarse a responder. Según el texto fuente proporcionado, el benchmark fue construido por un consorcio de 64 matemáticos de grupos como Carnegie Mellon University, EleutherAI y Seoul National University.
SOOHAK contiene 439 tareas originales manuscritas. La colección se divide en un conjunto “Challenge” de 340 problemas, orientado a matemáticas de nivel de posgrado e investigación, y un conjunto “Refusal” de 99 problemas compuestos por enunciados deliberadamente defectuosos, con contradicciones o sin suficiente información para dar una respuesta clara. Esa segunda sección es la más inusual. Prueba si un modelo puede identificar que un problema es inválido en lugar de producir con confianza un resultado de todos modos.
Los creadores del benchmark también intentaron reducir la posibilidad de que los modelos ya hubieran visto el material durante el entrenamiento. El texto fuente dice que cada problema fue escrito desde cero en lugar de extraerse de libros de texto o archivos de competencias. Entre los colaboradores hubo profesores, estudiantes de doctorado, posdoctorandos y medallistas de la Olimpiada Internacional de Matemáticas, y se les exigió confirmar que no usaron asistencia de IA al redactar las preguntas.
Las matemáticas de nivel investigación siguen siendo una debilidad clara
Los resultados informados muestran que los modelos avanzados siguen teniendo serias dificultades cuando los problemas van más allá del territorio familiar de las competencias. En el conjunto Challenge, Gemini 3 Pro de Google obtuvo 30%, seguido por variantes de GPT-5 con 26%. Claude Opus 4.5 cayó a 10%, mientras que sistemas de peso abierto como Kimi-2.5, Qwen3-235B y GPT-OSS-120B se mantuvieron por debajo de 15%.
El titular no es que un modelo lidere por poco a otro. Es que ninguno es consistentemente fuerte en esta clase de trabajo inédito, de nivel investigación. El texto fuente dice que ningún modelo pudo resolver 124 de los problemas de Challenge. Eso sugiere que el techo del razonamiento matemático de frontera sigue siendo mucho más bajo de lo que podrían implicar los relatos públicos recientes sobre rendimiento a nivel olimpiada.
El conjunto complementario más fácil, SOOHAK-Mini, pinta un panorama distinto. Allí, los mejores sistemas se agrupan mucho más cerca entre sí y obtienen puntajes considerablemente más altos. La caída pronunciada solo aparece cuando las tareas pasan a material menos estandarizado y menos digerido previamente. Según el texto fuente, los autores del benchmark sostienen que esto puede revelar una menor transferencia hacia problemas inéditos y de nicho, especialmente entre los modelos de peso abierto.
El problema de saber cuándo no responder puede importar tanto como el de resolver
La contribución más importante del benchmark podría ser su sección de rechazo. En el uso real, a un sistema de IA no solo se le evalúa por cuántas veces acierta. También se le evalúa por si reconoce cuándo una solicitud está mal formulada, contiene contradicciones o no puede responderse con la información dada. SOOHAK trata eso como una capacidad de primera clase.
Aquí también, los resultados fueron débiles. El texto fuente proporcionado dice que incluso el mejor modelo se mantuvo por debajo de 50% al reconocer problemas insolubles. Eso significa que los sistemas líderes todavía suelen preferir adivinar antes que identificar una suposición faltante o una contradicción. En la práctica, ese comportamiento es más peligroso que un error aritmético visible, porque puede sonar autoritativo mientras es estructuralmente incorrecto.
Este es un patrón recurrente en la evaluación de IA. A medida que los modelos mejoran en benchmarks familiares, el benchmark en sí puede dejar de reflejar los fallos restantes más difíciles. SOOHAK parece diseñado para empujar al campo lejos de tablas de clasificación dominadas por cobertura y memorización, y hacia pruebas de abstracción, novedad y contención epistémica.
Por qué destaca este benchmark
- Utiliza tareas originales en lugar de material reciclado de libros de texto o competencias.
- Separa la resolución de problemas habitual del comportamiento de rechazo.
- Se centra en dificultad de nivel investigación y no solo en matemáticas escolares u olimpiadas.
- Destaca que un buen rendimiento en conjuntos de benchmark más fáciles no necesariamente se transfiere hacia arriba.
Si los resultados informados se sostienen bajo un escrutinio más amplio, SOOHAK podría convertirse en un contrapeso útil frente a evaluaciones de matemáticas cada vez más saturadas. Para los desarrolladores, señala dos problemas no resueltos: los modelos de frontera todavía chocan con un muro en matemáticas de alto nivel desconocidas, y además siguen respondiendo con demasiada frecuencia cuando deberían detenerse y explicar por qué no es posible responder.
Esa combinación importa mucho más allá de las matemáticas. Los sistemas que no pueden distinguir de forma fiable entre solicitudes resolubles e irresolubles probablemente cometan el mismo tipo de error en derecho, ciencia, ingeniería y análisis de políticas. SOOHAK no solo pregunta si la IA puede resolver problemas más difíciles. Pregunta si la IA puede reconocer los límites de lo que sabe.
Este artículo se basa en la cobertura de The Decoder. Leer el artículo original.
Originally published on the-decoder.com




