Um tipo mais difícil de teste de matemática para IA
Um novo benchmark chamado SOOHAK tenta medir algo que muitas avaliações populares de IA deixam passar: se um modelo consegue raciocinar sobre matemática realmente difícil e se sabe quando deve recusar responder. Segundo o texto-fonte fornecido, o benchmark foi construído por um consórcio de 64 matemáticos de grupos como Carnegie Mellon University, EleutherAI e Seoul National University.
SOOHAK contém 439 tarefas originais manuscritas. A coleção é dividida em um conjunto “Challenge” de 340 problemas, voltado para matemática de nível de pós-graduação e pesquisa, e um conjunto “Refusal” de 99 problemas compostos por enunciados intencionalmente falhos, com contradições ou informações insuficientes para uma resposta clara. Essa segunda seção é a mais incomum. Ela testa se um modelo consegue identificar que a tarefa é inconsistente em vez de produzir um resultado com confiança mesmo assim.
Os criadores do benchmark também tentaram reduzir a chance de os modelos já terem visto o material durante o treinamento. O texto-fonte diz que cada problema foi escrito do zero, em vez de extraído de livros didáticos ou arquivos de competições. Entre os colaboradores havia professores, doutorandos, pós-doutorandos e medalhistas da Olimpíada Internacional de Matemática, e todos tiveram de confirmar que não usaram assistência de IA ao redigir as questões.
Matemática em nível de pesquisa continua sendo uma fraqueza clara
Os resultados relatados mostram que modelos avançados ainda têm dificuldade quando os problemas saem do território familiar dos concursos. No conjunto Challenge, o Gemini 3 Pro do Google marcou 30%, seguido por variantes do GPT-5 com 26%. O Claude Opus 4.5 caiu para 10%, enquanto sistemas de pesos abertos como Kimi-2.5, Qwen3-235B e GPT-OSS-120B ficaram abaixo de 15%.
A manchete não é que um modelo lidera ligeiramente outro. É que nenhum deles é consistentemente forte nessa classe de trabalho inédito, em nível de pesquisa. O texto-fonte diz que nenhum modelo conseguiu resolver 124 dos problemas do Challenge. Isso sugere que o teto do raciocínio matemático de fronteira ainda é muito mais baixo do que narrativas públicas recentes sobre desempenho em nível de olimpíada podem indicar.
O conjunto complementar mais fácil, SOOHAK-Mini, mostra um quadro diferente. Ali, os principais sistemas ficam muito mais próximos entre si e apresentam pontuações substancialmente maiores. A queda acentuada só aparece quando as tarefas avançam para material menos padronizado e menos pré-processado. Segundo o texto-fonte, os autores do benchmark argumentam que isso pode expor uma transferência mais fraca para problemas inéditos e de nicho, especialmente entre modelos de pesos abertos.
O problema de recusar pode importar tanto quanto o de resolver
A contribuição mais importante do benchmark talvez seja sua seção de recusa. No uso real, um sistema de IA não é julgado apenas por quantas vezes acerta. Ele também é julgado por reconhecer quando uma solicitação está mal formulada, contraditória ou impossível de responder com a informação fornecida. O SOOHAK trata isso como uma capacidade de primeira classe.
Aqui também, os resultados foram fracos. O texto-fonte fornecido diz que até o melhor modelo permaneceu abaixo de 50% ao reconhecer problemas insolúveis. Isso significa que os sistemas líderes ainda tendem a adivinhar em vez de identificar uma suposição ausente ou uma contradição. Na prática, esse comportamento é mais perigoso do que um erro aritmético visível, porque pode soar autoritativo enquanto é estruturalmente errado.
Esse é um padrão recorrente em avaliação de IA. À medida que os modelos melhoram em benchmarks familiares, o próprio benchmark pode deixar de refletir as falhas restantes mais difíceis. O SOOHAK parece ter sido criado para empurrar o campo para longe de rankings dominados por cobertura e memorização, e em direção a testes de abstração, novidade e contenção epistêmica.
Por que este benchmark se destaca
- Usa tarefas originais em vez de material reciclado de livros didáticos ou competições.
- Separa a resolução de problemas comum do comportamento de recusa.
- Foca em dificuldade de nível de pesquisa, e não apenas em matemática escolar ou de olimpíada.
- Mostra que bom desempenho em conjuntos de benchmark mais fáceis não necessariamente se transfere para níveis mais altos.
Se os resultados relatados resistirem a um escrutínio mais amplo, o SOOHAK pode se tornar um contrapeso útil para avaliações de matemática cada vez mais saturadas. Para desenvolvedores, ele aponta dois problemas ainda em aberto: os modelos de fronteira ainda esbarram em um muro na matemática de alto nível e desconhecida, e continuam respondendo quando deveriam parar e explicar por que nenhuma resposta é possível.
Essa combinação importa muito além da matemática. Sistemas que não conseguem distinguir de forma confiável entre solicitações solucionáveis e insolúveis provavelmente cometerão o mesmo tipo de erro em direito, ciência, engenharia e análise de políticas. O SOOHAK não pergunta apenas se a IA consegue resolver problemas mais difíceis. Ele pergunta se a IA consegue reconhecer os limites do que sabe.
Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.
Originally published on the-decoder.com





