Um novo benchmark coloca o raciocínio dos modelos em um ambiente implacável

Sistemas de IA de ponta podem se destacar em programação, resumo de textos e outras tarefas estruturadas, mas um novo estudo sugere que previsões de longo horizonte no mundo real continuam sendo uma habilidade muito mais fraca. Em um benchmark criado em torno de apostas em partidas da Premier League, modelos da Google, OpenAI, Anthropic, xAI e outros perderam dinheiro ao longo de uma temporada simulada.

O relatório, chamado KellyBench e divulgado pela startup General Reasoning, testou oito sistemas de IA em uma recriação virtual da temporada 2023–24 da Premier League. Cada modelo recebeu dados históricos e estatísticas dos times e, em seguida, foi instruído a criar estratégias que maximizassem os retornos enquanto gerenciavam o risco. Os sistemas fizeram apostas nos resultados das partidas e no total de gols à medida que a temporada avançava, ajustando-se a novas informações e eventos sem acesso à internet.

Todos os modelos perderam dinheiro

O resultado central é contundente. Segundo os autores do estudo, todos os modelos de ponta avaliados perderam dinheiro ao longo da temporada, e muitos sofreram ruína total. O Claude Opus 4.6 da Anthropic registrou o melhor resultado médio, com perda de 11% e uma execução que quase terminou no zero a zero. O GPT-5.4 da OpenAI registrou um retorno médio sobre o investimento de menos 13,6% em três tentativas. O Gemini 3.1 Pro da Google mostrou variância incomumente alta, registrando lucro de 33,7% em uma tentativa, mas indo à falência em outra.

O pior desempenho destacado no texto fornecido veio do Grok 4.20 da xAI, que faliu em uma execução e não concluiu as outras duas tentativas. Na tabela publicada, o ROI médio do Grok foi listado como menos 100%, com saldo final médio de zero. A Acree Trinity também terminou com zero.

Por que a configuração importa

Os mercados de apostas não são um proxy perfeito para inteligência geral, mas são um teste de estresse útil para várias capacidades que importam fora do esporte. Os modelos precisam interpretar dados ruidosos, equilibrar risco e recompensa, atualizar crenças ao longo do tempo e evitar excesso de confiança. Essas são tarefas difíceis porque o sucesso depende menos de gerar linguagem plausível e mais da qualidade da decisão sob incerteza.

É isso que torna o resultado interessante. O benchmark não afirma que modelos de linguagem são ruins em todas as formas de previsão. Ele sugere, no entanto, que mesmo sistemas avançados ainda podem ter desempenho fraco quando são forçados a tomar decisões repetidas, com capital limitado, em um ambiente em mudança. Isso parece ser especialmente verdadeiro quando o objetivo não é explicar um evento depois do fato, mas agir antes que o resultado seja conhecido.

Um contraponto útil ao hype em torno da IA

Os resultados chegam em um momento em que as afirmações sobre a capacidade da IA costumam ser enquadradas em termos amplos e de rápida evolução. Os modelos estão melhorando em tarefas de programação, benchmarks multimodais e diversos testes de raciocínio. Mas os resultados do KellyBench apontam para uma conclusão mais restrita e cautelosa: o progresso em tarefas de laboratório ou de fluxo de trabalho não se traduz automaticamente em julgamento robusto em domínios reais e incertos.

O texto de origem do artigo observa explicitamente que as conclusões podem trazer algum conforto a profissionais preocupados com a substituição rápida da expertise humana por IA em áreas como finanças e marketing. Essa interpretação deve ser tratada com cuidado, mas o ponto central permanece. Sistemas capazes de produzir resultados impressionantes ainda podem ter dificuldade com a tomada de decisões dinâmica que se desenrola ao longo de semanas ou meses.

A variância foi alta, mas não o suficiente para salvar o setor

Um dos detalhes mais reveladores nos resultados é a diferença entre as melhores e as piores tentativas de alguns modelos. O Gemini 3.1 Pro, por exemplo, conseguiu lucro expressivo em uma execução e falência total em outra. Isso sugere que o comportamento do modelo nesse tipo de cenário pode ser instável, com resultados sensíveis a detalhes de execução, atualizações ou padrões internos de decisão.

Alta variância pode ser sedutora porque cria vitórias visíveis. Mas, ao longo de uma temporada, o desempenho médio importa mais do que picos isolados. Nessa métrica, o setor foi mal. Os autores do estudo concluíram que os sistemas tiveram desempenho sistematicamente inferior ao dos humanos nesse cenário.

O que o benchmark prova e o que não prova

O estudo não encerra a questão sobre o quão capazes os agentes de IA se tornarão em previsão, trading ou suporte à decisão. Ele, porém, reforça uma disciplina útil: afirmações sobre competência de modelos devem estar vinculadas a ambientes específicos, e não generalizadas a partir de forças não relacionadas. Um modelo que escreve código bem não é necessariamente um modelo que aloca capital bem.

Essa distinção está se tornando cada vez mais importante à medida que empresas vendem sistemas de IA como ferramentas estratégicas amplas. O experimento KellyBench lembra que o mundo resiste a previsões limpas. Em domínios moldados por incerteza, incentivos e informações em evolução, a distância entre análise plausível e julgamento consistentemente bom continua grande.

  • A General Reasoning testou oito sistemas de IA em decisões de apostas na Premier League ao longo de uma temporada.
  • Todos os modelos perderam dinheiro em média, segundo o relatório KellyBench.
  • Os resultados sugerem que bom desempenho em algumas tarefas de IA não garante previsão robusta no mundo real.

Este artigo é baseado em reportagem da Ars Technica. Leia o artigo original.