Un nuevo benchmark coloca el razonamiento del modelo en un entorno implacable

Los sistemas de IA de frontera pueden sobresalir en programación, resumir y otras tareas estructuradas, pero un nuevo estudio sugiere que la previsión a largo plazo en el mundo real sigue siendo una habilidad mucho más débil. En un benchmark construido en torno a apostar en partidos de fútbol de la Premier League, los modelos de Google, OpenAI, Anthropic, xAI y otros perdieron dinero a lo largo de una temporada simulada.

El informe, llamado KellyBench y publicado por la startup General Reasoning, probó ocho sistemas de IA en una recreación virtual de la temporada 2023–24 de la Premier League. A cada modelo se le dieron datos históricos y estadísticas de los equipos, y luego se le indicó que construyera estrategias para maximizar los retornos mientras gestionaba el riesgo. Los sistemas realizaron apuestas sobre los resultados de los partidos y los totales de goles a medida que avanzaba la temporada, adaptándose a información actualizada y a nuevos eventos sin acceso a internet.

Todos los modelos perdieron dinero

El resultado central es contundente. Según los autores del estudio, todos los modelos de frontera evaluados perdieron dinero durante la temporada, y muchos sufrieron ruina total. Claude Opus 4.6 de Anthropic registró el mejor resultado promedio, con una pérdida del 11% y una ejecución que casi empató. GPT-5.4 de OpenAI registró un retorno promedio sobre la inversión de menos 13,6% en tres intentos. Gemini 3.1 Pro de Google mostró una variabilidad inusualmente alta, con una ganancia del 33,7% en un intento, pero quebró en otro.

El peor desempeño destacado en el texto proporcionado vino de Grok 4.20 de xAI, que quebró en una ejecución y no logró completar los otros dos intentos. En la tabla publicada, el ROI medio de Grok figuraba en menos 100%, con un bankroll final medio de cero. Acree Trinity también terminó en cero.

Por qué importa el planteamiento

Los mercados de apuestas no son un proxy perfecto de la inteligencia general, pero sí son una prueba de estrés útil para varias capacidades que importan fuera del deporte. Los modelos deben interpretar datos ruidosos, equilibrar riesgo y recompensa, actualizar creencias con el tiempo y evitar el exceso de confianza. Son tareas difíciles porque el éxito depende menos de generar lenguaje plausible que de la calidad de la decisión bajo incertidumbre.

Eso es lo que hace interesante el resultado. El benchmark no afirma que los modelos de lenguaje sean malos en todas las formas de predicción. Sí sugiere, sin embargo, que incluso los sistemas avanzados pueden rendir mal cuando se les obliga a tomar decisiones repetidas y con capital limitado en un entorno cambiante. Esto parece ser especialmente cierto cuando el objetivo no es explicar un evento después de ocurrido, sino actuar antes de que se conozca el resultado.

Un contrapeso útil al entusiasmo por la IA

Los hallazgos llegan en un momento en que las afirmaciones sobre la capacidad de la IA suelen formularse en términos amplios y cambiantes. Los modelos mejoran en tareas de programación, benchmarks multimodales y diversas pruebas de razonamiento. Pero los resultados de KellyBench apuntan a una conclusión más estrecha y cautelosa: el progreso en tareas de laboratorio o de flujo de trabajo no se traduce automáticamente en un juicio sólido en dominios reales e inciertos.

El texto fuente del artículo señala explícitamente que los hallazgos pueden ofrecer cierto alivio a profesionales preocupados por que la IA reemplace rápidamente la experiencia humana en campos como finanzas y marketing. Esa interpretación debe tratarse con cuidado, pero el punto central se mantiene. Los sistemas que pueden producir resultados impresionantes aún pueden tener dificultades con la toma de decisiones dinámica que se desarrolla durante semanas o meses.

La variabilidad fue alta, pero no suficiente para salvar al sector

Uno de los detalles más reveladores de los resultados es la diferencia entre los mejores y peores intentos de algunos modelos. Gemini 3.1 Pro, por ejemplo, logró una fuerte ganancia en una ejecución y una quiebra total en otra. Eso sugiere que el comportamiento del modelo en este tipo de entorno puede ser inestable, con resultados sensibles a detalles de ejecución, actualizaciones o patrones internos de decisión.

La alta variabilidad puede ser seductora porque genera victorias visibles. Pero, a lo largo de una temporada, el rendimiento promedio importa más que los picos aislados. En esa medida, el sector lo hizo mal. Los autores del estudio concluyeron que los sistemas rindieron sistemáticamente por debajo de los humanos en este escenario.

Qué demuestra el benchmark y qué no

El estudio no resuelve la cuestión de cuán capaces llegarán a ser los agentes de IA en previsión, trading o apoyo a la decisión. Sí refuerza una disciplina útil: las afirmaciones sobre la competencia de un modelo deben vincularse a entornos específicos, no generalizarse a partir de fortalezas no relacionadas. Un modelo que escribe bien código no es necesariamente un modelo que asigne capital bien.

Esa distinción es cada vez más importante a medida que las empresas presentan los sistemas de IA como herramientas estratégicas amplias. El ejercicio KellyBench recuerda que el mundo resiste la predicción limpia. En dominios moldeados por la incertidumbre, los incentivos y la información cambiante, la brecha entre un análisis plausible y un juicio consistentemente bueno sigue siendo amplia.

  • General Reasoning probó ocho sistemas de IA en decisiones de apuestas de la Premier League durante una temporada.
  • Todos los modelos perdieron dinero en promedio, según el informe KellyBench.
  • Los resultados sugieren que un buen rendimiento en algunas tareas de IA no garantiza una previsión robusta en el mundo real.

Este artículo se basa en la cobertura de Ars Technica. Lee el artículo original.