Las victorias en benchmarks chocan con la realidad del despliegue

Una de las ideas más influyentes en la IA agentiva durante el último año ha sido el auge de las “habilidades”: archivos de texto reutilizables que agrupan flujos de trabajo, mejores prácticas, instrucciones de API y orientación específica de dominio para que un agente pueda recurrir a ellos al completar una tarea. En evaluaciones controladas, esa idea parecía poderosa. Un nuevo estudio destacado por The Decoder sostiene que el efecto es mucho más débil en condiciones realistas.

Los investigadores, procedentes de UC Santa Barbara, MIT CSAIL y el MIT-IBM Watson AI Lab, probaron 34,198 habilidades del mundo real recopiladas de repositorios de código abierto. Su conclusión es tajante: las ganancias derivadas de las habilidades son frágiles. Cuando las condiciones dejan de estar tan curadas y se parecen más al despliegue práctico, las mejoras de rendimiento se reducen con fuerza y, en los escenarios más difíciles, apenas superan la línea base sin habilidades.

Eso importa porque las habilidades se han convertido en una promesa central en la propuesta de valor de los agentes de IA. Si un modelo general puede incorporar dinámicamente un manual relevante en el momento adecuado, sostienen sus defensores, debería comportarse más como un especialista sin necesidad de reentrenamiento. El nuevo trabajo no descarta esa visión por completo. Sin embargo, sí sugiere que gran parte de la confianza en torno a ella puede descansar en benchmarks que hacen que el problema de recuperación sea irrealmente fácil.

Por qué los benchmarks anteriores pueden haber exagerado el beneficio

El estudio apunta a SKILLSBENCH, un benchmark existente que proporciona a los agentes habilidades específicas para la tarea y seleccionadas manualmente. Según los investigadores, esos materiales a menudo contienen instrucciones tan estrechamente alineadas con la asignación que se parecen más a una solución casi completa que a un recurso realista. En un ejemplo citado que involucra la identificación de días de inundación en estaciones de aforo de USGS, las habilidades suministradas habrían incluido la API exacta, la fuente del umbral y patrones de código listos para usar necesarios para resolver la tarea.

Esa configuración es útil para medir si un modelo puede seguir instrucciones. Es mucho menos útil para medir si un agente puede navegar un repositorio desordenado de habilidades heterogéneas, decidir cuáles importan, adaptarlas a la tarea e ignorar las que no. Los sistemas reales rara vez reciben un paquete perfectamente preparado de tres documentos ideales. Tienen que buscar entre ruido, ambigüedad y superposición parcial.

La distinción no es académica. Si un agente solo parece fuerte cuando en la práctica se le entrega una receta a medida, entonces el éxito en benchmarks dice poco sobre cómo se comportará en una base de código empresarial, en un entorno de herramientas de código abierto o en un flujo general de productividad donde las instrucciones relevantes pueden ser incompletas, tener nombres pobres o faltar por completo.

Un conjunto de pruebas más grande y ruidoso cambia el panorama

Para examinar esa brecha, los investigadores reunieron un gran corpus de habilidades con licencia permisiva de skillhub.club y skills.sh, eliminaron duplicados y probaron modelos en condiciones más cercanas al uso práctico. En lugar de presentar directamente las instrucciones correctas, la evaluación obligó a los agentes a identificar y usar habilidades a partir de una colección mucho más amplia.

Ese cambio parece haber hecho la mayor parte del trabajo. Bajo esas restricciones más realistas, las ganancias que parecían sustanciales en entornos favorables a los benchmarks en gran medida desaparecieron. El estudio también informa de un efecto secundario importante: los modelos más débiles pueden rendir peor con habilidades. Eso sugiere que la recuperación y la aplicación no son beneficios gratuitos. Añaden otra capa de carga de razonamiento, y los modelos ya frágiles pueden distraerse en lugar de beneficiarse de instrucciones adicionales.

En términos prácticos, eso significa que las habilidades solo pueden mejorar los resultados cuando varios sistemas distintos ya funcionan bien a la vez:

  • El agente debe reconocer que se necesita una habilidad.
  • Debe recuperar la correcta de un conjunto ruidoso.
  • Debe entender qué partes son relevantes.
  • Debe adaptar esas instrucciones a la tarea específica.
  • Debe evitar dejarse llevar por una guía irrelevante o demasiado general.

Si falla cualquiera de esos pasos, el beneficio esperado puede desmoronarse.

Qué cambia esto para la pila de agentes

El estudio no demuestra que las habilidades sean inútiles. Demuestra que la parte más difícil del problema quizá no sea escribir instrucciones modulares, sino orquestar de forma fiable su descubrimiento y aplicación. Eso desplaza la atención de las habilidades como capacidad aislada hacia la infraestructura que las rodea: indexación, ranking, calidad de recuperación, descomposición de tareas y diseño de evaluación.

También complica la narrativa competitiva que se ha construido en torno a las plataformas de agentes. Anthropic introdujo habilidades para Claude Code a finales de 2025, y el concepto se extendió rápidamente al ecosistema Codex de OpenAI y a varios proyectos de código abierto. La adopción acelerada hizo que las habilidades parecieran un estándar emergente para la extensibilidad de los agentes. Este estudio sugiere que ese estándar todavía puede ser inmaduro, sobre todo si su evidencia pública más fuerte provino de configuraciones de prueba favorables.

Para los equipos que despliegan agentes, la conclusión es más operativa que filosófica. Las habilidades aún pueden ser valiosas en entornos muy acotados con repositorios limpios y nombres consistentes. También pueden funcionar bien cuando una persona cura un conjunto más pequeño alrededor de un flujo de trabajo específico. Pero los resultados implican que lanzar decenas de miles de habilidades a un agente y esperar una especialización robusta y autoservida todavía no es un problema resuelto.

Esa es una corrección importante para un campo que a menudo trata la modularidad como una mejora automática. En los sistemas de agentes, la modularidad solo ayuda si el modelo puede navegarla. La evidencia más reciente sugiere que la promesa favorable al benchmark y la utilidad de grado productivo siguen muy separadas.

Este artículo se basa en la cobertura de The Decoder. Leer el artículo original.

Originally published on the-decoder.com