
Las “habilidades” de los agentes de IA muestran ganancias limitadas cuando las pruebas se parecen más al mundo real
Un amplio estudio de más de 34,000 habilidades de agentes en el mundo real sugiere que las instrucciones modulares elogiadas en entornos de benchmark ofrecen beneficios mucho menores cuando los modelos deben encontrarlas y aplicarlas por sí mismos.
- Los investigadores probaron 34,198 habilidades del mundo real procedentes de repositorios de código abierto.
- El estudio sostiene que los benchmarks existentes exageran las ganancias al entregar a los agentes instrucciones altamente específicas para la tarea.




