La métrica interna de IA de Amazon produjo el comportamiento equivocado
Amazon habría retirado un sistema interno de clasificación de IA después de que los empleados descubrieran cómo subir en la tabla dirigiendo las herramientas de IA a tareas sin sentido. El episodio es un caso de estudio útil de cómo unas métricas de adopción de IA desplegadas con rapidez pueden distorsionar los incentivos dentro de grandes empresas.
Según el texto fuente proporcionado, la compañía utilizaba un panel llamado “Kirorank” para puntuar a los empleados en función de su actividad en la plataforma de desarrollo Kiro de Amazon. La métrica pretendía fomentar el uso, pero algunos trabajadores empezaron a utilizar la IA por la puntuación en sí misma y no para obtener resultados significativos. El resultado fue más actividad, costes adicionales de nube y poca evidencia de valor correspondiente.
Cuando el uso se convierte en el objetivo
El fallo básico es familiar desde el diseño organizativo: una vez que una métrica se convierte en objetivo, la gente optimiza la métrica en lugar del objetivo subyacente. En este caso, el objetivo aparente era una adopción útil de IA por parte de los desarrolladores. El proxy elegido fue la actividad en una plataforma interna.
Esa distinción resultó costosa. Si los empleados pueden mejorar su posición simplemente ejecutando más tareas impulsadas por IA, entonces el consumo de tokens y el tráfico de la plataforma pueden aumentar aunque no mejoren la calidad del código, la velocidad de entrega o el impacto en el cliente. El texto fuente dice que algunos trabajadores apuntaban agentes de IA a trabajos sin sentido solo para subir en el ranking.
El vicepresidente senior Dave Treadwell habría dicho al personal: “Please don’t use AI just for the sake of using AI.” La frase captura con precisión el problema central. Una vez que la dirección tiene que decir eso explícitamente, el marco de medición ya se ha alejado del resultado de negocio al que debía servir.
La presión detrás del panel
El momento importa. Amazon se ha fijado, según el texto fuente, la meta de que más del 80% de sus desarrolladores use IA cada semana. También planea gastar unos 200.000 millones de dólares en 2026, en su mayor parte en infraestructura de IA. Esas cifras ayudan a explicar por qué las métricas internas de adopción recibieron tanta atención.
Las grandes empresas que invierten tan agresivamente en IA quieren pruebas de que las herramientas se están usando, y quieren esas pruebas rápido. Los paneles son una respuesta gerencial obvia porque convierten una amplia agenda de transformación en un número visible. Pero visibilidad no es lo mismo que utilidad. Especialmente en las organizaciones de software, la adopción significativa es difícil de captar con estadísticas brutas de uso.
El texto fuente señala que Meta vio un patrón similar, en el que los empleados perseguían puntuaciones de uso de IA. Eso sugiere que el problema no es exclusivo de Amazon. Puede ser estructural en las empresas que intentan acelerar la adopción de IA antes de contar con formas maduras de medir las mejoras reales.
De los tokens a los despliegues útiles
La métrica de reemplazo de Amazon es reveladora. En lugar de rastrear el consumo bruto de tokens, la compañía ahora habría pasado a medir “normalized deployments”, es decir, código generado por IA que realmente demuestra ser útil. Ese cambio indica un desplazamiento desde métricas de entrada hacia métricas de salida.
El cambio es sensato, pero no trivial. Medir si el código generado por IA es realmente útil requiere una definición de éxito más sólida que simplemente registrar que se invocó un modelo. Sugiere un vínculo más estrecho con resultados de producción, con la integración en flujos de trabajo reales o con alguna validación de que el trabajo generado contribuyó a un despliegue y no a ruido.
Aun así, cualquier métrica sustitutiva necesitará un diseño cuidadoso. Si se recompensa a los empleados solo por el número de despliegues, pueden optimizar para despliegues pequeños o de bajo riesgo. Si se les recompensa por volumen de código, pueden generar más de lo que revisan adecuadamente. La lección no es que las métricas sean imposibles. Es que las métricas de adopción de IA necesitan una alineación mucho más estrecha con el valor real de ingeniería de lo que muchas organizaciones suponen al principio.
Por qué importa para la IA empresarial
La experiencia de Amazon muestra que los despliegues internos de IA entran en una fase más difícil. El reto inicial era poner las herramientas en manos de los empleados. El siguiente es demostrar que esas herramientas mejoran el trabajo real en lugar de inflar simplemente los gráficos de participación. A medida que crece el gasto en IA, es probable que disminuya la tolerancia ejecutiva a la adopción simbólica.
Esto es especialmente importante en entornos de desarrollo, donde la computación desperdiciada se traduce directamente en costes y donde una salida generada de baja calidad puede crear cargas ocultas de mantenimiento más adelante. Un ranking puede motivar la experimentación, pero también puede fomentar un comportamiento performativo si el sistema de puntuación es tosco.
La conclusión general es sencilla: las empresas no pueden tratar el uso de IA como el estado final. Tienen que distinguir entre actividad y eficacia. La decisión de Amazon de eliminar el ranking sugiere que la compañía aprendió esa lección por la vía cara. Para otras organizaciones que empujan a sus empleados hacia herramientas de IA, es una advertencia de que las campañas de adopción necesitan mejores incentivos antes de escalar el comportamiento equivocado.
Este artículo se basa en una cobertura de The Decoder. Leer el artículo original.
Originally published on the-decoder.com


