La Nueva Métrica de Evaluación de Desempeño Que Nadie Pidió

En algún lugar dentro de la gestión del desempeño corporativo, alguien tuvo una idea: si estamos pagando por tokens de AI, deberíamos poder medir quién los está usando más. Y así nació una nueva métrica de trabajo — el consumo de tokens de AI como proxy para la productividad y el engagement.

Están surgiendo reportes de que algunas empresas tecnológicas, ansiosas por justificar sus inversiones en plataformas de AI e identificar early adopters, están monitoreando cuán rápidamente los empleados consumen tokens de large language models. Cuantos más tokens consumidos, más involucrado con AI debe estar el trabajador — o eso es el razonamiento. Es una lógica gerencial que suena superficialmente razonable hasta que la examinas durante unos treinta segundos.

Por Qué el Conteo de Tokens Es una Métrica de Productividad Terrible

El consumo de tokens mide el uso de AI, no la producción de trabajo. Un desarrollador que usa Claude o Copilot para generar cinco enfoques alternativos para un problema de codificación antes de seleccionar el mejor consume muchos más tokens que un desarrollador que escribe código limpio de forma independiente al primer intento. Bajo una métrica de consumo de tokens, el primer desarrollador obtiene una puntuación más alta — aunque el segundo podría estar produciendo trabajo mejor.

La métrica invierte la estructura de incentivos de otras formas también. Los empleados que entienden las limitaciones de AI y lo usan de manera juiciosa usarán naturalmente menos tokens que aquellos que hacen prompts repetidamente esperando mejores resultados. La métrica recompensa el volumen sobre el discernimiento.

También está el problema obvio del gaming. Una vez que los empleados saben que están siendo evaluados por uso de tokens, generarán prompts. Muchos prompts. Prompts sin sentido si es necesario. La historia corporativa está llena de ejemplos de métricas que eran fáciles de manipular y rápidamente se convirtieron en el principal resultado que se suponía que debían medir.

El Problema Más Profundo: Medir la Adopción de AI de la Manera Equivocada

El impulso detrás de estas métricas no está completamente equivocado. Las organizaciones que han invertido fuertemente en plataformas de AI quieren saber si esas inversiones están generando retornos. Identificar empleados que no están usando herramientas disponibles — y entender por qué — es una preocupación legítima de gestión.

Pero el consumo de tokens es un indicador adelantado en el mejor de los casos, y uno engañoso en el peor. Lo que realmente importa es si AI está cambiando los resultados del trabajo: reducir el tiempo de finalización de tareas, mejorar la calidad, habilitar trabajo que no era previamente viable, o liberar capacidad cognitiva para actividades de mayor valor. Ninguno de estos es capturado contando llamadas de API.

Las empresas que supuestamente están usando este enfoque esencialmente están midiendo inputs porque los outputs son más difíciles de definir y medir. Eso es comprensible en un período de transición, pero tratar una métrica proxy como la cosa real es un fallo de gestión con una larga historia en tech.

Lo Que Esto Revela Sobre la Integración de AI

La emergencia de métricas de consumo de tokens refleja una ansiedad más amplia en organizaciones tecnológicas: la sensación de que AI está transformando el trabajo más rápido de lo que los marcos de gestión pueden adaptarse. Los líderes que entienden que AI importa pero aún no tienen marcos claros para medir su impacto organizacional están buscando cualquier número disponible.

Esta fase era predecible y probablemente es temporal. El mismo patrón sucedió con métricas de adopción en la nube, puntos de velocidad ágil, e incontables otras transiciones tecnológicas. Las organizaciones eventualmente desarrollan formas más sofisticadas de medir el impacto después de que el ciclo de hype inicial fuerza un pensamiento más profundo.

El Desafío de Gestión de la Era de AI

La verdad más difícil es que AI fundamentalmente complica la atribución del resultado del trabajo. Cuando un desarrollador produce código, ¿cuánto crédito le pertenece versus el AI que lo redactó? Cuando un diseñador entrega un concepto, ¿cómo valúas el juicio creativo humano aplicado a opciones generadas por AI? Cuando un escritor publica un artículo, ¿dónde termina la asistencia de investigación y comienza la contribución creativa?

Estas preguntas no tienen respuestas limpias, es por eso que las organizaciones están buscando proxies más simples como el consumo de tokens. Pero las empresas que descubran cómo medir el trabajo aumentado por AI con precisión — en lugar de solo medir el uso de AI — tendrán una ventaja significativa en asignar talento, estructurar incentivos, y construir equipos que usan AI efectivamente.

Hasta entonces, espera más métricas dudosas, más confusión de empleados, y más artículos explicando por qué contar tokens no es lo mismo que contar buen trabajo.

Este artículo está basado en reportaje de Gizmodo. Lee el artículo original.

Originally published on gizmodo.com