A métrica interna de IA da Amazon gerou o comportamento errado

A Amazon teria removido um sistema interno de ranking de IA depois que funcionários descobriram como subir na classificação direcionando ferramentas de IA para tarefas sem sentido. O episódio é um estudo de caso útil sobre como métricas de adoção de IA implementadas rapidamente podem distorcer incentivos dentro de grandes empresas.

De acordo com o texto de origem fornecido, a empresa usava um painel chamado “Kirorank” para pontuar os funcionários com base em sua atividade na plataforma de desenvolvimento Kiro da Amazon. A métrica pretendia estimular o uso, mas alguns trabalhadores passaram a usar IA pelo score em si, e não por uma produção relevante. O resultado foi mais atividade, custos adicionais de nuvem e pouca evidência de valor correspondente.

Quando o uso vira a meta

A falha básica é conhecida em desenho organizacional: quando uma métrica vira alvo, as pessoas otimizam a métrica em vez do objetivo subjacente. Neste caso, o objetivo aparente era uma adoção útil de IA por desenvolvedores. O proxy escolhido foi a atividade em uma plataforma interna.

Essa distinção saiu cara. Se os funcionários conseguem melhorar sua posição apenas executando mais tarefas com IA, então o consumo de tokens e o tráfego da plataforma podem subir mesmo que a qualidade do código, a velocidade de entrega ou o impacto no cliente não melhorem. O texto de origem diz que alguns trabalhadores direcionavam agentes de IA para trabalhos sem sentido só para subir no ranking.

O vice-presidente sênior Dave Treadwell teria dito à equipe: “Please don’t use AI just for the sake of using AI.” A frase resume o problema central com precisão. Quando a liderança precisa dizer isso explicitamente, o framework de medição já se afastou do resultado de negócio que deveria apoiar.

A pressão por trás do painel

O timing importa. A Amazon definiu a meta de fazer com que mais de 80% de seus desenvolvedores usem IA semanalmente, segundo o texto de origem. A empresa também planeja gastar cerca de US$ 200 bilhões em 2026, em grande parte em infraestrutura de IA. Esses números ajudam a explicar por que métricas internas de adoção receberam tanta atenção.

Grandes empresas que investem tão agressivamente em IA querem evidências de que as ferramentas estão sendo usadas, e querem essas evidências rapidamente. Painéis são uma resposta gerencial óbvia porque transformam uma agenda ampla de transformação em um número visível. Mas visibilidade não é o mesmo que utilidade. Especialmente em organizações de software, a adoção significativa é difícil de capturar com estatísticas brutas de uso.

O texto de origem observa que a Meta viu um padrão semelhante, em que funcionários perseguiam pontuações de uso de IA. Isso sugere que o problema não é exclusivo da Amazon. Pode ser estrutural em empresas que tentam acelerar a adoção de IA antes de terem formas maduras de medir ganhos reais.

De contagem de tokens a implantações úteis

A métrica substituta da Amazon é reveladora. Em vez de rastrear o consumo bruto de tokens, a empresa agora teria passado a medir “normalized deployments”, ou seja, código gerado por IA que de fato se mostra útil. Essa mudança indica uma transição de métricas de entrada para métricas de saída.

A mudança faz sentido, mas não é trivial. Medir se o código gerado por IA é realmente útil exige uma definição de sucesso mais forte do que simplesmente registrar que um modelo foi acionado. Isso sugere uma ligação mais estreita com resultados de produção, com a integração em fluxos de trabalho reais ou com alguma validação de que o trabalho gerado contribuiu para um deploy e não apenas gerou ruído.

Ainda assim, qualquer métrica substituta precisará de um desenho cuidadoso. Se os funcionários forem recompensados apenas pelo número de implantações, podem otimizar para implantações pequenas ou de baixo risco. Se forem recompensados por volume de código, podem gerar mais do que revisam adequadamente. A lição não é que métricas sejam impossíveis. É que métricas de adoção de IA precisam de alinhamento muito mais forte com valor real de engenharia do que muitas organizações imaginam no início.

Por que isso importa para a IA corporativa

A experiência da Amazon mostra que implantações internas de IA estão entrando em uma fase mais difícil. O desafio inicial era colocar as ferramentas nas mãos dos funcionários. O próximo é provar que essas ferramentas melhoram o trabalho real em vez de apenas inflar gráficos de engajamento. À medida que os gastos com IA crescem, a tolerância executiva à adoção simbólica tende a diminuir.

Isso é especialmente importante em ambientes de desenvolvimento, onde computação desperdiçada se traduz diretamente em custo e onde uma saída gerada de baixa qualidade pode criar fardos ocultos de manutenção depois. Um ranking pode incentivar experimentação, mas também pode estimular comportamento performático se o sistema de pontuação for tosco.

A conclusão geral é direta: as empresas não podem tratar o uso de IA como estado final. Elas precisam distinguir entre atividade e eficácia. A decisão da Amazon de remover o ranking sugere que a empresa aprendeu essa lição da maneira cara. Para outras organizações que empurram funcionários para ferramentas de IA, é um alerta de que campanhas de adoção precisam de incentivos melhores antes de escalar o comportamento errado.

Este artigo é baseado em reportagem da The Decoder. Leia o artigo original.

Originally published on the-decoder.com