Os modelos mais fortes tiveram melhor desempenho, e os usuários não perceberam
Um experimento interno da Anthropic sugere que uma forma sutil, mas importante, de desigualdade em IA já pode estar surgindo: pessoas representadas por modelos mais fortes podem obter resultados melhores sem que ninguém ao redor perceba a diferença. Segundo o texto de origem fornecido, a Anthropic realizou em dezembro de 2025 um mercado interno de uma semana chamado “Project Deal”, no qual 69 funcionários usaram agentes de IA baseados em Claude para comprar e vender bens reais pelo Slack.
Cada participante recebeu um orçamento de US$ 100. Antes da abertura do mercado, o Claude entrevistou voluntários sobre o que queriam comprar ou vender, suas preferências de preço e o estilo de negociação que queriam que seu agente usasse. A Anthropic então usou essas informações para gerar prompts de sistema personalizados. Depois disso, os agentes de IA cuidaram de tudo do início ao fim: escrever anúncios, encontrar contrapartes, fazer ofertas, pechinchar e fechar transações. Os humanos só voltaram a intervir no final para trocar os bens.
A principal manobra experimental ficou oculta para os participantes. A Anthropic executou versões paralelas do mercado. Em algumas, cada participante era representado pelo Claude Opus 4.5, descrito no texto de origem como o modelo de fronteira da Anthropic na época. Em outras, os participantes tinham 50% de chance de ser representados pelo Claude Haiku 4.5, o menor modelo da empresa.
O resultado não foi apenas técnico. Foi social.
Segundo a fonte, o modelo Opus, mais capaz, consistentemente conseguiu preços melhores e fechou mais negócios, em média, do que o Haiku. Ao mesmo tempo, instruções de negociação mais agressivas não produziram uma diferença estatisticamente significativa nos resultados. Em outras palavras, a capacidade do modelo importou mais do que simplesmente dizer ao sistema para barganhar mais duro.
Isso contraria uma intuição comum na adoção corporativa de IA, em que organizações às vezes presumem que o estilo do prompt ou o comportamento superficial determinarão a maior parte do valor. Os achados da Anthropic sugerem que a força subjacente do modelo pode importar mais do que o tom. Se esse padrão se generalizar, a qualidade do próprio agente pode moldar discretamente quem obtém condições favoráveis em transações digitais.
O achado mais marcante talvez seja perceptivo, e não econômico. A Anthropic diz que usuários cujos agentes Haiku mais fracos obtiveram resultados objetivamente piores classificaram suas transações como tão justas quanto os usuários representados por Opus. Esse descompasso é o que a empresa aponta como uma forma de “desigualdade invisível” na tomada de decisão assistida por IA.
Essa é uma ideia consequente. Formas tradicionais de desigualdade costumam aparecer em preços, acesso ou qualidade de serviço. O que a Anthropic está apontando é mais difícil de detectar: duas pessoas podem se sentir igualmente satisfeitas enquanto uma delas recebeu sistematicamente uma representação pior da máquina que agiu em seu nome.





