Os modelos mais fortes tiveram melhor desempenho, e os usuários não perceberam
Um experimento interno da Anthropic sugere que uma forma sutil, mas importante, de desigualdade em IA já pode estar surgindo: pessoas representadas por modelos mais fortes podem obter resultados melhores sem que ninguém ao redor perceba a diferença. Segundo o texto de origem fornecido, a Anthropic realizou em dezembro de 2025 um mercado interno de uma semana chamado “Project Deal”, no qual 69 funcionários usaram agentes de IA baseados em Claude para comprar e vender bens reais pelo Slack.
Cada participante recebeu um orçamento de US$ 100. Antes da abertura do mercado, o Claude entrevistou voluntários sobre o que queriam comprar ou vender, suas preferências de preço e o estilo de negociação que queriam que seu agente usasse. A Anthropic então usou essas informações para gerar prompts de sistema personalizados. Depois disso, os agentes de IA cuidaram de tudo do início ao fim: escrever anúncios, encontrar contrapartes, fazer ofertas, pechinchar e fechar transações. Os humanos só voltaram a intervir no final para trocar os bens.
A principal manobra experimental ficou oculta para os participantes. A Anthropic executou versões paralelas do mercado. Em algumas, cada participante era representado pelo Claude Opus 4.5, descrito no texto de origem como o modelo de fronteira da Anthropic na época. Em outras, os participantes tinham 50% de chance de ser representados pelo Claude Haiku 4.5, o menor modelo da empresa.
O resultado não foi apenas técnico. Foi social.
Segundo a fonte, o modelo Opus, mais capaz, consistentemente conseguiu preços melhores e fechou mais negócios, em média, do que o Haiku. Ao mesmo tempo, instruções de negociação mais agressivas não produziram uma diferença estatisticamente significativa nos resultados. Em outras palavras, a capacidade do modelo importou mais do que simplesmente dizer ao sistema para barganhar mais duro.
Isso contraria uma intuição comum na adoção corporativa de IA, em que organizações às vezes presumem que o estilo do prompt ou o comportamento superficial determinarão a maior parte do valor. Os achados da Anthropic sugerem que a força subjacente do modelo pode importar mais do que o tom. Se esse padrão se generalizar, a qualidade do próprio agente pode moldar discretamente quem obtém condições favoráveis em transações digitais.
O achado mais marcante talvez seja perceptivo, e não econômico. A Anthropic diz que usuários cujos agentes Haiku mais fracos obtiveram resultados objetivamente piores classificaram suas transações como tão justas quanto os usuários representados por Opus. Esse descompasso é o que a empresa aponta como uma forma de “desigualdade invisível” na tomada de decisão assistida por IA.
Essa é uma ideia consequente. Formas tradicionais de desigualdade costumam aparecer em preços, acesso ou qualidade de serviço. O que a Anthropic está apontando é mais difícil de detectar: duas pessoas podem se sentir igualmente satisfeitas enquanto uma delas recebeu sistematicamente uma representação pior da máquina que agiu em seu nome.
Agentes de IA estão se tornando intermediários
O Project Deal importa porque leva a discussão além dos chatbots e entra no terreno da agência. Esses sistemas não estavam apenas respondendo perguntas. Eles representavam pessoas em negociações com outras máquinas. Isso os torna menos parecidos com ferramentas de produtividade e mais com intermediários operando em mercados.
À medida que esse papel se expande, diferenças entre modelos podem ter consequências diretas em comércio, compras, recrutamento, atendimento ao cliente e operações internas. Se sistemas mais fortes negociam melhor de forma recorrente, organizam informações com mais eficácia ou identificam melhores contrapartes, então ter acesso a um modelo de fronteira vira uma vantagem prática. As pessoas do lado mais fraco dessa divisão talvez nem saibam que estão em desvantagem.
O texto de origem não afirma que esse resultado se estenda automaticamente a todos os mercados. O experimento foi interno, curto e limitado em escala. Ainda assim, ele oferece uma demonstração concreta de algo que reguladores e empresas provavelmente enfrentarão com mais frequência: quando agentes de IA começam a agir pelos usuários, lacunas de capacidade podem se tornar lacunas de resultado.
Prompting talvez não seja suficiente
Um dos achados mais úteis do relatório é que instruções agressivas de negociação não produziram uma melhoria estatisticamente significativa. Isso sugere que as organizações não podem presumir que bastará ajustar prompts para mais assertividade a fim de compensar modelos mais fracos.
Para desenvolvedores e compradores de sistemas de IA, isso é um aviso prático. O desempenho do agente pode depender menos da embalagem de personalidade e mais da qualidade central de raciocínio e decisão. Uma interface elegante ou um estilo contundente não necessariamente se traduzem em uma representação melhor.
Essa distinção importa porque muitas implantações de IA são justificadas com base em suficiência, não em excelência. Se um modelo mais barato ou menor parece bom o bastante em conversa, ele ainda pode desempenhar de forma materialmente pior quando recebe a confiança de negociar ou decidir em nome de um usuário.
A questão regulatória já está aqui
A linguagem da Anthropic sobre desigualdade invisível deve repercutir muito além desse único experimento. Se organizações implantarem classes diferentes de agentes de IA entre níveis de funcionários, segmentos de clientes ou serviços públicos, poderão criar tratamento desigual sem sinais claros de injustiça no momento do uso.
Esse é um problema de governança mais difícil do que simples transparência. Dizer aos usuários que uma IA esteve envolvida não responde se essa IA era tão capaz quanto a usada por outra pessoa. E, quando a experiência do usuário ainda parece justa, o mercado ou a instituição talvez não enfrentem pressão imediata para corrigir o desequilíbrio.
Por isso, o Project Deal soa como um alerta precoce. Ele sugere que o acesso à IA não diz respeito apenas a uma pessoa receber ou não um assistente digital, mas a qual assistente ela recebe e quão capaz ele é quando há risco no resultado.
- A Anthropic realizou um mercado interno de uma semana no Slack usando agentes Claude para transações reais.
- O Claude Opus 4.5 conseguiu preços melhores e mais negócios, em média, do que o Claude Haiku 4.5.
- Usuários representados por agentes mais fracos não perceberam a desvantagem, apesar dos resultados piores.
Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.
Originally published on the-decoder.com







