Anthropic descobre que agentes de IA mais fortes negociam acordos melhores

Os modelos mais fortes tiveram melhor desempenho, e os usuários não perceberam

Um experimento interno da Anthropic sugere que uma forma sutil, mas importante, de desigualdade em IA já pode estar surgindo: pessoas representadas por modelos mais fortes podem obter resultados melhores sem que ninguém ao redor perceba a diferença. Segundo o texto de origem fornecido, a Anthropic realizou em dezembro de 2025 um mercado interno de uma semana chamado “Project Deal”, no qual 69 funcionários usaram agentes de IA baseados em Claude para comprar e vender bens reais pelo Slack.

Cada participante recebeu um orçamento de US$ 100. Antes da abertura do mercado, o Claude entrevistou voluntários sobre o que queriam comprar ou vender, suas preferências de preço e o estilo de negociação que queriam que seu agente usasse. A Anthropic então usou essas informações para gerar prompts de sistema personalizados. Depois disso, os agentes de IA cuidaram de tudo do início ao fim: escrever anúncios, encontrar contrapartes, fazer ofertas, pechinchar e fechar transações. Os humanos só voltaram a intervir no final para trocar os bens.

A principal manobra experimental ficou oculta para os participantes. A Anthropic executou versões paralelas do mercado. Em algumas, cada participante era representado pelo Claude Opus 4.5, descrito no texto de origem como o modelo de fronteira da Anthropic na época. Em outras, os participantes tinham 50% de chance de ser representados pelo Claude Haiku 4.5, o menor modelo da empresa.

O resultado não foi apenas técnico. Foi social.

Segundo a fonte, o modelo Opus, mais capaz, consistentemente conseguiu preços melhores e fechou mais negócios, em média, do que o Haiku. Ao mesmo tempo, instruções de negociação mais agressivas não produziram uma diferença estatisticamente significativa nos resultados. Em outras palavras, a capacidade do modelo importou mais do que simplesmente dizer ao sistema para barganhar mais duro.

Isso contraria uma intuição comum na adoção corporativa de IA, em que organizações às vezes presumem que o estilo do prompt ou o comportamento superficial determinarão a maior parte do valor. Os achados da Anthropic sugerem que a força subjacente do modelo pode importar mais do que o tom. Se esse padrão se generalizar, a qualidade do próprio agente pode moldar discretamente quem obtém condições favoráveis em transações digitais.

O achado mais marcante talvez seja perceptivo, e não econômico. A Anthropic diz que usuários cujos agentes Haiku mais fracos obtiveram resultados objetivamente piores classificaram suas transações como tão justas quanto os usuários representados por Opus. Esse descompasso é o que a empresa aponta como uma forma de “desigualdade invisível” na tomada de decisão assistida por IA.

Essa é uma ideia consequente. Formas tradicionais de desigualdade costumam aparecer em preços, acesso ou qualidade de serviço. O que a Anthropic está apontando é mais difícil de detectar: duas pessoas podem se sentir igualmente satisfeitas enquanto uma delas recebeu sistematicamente uma representação pior da máquina que agiu em seu nome.

AI & Robotics

Os Emirados Árabes Unidos dizem que vão migrar 50% dos setores, serviços e processos do governo para sistemas de IA agêntica em dois anos, estabelecendo uma das metas de IA para o setor público mais agressivas já anunciadas.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Pequim estaria dizendo às empresas de tecnologia privadas para rejeitar dinheiro dos EUA, a menos que o Estado aprove antes, ampliando um movimento mais amplo para manter ativos e propriedade de IA estrategicamente importantes sob controle doméstico mais rígido.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

O GPT-5.5 da OpenAI chegou ao topo de um importante ranking de benchmarks e parece mais eficiente em tokens do que seu antecessor, mas a reportagem citada na fonte diz que o modelo ainda alucina em alta taxa.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

A questão regulatória já está aqui

A linguagem da Anthropic sobre desigualdade invisível deve repercutir muito além desse único experimento. Se organizações implantarem classes diferentes de agentes de IA entre níveis de funcionários, segmentos de clientes ou serviços públicos, poderão criar tratamento desigual sem sinais claros de injustiça no momento do uso.

Esse é um problema de governança mais difícil do que simples transparência. Dizer aos usuários que uma IA esteve envolvida não responde se essa IA era tão capaz quanto a usada por outra pessoa. E, quando a experiência do usuário ainda parece justa, o mercado ou a instituição talvez não enfrentem pressão imediata para corrigir o desequilíbrio.

Por isso, o Project Deal soa como um alerta precoce. Ele sugere que o acesso à IA não diz respeito apenas a uma pessoa receber ou não um assistente digital, mas a qual assistente ela recebe e quão capaz ele é quando há risco no resultado.

A Anthropic realizou um mercado interno de uma semana no Slack usando agentes Claude para transações reais.
O Claude Opus 4.5 conseguiu preços melhores e mais negócios, em média, do que o Claude Haiku 4.5.
Usuários representados por agentes mais fracos não perceberam a desvantagem, apesar dos resultados piores.

Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.

Mercado interno da Anthropic sugere que agentes de IA mais fortes fecham negócios melhores sem ninguém perceber

Os modelos mais fortes tiveram melhor desempenho, e os usuários não perceberam

O resultado não foi apenas técnico. Foi social.

Related Articles

Keep Reading

A OpenAI publica um guia inicial do Codex enquanto aposta em um onboarding mais prático para fluxos de trabalho de IA

Agentes de IA estão se tornando intermediários

Prompting talvez não seja suficiente

O acordo da Cohere com a Aleph Alpha transforma a IA soberana em uma estratégia transfronteiriça

A questão regulatória já está aqui

Comments (0)

Os Emirados Árabes Unidos querem IA agêntica em metade do governo em dois anos

China fecha a porta para capital dos EUA em negócios de tecnologia domésticos

GPT-5.5 Eleva o Nível dos Benchmarks de IA, Mas Mantém uma Fraqueza Familiar