Los modelos más potentes lo hicieron mejor, y los usuarios no lo notaron

Un experimento interno de Anthropic sugiere que ya podría estar emergiendo una forma sutil pero importante de desigualdad en IA: las personas representadas por modelos más potentes pueden conseguir mejores resultados sin que nadie a su alrededor advierta que existe una brecha. Según el texto fuente proporcionado, Anthropic realizó en diciembre de 2025 un mercado interno de una semana llamado “Project Deal” en el que 69 empleados usaron agentes de IA basados en Claude para comprar y vender bienes reales a través de Slack.

Cada participante recibió un presupuesto de 100 dólares. Antes de abrirse el mercado, Claude entrevistó a los voluntarios sobre lo que querían comprar o vender, sus preferencias de precio y el estilo de negociación que querían que usara su agente. Anthropic utilizó luego esas respuestas para generar instrucciones de sistema personalizadas. Después, los agentes de IA gestionaron el proceso de principio a fin: redactar anuncios, encontrar contrapartes, hacer ofertas, regatear y cerrar transacciones. Los humanos intervinieron solo al final para intercambiar los bienes.

El giro experimental clave estaba oculto para los participantes. Anthropic ejecutó versiones paralelas del mercado. En algunas, cada participante estaba representado por Claude Opus 4.5, descrito en el texto fuente como el modelo de vanguardia de Anthropic en ese momento. En otras, los participantes tenían un 50% de probabilidad de ser representados por Claude Haiku 4.5, el modelo más pequeño de la empresa.

El resultado no fue solo técnico. Fue social.

Según la fuente, el modelo Opus, más capaz, consiguió sistemáticamente mejores precios y cerró más acuerdos en promedio que Haiku. Al mismo tiempo, unas instrucciones de negociación más agresivas no produjeron una diferencia estadísticamente significativa en los resultados. En otras palabras, la capacidad del modelo importó más que simplemente decirle al sistema que negociara con más firmeza.

Eso contradice una intuición común en la adopción empresarial de IA, donde a veces las organizaciones asumen que el estilo del prompt o el comportamiento superficial determinarán la mayor parte del valor. Los hallazgos de Anthropic sugieren que la fuerza subyacente del modelo puede importar más que el tono. Si ese patrón se generaliza, la calidad del propio agente podría moldear en silencio quién obtiene condiciones favorables en las transacciones digitales.

El hallazgo más llamativo quizá sea perceptivo más que económico. Anthropic dice que los usuarios cuyos agentes Haiku más débiles obtuvieron peores resultados de forma objetiva calificaron sus transacciones como igual de justas que los usuarios representados por Opus. Ese desajuste es lo que la empresa señala como una forma de “desigualdad invisible” en la toma de decisiones asistida por IA.

Esta es una idea de gran alcance. Las formas tradicionales de desigualdad suelen verse en los precios, el acceso o la calidad del servicio. Lo que Anthropic está señalando es más difícil de detectar: dos personas pueden sentirse igualmente satisfechas mientras una recibió sistemáticamente peor representación por parte de la máquina que actuaba en su nombre.