Los modelos más potentes lo hicieron mejor, y los usuarios no lo notaron

Un experimento interno de Anthropic sugiere que ya podría estar emergiendo una forma sutil pero importante de desigualdad en IA: las personas representadas por modelos más potentes pueden conseguir mejores resultados sin que nadie a su alrededor advierta que existe una brecha. Según el texto fuente proporcionado, Anthropic realizó en diciembre de 2025 un mercado interno de una semana llamado “Project Deal” en el que 69 empleados usaron agentes de IA basados en Claude para comprar y vender bienes reales a través de Slack.

Cada participante recibió un presupuesto de 100 dólares. Antes de abrirse el mercado, Claude entrevistó a los voluntarios sobre lo que querían comprar o vender, sus preferencias de precio y el estilo de negociación que querían que usara su agente. Anthropic utilizó luego esas respuestas para generar instrucciones de sistema personalizadas. Después, los agentes de IA gestionaron el proceso de principio a fin: redactar anuncios, encontrar contrapartes, hacer ofertas, regatear y cerrar transacciones. Los humanos intervinieron solo al final para intercambiar los bienes.

El giro experimental clave estaba oculto para los participantes. Anthropic ejecutó versiones paralelas del mercado. En algunas, cada participante estaba representado por Claude Opus 4.5, descrito en el texto fuente como el modelo de vanguardia de Anthropic en ese momento. En otras, los participantes tenían un 50% de probabilidad de ser representados por Claude Haiku 4.5, el modelo más pequeño de la empresa.

El resultado no fue solo técnico. Fue social.

Según la fuente, el modelo Opus, más capaz, consiguió sistemáticamente mejores precios y cerró más acuerdos en promedio que Haiku. Al mismo tiempo, unas instrucciones de negociación más agresivas no produjeron una diferencia estadísticamente significativa en los resultados. En otras palabras, la capacidad del modelo importó más que simplemente decirle al sistema que negociara con más firmeza.

Eso contradice una intuición común en la adopción empresarial de IA, donde a veces las organizaciones asumen que el estilo del prompt o el comportamiento superficial determinarán la mayor parte del valor. Los hallazgos de Anthropic sugieren que la fuerza subyacente del modelo puede importar más que el tono. Si ese patrón se generaliza, la calidad del propio agente podría moldear en silencio quién obtiene condiciones favorables en las transacciones digitales.

El hallazgo más llamativo quizá sea perceptivo más que económico. Anthropic dice que los usuarios cuyos agentes Haiku más débiles obtuvieron peores resultados de forma objetiva calificaron sus transacciones como igual de justas que los usuarios representados por Opus. Ese desajuste es lo que la empresa señala como una forma de “desigualdad invisible” en la toma de decisiones asistida por IA.

Esta es una idea de gran alcance. Las formas tradicionales de desigualdad suelen verse en los precios, el acceso o la calidad del servicio. Lo que Anthropic está señalando es más difícil de detectar: dos personas pueden sentirse igualmente satisfechas mientras una recibió sistemáticamente peor representación por parte de la máquina que actuaba en su nombre.

Los agentes de IA se están convirtiendo en intermediarios

Project Deal importa porque lleva la conversación más allá de los chatbots y hacia la agencia. Estos sistemas no solo respondían preguntas. Representaban a personas en negociaciones con otras máquinas. Eso los hace menos parecidos a herramientas de productividad y más a intermediarios que operan en mercados.

A medida que ese papel se expanda, las diferencias entre modelos podrían tener consecuencias directas en comercio, compras, contratación, atención al cliente y operaciones internas. Si los sistemas más potentes negocian mejor de forma sistemática, ordenan información con mayor eficacia o identifican mejores contrapartes, entonces acceder a un modelo de vanguardia se convierte en una ventaja práctica. Quienes quedan del lado débil de esa brecha quizá ni siquiera sepan que están en desventaja.

La fuente no afirma que este resultado se extienda automáticamente a todos los mercados. El experimento fue interno, de corta duración y de escala limitada. Aun así, ofrece una demostración concreta de algo con lo que legisladores y empresas probablemente tendrán que lidiar con más frecuencia: una vez que los agentes de IA empiezan a actuar por los usuarios, las diferencias de capacidad pueden convertirse en diferencias de resultado.

El prompting quizá no sea suficiente

Uno de los hallazgos más útiles del informe es que unas instrucciones de negociación agresivas no produjeron una mejora estadísticamente significativa. Eso sugiere que las organizaciones no pueden asumir que bastará con ajustar los prompts hacia una mayor asertividad para compensar modelos más débiles.

Para desarrolladores y compradores de sistemas de IA, esa es una advertencia práctica. El rendimiento del agente puede depender menos del encuadre de personalidad y más de la calidad central de razonamiento y decisión. Una interfaz vistosa o un estilo contundente no necesariamente se traducen en una representación más fuerte.

Esta distinción importa porque muchas implementaciones de IA se justifican por suficiencia, no por excelencia. Si un modelo más barato o más pequeño parece lo bastante bueno en una conversación, aun así puede rendir mucho peor cuando se le confía la tarea de decidir o negociar en nombre de un usuario.

La cuestión regulatoria ya está aquí

El lenguaje de Anthropic sobre la desigualdad invisible debería resonar más allá de este único experimento. Si las organizaciones despliegan distintas clases de agentes de IA entre rangos de empleados, segmentos de clientes o servicios públicos, podrían crear un trato desigual sin señales claras de injusticia en el momento de uso.

Eso es un problema de gobernanza más difícil que la simple transparencia. Decirle a los usuarios que una IA intervino no responde si esa IA era tan capaz como la que se usó para otra persona. Y cuando la experiencia del usuario sigue pareciendo justa, el mercado o la institución quizá no enfrenten presión inmediata para corregir el desequilibrio.

Project Deal, por tanto, se lee como una advertencia temprana. Sugiere que el acceso a la IA no trata solo de si una persona obtiene un asistente digital, sino de qué asistente obtiene y cuán capaz es cuando hay algo en juego en el resultado.

  • Anthropic realizó un mercado interno de una semana en Slack usando agentes Claude para transacciones reales.
  • Claude Opus 4.5 consiguió mejores precios y más acuerdos, en promedio, que Claude Haiku 4.5.
  • Los usuarios representados por agentes más débiles no reconocieron la desventaja, pese a obtener peores resultados.

Este artículo se basa en la cobertura de The Decoder. Leer el artículo original.

Originally published on the-decoder.com