Les modèles les plus puissants ont mieux fait, et les utilisateurs ne l’ont pas remarqué

Une expérience interne d’Anthropic suggère qu’une forme subtile mais importante d’inégalité liée à l’IA est peut-être déjà en train d’émerger : les personnes représentées par des modèles plus puissants peuvent obtenir de meilleurs résultats sans que personne autour d’elles ne réalise qu’un écart existe. Selon le texte source fourni, Anthropic a mené en décembre 2025 un marché interne d’une semaine baptisé “Project Deal”, au cours duquel 69 employés ont utilisé des agents IA basés sur Claude pour acheter et vendre de vrais biens sur Slack.

Chaque participant a reçu un budget de 100 dollars. Avant l’ouverture du marché, Claude a interrogé les volontaires sur ce qu’ils voulaient acheter ou vendre, leurs préférences de prix et le style de négociation qu’ils souhaitaient voir adopter par leur agent. Anthropic a ensuite utilisé ces informations pour générer des invites système personnalisées. Après cela, les agents IA ont pris en charge le processus de bout en bout : rédaction d’annonces, recherche de contreparties, formulation d’offres, marchandage et conclusion des transactions. Les humains n’intervenaient qu’à la fin pour échanger les biens.

Le principal biais expérimental était caché aux participants. Anthropic a exécuté des versions parallèles du marché. Dans certaines, chaque participant était représenté par Claude Opus 4.5, décrit dans le texte source comme le modèle de pointe d’Anthropic à l’époque. Dans d’autres, les participants avaient 50 % de chances d’être représentés par Claude Haiku 4.5, le plus petit modèle de l’entreprise.

Le résultat n’était pas seulement technique. Il était social.

Selon la source, le modèle Opus, plus capable, obtenait systématiquement de meilleurs prix et concluait plus d’accords en moyenne que Haiku. Dans le même temps, des instructions de négociation plus agressives n’ont pas produit de différence statistiquement significative dans les résultats. Autrement dit, la capacité du modèle comptait davantage que le simple fait de dire au système de négocier plus durement.

Cela va à l’encontre d’un réflexe courant dans l’adoption de l’IA en entreprise, où les organisations supposent parfois que le style du prompt ou le comportement de surface déterminera l’essentiel de la valeur. Les résultats d’Anthropic suggèrent que la puissance intrinsèque du modèle peut compter davantage que le ton. Si ce schéma se généralise, la qualité de l’agent lui-même pourrait discrètement façonner qui obtient des conditions favorables dans les transactions numériques.

Le résultat le plus frappant est peut-être perceptif plutôt qu’économique. Anthropic dit que les utilisateurs dont les agents Haiku plus faibles ont obtenu des résultats objectivement moins bons ont malgré tout jugé leurs transactions tout aussi équitables que ceux représentés par Opus. C’est cet écart que l’entreprise désigne comme une forme d’“inégalité invisible” dans la prise de décision assistée par l’IA.

C’est une idée lourde de conséquences. Les formes traditionnelles d’inégalité sont souvent visibles dans les prix, l’accès ou la qualité du service. Ce qu’Anthropic pointe est plus difficile à détecter : deux personnes peuvent se sentir également satisfaites tandis que l’une d’elles a systématiquement reçu une représentation moindre de la part de la machine agissant en son nom.