Les modèles les plus puissants ont mieux fait, et les utilisateurs ne l’ont pas remarqué

Une expérience interne d’Anthropic suggère qu’une forme subtile mais importante d’inégalité liée à l’IA est peut-être déjà en train d’émerger : les personnes représentées par des modèles plus puissants peuvent obtenir de meilleurs résultats sans que personne autour d’elles ne réalise qu’un écart existe. Selon le texte source fourni, Anthropic a mené en décembre 2025 un marché interne d’une semaine baptisé “Project Deal”, au cours duquel 69 employés ont utilisé des agents IA basés sur Claude pour acheter et vendre de vrais biens sur Slack.

Chaque participant a reçu un budget de 100 dollars. Avant l’ouverture du marché, Claude a interrogé les volontaires sur ce qu’ils voulaient acheter ou vendre, leurs préférences de prix et le style de négociation qu’ils souhaitaient voir adopter par leur agent. Anthropic a ensuite utilisé ces informations pour générer des invites système personnalisées. Après cela, les agents IA ont pris en charge le processus de bout en bout : rédaction d’annonces, recherche de contreparties, formulation d’offres, marchandage et conclusion des transactions. Les humains n’intervenaient qu’à la fin pour échanger les biens.

Le principal biais expérimental était caché aux participants. Anthropic a exécuté des versions parallèles du marché. Dans certaines, chaque participant était représenté par Claude Opus 4.5, décrit dans le texte source comme le modèle de pointe d’Anthropic à l’époque. Dans d’autres, les participants avaient 50 % de chances d’être représentés par Claude Haiku 4.5, le plus petit modèle de l’entreprise.

Le résultat n’était pas seulement technique. Il était social.

Selon la source, le modèle Opus, plus capable, obtenait systématiquement de meilleurs prix et concluait plus d’accords en moyenne que Haiku. Dans le même temps, des instructions de négociation plus agressives n’ont pas produit de différence statistiquement significative dans les résultats. Autrement dit, la capacité du modèle comptait davantage que le simple fait de dire au système de négocier plus durement.

Cela va à l’encontre d’un réflexe courant dans l’adoption de l’IA en entreprise, où les organisations supposent parfois que le style du prompt ou le comportement de surface déterminera l’essentiel de la valeur. Les résultats d’Anthropic suggèrent que la puissance intrinsèque du modèle peut compter davantage que le ton. Si ce schéma se généralise, la qualité de l’agent lui-même pourrait discrètement façonner qui obtient des conditions favorables dans les transactions numériques.

Le résultat le plus frappant est peut-être perceptif plutôt qu’économique. Anthropic dit que les utilisateurs dont les agents Haiku plus faibles ont obtenu des résultats objectivement moins bons ont malgré tout jugé leurs transactions tout aussi équitables que ceux représentés par Opus. C’est cet écart que l’entreprise désigne comme une forme d’“inégalité invisible” dans la prise de décision assistée par l’IA.

C’est une idée lourde de conséquences. Les formes traditionnelles d’inégalité sont souvent visibles dans les prix, l’accès ou la qualité du service. Ce qu’Anthropic pointe est plus difficile à détecter : deux personnes peuvent se sentir également satisfaites tandis que l’une d’elles a systématiquement reçu une représentation moindre de la part de la machine agissant en son nom.

Les agents IA deviennent des intermédiaires

Project Deal est important parce qu’il fait passer la discussion au-delà des chatbots et dans le domaine de l’agence. Ces systèmes ne répondaient pas seulement à des questions. Ils représentaient des personnes dans des négociations avec d’autres machines. Cela les rapproche davantage d’intermédiaires opérant sur les marchés que de simples outils de productivité.

À mesure que ce rôle s’étend, les différences entre modèles pourraient avoir des conséquences directes dans le commerce, les achats, le recrutement, le service client et les opérations internes. Si des systèmes plus puissants négocient régulièrement mieux, organisent l’information plus efficacement ou identifient de meilleures contreparties, alors l’accès à un modèle de pointe devient un avantage concret. Les personnes du côté le plus faible de cet écart ne savent peut-être même pas qu’elles sont désavantagées.

Le texte source ne prétend pas que ce résultat s’étende automatiquement à tous les marchés. L’expérience était interne, de courte durée et limitée en taille. Même ainsi, elle offre une démonstration concrète de quelque chose que les décideurs publics et les entreprises devront probablement affronter plus souvent : une fois que les agents IA commencent à agir pour les utilisateurs, les écarts de capacité peuvent devenir des écarts de résultat.

Le prompting ne suffira peut-être pas

L’un des enseignements les plus utiles du rapport est que des instructions de négociation agressives n’ont pas apporté d’amélioration statistiquement significative. Cela suggère que les organisations ne peuvent pas supposer qu’elles compenseront simplement des modèles plus faibles en ajustant les prompts vers davantage d’assertivité.

Pour les développeurs et les acheteurs de systèmes d’IA, c’est un avertissement pratique. Les performances de l’agent peuvent dépendre moins du cadrage de la personnalité que de la qualité centrale du raisonnement et de la décision. Une interface élégante ou un style ferme ne se traduisent pas nécessairement par une meilleure représentation.

Cette distinction compte parce que de nombreux déploiements d’IA sont justifiés sur la base de la suffisance, et non de l’excellence. Si un modèle moins cher ou plus petit semble suffisant en conversation, il peut quand même être nettement moins performant lorsqu’on lui confie la tâche de décider ou de négocier au nom d’un utilisateur.

La question réglementaire est déjà là

Le discours d’Anthropic sur l’inégalité invisible devrait résonner bien au-delà de cette seule expérience. Si des organisations déploient différentes classes d’agents IA selon les niveaux hiérarchiques, les segments de clientèle ou les services publics, elles risquent de créer un traitement inégal sans signe clair d’injustice au moment de l’usage.

C’est un problème de gouvernance plus difficile qu’une simple transparence. Dire aux utilisateurs qu’une IA était impliquée ne répond pas à la question de savoir si cette IA était aussi capable que celle utilisée pour quelqu’un d’autre. Et lorsque l’expérience utilisateur semble toujours équitable, le marché ou l’institution peuvent ne pas subir de pression immédiate pour corriger le déséquilibre.

Project Deal apparaît donc comme un signal d’alerte précoce. Il suggère que l’accès à l’IA ne concerne pas seulement le fait d’obtenir ou non un assistant numérique, mais aussi l’assistant que l’on obtient et son niveau de capacité lorsque l’enjeu est réel.

  • Anthropic a mené un marché interne d’une semaine sur Slack en utilisant des agents Claude pour de vraies transactions.
  • Claude Opus 4.5 a obtenu de meilleurs prix et plus d’accords, en moyenne, que Claude Haiku 4.5.
  • Les utilisateurs représentés par des agents plus faibles n’ont pas perçu le désavantage, malgré des résultats moins bons.

Cet article est basé sur le reportage de The Decoder. Lire l’article original.

Originally published on the-decoder.com