Les chatbots utiles pourraient moins bien simuler les humains

Former des modèles pour en faire des assistants utiles peut avoir un coût

Les grands modèles de langage sont de plus en plus utilisés comme substituts à des participants humains. Les chercheurs les testent comme proxies pour les réactions du public, les comportements éducatifs et même les interactions cliniques. Mais une nouvelle étude de grande ampleur suggère que l’entraînement même qui rend les modèles plus utiles en tant qu’assistants peut aussi les rendre moins précis comme simulations du comportement humain.

Le travail, décrit dans le rapport fourni, s’appuie sur Psych-201, un jeu de données construit à partir d’expériences comportementales couvrant environ 208 000 participants et quelque 26 millions de réponses. Les chercheurs ont comparé des modèles de base à des variantes post-entraînées dans les familles Qwen3, Llama3 et OLMo 3. Leur constat central était constant : les modèles de base prédisaient mieux les réponses humaines que les versions de type assistant créées par un entraînement supplémentaire.

Pourquoi ce résultat compte

Les modèles d’assistant sont conçus pour être plus sûrs, plus utiles, plus structurés et souvent plus explicites dans leur raisonnement. Ces qualités sont précieuses pour un usage produit au quotidien. Mais elles ne sont pas la même chose que le fait de se comporter comme une personne typique dans une expérience. Si un modèle a été ajusté pour répondre clairement, poliment et avec une cohérence optimisée pour la tâche, il peut s’éloigner de la variabilité et du désordre qui caractérisent les réponses humaines réelles.

Cela rend l’étude importante pour tout domaine qui traite les chatbots comme des substituts à des sujets humains. Si l’objectif est de simuler la façon dont les gens répondent, décident ou réagissent réellement, un assistant plus poli peut être le mauvais outil.

Les modèles de base ont surpassé les versions post-entraînées

Le rapport indique que le schéma s’est maintenu à travers les familles et les tailles de modèles. Les modèles de base, entraînés uniquement à prédire le mot suivant dans un texte, ont surpassé leurs descendants post-entraînés pour prédire les réponses effectivement données par les humains. La dégradation est apparue à travers les objectifs courants de post-entraînement, les modèles de raisonnement montrant la baisse la plus marquée, suivis des versions ajustées par instruction et des variantes étendues à la vision.

Ce constat est particulièrement frappant parce qu’il va à l’encontre d’une intuition courante dans le développement de produits d’IA : les versions plus tardives et plus raffinées devraient, en général, être meilleures. Elles peuvent être de meilleurs assistants. L’étude soutient qu’elles peuvent être de moins bons miroirs psychologiques.

Un jeu de données conçu pour le comportement, pas seulement pour les benchmarks

Psych-201 semble constituer une part importante de la contribution. Le texte source le décrit comme plusieurs fois plus grand que toute collection antérieure de ce type, avec des exécutions complètes d’expériences et des métadonnées de participants incluant l’âge, la nationalité et les réponses aux questionnaires. Cela compte, car juger de la ressemblance humaine requiert une base large de preuves comportementales, pas un benchmark étroit.

Avec un jeu de données aussi vaste, les chercheurs peuvent comparer les modèles aux distributions humaines sur de nombreuses tâches plutôt que de sélectionner quelques exemples où le comportement du modèle semble, par hasard, plausible. L’échelle renforce l’idée qu’il s’agit d’un compromis d’entraînement systématique, et non d’une bizarrerie d’un seul modèle ou d’une seule expérience.

Ce que cela signifie pour la recherche en IA et les usages en politique publique

Le constat est gênant parce que les participants simulés sont attrayants. Ils sont bon marché, rapides et évolutifs. Les gouvernements, les entreprises et les chercheurs peuvent être tentés de les utiliser pour prévoir des réactions à des politiques, tester des interventions ou prototyper des études avant de passer à de vraies personnes. Mais si les modèles d’assistant post-entraînés déforment systématiquement le comportement humain, la commodité peut se transformer en fausse confiance.

L’étude ne dit pas que les modèles de langage sont inutiles pour le travail comportemental. Elle dit que le choix du modèle compte, et que la cible de conception compte. Un modèle optimisé pour aider un utilisateur à terminer une tâche n’est peut-être pas le meilleur pour imiter la manière dont une population pense ou réagit. Ce sont des objectifs différents, et l’écart peut se creuser à chaque génération de réglage des assistants.

La leçon plus large

Les systèmes d’IA sont souvent présentés comme si les capacités s’amélioraient sur un seul axe. Cette étude renvoie à une réalité plus complexe. Rendre un modèle meilleur dans un rôle peut l’affaiblir dans un autre. Un assistant plus aligné peut devenir un sujet moins humain. Ce n’est pas tant un échec de l’entraînement qu’un rappel que les objectifs d’entraînement encodent des valeurs et des arbitrages.

Pour les chercheurs qui veulent des participants synthétiques, la conclusion est simple : ne partez pas du principe que le chatbot le plus poli est le plus réaliste. L’assistant le plus utile dans un produit peut être précisément le mauvais modèle à utiliser comme proxy du comportement humain.

Cet article s’appuie sur un reportage de The Decoder. Lire l’article original.

Originally published on the-decoder.com

Les chatbots utiles pourraient être moins bons pour se comporter comme des humains