Les modèles d’IA citent souvent la mauvaise source même lorsque la réponse est juste

Répondre juste ne suffit plus

Un corpus croissant de travaux en intelligence artificielle déplace l’attention de la question de savoir si un modèle peut répondre à une question vers celle de savoir s’il peut prouver d’où vient la réponse. Une nouvelle recherche mise en avant par The Decoder suggère que de nombreux systèmes de premier plan peinent encore sur cette seconde dimension.

Des chercheurs de l’Université de Pékin et du Shanghai Artificial Intelligence Laboratory ont créé un benchmark appelé CiteVQA pour mesurer à la fois la précision de la réponse et l’attribution de la source dans les questions-réponses sur documents. Leur conclusion est inconfortable pour quiconque espère s’appuyer sur l’IA dans des contextes à forts enjeux : un modèle peut produire la bonne réponse tout en pointant la mauvaise preuve.

L’équipe appelle ce mode d’échec « hallucination d’attribution ». En pratique, cela signifie qu’un système d’IA peut sembler fiable parce que sa réponse finale est exacte, alors que la citation fournie à l’appui ne justifie pas réellement cette réponse.

Pourquoi la qualité des citations compte

Les benchmarks standards d’analyse de documents, comme DocVQA et MMLongBench-Doc, évaluent généralement la réponse finale. Cela laisse un angle mort majeur. Un modèle peut avoir raisonné à partir du document source, mais il peut aussi avoir deviné à partir de connaissances préalables, de la reconnaissance de motifs ou d’indices partiels dans le prompt.

Dans de nombreux usages grand public, cette distinction peut passer inaperçue. En droit, en médecine, en finance et en audit, elle ne le peut pas. L’article soutient que la traçabilité est ce qui rend la sortie d’un système d’IA exploitable dès le départ. Si un système ne peut pas identifier de manière fiable le paragraphe, le tableau ou la figure qui soutient sa réponse, un rendu soigné peut malgré tout rester opérationnellement dangereux.

CiteVQA est conçu pour mettre directement en évidence cet écart. Un numéro de page ne suffit pas. Les modèles doivent identifier des emplacements précis de la source dans le document, jusqu’à l’élément justificatif exact.

Google et OpenAI révèlent des opérations distinctes d’abus de l’IA liées à la Chine

Google a engagé une action en justice au sujet d’un réseau de fraude présumé assisté par l’IA, tandis qu’OpenAI a déclaré avoir perturbé deux groupes d’influence liés à la Chine visant les débats américains et les récits sur les infrastructures.

Read article

Un test plus difficile que la QA documentaire classique

Le benchmark comprend 1 897 questions réparties sur 711 PDF dans sept domaines thématiques, avec 451 documents en anglais et 260 en chinois. La longueur moyenne des documents est de 40,6 pages, ce qui rend l’ensemble nettement plus long que de nombreux benchmarks documentaires existants.

Plutôt que de s’appuyer entièrement sur une annotation manuelle, les chercheurs ont construit un pipeline automatisé. Les documents sont découpés en éléments individuels, puis les modèles retracent des chaînes de preuve. Le système teste si chaque composant cité est réellement nécessaire en supprimant les documents un par un et en vérifiant si le modèle peut toujours répondre. Si ce n’est pas le cas, cette preuve est considérée comme essentielle.

La métrique centrale est l’Exactitude Attribuée Stricte. Selon ce barème, un modèle n’obtient un point que lorsque les deux conditions sont réunies : la réponse est correcte et la citation renvoie au bon matériau justificatif. Une réponse correcte associée à une citation erronée obtient zéro.

Les meilleurs modèles perdent encore beaucoup de terrain

Vingt modèles actuels ont été évalués. Le système le plus performant, Gemini-3.1-Pro-Preview, a obtenu 76 sur 100 selon la métrique stricte. C’est une solide performance relative, mais cela laisse encore un écart important entre le meilleur résultat disponible et une attribution presque parfaite et fiable.

Le benchmark a aussi mis en évidence une différence notable entre la qualité de la réponse et la qualité de la preuve. GPT-5.4 aurait obtenu 87,1 en performance brute de réponse, mais ce score est tombé à 59 lorsque la citation correcte était exigée. En d’autres termes, le modèle savait souvent quoi dire sans montrer de manière cohérente où, dans le document, se trouvait la réponse.

Les systèmes open source ont fait bien moins bien dans les résultats rapportés. Qwen3-VL-235B-A22B, présenté comme le modèle libre le plus performant de la comparaison, a atteint 22,5. Les petits modèles ouverts se sont pour la plupart situés sous 10. Les chercheurs jugent ce niveau de performance extrêmement risqué pour les secteurs réglementés.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 ouvre un jeu de données robotique de 2 000 heures

X Square Robot a publié XRZero-G0 et un jeu de données multimodal de 2 000 heures afin de réduire la quantité de données réelles de robots nécessaire aux systèmes d’IA incarnée.

Read article

Trouver la bonne page reste un obstacle majeur

L’un des messages les plus clairs du benchmark est que beaucoup de modèles peinent même avant le début de la tâche plus granulaire de citation. Ils échouent souvent à identifier la bonne page, ce qui rend encore plus difficile une attribution précise au niveau du paragraphe ou de la figure.

Cette question est importante car les utilisateurs interprètent souvent les citations comme une fonction de sécurité intégrée. En réalité, un format de citation peut masquer une étape de recherche faible. Un système qui ajoute à une réponse des références semblant probantes peut paraître plus fiable qu’un système qui répond sans références, même si la preuve est erronée.

CiteVQA suggère que le secteur devrait se montrer plus prudent avant de considérer une sortie liée aux sources comme intrinsèquement digne de confiance. L’attribution doit être mesurée, non supposée.

Un benchmark centré sur la fiabilité pratique

L’importance de l’étude tient moins au fait de désigner un gagnant qu’à la redéfinition de la cible. Si l’IA doit servir à la lecture professionnelle, à l’examen de conformité, à la due diligence ou à l’assistance fondée sur des preuves, la barre ne peut pas s’arrêter à des résumés fluides et à des réponses globalement correctes.

Ce qui compte, c’est de savoir si un modèle peut récupérer le soutien exact qu’il prétend utiliser. Le benchmark rend cela visible et quantifiable. Il montre aussi que les systèmes actuels, y compris les meilleurs, restent inégaux sur ce point.

Cela ne veut pas dire que l’IA documentaire est inutilisable. Cela signifie que les décisions de déploiement doivent distinguer entre « bien répondre » et « bien fonder ». CiteVQA traite ces capacités comme distinctes, et les résultats suggèrent que la seconde reste en retard.

Pour les acheteurs d’entreprise, les régulateurs et les équipes qui intègrent l’IA dans les flux de travail de recherche, c’est probablement l’enseignement principal. La prochaine frontière concurrentielle de l’intelligence documentaire ne sera peut-être pas de produire une prose plus assurée. Elle pourrait consister à prouver, avec précision, que cette prose est ancrée dans la bonne ligne de la bonne source.

Cet article s’appuie sur le travail de The Decoder. Lire l’article original.

Anthropic demande des audits contraignants tout en requalifiant l’IA en infrastructure stratégique

Le PDG d’Anthropic, Dario Amodei, dit que les règles de transparence ne suffisent plus et appelle à des audits obligatoires par des tiers pour les systèmes d’IA de pointe.

Read article

Originally published on the-decoder.com

Un benchmark montre que les systèmes d’IA répondent souvent correctement, mais citent la mauvaise preuve

Répondre juste ne suffit plus

Pourquoi la qualité des citations compte

Google et OpenAI révèlent des opérations distinctes d’abus de l’IA liées à la Chine

Un test plus difficile que la QA documentaire classique

Les meilleurs modèles perdent encore beaucoup de terrain

XRZero-G0 ouvre un jeu de données robotique de 2 000 heures

Trouver la bonne page reste un obstacle majeur

Un benchmark centré sur la fiabilité pratique

Anthropic demande des audits contraignants tout en requalifiant l’IA en infrastructure stratégique

Comments (0)

Keep Reading