Un problème d’intégrité de publication devient mesurable à grande échelle

Une vaste revue d’articles biomédicaux a mis en évidence une forte hausse des références fabriquées depuis 2023, suscitant des inquiétudes quant au fait que des erreurs de citation générées par l’IA s’infiltrent dans la littérature qui contribue à façonner la compréhension clinique et, dans certains cas, les recommandations. Selon le texte source fourni, des chercheurs de l’université Columbia et d’autres institutions ont examiné 2,47 millions d’articles dans l’archive ouverte PubMed Central, couvrant les publications de janvier 2023 à février 2026. Sur 97,1 millions de références vérifiées, 4 046 ont été signalées comme fabriquées dans 2 810 articles.

L’ampleur du jeu de données compte. Les inquiétudes concernant les citations inventées par les modèles de langage circulent depuis des années, mais le matériel fourni présente cette étude comme la plus grande revue de références biomédicales à ce jour. Cela transforme un problème anecdotique en un avertissement presque systémique. Si des références fabriquées apparaissent dans des milliers d’articles, le problème ne se limite plus à des erreurs isolées ou à un usage amateur. Il devient un défi pour les propres flux de publication scientifique.

Le point le plus frappant du texte source est la tendance. Tout au long de 2023, le taux serait resté autour de quatre références fabriquées pour 10 000 articles. À partir du milieu de 2024, il a fortement augmenté, atteignant 51,3 pour 10 000 fin 2025 puis 56,9 pour 10 000 au cours des sept premières semaines de 2026. Cela représente plus d’un facteur douze par rapport au niveau de départ initial.

Le calendrier renforce l’hypothèse de l’IA, sans en prouver l’exclusivité

Les auteurs cités dans le texte source voient un lien probable évident avec l’usage généralisé de modèles de langage comme ChatGPT. Leur raisonnement est à la fois chronologique et technique. Puisque les générateurs de texte généralistes se sont largement diffusés après la fin de 2022, et qu’une publication scientifique prend souvent 100 à 200 jours entre la soumission et la parution, l’effet d’une rédaction assistée par l’IA serait attendu dans des archives comme PubMed Central à partir du milieu de 2024. C’est précisément là que commence la hausse signalée.

En même temps, le texte précise que les chercheurs n’écartent pas d’autres causes. L’activité des paper mills et des changements dans les pratiques d’indexation sont tous deux mentionnés comme facteurs possibles. Cette prudence est importante. Les données semblent cohérentes avec une multiplication des citations fabriquées par l’IA, mais la source ne prétend pas démontrer de façon exclusive que les modèles de langage expliquent chaque cas.

Il n’en reste pas moins que la logique est convaincante. On sait que les grands modèles de langage peuvent produire des références qui paraissent plausibles, respecter le bon format et même associer de vrais chercheurs à des articles inexistants. Dans un environnement académique à haut débit, ces erreurs peuvent passer si ni les auteurs ni les éditeurs ne les valident avec soin.

Le problème ne tient pas seulement aux fausses références, mais aux fausses références crédibles

L’un des détails les plus inquiétants du matériel fourni est la difficulté à détecter ces citations fabriquées à l’œil nu. Le texte source indique que les fausses références correspondent souvent au sujet de l’article, utilisent une mise en forme correcte, créditent de vrais chercheurs et affichent des années de publication plausibles. Dans un exemple cité, un article d’urologie contenait 18 références fabriquées sur 30 vérifiées.

C’est ce qui rend le problème particulièrement dangereux dans l’édition biomédicale. Une citation manifestement défectueuse peut être repérée rapidement. Une citation soignée mais inexistante peut traverser l’évaluation par les pairs et entrer dans le corpus publié si personne ne la vérifie dans des bases de données fiables. La définition de “fabriquée” retenue par l’étude reflète cette inquiétude: un titre cité était signalé s’il était introuvable dans PubMed, Crossref, OpenAlex ou Google Scholar.

Le texte insiste aussi sur les cas où le risque devient plus lourd de conséquences. Les références fabriquées sont particulièrement problématiques lorsqu’elles apparaissent dans des articles de revue, car ces derniers synthétisent souvent les données pour un public plus large et peuvent influencer les recommandations cliniques. Si l’ossature d’une revue repose sur une littérature inventée, les effets en cascade peuvent dépasser largement une seule publication.

La réponse proposée est plus d’automatisation, pas moins de contrôle

Les chercheurs, selon le texte source, appellent à des vérifications automatisées des références avant publication et à un contrôle rétrospectif des articles déjà parus. Cette recommandation est pragmatique, car le problème est en partie une question d’échelle. Les relecteurs humains ne peuvent pas vérifier manuellement chaque citation à travers des millions d’articles, surtout lorsque les fausses références sont conçues pour paraître légitimes.

Le texte note que des plateformes comme arXiv ont déjà introduit des sanctions initiales pour les erreurs liées à l’IA. Cela signale une évolution vers des normes plus strictes, mais l’édition biomédicale a probablement besoin de davantage que des avertissements. La validation des références devra peut-être devenir une étape technique de routine dans les chaînes éditoriales, au même titre que les contrôles de plagiat ou le filtrage d’images.

Il y a aussi une leçon plus large. Les outils d’IA peuvent réduire le coût de la rédaction, mais ils peuvent aussi réduire le coût de production d’énoncés faux mais crédibles. Dans la communication scientifique, ce compromis est particulièrement dangereux, car les lecteurs supposent souvent que l’appareil de citation a déjà été vérifié. Une fois cette hypothèse fragilisée, la confiance dans la littérature s’érode.

La question de l’intégrité fait désormais partie du récit sur l’adoption de l’IA

Ce nouvel audit suggère que les citations fabriquées ne sont plus un problème marginal dans l’édition biomédicale. Elles apparaissent assez souvent, et augmentent assez vite, pour exiger des changements de processus. Que le principal moteur soit l’usage abusif de modèles de langage, les paper mills ou une combinaison des deux, l’implication pratique est la même: les références ne peuvent plus être considérées comme fiables simplement parce qu’elles ont l’air professionnelles.

C’est un problème sérieux pour n’importe quel domaine, mais tout particulièrement pour celui dont les revues et synthèses peuvent contribuer à façonner les recommandations cliniques. La leçon tirée du matériel source n’est pas que l’IA doit être exclue des flux de recherche. C’est qu’une rédaction assistée par l’IA sans vérification rigoureuse peut contaminer la chaîne des preuves. Une fois cela installé à grande échelle, le coût en crédibilité dépasse largement un seul article.

  • Un audit de 2,47 millions d’articles biomédicaux a trouvé 4 046 références fabriquées dans 2 810 articles.
  • Le taux de fausses citations aurait augmenté de plus de douze fois de 2023 au début de 2026.
  • Les chercheurs considèrent les modèles de langage comme une cause probable, sans exclure d’autres facteurs.
  • Les fausses citations sont particulièrement risquées dans les articles de revue qui influencent la compréhension clinique et les recommandations.
  • Les auteurs de l’étude appellent à des contrôles automatisés des références et à un dépistage rétrospectif.

Cet article est basé sur un reportage de The Decoder. Lire l’article original.

Originally published on the-decoder.com