La moitié des réponses de l’IA sur la santé étaient problématiques dans une nouvelle étude

Les chatbots d’IA donnent encore des réponses de santé dangereuses avec une assurance alarmante, selon une étude

Une étude publiée dans BMJ Open a révélé que la moitié des réponses de cinq grands chatbots à des questions de santé étaient problématiques, et qu’environ une sur cinq était jugée très problématique. Les résultats soulignent un fossé persistant entre des réponses soignées et la réalité

DT Editorial AI

Apr 25, 2026·4 min read·1,060 words

La fluidité médicale reste supérieure à la fiabilité médicale

Une nouvelle étude résumée par Medical Xpress suggère que les chatbots d’IA populaires restent loin d’être des sources fiables de conseils de santé. Les chercheurs ont testé cinq systèmes largement utilisés en leur posant 50 questions sur le cancer, les vaccins, les cellules souches, la nutrition et la performance sportive. Le résultat principal est sans détour: la moitié des réponses ont été jugées problématiques, et près de 20 % ont été considérées comme très problématiques.

L’étude, publiée dans BMJ Open, a évalué les réponses de ChatGPT, Gemini, Grok, Meta AI et DeepSeek. Deux experts ont noté indépendamment chaque réponse. Bien que les outils produisent souvent des réponses soignées et au ton autoritaire, les chercheurs ont relevé des erreurs factuelles fréquentes, des références peu fiables et un quasi-échec à refuser des requêtes dangereuses ou trompeuses.

Seules deux des 250 questions ont été refusées d’emblée. C’est important, car de nombreuses questions de santé ne sont pas des demandes neutres de faits établis. Elles sont souvent anxieuses, ouvertes ou fondées sur des hypothèses fragiles. Dans ces cas, un chatbot qui répond avec fluidité sans remettre en cause la prémisse peut être plus nocif qu’un système qui dit simplement qu’il ne peut pas aider.

Ce qu’ont trouvé les chercheurs

Selon le texte source, aucun des cinq systèmes n’a généré de manière fiable des listes de références entièrement exactes. L’étude a également constaté des performances relativement similaires entre les modèles, ce qui suggère que le problème est structurel et ne se limite pas à une seule plateforme. Grok a été le moins performant dans cette comparaison, avec 58 % de réponses jugées problématiques, suivi de ChatGPT à 52 % et de Meta AI à 50 %.

Les performances variaient selon les sujets. Les vaccins et le cancer ont donné les meilleurs résultats, ce que l’article attribue à la base de recherche vaste et relativement structurée disponible dans ces domaines. Même là, cependant, les chatbots ont encore produit des réponses problématiques environ un quart du temps. La nutrition et la performance sportive étaient plus préoccupantes, probablement parce que ces sujets sont saturés d’affirmations contradictoires, de preuves faibles et de contenu en ligne de mauvaise qualité.

L’écart s’est fortement creusé lorsque les requêtes sont devenues ouvertes. L’étude a montré que 32 % des réponses ouvertes étaient jugées très problématiques, contre 7 % pour les questions fermées. Cette différence est particulièrement importante en dehors du laboratoire, car les patients réels ne posent généralement pas leurs questions sous forme de QCM. Ils demandent des choses larges comme les meilleurs compléments, le traitement le plus rapide ou la légitimité apparente d’une clinique.

Health

Des scientifiques travaillant sur du tissu cardiaque dérivé de cellules souches affirment que la microgravité peut à la fois accélérer une dégradation semblable à celle du cœur et aider à faire croître des structures cardiaques plus complexes, ce qui pourrait accélérer les études sur l’insuffisance cardiaque et la réparation.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Une analyse nationale de Medicaid a révélé que l’utilisation d’antibiotiques en ambulatoire augmente fortement avec la complexité médicale chez les enfants, l’exposition la plus élevée étant concentrée chez ceux qui présentent plusieurs maladies chroniques.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Une analyse nationale des assurances a révélé que moins de la moitié des femmes enceintes diagnostiquées avec un trouble lié à l’usage d’opioïdes ont reçu un traitement médicamenteux pendant la grossesse, soulignant d’importantes lacunes dans les soins fondés sur les preuves.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

La leçon générale

Cette étude ne montre pas que l’IA n’a aucun rôle à jouer dans l’information en santé. Elle montre que les chatbots généralistes actuels échouent encore trop souvent de façons difficiles à détecter pour les utilisateurs. Les systèmes testés pouvaient répondre à toutes les questions en prose fluide, mais la fluidité n’était pas un gage de fiabilité.

C’est la leçon centrale pour les patients comme pour les développeurs. De plus en plus de personnes se tournent vers l’IA avant de parler à un médecin, surtout lorsqu’elles ont peur ou qu’elles sont impatientes. Si un système répond avec certitude là où la prudence est nécessaire, l’utilisateur peut ne pas réaliser le risque avant beaucoup plus tard. En médecine, c’est un mode de défaillance grave.

Tant que la précision, l’intégrité des citations et le comportement de refus ne s’améliorent pas sensiblement, les chatbots d’IA sont mieux compris comme des outils de brouillon et d’orientation que comme des guides médicaux fiables. Les résultats de BMJ Open suggèrent que le secteur a encore une importante faille de sécurité à combler.

Les chercheurs ont testé cinq grands chatbots avec 50 questions de santé chacun.
La moitié des réponses étaient problématiques et près d’une sur cinq était très problématique.
Les requêtes ouvertes ont créé les plus gros problèmes de sécurité.
Les résultats montrent que des réponses d’IA soignées peuvent rester médicalement peu fiables.

Cet article est basé sur un reportage de Medical Xpress. Lire l’article original.

Les chatbots d’IA donnent encore des réponses de santé dangereuses avec une assurance alarmante, selon une étude

La fluidité médicale reste supérieure à la fiabilité médicale

Ce qu’ont trouvé les chercheurs

Related Articles

Keep Reading

Des scientifiques relient l’exposition à une agression à un risque nettement plus élevé de TOC, surtout pendant la première année

Pourquoi la confiance fait partie du risque

Ce que cela signifie pour les patients et les plateformes

Cachées dans les follicules pileux, des cellules immunitaires « sentinelles » pourraient aider la peau à détecter les menaces

La leçon générale

Comments (0)

La sécurité des implants cardiaques entre dans une nouvelle phase alors que des chercheurs appellent à une gestion des sondes sur toute la vie

Pourquoi des Chercheurs Envoient du Tissu Cardiaque dans l’Espace

Les enfants atteints de multiples maladies chroniques sont exposés à beaucoup plus d’antibiotiques, selon des chercheurs

Les patientes enceintes atteintes d’un trouble lié à l’usage d’opioïdes continuent de passer à côté du traitement de référence, selon une étude