La fluidité médicale reste supérieure à la fiabilité médicale

Une nouvelle étude résumée par Medical Xpress suggère que les chatbots d’IA populaires restent loin d’être des sources fiables de conseils de santé. Les chercheurs ont testé cinq systèmes largement utilisés en leur posant 50 questions sur le cancer, les vaccins, les cellules souches, la nutrition et la performance sportive. Le résultat principal est sans détour: la moitié des réponses ont été jugées problématiques, et près de 20 % ont été considérées comme très problématiques.

L’étude, publiée dans BMJ Open, a évalué les réponses de ChatGPT, Gemini, Grok, Meta AI et DeepSeek. Deux experts ont noté indépendamment chaque réponse. Bien que les outils produisent souvent des réponses soignées et au ton autoritaire, les chercheurs ont relevé des erreurs factuelles fréquentes, des références peu fiables et un quasi-échec à refuser des requêtes dangereuses ou trompeuses.

Seules deux des 250 questions ont été refusées d’emblée. C’est important, car de nombreuses questions de santé ne sont pas des demandes neutres de faits établis. Elles sont souvent anxieuses, ouvertes ou fondées sur des hypothèses fragiles. Dans ces cas, un chatbot qui répond avec fluidité sans remettre en cause la prémisse peut être plus nocif qu’un système qui dit simplement qu’il ne peut pas aider.

Ce qu’ont trouvé les chercheurs

Selon le texte source, aucun des cinq systèmes n’a généré de manière fiable des listes de références entièrement exactes. L’étude a également constaté des performances relativement similaires entre les modèles, ce qui suggère que le problème est structurel et ne se limite pas à une seule plateforme. Grok a été le moins performant dans cette comparaison, avec 58 % de réponses jugées problématiques, suivi de ChatGPT à 52 % et de Meta AI à 50 %.

Les performances variaient selon les sujets. Les vaccins et le cancer ont donné les meilleurs résultats, ce que l’article attribue à la base de recherche vaste et relativement structurée disponible dans ces domaines. Même là, cependant, les chatbots ont encore produit des réponses problématiques environ un quart du temps. La nutrition et la performance sportive étaient plus préoccupantes, probablement parce que ces sujets sont saturés d’affirmations contradictoires, de preuves faibles et de contenu en ligne de mauvaise qualité.

L’écart s’est fortement creusé lorsque les requêtes sont devenues ouvertes. L’étude a montré que 32 % des réponses ouvertes étaient jugées très problématiques, contre 7 % pour les questions fermées. Cette différence est particulièrement importante en dehors du laboratoire, car les patients réels ne posent généralement pas leurs questions sous forme de QCM. Ils demandent des choses larges comme les meilleurs compléments, le traitement le plus rapide ou la légitimité apparente d’une clinique.