La fluidité médicale reste supérieure à la fiabilité médicale

Une nouvelle étude résumée par Medical Xpress suggère que les chatbots d’IA populaires restent loin d’être des sources fiables de conseils de santé. Les chercheurs ont testé cinq systèmes largement utilisés en leur posant 50 questions sur le cancer, les vaccins, les cellules souches, la nutrition et la performance sportive. Le résultat principal est sans détour: la moitié des réponses ont été jugées problématiques, et près de 20 % ont été considérées comme très problématiques.

L’étude, publiée dans BMJ Open, a évalué les réponses de ChatGPT, Gemini, Grok, Meta AI et DeepSeek. Deux experts ont noté indépendamment chaque réponse. Bien que les outils produisent souvent des réponses soignées et au ton autoritaire, les chercheurs ont relevé des erreurs factuelles fréquentes, des références peu fiables et un quasi-échec à refuser des requêtes dangereuses ou trompeuses.

Seules deux des 250 questions ont été refusées d’emblée. C’est important, car de nombreuses questions de santé ne sont pas des demandes neutres de faits établis. Elles sont souvent anxieuses, ouvertes ou fondées sur des hypothèses fragiles. Dans ces cas, un chatbot qui répond avec fluidité sans remettre en cause la prémisse peut être plus nocif qu’un système qui dit simplement qu’il ne peut pas aider.

Ce qu’ont trouvé les chercheurs

Selon le texte source, aucun des cinq systèmes n’a généré de manière fiable des listes de références entièrement exactes. L’étude a également constaté des performances relativement similaires entre les modèles, ce qui suggère que le problème est structurel et ne se limite pas à une seule plateforme. Grok a été le moins performant dans cette comparaison, avec 58 % de réponses jugées problématiques, suivi de ChatGPT à 52 % et de Meta AI à 50 %.

Les performances variaient selon les sujets. Les vaccins et le cancer ont donné les meilleurs résultats, ce que l’article attribue à la base de recherche vaste et relativement structurée disponible dans ces domaines. Même là, cependant, les chatbots ont encore produit des réponses problématiques environ un quart du temps. La nutrition et la performance sportive étaient plus préoccupantes, probablement parce que ces sujets sont saturés d’affirmations contradictoires, de preuves faibles et de contenu en ligne de mauvaise qualité.

L’écart s’est fortement creusé lorsque les requêtes sont devenues ouvertes. L’étude a montré que 32 % des réponses ouvertes étaient jugées très problématiques, contre 7 % pour les questions fermées. Cette différence est particulièrement importante en dehors du laboratoire, car les patients réels ne posent généralement pas leurs questions sous forme de QCM. Ils demandent des choses larges comme les meilleurs compléments, le traitement le plus rapide ou la légitimité apparente d’une clinique.

Pourquoi la confiance fait partie du risque

Le problème le plus frappant n’est pas seulement l’erreur elle-même, mais le fait qu’elle puisse être enveloppée dans un langage persuasif. L’article prend l’exemple hypothétique d’un patient atteint de cancer demandant à un système d’IA des renseignements sur des cliniques alternatives. Le danger ne réside pas seulement dans des allégations médicales non étayées, mais aussi dans des citations fausses ou cassées et dans l’absence totale de remise en cause du cadrage de la question.

Cette combinaison est dangereuse dans les contextes de santé. Les utilisateurs peuvent confondre style et substance, surtout lorsqu’une réponse semble sourcée et rédigée de manière professionnelle. Un chatbot peut paraître plus sûr qu’un message aléatoire de forum parce qu’il sonne organisé et neutre. L’étude suggère que cette apparence peut être trompeuse.

L’information en santé exige non seulement de la mémoire, mais aussi du jugement: reconnaître les mauvaises prémisses, distinguer la qualité des preuves et orienter les cas urgents vers des cliniciens qualifiés. Un modèle qui se contente de prédire des mots plausibles peut sembler compétent sans réellement accomplir ces tâches.

Ce que cela signifie pour les patients et les plateformes

Les résultats renforcent l’idée que les systèmes d’IA grand public ne doivent pas être considérés comme des autorités médicales de première ligne fiables. Ils peuvent être utiles pour formuler des questions, expliquer des termes ou aider les utilisateurs à comprendre des notions générales, mais ces avantages n’éliminent pas la nécessité d’une supervision clinique. Dans des domaines sensibles comme l’oncologie, les vaccins ou les thérapies non prouvées, une réponse seulement partiellement erronée peut encore orienter les décisions dans la mauvaise direction.

Les résultats posent aussi des questions de conception produit pour les entreprises d’IA. Si seulement deux questions sur 250 ont été refusées, les seuils de refus sont peut-être trop étroits pour un usage en santé. Des protections plus ciblées pourraient inclure une meilleure détection des prémisses dangereuses, un meilleur calibrage de l’incertitude et des systèmes de référence qui n’impliquent pas d’approbation là où il n’y en a pas.

Tout aussi important, les concepteurs de modèles devront peut-être repenser la manière dont les systèmes traitent les requêtes de santé ouvertes. Une réponse sûre n’est pas toujours une réponse directe. Dans certains cas, la bonne démarche consiste à remettre en question la question, à en restreindre le périmètre ou à recommander de consulter un clinicien plutôt que de produire une réponse soignée.

La leçon générale

Cette étude ne montre pas que l’IA n’a aucun rôle à jouer dans l’information en santé. Elle montre que les chatbots généralistes actuels échouent encore trop souvent de façons difficiles à détecter pour les utilisateurs. Les systèmes testés pouvaient répondre à toutes les questions en prose fluide, mais la fluidité n’était pas un gage de fiabilité.

C’est la leçon centrale pour les patients comme pour les développeurs. De plus en plus de personnes se tournent vers l’IA avant de parler à un médecin, surtout lorsqu’elles ont peur ou qu’elles sont impatientes. Si un système répond avec certitude là où la prudence est nécessaire, l’utilisateur peut ne pas réaliser le risque avant beaucoup plus tard. En médecine, c’est un mode de défaillance grave.

Tant que la précision, l’intégrité des citations et le comportement de refus ne s’améliorent pas sensiblement, les chatbots d’IA sont mieux compris comme des outils de brouillon et d’orientation que comme des guides médicaux fiables. Les résultats de BMJ Open suggèrent que le secteur a encore une importante faille de sécurité à combler.

  • Les chercheurs ont testé cinq grands chatbots avec 50 questions de santé chacun.
  • La moitié des réponses étaient problématiques et près d’une sur cinq était très problématique.
  • Les requêtes ouvertes ont créé les plus gros problèmes de sécurité.
  • Les résultats montrent que des réponses d’IA soignées peuvent rester médicalement peu fiables.

Cet article est basé sur un reportage de Medical Xpress. Lire l’article original.

Originally published on medicalxpress.com