L’IA médicale se diffuse plus vite que les preuves qui la soutiennent

Un éditorial publié dans Nature Medicine avance un argument tranchant sur l’une des plus grandes lacunes de la technologie de santé : le secteur devient bien meilleur pour construire des outils d’IA, mais il manque encore de preuves cohérentes montrant que ces outils améliorent réellement les soins. Les modèles prédictifs, les systèmes d’aide à la décision et les outils génératifs entrent déjà dans les environnements cliniques, tandis que les grands modèles de langage sont aussi utilisés par le public pour obtenir des informations de santé. L’éditorial affirme que l’adoption s’accélère dans l’ensemble du secteur, mais que la preuve de la valeur dans le monde réel reste limitée.

Cette distinction est au cœur du texte. L’IA médicale peut sembler impressionnante sur le papier, en particulier lorsque les développeurs publient des mesures statistiques comme la sensibilité, la spécificité, la discrimination ou la calibration. Ces chiffres décrivent les performances d’un système sur le plan informatique. Ils ne prouvent pas automatiquement que les patients reçoivent de meilleurs traitements, que les cliniciens prennent de meilleures décisions ou que les systèmes de santé fonctionnent plus efficacement après le déploiement.

Pourquoi les métriques de performance ne suffisent pas

L’éditorial soutient que le secteur de la santé a dérivé vers une vision trop étroite de la validation. Un modèle peut obtenir d’excellents résultats en test rétrospectif et échouer cliniquement s’il arrive au mauvais moment, s’il est difficile à interpréter, s’il est ignoré par le personnel ou s’il perturbe les flux de travail existants. Autrement dit, la réussite technique n’est pas la même chose que le bénéfice médical.

Ce n’est pas une critique académique mineure. Si des hôpitaux ou des prestataires adoptent des outils principalement sur la base de métriques de performance, ils peuvent dépenser du temps et de l’argent pour des produits dont la valeur pratique est incertaine. Pire encore, ils peuvent introduire de nouveaux préjudices ou des inefficacités qui ne sont pas visibles dans les études de benchmark. L’éditorial avertit que les habitudes actuelles du secteur risquent une mise en œuvre prématurée, en partie parce que les affirmations d’impact deviennent plus fréquentes dans les articles et les supports produits alors même que les standards de preuve restent flous.

La médecine a longtemps exigé une chaîne de preuve plus solide lorsque le bénéfice clinique réel est en jeu. Le développement des médicaments est un point de comparaison évident. Les nouveaux traitements ne sont pas jugés uniquement à leur effet biochimique ou au fait qu’ils paraissent prometteurs dans les premiers travaux de laboratoire. Ils passent par des exigences de preuve par étapes, et la surveillance publique aide à décider quand la preuve est suffisante pour l’approbation, la recommandation ou le remboursement.

L’éditorial dit que l’IA médicale n’a pas développé de normes comparables. Cela ne signifie pas que les logiciels doivent être réglementés exactement comme un médicament. Les technologies évoluent rapidement, les usages varient énormément et les incitations à produire des preuves sont inégales. Mais si les entreprises et les institutions veulent affirmer que l’IA améliore les soins, alors le secteur a besoin d’un cadre qui relie ces affirmations à des preuves proportionnelles à l’impact revendiqué.