La meilleure performance de l’IA est apparue lorsque l’enjeu était le plus élevé
Une étude menée par Harvard et publiée cette semaine dans
Science
apporte un élément de plus au débat sur l’usage possible de l’intelligence artificielle en médecine. Dans l’une des expériences les plus suivies de l’article, les chercheurs ont comparé les diagnostics des modèles OpenAI à ceux de deux médecins seniors de médecine interne à partir de cas réels des urgences du Beth Israel Deaconess Medical Center. Selon l’étude, le modèle o1 d’OpenAI a obtenu des résultats équivalents ou supérieurs à ceux des médecins humains à chaque étape du diagnostic, avec son avantage le plus net lors du triage initial aux urgences.Cela compte parce que le triage est le moment où les cliniciens disposent du moins d’informations et du moins de temps. L’étude indique que les écarts étaient particulièrement marqués lors de ce premier contact, lorsque les médecins et les hôpitaux cherchent à identifier la cause la plus probable de l’état du patient avant que des examens plus complets ne soient disponibles. Dans ce contexte précoce, les chercheurs ont rapporté que o1 a fourni le diagnostic exact ou très proche dans 67 % des cas, contre 55 % pour l’un des médecins et 50 % pour l’autre.
Comment la comparaison a été conçue
L’équipe de recherche était dirigée par des médecins et des informaticiens de Harvard Medical School et de Beth Israel Deaconess. Dans l’expérience aux urgences mise en avant dans le document source, l’équipe s’est concentrée sur 76 patients arrivés aux urgences du Beth Israel. Les diagnostics générés par deux modèles OpenAI, o1 et 4o, ont été comparés à ceux produits par deux médecins seniors de médecine interne.
Ces résultats ont ensuite été examinés par deux autres médecins seniors qui ne savaient pas quels diagnostics provenaient d’humains et lesquels provenaient des systèmes d’IA. Cet aveuglement est important, car il réduit le risque que les évaluateurs privilégient une source plutôt qu’une autre en fonction de leurs attentes plutôt que de la qualité.
Les chercheurs ont également insisté sur le fait qu’ils n’avaient pas prétraité les données des patients avant de les fournir aux modèles. Au lieu de cela, les systèmes d’IA ont reçu les mêmes informations que celles disponibles dans le dossier médical électronique au moment où chaque diagnostic a été posé. Ce point répond directement à l’une des critiques récurrentes de la recherche sur l’IA médicale : les modèles peuvent paraître impressionnants seulement lorsqu’on leur fournit des entrées nettoyées, simplifiées ou exceptionnellement complètes. Ici, l’affirmation de l’équipe est que les modèles ont été testés sur le même tableau clinique brut et incomplet que celui disponible en pratique.







