La fluidez médica sigue superando a la fiabilidad médica

Un nuevo estudio resumido por Medical Xpress sugiere que los chatbots de IA populares siguen lejos de ser fuentes fiables de consejo médico. Los investigadores probaron cinco sistemas de uso extendido y les hicieron 50 preguntas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo. El resultado principal fue contundente: la mitad de las respuestas fueron calificadas como problemáticas, y casi el 20% se consideraron muy problemáticas.

El estudio, publicado en BMJ Open, evaluó respuestas de ChatGPT, Gemini, Grok, Meta AI y DeepSeek. Dos expertos calificaron de forma independiente cada respuesta. Aunque las herramientas a menudo producían respuestas pulidas y con tono autoritativo, los investigadores encontraron problemas factuales frecuentes, referencias poco fiables y un fracaso casi total a la hora de rechazar indicaciones inseguras o engañosas.

Solo dos de las 250 preguntas totales fueron rechazadas de forma explícita. Eso importa porque muchas consultas de salud no son peticiones neutrales de hechos bien establecidos. A menudo son preguntas cargadas de ansiedad, abiertas o basadas en supuestos débiles. En esos casos, un chatbot que responde con fluidez sin cuestionar la premisa puede hacer más daño que uno que simplemente diga que no puede ayudar.

Lo que encontraron los investigadores

Según el texto original, ninguno de los cinco sistemas generó de forma fiable listas de referencias completamente precisas. El estudio también encontró un rendimiento relativamente similar entre modelos, lo que sugiere que el problema es estructural y no está limitado a una sola plataforma. Grok fue el peor en esta comparación, con un 58% de respuestas marcadas como problemáticas, seguido de ChatGPT con un 52% y Meta AI con un 50%.

El rendimiento varió según el tema. Vacunas y cáncer arrojaron los mejores resultados, algo que el artículo atribuye a la gran base de investigación disponible y relativamente estructurada en esas áreas. Aun así, los chatbots siguieron generando respuestas problemáticas aproximadamente una cuarta parte del tiempo. Nutrición y rendimiento deportivo fueron más preocupantes, probablemente porque esos temas están llenos de afirmaciones contradictorias, evidencia débil y contenido en línea de baja calidad.

La brecha se amplió de forma marcada cuando las indicaciones fueron abiertas. El estudio encontró que el 32% de las respuestas abiertas fueron calificadas como muy problemáticas, frente al 7% de las preguntas cerradas. Esa diferencia es especialmente importante fuera del laboratorio, porque los pacientes reales normalmente no formulan preguntas en formato de opción múltiple. Preguntan cosas amplias como qué suplementos son mejores, qué tratamiento funciona más rápido o si las afirmaciones de una clínica parecen legítimas.