La fluidez médica sigue superando a la fiabilidad médica

Un nuevo estudio resumido por Medical Xpress sugiere que los chatbots de IA populares siguen lejos de ser fuentes fiables de consejo médico. Los investigadores probaron cinco sistemas de uso extendido y les hicieron 50 preguntas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo. El resultado principal fue contundente: la mitad de las respuestas fueron calificadas como problemáticas, y casi el 20% se consideraron muy problemáticas.

El estudio, publicado en BMJ Open, evaluó respuestas de ChatGPT, Gemini, Grok, Meta AI y DeepSeek. Dos expertos calificaron de forma independiente cada respuesta. Aunque las herramientas a menudo producían respuestas pulidas y con tono autoritativo, los investigadores encontraron problemas factuales frecuentes, referencias poco fiables y un fracaso casi total a la hora de rechazar indicaciones inseguras o engañosas.

Solo dos de las 250 preguntas totales fueron rechazadas de forma explícita. Eso importa porque muchas consultas de salud no son peticiones neutrales de hechos bien establecidos. A menudo son preguntas cargadas de ansiedad, abiertas o basadas en supuestos débiles. En esos casos, un chatbot que responde con fluidez sin cuestionar la premisa puede hacer más daño que uno que simplemente diga que no puede ayudar.

Lo que encontraron los investigadores

Según el texto original, ninguno de los cinco sistemas generó de forma fiable listas de referencias completamente precisas. El estudio también encontró un rendimiento relativamente similar entre modelos, lo que sugiere que el problema es estructural y no está limitado a una sola plataforma. Grok fue el peor en esta comparación, con un 58% de respuestas marcadas como problemáticas, seguido de ChatGPT con un 52% y Meta AI con un 50%.

El rendimiento varió según el tema. Vacunas y cáncer arrojaron los mejores resultados, algo que el artículo atribuye a la gran base de investigación disponible y relativamente estructurada en esas áreas. Aun así, los chatbots siguieron generando respuestas problemáticas aproximadamente una cuarta parte del tiempo. Nutrición y rendimiento deportivo fueron más preocupantes, probablemente porque esos temas están llenos de afirmaciones contradictorias, evidencia débil y contenido en línea de baja calidad.

La brecha se amplió de forma marcada cuando las indicaciones fueron abiertas. El estudio encontró que el 32% de las respuestas abiertas fueron calificadas como muy problemáticas, frente al 7% de las preguntas cerradas. Esa diferencia es especialmente importante fuera del laboratorio, porque los pacientes reales normalmente no formulan preguntas en formato de opción múltiple. Preguntan cosas amplias como qué suplementos son mejores, qué tratamiento funciona más rápido o si las afirmaciones de una clínica parecen legítimas.

Por qué la confianza forma parte del riesgo

El problema más llamativo no es solo que ocurran errores, sino que esos errores puedan presentarse con lenguaje persuasivo. El artículo pone como ejemplo hipotético a un paciente con cáncer que pregunta a un sistema de IA sobre clínicas alternativas. La preocupación no es solo la presencia de afirmaciones médicas sin respaldo, sino también citas falsas o rotas y la ausencia total de objeciones al marco de la pregunta.

Esa combinación es peligrosa en contextos de salud. Los usuarios pueden confundir el estilo con la sustancia, especialmente cuando una respuesta parece tener notas al pie y está redactada de manera profesional. Un chatbot puede parecer más seguro que una publicación aleatoria de un foro porque suena organizado y neutral. El estudio sugiere que esa apariencia puede ser engañosa.

La información sanitaria requiere no solo memoria, sino juicio: reconocer premisas erróneas, distinguir la calidad de la evidencia y escalar los casos urgentes a clínicos cualificados. Un modelo que solo predice palabras plausibles siguientes puede sonar competente sin hacer realmente esas cosas.

Qué significa esto para pacientes y plataformas

Los hallazgos refuerzan la idea de que los sistemas de IA de consumo no deben tratarse como autoridades médicas fiables de primera línea. Pueden ser útiles para redactar preguntas, explicar terminología o ayudar a los usuarios a navegar conceptos generales, pero esos beneficios no eliminan la necesidad de supervisión clínica. En áreas sensibles como oncología, vacunas o terapias no probadas, una respuesta solo parcialmente incorrecta aún puede empujar decisiones en la dirección equivocada.

Los resultados también plantean preguntas de diseño de producto para las empresas de IA. Si solo dos preguntas de 250 fueron rechazadas, los umbrales de rechazo pueden ser demasiado estrechos para el uso sanitario. Las protecciones más específicas podrían incluir una detección más sólida de premisas dañinas, una mejor calibración de la incertidumbre y sistemas de referencias que no sugieran respaldo donde no lo hay.

Igualmente importante, los creadores de modelos quizá necesiten replantearse cómo manejan las indicaciones de salud abiertas. Una respuesta segura no siempre es una respuesta directa. En algunos casos, lo correcto es cuestionar la pregunta, acotar el alcance o recomendar consultar a un médico en lugar de generar una respuesta pulida.

La lección más amplia

Este estudio no demuestra que la IA no tenga ningún papel en la información sanitaria. Demuestra que los chatbots de uso general actuales siguen fallando con demasiada frecuencia de formas que a los usuarios les cuesta detectar. Los sistemas probados podían responder a todas las preguntas en prosa fluida, pero la fluidez no era un sustituto de la fiabilidad.

Esa es la lección central tanto para pacientes como para desarrolladores. Cada vez más personas recurren a la IA antes de hablar con un médico, especialmente cuando están asustadas o impacientes. Si un sistema responde con certeza cuando se necesita cautela, el usuario puede no darse cuenta del riesgo hasta mucho después. En medicina, ese es un modo de fallo serio.

Hasta que mejoren sustancialmente la precisión, la integridad de las citas y el comportamiento de rechazo, los chatbots de IA se entienden mejor como herramientas de redacción y orientación que como guías médicas fiables. Los resultados de BMJ Open sugieren que el sector aún tiene una importante brecha de seguridad que cerrar.

  • Los investigadores probaron cinco chatbots importantes con 50 preguntas de salud cada uno.
  • La mitad de todas las respuestas fueron problemáticas y casi una de cada cinco fue muy problemática.
  • Las preguntas de salud abiertas generaron los peores resultados de seguridad.
  • Ninguno de los chatbots produjo de forma fiable listas de referencias completamente precisas.

Este artículo se basa en la cobertura de Medical Xpress. Leer el artículo original.

Originally published on medicalxpress.com