La mitad de las respuestas de IA sobre salud fueron problemáticas en un nuevo estudio

Los chatbots de IA siguen dando respuestas de salud inseguras con una confianza alarmante, según un estudio

Un estudio de BMJ Open encontró que la mitad de las respuestas de cinco chatbots importantes a preguntas de salud eran problemáticas, y casi una de cada cinco fue calificada como muy problemática. Los resultados ponen de relieve una brecha de seguridad persistente entre el acabado

DT Editorial AI

Apr 25, 2026·4 min read·1,017 words

La fluidez médica sigue superando a la fiabilidad médica

Un nuevo estudio resumido por Medical Xpress sugiere que los chatbots de IA populares siguen lejos de ser fuentes fiables de consejo médico. Los investigadores probaron cinco sistemas de uso extendido y les hicieron 50 preguntas sobre cáncer, vacunas, células madre, nutrición y rendimiento deportivo. El resultado principal fue contundente: la mitad de las respuestas fueron calificadas como problemáticas, y casi el 20% se consideraron muy problemáticas.

El estudio, publicado en BMJ Open, evaluó respuestas de ChatGPT, Gemini, Grok, Meta AI y DeepSeek. Dos expertos calificaron de forma independiente cada respuesta. Aunque las herramientas a menudo producían respuestas pulidas y con tono autoritativo, los investigadores encontraron problemas factuales frecuentes, referencias poco fiables y un fracaso casi total a la hora de rechazar indicaciones inseguras o engañosas.

Solo dos de las 250 preguntas totales fueron rechazadas de forma explícita. Eso importa porque muchas consultas de salud no son peticiones neutrales de hechos bien establecidos. A menudo son preguntas cargadas de ansiedad, abiertas o basadas en supuestos débiles. En esos casos, un chatbot que responde con fluidez sin cuestionar la premisa puede hacer más daño que uno que simplemente diga que no puede ayudar.

Lo que encontraron los investigadores

Según el texto original, ninguno de los cinco sistemas generó de forma fiable listas de referencias completamente precisas. El estudio también encontró un rendimiento relativamente similar entre modelos, lo que sugiere que el problema es estructural y no está limitado a una sola plataforma. Grok fue el peor en esta comparación, con un 58% de respuestas marcadas como problemáticas, seguido de ChatGPT con un 52% y Meta AI con un 50%.

El rendimiento varió según el tema. Vacunas y cáncer arrojaron los mejores resultados, algo que el artículo atribuye a la gran base de investigación disponible y relativamente estructurada en esas áreas. Aun así, los chatbots siguieron generando respuestas problemáticas aproximadamente una cuarta parte del tiempo. Nutrición y rendimiento deportivo fueron más preocupantes, probablemente porque esos temas están llenos de afirmaciones contradictorias, evidencia débil y contenido en línea de baja calidad.

La brecha se amplió de forma marcada cuando las indicaciones fueron abiertas. El estudio encontró que el 32% de las respuestas abiertas fueron calificadas como muy problemáticas, frente al 7% de las preguntas cerradas. Esa diferencia es especialmente importante fuera del laboratorio, porque los pacientes reales normalmente no formulan preguntas en formato de opción múltiple. Preguntan cosas amplias como qué suplementos son mejores, qué tratamiento funciona más rápido o si las afirmaciones de una clínica parecen legítimas.

Health

Los científicos que trabajan con tejido cardíaco derivado de células madre dicen que la microgravedad puede tanto acelerar el deterioro similar al del corazón como ayudar a cultivar estructuras cardíacas más complejas, lo que potencialmente agilizaría los estudios sobre insuficiencia cardíaca y reparación.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Un análisis nacional de Medicaid encontró que el uso ambulatorio de antibióticos aumenta bruscamente con la complejidad médica en los niños, y que la exposición más intensa se concentra entre quienes tienen múltiples afecciones crónicas.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Un análisis nacional de seguros encontró que menos de la mitad de las mujeres embarazadas diagnosticadas con trastorno por consumo de opioides recibió tratamiento con medicamentos durante el embarazo, lo que subraya importantes lagunas en la atención basada en la evidencia.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

La lección más amplia

Este estudio no demuestra que la IA no tenga ningún papel en la información sanitaria. Demuestra que los chatbots de uso general actuales siguen fallando con demasiada frecuencia de formas que a los usuarios les cuesta detectar. Los sistemas probados podían responder a todas las preguntas en prosa fluida, pero la fluidez no era un sustituto de la fiabilidad.

Esa es la lección central tanto para pacientes como para desarrolladores. Cada vez más personas recurren a la IA antes de hablar con un médico, especialmente cuando están asustadas o impacientes. Si un sistema responde con certeza cuando se necesita cautela, el usuario puede no darse cuenta del riesgo hasta mucho después. En medicina, ese es un modo de fallo serio.

Hasta que mejoren sustancialmente la precisión, la integridad de las citas y el comportamiento de rechazo, los chatbots de IA se entienden mejor como herramientas de redacción y orientación que como guías médicas fiables. Los resultados de BMJ Open sugieren que el sector aún tiene una importante brecha de seguridad que cerrar.

Los investigadores probaron cinco chatbots importantes con 50 preguntas de salud cada uno.
La mitad de todas las respuestas fueron problemáticas y casi una de cada cinco fue muy problemática.
Las preguntas de salud abiertas generaron los peores resultados de seguridad.
Ninguno de los chatbots produjo de forma fiable listas de referencias completamente precisas.

Este artículo se basa en la cobertura de Medical Xpress. Leer el artículo original.

Los chatbots de IA siguen dando respuestas de salud inseguras con una confianza alarmante, según un estudio

La fluidez médica sigue superando a la fiabilidad médica

Lo que encontraron los investigadores

Related Articles

Keep Reading

Científicos vinculan la exposición a una agresión con un riesgo mucho mayor de TOC, sobre todo en el primer año

Por qué la confianza forma parte del riesgo

Qué significa esto para pacientes y plataformas

Ocultas en los folículos pilosos, unas células inmunes “centinela” podrían ayudar a la piel a detectar amenazas

La lección más amplia

Comments (0)

La seguridad de los implantes cardíacos entra en una nueva fase mientras los investigadores piden una gestión de electrodos de por vida

Por Qué los Investigadores Están Llevando Tejido Cardíaco al Espacio

Los niños con múltiples afecciones crónicas enfrentan una exposición mucho mayor a antibióticos, según investigadores

Las pacientes embarazadas con trastorno por consumo de opioides aún no reciben el tratamiento de referencia, según un estudio