Metade das respostas de IA sobre saúde foi problemática em novo estudo

Chatbots de IA ainda dão respostas de saúde inseguras com confiança alarmante, aponta estudo

Um estudo da BMJ Open descobriu que metade das respostas de cinco grandes chatbots a perguntas de saúde era problemática, com quase uma em cada cinco classificada como altamente problemática. Os resultados destacam uma lacuna de segurança persistente entre a aparência polida

DT Editorial AI

Apr 25, 2026·4 min read·970 words

A fluência médica ainda supera a confiabilidade médica

Um novo estudo resumido pelo Medical Xpress sugere que os chatbots de IA populares ainda estão longe de ser fontes confiáveis de orientação em saúde. Pesquisadores testaram cinco sistemas amplamente usados, fazendo 50 perguntas sobre câncer, vacinas, células-tronco, nutrição e desempenho atlético. O resultado principal foi direto: metade das respostas foi classificada como problemática, e quase 20% foram consideradas altamente problemáticas.

O estudo, publicado na BMJ Open, avaliou respostas do ChatGPT, Gemini, Grok, Meta AI e DeepSeek. Dois especialistas classificaram independentemente cada resposta. Embora as ferramentas frequentemente produzissem respostas polidas e com tom autoritativo, os pesquisadores encontraram problemas factuais frequentes, referências pouco confiáveis e um fracasso quase total em recusar solicitações inseguras ou enganosas.

Apenas duas das 250 perguntas totais foram recusadas de forma explícita. Isso importa porque muitas consultas de saúde não são pedidos neutros por fatos já estabelecidos. Elas costumam ser ansiosas, abertas ou baseadas em premissas frágeis. Nesses casos, um chatbot que responde com fluidez sem questionar a premissa pode causar mais dano do que um que simplesmente diga que não pode ajudar.

O que os pesquisadores encontraram

Segundo o texto original, nenhum dos cinco sistemas gerou de forma confiável listas de referências totalmente corretas. O estudo também encontrou desempenho relativamente semelhante entre modelos, sugerindo que o problema é estrutural e não limitado a uma única plataforma. O Grok foi o pior nessa comparação, com 58% das respostas sinalizadas como problemáticas, seguido pelo ChatGPT com 52% e pelo Meta AI com 50%.

O desempenho variou por tema. Vacinas e câncer tiveram os melhores resultados, o que o artigo atribui à base de pesquisa ampla e relativamente estruturada disponível nessas áreas. Ainda assim, os chatbots continuaram produzindo respostas problemáticas em cerca de um quarto das vezes. Nutrição e desempenho atlético foram mais preocupantes, provavelmente porque esses temas estão cheios de alegações conflitantes, evidência fraca e conteúdo on-line de baixa qualidade.

A lacuna aumentou de forma acentuada quando os prompts se tornaram abertos. O estudo constatou que 32% das respostas abertas foram classificadas como altamente problemáticas, contra 7% das perguntas fechadas. Essa diferença é especialmente importante fora do laboratório, porque pacientes reais normalmente não formulam perguntas em formato de múltipla escolha. Eles perguntam coisas amplas como quais suplementos são melhores, qual tratamento funciona mais rápido ou se as alegações de uma clínica parecem legítimas.

Health

Cientistas que trabalham com tecido cardíaco derivado de células-tronco dizem que a microgravidade pode tanto acelerar um declínio semelhante ao do coração quanto ajudar a formar estruturas cardíacas mais complexas, potencialmente acelerando estudos sobre insuficiência cardíaca e reparo.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Uma análise nacional do Medicaid constatou que o uso ambulatorial de antibióticos aumenta acentuadamente com a complexidade médica em crianças, com a maior exposição concentrada entre aquelas com múltiplas doenças crônicas.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

Health

Uma análise nacional de seguros constatou que menos da metade das mulheres grávidas diagnosticadas com transtorno por uso de opioides recebeu tratamento medicamentoso durante a gravidez, evidenciando grandes lacunas no cuidado baseado em evidências.

DT Editorial AI·Apr 25, 2026·via medicalxpress.com

A lição mais ampla

Este estudo não mostra que a IA não tenha papel algum na informação em saúde. Ele mostra que os chatbots de uso geral atuais ainda falham com frequência demais de maneiras difíceis de os usuários detectarem. Os sistemas testados conseguiam responder a todas as perguntas em prosa fluente, mas fluência não é sinônimo de confiabilidade.

Essa é a lição central tanto para pacientes quanto para desenvolvedores. As pessoas estão recorrendo cada vez mais à IA antes de falar com um médico, especialmente quando estão com medo ou impacientes. Se um sistema responde com certeza onde é necessário cautela, o usuário pode não perceber o risco até muito mais tarde. Na medicina, isso é um modo sério de falha.

Até que precisão, integridade das citações e comportamento de recusa melhorem substancialmente, os chatbots de IA são melhor entendidos como ferramentas de rascunho e orientação do que como guias médicos confiáveis. Os resultados da BMJ Open sugerem que o setor ainda tem uma lacuna de segurança significativa a fechar.

Pesquisadores testaram cinco grandes chatbots com 50 perguntas de saúde cada um.
Metade de todas as respostas foi problemática e quase uma em cada cinco foi altamente problemática.
Os prompts abertos trouxeram os maiores problemas de segurança.
Os achados mostram que respostas polidas de IA ainda podem ser medicamente pouco confiáveis.

Este artigo é baseado na cobertura do Medical Xpress. Leia o artigo original.

Chatbots de IA ainda dão respostas de saúde inseguras com confiança alarmante, aponta estudo

A fluência médica ainda supera a confiabilidade médica

O que os pesquisadores encontraram

Related Articles

Keep Reading

Cientistas ligam exposição a agressão a risco muito maior de TOC, especialmente no primeiro ano

Por que a confiança faz parte do risco

O que isso significa para pacientes e plataformas

Ocultas nos folículos capilares, células imunes “sentinela” podem ajudar a pele a detectar ameaças

A lição mais ampla

Comments (0)

Por Que os Pesquisadores Estão Levando Tecidos do Coração para o Espaço

Crianças com múltiplas doenças crônicas enfrentam exposição muito maior a antibióticos, relatam pesquisadores

Pacientes grávidas com transtorno por uso de opioides ainda não recebem o tratamento padrão-ouro, aponta estudo

Segurança de implantes cardíacos entra em uma nova fase com apelo por gestão de eletrodos ao longo da vida