A fluência médica ainda supera a confiabilidade médica

Um novo estudo resumido pelo Medical Xpress sugere que os chatbots de IA populares ainda estão longe de ser fontes confiáveis de orientação em saúde. Pesquisadores testaram cinco sistemas amplamente usados, fazendo 50 perguntas sobre câncer, vacinas, células-tronco, nutrição e desempenho atlético. O resultado principal foi direto: metade das respostas foi classificada como problemática, e quase 20% foram consideradas altamente problemáticas.

O estudo, publicado na BMJ Open, avaliou respostas do ChatGPT, Gemini, Grok, Meta AI e DeepSeek. Dois especialistas classificaram independentemente cada resposta. Embora as ferramentas frequentemente produzissem respostas polidas e com tom autoritativo, os pesquisadores encontraram problemas factuais frequentes, referências pouco confiáveis e um fracasso quase total em recusar solicitações inseguras ou enganosas.

Apenas duas das 250 perguntas totais foram recusadas de forma explícita. Isso importa porque muitas consultas de saúde não são pedidos neutros por fatos já estabelecidos. Elas costumam ser ansiosas, abertas ou baseadas em premissas frágeis. Nesses casos, um chatbot que responde com fluidez sem questionar a premissa pode causar mais dano do que um que simplesmente diga que não pode ajudar.

O que os pesquisadores encontraram

Segundo o texto original, nenhum dos cinco sistemas gerou de forma confiável listas de referências totalmente corretas. O estudo também encontrou desempenho relativamente semelhante entre modelos, sugerindo que o problema é estrutural e não limitado a uma única plataforma. O Grok foi o pior nessa comparação, com 58% das respostas sinalizadas como problemáticas, seguido pelo ChatGPT com 52% e pelo Meta AI com 50%.

O desempenho variou por tema. Vacinas e câncer tiveram os melhores resultados, o que o artigo atribui à base de pesquisa ampla e relativamente estruturada disponível nessas áreas. Ainda assim, os chatbots continuaram produzindo respostas problemáticas em cerca de um quarto das vezes. Nutrição e desempenho atlético foram mais preocupantes, provavelmente porque esses temas estão cheios de alegações conflitantes, evidência fraca e conteúdo on-line de baixa qualidade.

A lacuna aumentou de forma acentuada quando os prompts se tornaram abertos. O estudo constatou que 32% das respostas abertas foram classificadas como altamente problemáticas, contra 7% das perguntas fechadas. Essa diferença é especialmente importante fora do laboratório, porque pacientes reais normalmente não formulam perguntas em formato de múltipla escolha. Eles perguntam coisas amplas como quais suplementos são melhores, qual tratamento funciona mais rápido ou se as alegações de uma clínica parecem legítimas.