A fluência médica ainda supera a confiabilidade médica

Um novo estudo resumido pelo Medical Xpress sugere que os chatbots de IA populares ainda estão longe de ser fontes confiáveis de orientação em saúde. Pesquisadores testaram cinco sistemas amplamente usados, fazendo 50 perguntas sobre câncer, vacinas, células-tronco, nutrição e desempenho atlético. O resultado principal foi direto: metade das respostas foi classificada como problemática, e quase 20% foram consideradas altamente problemáticas.

O estudo, publicado na BMJ Open, avaliou respostas do ChatGPT, Gemini, Grok, Meta AI e DeepSeek. Dois especialistas classificaram independentemente cada resposta. Embora as ferramentas frequentemente produzissem respostas polidas e com tom autoritativo, os pesquisadores encontraram problemas factuais frequentes, referências pouco confiáveis e um fracasso quase total em recusar solicitações inseguras ou enganosas.

Apenas duas das 250 perguntas totais foram recusadas de forma explícita. Isso importa porque muitas consultas de saúde não são pedidos neutros por fatos já estabelecidos. Elas costumam ser ansiosas, abertas ou baseadas em premissas frágeis. Nesses casos, um chatbot que responde com fluidez sem questionar a premissa pode causar mais dano do que um que simplesmente diga que não pode ajudar.

O que os pesquisadores encontraram

Segundo o texto original, nenhum dos cinco sistemas gerou de forma confiável listas de referências totalmente corretas. O estudo também encontrou desempenho relativamente semelhante entre modelos, sugerindo que o problema é estrutural e não limitado a uma única plataforma. O Grok foi o pior nessa comparação, com 58% das respostas sinalizadas como problemáticas, seguido pelo ChatGPT com 52% e pelo Meta AI com 50%.

O desempenho variou por tema. Vacinas e câncer tiveram os melhores resultados, o que o artigo atribui à base de pesquisa ampla e relativamente estruturada disponível nessas áreas. Ainda assim, os chatbots continuaram produzindo respostas problemáticas em cerca de um quarto das vezes. Nutrição e desempenho atlético foram mais preocupantes, provavelmente porque esses temas estão cheios de alegações conflitantes, evidência fraca e conteúdo on-line de baixa qualidade.

A lacuna aumentou de forma acentuada quando os prompts se tornaram abertos. O estudo constatou que 32% das respostas abertas foram classificadas como altamente problemáticas, contra 7% das perguntas fechadas. Essa diferença é especialmente importante fora do laboratório, porque pacientes reais normalmente não formulam perguntas em formato de múltipla escolha. Eles perguntam coisas amplas como quais suplementos são melhores, qual tratamento funciona mais rápido ou se as alegações de uma clínica parecem legítimas.

Por que a confiança faz parte do risco

O ponto mais marcante não é apenas que erros acontecem. É que os erros podem vir embalados em linguagem persuasiva. O artigo cita o exemplo hipotético de um paciente com câncer perguntando a um sistema de IA sobre clínicas alternativas. A preocupação não é só com alegações médicas sem respaldo, mas também com citações falsas ou quebradas e com a ausência de qualquer contestação ao enquadramento da pergunta.

Essa combinação é perigosa em contextos de saúde. Os usuários podem confundir estilo com substância, especialmente quando a resposta parece ter notas de rodapé e é redigida de forma profissional. Um chatbot pode parecer mais seguro que um post aleatório de fórum porque soa organizado e neutro. O estudo sugere que essa aparência pode ser enganosa.

Informação em saúde exige não apenas memória, mas julgamento: reconhecer premissas ruins, distinguir a qualidade da evidência e encaminhar casos urgentes a profissionais qualificados. Um modelo que apenas prevê palavras plausíveis seguintes pode soar competente sem realmente fazer essas coisas.

O que isso significa para pacientes e plataformas

Os achados reforçam o argumento de que sistemas de IA para o consumidor não devem ser tratados como autoridades médicas confiáveis de primeira linha. Eles podem ser úteis para redigir perguntas, explicar terminologia ou ajudar usuários a navegar conceitos gerais, mas esses benefícios não eliminam a necessidade de supervisão clínica. Em áreas sensíveis como oncologia, vacinas ou terapias não comprovadas, uma resposta apenas parcialmente errada ainda pode empurrar decisões na direção errada.

Os resultados também levantam questões de design de produto para empresas de IA. Se apenas duas perguntas em 250 foram recusadas, os limiares de recusa podem ser estreitos demais para uso em saúde. Proteções mais direcionadas poderiam incluir detecção mais forte de premissas nocivas, melhor calibração da incerteza e sistemas de referência que não insinuem apoio onde ele não existe.

Igualmente importante, os desenvolvedores de modelos talvez precisem repensar como os sistemas lidam com prompts de saúde abertos. Uma resposta segura nem sempre é uma resposta direta. Em alguns casos, o movimento correto é contestar a pergunta, restringir o escopo ou aconselhar a consulta a um médico em vez de gerar uma resposta polida.

A lição mais ampla

Este estudo não mostra que a IA não tenha papel algum na informação em saúde. Ele mostra que os chatbots de uso geral atuais ainda falham com frequência demais de maneiras difíceis de os usuários detectarem. Os sistemas testados conseguiam responder a todas as perguntas em prosa fluente, mas fluência não é sinônimo de confiabilidade.

Essa é a lição central tanto para pacientes quanto para desenvolvedores. As pessoas estão recorrendo cada vez mais à IA antes de falar com um médico, especialmente quando estão com medo ou impacientes. Se um sistema responde com certeza onde é necessário cautela, o usuário pode não perceber o risco até muito mais tarde. Na medicina, isso é um modo sério de falha.

Até que precisão, integridade das citações e comportamento de recusa melhorem substancialmente, os chatbots de IA são melhor entendidos como ferramentas de rascunho e orientação do que como guias médicos confiáveis. Os resultados da BMJ Open sugerem que o setor ainda tem uma lacuna de segurança significativa a fechar.

  • Pesquisadores testaram cinco grandes chatbots com 50 perguntas de saúde cada um.
  • Metade de todas as respostas foi problemática e quase uma em cada cinco foi altamente problemática.
  • Os prompts abertos trouxeram os maiores problemas de segurança.
  • Os achados mostram que respostas polidas de IA ainda podem ser medicamente pouco confiáveis.

Este artigo é baseado na cobertura do Medical Xpress. Leia o artigo original.

Originally published on medicalxpress.com