A IA médica está se espalhando mais rápido do que as evidências que a sustentam

Um editorial publicado pela Nature Medicine faz um argumento direto sobre uma das maiores lacunas da tecnologia em saúde: o setor está ficando muito melhor em construir ferramentas de IA, mas ainda carece de evidências consistentes de que essas ferramentas melhorem o cuidado na prática. Modelos preditivos, sistemas de apoio à decisão e ferramentas generativas já estão entrando em ambientes clínicos, enquanto modelos de linguagem grandes também são usados pelo público para obter informações sobre saúde. O editorial diz que a adoção está acelerando em toda a área da saúde, mas a prova de valor no mundo real ainda é limitada.

Essa distinção é o centro do texto. A IA médica pode parecer impressionante no papel, especialmente quando desenvolvedores relatam métricas estatísticas como sensibilidade, especificidade, discriminação ou calibração. Esses números descrevem como um sistema se sai computacionalmente. Eles não demonstram automaticamente que os pacientes recebem tratamento melhor, que os clínicos tomam decisões melhores ou que os sistemas de saúde funcionam de forma mais eficaz depois da implementação.

Por que métricas de desempenho não bastam

O editorial argumenta que a saúde foi se inclinando para uma compreensão estreita demais de validação. Um modelo pode ter bom desempenho em testes retrospectivos e ainda falhar clinicamente se chegar no momento errado, for difícil de interpretar, for ignorado pela equipe ou atrapalhar fluxos de trabalho existentes. Em outras palavras, sucesso técnico não é o mesmo que benefício médico.

Isso não é uma reclamação acadêmica menor. Se hospitais ou provedores adotam ferramentas com base principalmente em métricas de desempenho, podem gastar tempo e dinheiro em produtos cujo valor prático é incerto. Pior ainda, podem introduzir novos danos ou ineficiências que não aparecem em estudos de benchmark. O editorial alerta que os hábitos atuais do setor correm o risco de implementação prematura, em parte porque as alegações de impacto estão se tornando mais comuns em artigos e materiais de produto, mesmo quando os padrões de evidência continuam nebulosos.

A medicina há muito exige uma cadeia de prova mais forte quando há benefício clínico real em jogo. O desenvolvimento de medicamentos é um exemplo evidente. Novos remédios não são julgados apenas por produzir um efeito bioquímico ou parecer promissores em trabalhos iniciais de laboratório. Eles passam por requisitos de evidência em etapas, e a supervisão pública ajuda a decidir quando a prova é suficiente para aprovação, recomendação ou reembolso.

O editorial diz que a IA médica não desenvolveu normas comparáveis. Isso não significa que software deva ser regulado exatamente como um remédio. As tecnologias evoluem rapidamente, as aplicações variam muito e os incentivos para gerar evidências são irregulares. Mas, se empresas e instituições querem afirmar que a IA melhora o cuidado, então o setor precisa de uma estrutura que conecte essas alegações a evidências proporcionais ao impacto que está sendo alegado.