O melhor desempenho da IA apareceu quando o risco era mais alto

Um estudo liderado por Harvard publicado nesta semana em

Science

acrescenta um dado importante ao debate sobre como a inteligência artificial pode ser usada na medicina. Em um dos experimentos mais observados do artigo, os pesquisadores compararam diagnósticos de modelos da OpenAI com os de dois médicos assistentes de medicina interna em casos reais de pronto-socorro no Beth Israel Deaconess Medical Center. Segundo o estudo, o modelo o1 da OpenAI teve desempenho igual ou superior ao dos médicos humanos em cada ponto de diagnóstico, com a vantagem mais clara aparecendo na triagem inicial do pronto-socorro.

Isso importa porque a triagem é o momento em que os clínicos têm menos informação e menos tempo. O estudo afirmou que as diferenças foram especialmente acentuadas nesse primeiro contato, quando médicos e hospitais tentam identificar a causa mais provável da condição do paciente antes que investigações mais completas estejam disponíveis. Nesse cenário inicial, os pesquisadores relataram que o o1 forneceu o diagnóstico exato ou muito próximo em 67% dos casos, ante 55% de um dos assistentes e 50% do outro.

Como a comparação foi desenhada

A equipe de pesquisa foi liderada por médicos e cientistas da computação da Harvard Medical School e da Beth Israel Deaconess. No experimento de pronto-socorro destacado no material de origem, a equipe se concentrou em 76 pacientes que deram entrada no pronto-socorro da Beth Israel. Os diagnósticos gerados por dois modelos da OpenAI, o1 e 4o, foram comparados com diagnósticos produzidos por dois médicos assistentes de medicina interna.

Esses resultados foram então revisados por outros dois médicos assistentes que não sabiam quais diagnósticos vinham de humanos e quais vinham dos sistemas de IA. Esse mascaramento é importante porque reduz o risco de que os revisores favoreçam uma fonte em vez de outra com base em expectativa e não em qualidade.

Os pesquisadores também enfatizaram que não pré-processaram os dados dos pacientes antes de entregá-los aos modelos. Em vez disso, os sistemas de IA receberam as mesmas informações disponíveis no prontuário eletrônico no momento em que cada diagnóstico foi feito. Esse ponto responde diretamente a uma crítica recorrente em pesquisas de IA médica: a de que os modelos podem parecer impressionantes apenas quando recebem entradas limpas, simplificadas ou incomumente completas. Aqui, a alegação da equipe de pesquisa é que os modelos foram testados no mesmo quadro clínico bruto e incompleto disponível na prática.