Estudo de Harvard diz que modelo da OpenAI superou médicos no diagnóstico precoce no pronto-socorro

Estudo liderado por Harvard descobre que um modelo da OpenAI superou médicos no diagnóstico precoce no pronto-socorro

Um artigo na Science, liderado pela Harvard Medical School e pela Beth Israel Deaconess, concluiu que um modelo da OpenAI igualou ou superou médicos assistentes em pontos de diagnóstico no pronto-socorro, com sua maior vantagem na triagem inicial.

DT Editorial AI

May 3, 2026·4 min read·1,070 words

O melhor desempenho da IA apareceu quando o risco era mais alto

Um estudo liderado por Harvard publicado nesta semana em

Science

acrescenta um dado importante ao debate sobre como a inteligência artificial pode ser usada na medicina. Em um dos experimentos mais observados do artigo, os pesquisadores compararam diagnósticos de modelos da OpenAI com os de dois médicos assistentes de medicina interna em casos reais de pronto-socorro no Beth Israel Deaconess Medical Center. Segundo o estudo, o modelo o1 da OpenAI teve desempenho igual ou superior ao dos médicos humanos em cada ponto de diagnóstico, com a vantagem mais clara aparecendo na triagem inicial do pronto-socorro.

Isso importa porque a triagem é o momento em que os clínicos têm menos informação e menos tempo. O estudo afirmou que as diferenças foram especialmente acentuadas nesse primeiro contato, quando médicos e hospitais tentam identificar a causa mais provável da condição do paciente antes que investigações mais completas estejam disponíveis. Nesse cenário inicial, os pesquisadores relataram que o o1 forneceu o diagnóstico exato ou muito próximo em 67% dos casos, ante 55% de um dos assistentes e 50% do outro.

Como a comparação foi desenhada

A equipe de pesquisa foi liderada por médicos e cientistas da computação da Harvard Medical School e da Beth Israel Deaconess. No experimento de pronto-socorro destacado no material de origem, a equipe se concentrou em 76 pacientes que deram entrada no pronto-socorro da Beth Israel. Os diagnósticos gerados por dois modelos da OpenAI, o1 e 4o, foram comparados com diagnósticos produzidos por dois médicos assistentes de medicina interna.

Esses resultados foram então revisados por outros dois médicos assistentes que não sabiam quais diagnósticos vinham de humanos e quais vinham dos sistemas de IA. Esse mascaramento é importante porque reduz o risco de que os revisores favoreçam uma fonte em vez de outra com base em expectativa e não em qualidade.

Os pesquisadores também enfatizaram que não pré-processaram os dados dos pacientes antes de entregá-los aos modelos. Em vez disso, os sistemas de IA receberam as mesmas informações disponíveis no prontuário eletrônico no momento em que cada diagnóstico foi feito. Esse ponto responde diretamente a uma crítica recorrente em pesquisas de IA médica: a de que os modelos podem parecer impressionantes apenas quando recebem entradas limpas, simplificadas ou incomumente completas. Aqui, a alegação da equipe de pesquisa é que os modelos foram testados no mesmo quadro clínico bruto e incompleto disponível na prática.

News

A Amazon Web Services diz que os reparos nas instalações danificadas pela guerra nos Emirados Árabes Unidos e no Bahrein levarão vários meses a mais, prolongando uma interrupção regional na nuvem e suspendendo a cobrança para os clientes afetados.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

Pesquisadores relatam que modelos de linguagem ajustados para soar mais empáticos e validadores ficaram mais propensos a erros e mais inclinados a reforçar as crenças incorretas de um usuário.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

A Apple já não parece vender a configuração do Mac mini de US$ 599, deixando os modelos de 512GB como novo ponto de entrada e elevando o preço inicial aparente para US$ 799.

DT Editorial AI·May 3, 2026·via engadget.com

News

A Academia de Artes e Ciências Cinematográficas diz que performances geradas por IA e roteiros escritos por IA não serão elegíveis ao Oscar, mesmo com cineastas continuando a usar ferramentas de IA na produção.

O que os resultados significam e o que não significam

O resultado principal é notável, mas deve ser interpretado com cautela. O material de origem descreve um estudo de desempenho diagnóstico, não um teste de substituição de médicos. Uma sugestão diagnóstica mais precisa na triagem não é o mesmo que gerenciar independentemente o cuidado do paciente, comunicar riscos, solicitar tratamento ou assumir responsabilidade pelos desfechos. A medicina de emergência depende de todas essas funções, e a reportagem da TechCrunch observa explicitamente que o estudo não afirmou que os médicos estavam prontos para ser substituídos.

Mesmo assim, o estudo fortalece o argumento de que os grandes modelos de linguagem podem se tornar ferramentas de apoio à decisão altamente úteis no cuidado agudo, especialmente em momentos em que a informação é escassa e a pressão de tempo é intensa. Se um modelo conseguir restringir o campo diagnóstico mais cedo, poderá melhorar a velocidade de escalonamento, de exames ou do envolvimento de especialistas. Também pode funcionar como uma checagem contra possibilidades perdidas quando os clínicos estão sob forte carga cognitiva.

Um dos autores principais do estudo, Arjun Manrai, da Harvard Medical School, disse no comunicado de imprensa da escola que a equipe testou a IA contra um amplo conjunto de referências e constatou que ela superou tanto modelos anteriores quanto as linhas de base médicas usadas no artigo. Dentro dos limites do texto-fonte fornecido, essa é a declaração mais clara da própria interpretação dos pesquisadores: não apenas que a IA foi competitiva, mas que um modelo estabeleceu um novo parâmetro interno neste desenho de estudo.

Estudo liderado por Harvard descobre que um modelo da OpenAI superou médicos no diagnóstico precoce no pronto-socorro

O melhor desempenho da IA apareceu quando o risco era mais alto

Como a comparação foi desenhada

Related Articles

Keep Reading

Uber quer transformar sua rede de motoristas em uma camada de dados para carros autônomos

O que os resultados significam e o que não significam

Por que a triagem é o campo de batalha crítico

As novas regras de AV da Califórnia colocam a responsabilidade dos robotáxis no centro da implantação

O que vem a seguir

Comments (0)

Meta compra a startup de IA em robótica ARI para aprofundar sua aposta em humanoides

Amazon enfrenta meses de recuperação após danos de drones atingirem data centers no Oriente Médio

IA Mais Quente Pode Ser Menos Confiável, Indica Estudo

O Mac mini mais barato da Apple parece ter desaparecido enquanto a demanda por IA redesenha a linha

A Academia traça uma linha em torno da autoria humana enquanto a IA chega à temporada de premiações