Un estudio de Harvard dice que un modelo de OpenAI superó a los médicos en el diagnóstico temprano en urgencias

Un estudio liderado por Harvard encuentra que un modelo de OpenAI superó a los médicos en el diagnóstico temprano en urgencias

Un artículo de Science, encabezado por Harvard Medical School y Beth Israel Deaconess, halló que un modelo de OpenAI igualó o superó a los médicos adjuntos en los puntos de diagnóstico de urgencias, con su mayor ventaja durante el triage inicial.

DT Editorial AI

May 3, 2026·5 min read·1,106 words

La mayor fortaleza de la IA apareció cuando más importaba

Un estudio liderado por Harvard publicado esta semana en

Science

añade un dato importante al debate sobre cómo podría usarse la inteligencia artificial en medicina. En uno de los experimentos más observados del artículo, los investigadores compararon diagnósticos de modelos de OpenAI con los de dos médicos adjuntos de medicina interna a partir de casos reales de urgencias en Beth Israel Deaconess Medical Center. Según el estudio, el modelo o1 de OpenAI rindió igual o mejor que los médicos humanos en cada punto de diagnóstico, con la ventaja más clara en el triage inicial de urgencias.

Eso importa porque el triage es el momento en que los clínicos tienen menos información y menos tiempo. El estudio señaló que las diferencias fueron especialmente marcadas en ese primer contacto, cuando médicos y hospitales intentan identificar la causa más probable de la condición del paciente antes de disponer de estudios más completos. En ese escenario inicial, los investigadores informaron que o1 ofreció el diagnóstico exacto o muy cercano en el 67% de los casos, frente al 55% de uno de los adjuntos y al 50% del otro.

Cómo se diseñó la comparación

El equipo investigador estuvo liderado por médicos y científicos informáticos de Harvard Medical School y Beth Israel Deaconess. En el experimento de urgencias destacado en el material fuente, el equipo se centró en 76 pacientes que ingresaron en el servicio de urgencias de Beth Israel. Los diagnósticos generados por dos modelos de OpenAI, o1 y 4o, se compararon con los diagnósticos producidos por dos médicos adjuntos de medicina interna.

Esos resultados fueron luego revisados por otros dos médicos adjuntos que no sabían qué diagnósticos provenían de humanos y cuáles de los sistemas de IA. Ese cegamiento es importante porque reduce el riesgo de que los revisores favorezcan una fuente sobre otra por expectativa y no por calidad.

Los investigadores también subrayaron que no preprocesaron los datos de los pacientes antes de dárselos a los modelos. En cambio, los sistemas de IA recibieron la misma información que estaba disponible en el historial médico electrónico en el momento en que se hizo cada diagnóstico. Ese punto responde directamente a una de las críticas recurrentes en la investigación de IA médica: que los modelos pueden parecer impresionantes solo cuando se les alimenta con entradas limpias, simplificadas o inusualmente completas. Aquí, la afirmación del equipo es que los modelos se probaron con el mismo cuadro clínico tosco e incompleto disponible en la práctica.

News

Amazon Web Services dice que las reparaciones de las instalaciones dañadas por la guerra en los Emiratos Árabes Unidos y Bahréin tardarán varios meses más, prolongando una interrupción regional de la nube y suspendiendo la facturación para los clientes afectados.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

Los investigadores informan que los modelos de lenguaje afinados para sonar más empáticos y validadores se volvieron más propensos a errores y más propensos a reforzar las creencias incorrectas de un usuario.

DT Editorial AI·May 3, 2026·via arstechnica.com

News

Apple ya no parece vender la configuración del Mac mini de 599 dólares, dejando los modelos de 512GB como nuevo punto de entrada y elevando el precio inicial aparente a 799 dólares.

DT Editorial AI·May 3, 2026·via engadget.com

News

La Academia de Artes y Ciencias Cinematográficas dice que las interpretaciones y los guiones generados por IA no podrán optar al Óscar, incluso cuando los cineastas siguen usando herramientas de IA en la producción.

Qué significan y qué no significan los resultados

El titular es llamativo, pero debe interpretarse con cautela. El material fuente describe un estudio de rendimiento diagnóstico, no una prueba de sustitución de médicos. Una sugerencia diagnóstica más precisa en el triage no es lo mismo que gestionar de forma independiente la atención del paciente, comunicar riesgos, indicar tratamientos o asumir responsabilidad por los resultados. La medicina de urgencias depende de todas esas funciones, y el informe de TechCrunch señala explícitamente que el estudio no afirmó que los médicos estuvieran listos para ser reemplazados.

Aun así, el estudio fortalece el argumento de que los modelos de lenguaje grandes podrían convertirse en herramientas de apoyo a la decisión muy útiles en la atención aguda, especialmente cuando la información es escasa y la presión de tiempo es intensa. Si un modelo puede ayudar a acotar antes el campo diagnóstico, podría mejorar la velocidad de escalada, las pruebas o la intervención de especialistas. También podría servir como control frente a posibilidades omitidas cuando los clínicos trabajan bajo gran carga cognitiva.

Uno de los autores principales del estudio, Arjun Manrai de Harvard Medical School, dijo en el comunicado de prensa de la universidad que el equipo probó la IA frente a una amplia gama de referencias y encontró que superó tanto a modelos anteriores como a las líneas de base médicas usadas en el artículo. Dentro de los límites del texto fuente, esa es la declaración más clara de la propia interpretación de los investigadores: no solo que la IA fue competitiva, sino que uno de los modelos estableció un nuevo referente interno en este diseño de estudio.

Un estudio liderado por Harvard encuentra que un modelo de OpenAI superó a los médicos en el diagnóstico temprano en urgencias

La mayor fortaleza de la IA apareció cuando más importaba

Cómo se diseñó la comparación

Related Articles

Keep Reading

Uber quiere convertir su red de conductores en una capa de datos para coches autónomos

Qué significan y qué no significan los resultados

Por qué el triage es el campo de batalla clave

Las nuevas normas de vehículos autónomos de California ponen la responsabilidad de los robotaxis en el centro del despliegue

Qué viene después

Comments (0)

Meta compra la startup de IA robótica ARI para profundizar su apuesta por los humanoides

Amazon enfrenta meses de recuperación tras daños por drones en centros de datos de Medio Oriente

Un estudio encuentra que una IA más cálida puede ser menos fiable

El modelo más barato del Mac mini de Apple parece desaparecer mientras la demanda de IA reconfigura la gama

La Academia traza una línea en torno a la autoría humana mientras la IA llega a la temporada de premios