La mayor fortaleza de la IA apareció cuando más importaba
Un estudio liderado por Harvard publicado esta semana en
Science
añade un dato importante al debate sobre cómo podría usarse la inteligencia artificial en medicina. En uno de los experimentos más observados del artículo, los investigadores compararon diagnósticos de modelos de OpenAI con los de dos médicos adjuntos de medicina interna a partir de casos reales de urgencias en Beth Israel Deaconess Medical Center. Según el estudio, el modelo o1 de OpenAI rindió igual o mejor que los médicos humanos en cada punto de diagnóstico, con la ventaja más clara en el triage inicial de urgencias.Eso importa porque el triage es el momento en que los clínicos tienen menos información y menos tiempo. El estudio señaló que las diferencias fueron especialmente marcadas en ese primer contacto, cuando médicos y hospitales intentan identificar la causa más probable de la condición del paciente antes de disponer de estudios más completos. En ese escenario inicial, los investigadores informaron que o1 ofreció el diagnóstico exacto o muy cercano en el 67% de los casos, frente al 55% de uno de los adjuntos y al 50% del otro.
Cómo se diseñó la comparación
El equipo investigador estuvo liderado por médicos y científicos informáticos de Harvard Medical School y Beth Israel Deaconess. En el experimento de urgencias destacado en el material fuente, el equipo se centró en 76 pacientes que ingresaron en el servicio de urgencias de Beth Israel. Los diagnósticos generados por dos modelos de OpenAI, o1 y 4o, se compararon con los diagnósticos producidos por dos médicos adjuntos de medicina interna.
Esos resultados fueron luego revisados por otros dos médicos adjuntos que no sabían qué diagnósticos provenían de humanos y cuáles de los sistemas de IA. Ese cegamiento es importante porque reduce el riesgo de que los revisores favorezcan una fuente sobre otra por expectativa y no por calidad.
Los investigadores también subrayaron que no preprocesaron los datos de los pacientes antes de dárselos a los modelos. En cambio, los sistemas de IA recibieron la misma información que estaba disponible en el historial médico electrónico en el momento en que se hizo cada diagnóstico. Ese punto responde directamente a una de las críticas recurrentes en la investigación de IA médica: que los modelos pueden parecer impresionantes solo cuando se les alimenta con entradas limpias, simplificadas o inusualmente completas. Aquí, la afirmación del equipo es que los modelos se probaron con el mismo cuadro clínico tosco e incompleto disponible en la práctica.







