AI が最も強さを見せたのは、最も重要な場面だった

今週

Science

に掲載されたハーバード主導の研究は、医療における人工知能の活用をめぐる議論に重要なデータを加えた。論文の中でも特に注目された実験では、研究者たちが OpenAI のモデルによる診断を、ベス・イスラエル・ディーコネス医療センターの実際の救急外来症例における内科主治医 2 名の診断と比較した。研究によれば、OpenAI の o1 モデルは各診断チェックポイントで人間の医師と同等かそれ以上の成績を示し、最も明確な優位性は初期トリアージで現れた。

トリアージは、臨床医が最も少ない情報と最も短い時間しか持たない場面だからだ。研究では、より詳細な検査がまだ揃っていない段階で、医師や病院が患者の状態の最も可能性の高い原因を特定しようとする最初の接点で、その差が特に顕著だったと述べている。その初期段階では、o1 は 67% の症例で正確、またはそれに非常に近い診断を示し、ある主治医は 55%、もう一人は 50% だった。

比較はどのように設計されたのか

研究チームは、ハーバード医科大学とベス・イスラエル・ディーコネスの医師およびコンピュータ科学者によって率いられた。出典資料で強調された救急外来の実験では、ベス・イスラエルの救急外来を受診した 76 人の患者に焦点を当てた。OpenAI の 2 つのモデル、o1 と 4o が生成した診断は、2 名の内科主治医が作成した診断と比較された。

その後、別の 2 名の主治医が、それらの診断が人間によるものか AI システムによるものかを知らされないまま評価した。このブラインド化は、評価者が品質ではなく先入観に基づいて一方を優遇するリスクを下げるため重要だ。

研究者らはまた、モデルに入力する前に患者データの前処理を行わなかったことも強調した。代わりに、AI システムには各診断時点で電子カルテに記録されていたのと同じ情報が与えられた。これは、AI 医療研究における繰り返しの批判の一つに直接関わる点だ。つまり、モデルは整形済み、単純化済み、あるいは異例なほど完全な入力を与えられたときだけ優れて見える可能性がある。ここでは、研究チームの主張は、実際の診療で得られるのと同じ、粗く不完全な臨床像でモデルを試したというものだ。