医療AIの普及は、それを支える証拠よりも速い

Nature Medicine に掲載された社説は、ヘルスケア技術における最大のギャップの一つについて、明確な主張をしている。業界はAIツールを作るのが格段に上手くなっている一方で、それらのツールが実際の医療を改善するという一貫した証拠はまだ不足しているというのだ。予測モデル、意思決定支援システム、生成AIツールはすでに臨床現場に入りつつあり、大規模言語モデルも一般の人々に健康情報を提供する用途で使われている。社説は、医療全体で導入は加速しているが、現実世界での価値を示す証拠は依然として限定的だと指摘する。

この区別こそが、記事の核心だ。医療AIは、特に開発者が感度、特異度、識別能力、キャリブレーションなどの統計指標を示す場合、紙の上では非常に優れて見えることがある。だが、それらの数字はあくまで計算上の性能を説明するものであって、患者がより良い治療を受けたのか、臨床医がより良い判断を下したのか、あるいは導入後に医療システムがより効果的に動いたのかを自動的に証明するものではない。

なぜ性能指標だけでは不十分なのか

社説は、医療分野が検証の意味を狭く捉えすぎていると論じる。モデルは後ろ向きのテストで高い評価を得ても、適切なタイミングで提示されない、解釈しにくい、現場に無視される、既存のワークフローを乱す、といった理由で臨床的には失敗しうる。つまり、技術的成功は医療上の利益と同義ではない。

これは些細な学術的苦情ではない。病院や医療機関が主として性能指標を根拠にツールを採用すれば、実用上の価値が不明確な製品に時間と費用を費やす可能性がある。さらに悪いことに、ベンチマーク研究では見えない新たな害や非効率を持ち込む恐れもある。社説は、影響に関する主張が論文や製品資料で増えている一方で、証拠基準は依然あいまいであり、その結果、業界の慣行が早すぎる実装を招くリスクがあると警告している。

医学は、実際の臨床利益が問題になるとき、より強い証拠の連鎖を長く求めてきた。薬剤開発はその代表例だ。新薬は、単に生化学的効果を示したり、初期の実験室研究で有望に見えたりするだけでは評価されない。段階的な証拠要件を通過し、どの時点で承認、推奨、償還に足る証拠がそろったかを公的な監督が判断する。

社説によると、医療AIにはそれに相当する規範がまだない。だからといって、ソフトウェアを薬とまったく同じように規制すべきだという意味ではない。技術は急速に進化し、用途は幅広く、証拠生成のインセンティブも均一ではない。しかし、企業や機関がAIは医療を改善すると主張したいのであれば、その主張に見合う証拠の枠組みが必要だ。