AIを臨床試験にかける

Nature Medicineに発表された研究は、医療トリアージの推奨を行う能力の構造化評価にOpenAIのChatGPTを従わせてきました。これは、患者が状態の緊急度によって分類される緊急医療の重要な最初のステップです。この研究は、人命に関わる結果をもたらす可能性のある臨床設定で大規模言語モデルが確実に機能できるかどうかについての、これまでで最も方法論的に厳密な評価の1つを表しています。

トリアージはAIシステムにとって特に困難なテストです。なぜなら、患者が医療をどの程度緊急に必要としているかについて迅速な判断を行うために、報告された症状、患者の病歴、バイタルサイン、および文脈的な手がかりなど、複数の情報ストリームを統合する必要があるためです。どちらの方向でも間違えることは深刻なリスクを伴います。緊急患者のトリアージ不足は治療の遅延と予防可能な死につながる可能性があり、安定した患者のトリアージ過剰は限られた緊急資源を浪費します。

研究デザインと方法論

研究者たちは、医学教育および医学会試験で一般的に使用される患者プレゼンテーションの詳細な説明である標準化された臨床事例を使用して、構造化テストを設計しました。各事例には、患者の主訴、関連する病歴、バイタルサイン、および身体診察所見に関する情報が含まれていました。

ChatGPTは、各ケースを5つの標準的なトリアージカテゴリーのいずれかに割り当てるよう求められました。これは、即座の介入を必要とする差し迫った生命を脅かす緊急事態から、日常的なケアを安全に待つことができる緊急性の低い状態までの範囲です。AIの推奨は、経験豊富な緊急医学医師による合意のトリアージ割り当てと比較されました。

この研究は、AI医療パフォーマンスの以前の評価を複雑にしてきたいくつかの変数を制御しました。プロンプトエンジニアリングは標準化され、モデルに質問がどのように提示されるかの変動を排除しました。一貫性を評価するために複数の実行が実施され、研究者は最終的なトリアージ割り当ての精度だけでなく、モデルによって提供された推論も分析しました。

主な知見

この研究は、ChatGPTが異なる重症度レベル全体で混在した結果を示したことを発見しました。最も重大なケース(心停止、大外傷、または重度の呼吸困難などの明らかな生命を脅かす緊急事態を呈する患者)では、モデルは一般的にパフォーマンスが良好で、ケースの大多数で即座の介入の必要性を正しく特定しました。

しかし、パフォーマンスは中程度のトリアージカテゴリーで低下しました。ここでは、緊急ケースと半緊急ケースの区別がより微妙な臨床判断を必要とします。これらは、経験豊富な臨床医の間でさえトリアージエラーが最も一般的であるケースであり、誤分類の結果が臨床的に最も重大なケースです。

モデルは、同じケースの繰り返された評価全体で矛盾を示しました。同じ臨床事例が複数回提示されたとき、ChatGPTは異なるトリアージカテゴリーを割り当てることがありました。これは、一貫性が不可欠である実世界の設定でLLMベースの臨床ツールの信頼性についての懸念を提起する知見です。

  • ChatGPTは明らかに重大なケースで最もよくパフォーマンスを発揮しましたが、微妙な中程度の重症度トリアージ決定に苦労しました
  • モデルは同じケースが複数回提示されたときに矛盾を示しました
  • 推論品質は大きく異なり、一部の評価は健全な臨床論理を実証し、他の評価は明らかな作話を反映していました
  • この研究は、厳密な評価を確保するために標準化された事例と制御されたプロンプティングを使用しました

ヘルスケアAIへの影響

これらの知見は、ヘルスケアワークフローにAIを統合する成長する動きに重要な影響を与えています。医療AIの支持者は、大規模言語モデルが、特に医療リソースが不足している設定および訓練された医療専門家へのアクセスが限定されている発展途上国における、緊急医師およびトリアージ看護師の深刻な不足を緩和するのに役立つことができると主張しています。

この研究は、ChatGPTが補助的なツールとして有用である可能性がある一方で(臨床医が鑑別診断を検討するのを支援したり、見落とされた可能性のある考慮事項にフラグを立てたりすることができます)、自律的なトリアージシステムとして機能するのにはまだ十分な信頼性がないことを示唆しています。臨床意思決定支援ツールは同じ入力が与えられた場合に同じ推奨を生成する必要があるため、繰り返された評価での矛盾は特に懸念されます。

研究者たちは、彼らの知見がテストされたChatGPTのバージョンに特に適用され、モデル機能が急速に進化していることを指摘しています。推論機能と医療ファインチューニングが強化された新しいモデルはパフォーマンスが大幅に向上する可能性があります。しかし、彼らは、標準化されたテストケースだけでなく、実世界の患者転帰に対する広範な検証なしに、臨床トリアージにAIシステムを展開することに対して警告しています。

規制上の問題

この研究はまた、AIツールが臨床実践にますます見つかるにつれて、規制当局が直面する課題を強調しています。多くの国では、医療意思決定支援ソフトウェアは医療機器として規制承認の対象となります。しかし、AIモデル更新の迅速なペース(新しいバージョンが数か月ごとにリリースされる)は規制上の課題を生み出します。各更新はシステムの臨床パフォーマンスを変更する可能性があるためです。

米国食品医薬品局(FDA)は、時間をかけて進化する継続的な学習システムの規定を含む、AIベースの医療機器を規制するためのフレームワークを開発してきました。しかし、フレームワークは進行中の作業のままであり、AI開発の速度と規制適応のペースの間のギャップは引き続き広がっています。

今後の見通し

Nature Medicine研究は、大規模言語モデルが医療アプリケーションで本物の可能性を示しているが、自律的な臨床展開にはまだ準備ができていないことを示唆する証拠の増加する本体に貢献しています。今後の道は、モデルの推奨が常に人間のレビューの対象となる慎重に設計された人間-AI協力システムと、AIの支援が実際に患者ケアを改善しているのではなく新しいリスクを導入していないことを確保するための継続的な臨床転帰の監視を組み合わせていることを含みます。

すでに過密と人員不足に苦労している緊急科では、見落とされた重大なケースの一部を捕捉する不完全なAIツールでさえ人命を救うことができます。しかし、そのようなツールを責任を持って展開するには、この研究によって例示されたような厳密で構造化された評価が必要です。選別されたサンプルでのパフォーマンスの印象的なデモンストレーションだけではありません。

この記事はNature Medicineのレポートに基づいています。オリジナル記事を読む