医学的な流暢さは、医学的信頼性をまだ上回っている
Medical Xpress が要約した新しい研究は、人気の AI チャットボットが健康アドバイスの信頼できる情報源にはまだ程遠いことを示唆している。研究者は広く使われている5つのシステムに対し、がん、ワクチン、幹細胞、栄養、運動能力に関する50問を投げかけた。結論は明快で、回答の半数が問題あり、約20%が非常に問題ありと評価された。
BMJ Open に掲載されたこの研究では、ChatGPT、Gemini、Grok、Meta AI、DeepSeek の回答を評価した。2人の専門家が各回答を独立に採点した。ツールはしばしば洗練され権威的に聞こえる答えを出したが、研究者は事実誤認、不確かな参考文献、そして危険または誤解を招くプロンプトをほとんど拒否しないという問題を頻繁に確認した。
250問のうち、明確に拒否されたのはわずか2問だけだった。これは重要だ。なぜなら、健康に関する質問の多くは、確立された事実を中立的に求めるものではないからだ。しばしば不安を伴い、自由記述で、あるいは弱い前提に基づいている。その場合、前提を疑わずに滑らかに返答するチャットボットは、単に「対応できない」と言うシステムより害を及ぼす可能性がある。
研究が見つけたこと
原文によると、5つのシステムのどれも、完全に正確な参考文献リストを安定して生成できなかった。研究ではモデル間の成績も比較的似通っており、問題が単一プラットフォームに限られない構造的なものだと示唆された。この比較では Grok が最も悪く、58% の回答が問題ありとされた。次いで ChatGPT が 52%、Meta AI が 50% だった。
テーマごとに成績は異なった。ワクチンとがんは最も良い結果を示し、記事はそれを、その分野で利用可能な大規模で比較的構造化された研究基盤に帰している。それでも、チャットボットはなお4分の1ほどの確率で問題のある回答を生成した。栄養と運動能力はさらに懸念が大きく、相反する主張、弱いエビデンス、低品質なオンライン情報があふれているためだと考えられる。
プロンプトが自由形式になると差は急拡大した。研究では、自由形式の回答の 32% が非常に問題ありと評価されたのに対し、クローズドな質問では 7% だった。この違いは実験室の外で特に重要だ。実際の患者は、選択式のような形では質問しない。どのサプリが最適か、どの治療が最も早いか、あるいはそのクリニックの主張が妥当か、といった広い問いを投げかける。
なぜ自信がリスクの一部なのか
最も注目すべき問題は、単に誤りが起きることではない。誤りが説得力のある言葉で包まれてしまうことだ。記事では、がん患者が AI に代替クリニックについて尋ねるという仮想例を挙げている。懸念されるのは、根拠のない医療主張だけではなく、偽の参照や壊れた引用、そして質問の前提そのものへの反論が一切ないことだ。
この組み合わせは、医療の文脈では危険だ。脚注が付いていて専門的に書かれているように見えると、利用者は形式を内容と取り違える可能性がある。チャットボットは整理され中立的に聞こえるため、ランダムな掲示板投稿より安全に見えるかもしれない。研究は、この見た目が誤解を招きうることを示している。
健康情報には、単なる記憶だけでなく判断が必要だ。悪い前提を見抜き、エビデンスの質を区別し、緊急性の高いケースを資格ある臨床家へつなぐ必要がある。もっともらしい次の単語を予測しているだけのモデルは、そうしたことを本当にしていなくても有能に聞こえてしまう。
患者とプラットフォームにとって何を意味するか
今回の結果は、消費者向け AI システムを信頼できる第一線の医療権威として扱うべきではないという主張を強める。質問の下書き、用語の説明、一般概念の理解補助には役立つかもしれないが、その利点は臨床的な監督の必要性を消しはしない。腫瘍学、ワクチン、未検証治療のような敏感な領域では、部分的に誤っているだけの回答でも判断を誤らせうる。
結果は AI 企業の製品設計にも問いを投げかける。250問中たった2問しか拒否しなかったなら、健康用途では拒否基準が狭すぎる可能性がある。より的を絞った安全策としては、有害な前提のより強い検出、不確実性のより適切な調整、根拠のない支持を示唆しない参照システムなどが考えられる。
同様に重要なのは、モデル開発者が自由形式の健康プロンプトへの対応を再考する必要があることだ。安全な回答は、必ずしも直接答えることではない。場合によっては、質問を疑い、範囲を絞り、あるいは臨床家への相談を勧めるほうが正しい。
より広い教訓
この研究は、AI に健康情報上の役割がないことを示すものではない。現在の汎用チャットボットが、利用者には見抜きにくい形で、まだ頻繁に失敗していることを示している。試験されたシステムはすべての質問に流暢な文章で答えられたが、流暢さは信頼性の代わりにはならなかった。
それが患者と開発者の双方への核心的な教訓だ。人々は、特に不安や焦りを抱えているとき、医師に話す前に AI に頼ることが増えている。注意が必要な場面でシステムが断定的に答えると、利用者はかなり後になるまで危険に気づかないかもしれない。医療において、それは重大な失敗モードだ。
正確性、引用の信頼性、拒否の挙動が大きく改善されるまでは、AI チャットボットは信頼できる医療ガイドというより、下書きと道案内のツールとして理解するほうが適切だ。BMJ Open の結果は、業界にまだ大きな安全ギャップが残っていることを示している。
- 研究者は主要5つのチャットボットに対し、それぞれ50の健康質問を試した。
- 全回答の半数が問題あり、約5分の1が非常に問題ありだった。
- 自由形式の健康プロンプトが最も深刻な安全上の問題を生んだ。
- 洗練されたAIの返答でも、医学的には依然として信頼できないことが示された。
この記事は Medical Xpress の報道に基づいています。元記事を読む。
Originally published on medicalxpress.com


