医学的な流暢さは、医学的信頼性をまだ上回っている

Medical Xpress が要約した新しい研究は、人気の AI チャットボットが健康アドバイスの信頼できる情報源にはまだ程遠いことを示唆している。研究者は広く使われている5つのシステムに対し、がん、ワクチン、幹細胞、栄養、運動能力に関する50問を投げかけた。結論は明快で、回答の半数が問題あり、約20%が非常に問題ありと評価された。

BMJ Open に掲載されたこの研究では、ChatGPT、Gemini、Grok、Meta AI、DeepSeek の回答を評価した。2人の専門家が各回答を独立に採点した。ツールはしばしば洗練され権威的に聞こえる答えを出したが、研究者は事実誤認、不確かな参考文献、そして危険または誤解を招くプロンプトをほとんど拒否しないという問題を頻繁に確認した。

250問のうち、明確に拒否されたのはわずか2問だけだった。これは重要だ。なぜなら、健康に関する質問の多くは、確立された事実を中立的に求めるものではないからだ。しばしば不安を伴い、自由記述で、あるいは弱い前提に基づいている。その場合、前提を疑わずに滑らかに返答するチャットボットは、単に「対応できない」と言うシステムより害を及ぼす可能性がある。

研究が見つけたこと

原文によると、5つのシステムのどれも、完全に正確な参考文献リストを安定して生成できなかった。研究ではモデル間の成績も比較的似通っており、問題が単一プラットフォームに限られない構造的なものだと示唆された。この比較では Grok が最も悪く、58% の回答が問題ありとされた。次いで ChatGPT が 52%、Meta AI が 50% だった。

テーマごとに成績は異なった。ワクチンとがんは最も良い結果を示し、記事はそれを、その分野で利用可能な大規模で比較的構造化された研究基盤に帰している。それでも、チャットボットはなお4分の1ほどの確率で問題のある回答を生成した。栄養と運動能力はさらに懸念が大きく、相反する主張、弱いエビデンス、低品質なオンライン情報があふれているためだと考えられる。

プロンプトが自由形式になると差は急拡大した。研究では、自由形式の回答の 32% が非常に問題ありと評価されたのに対し、クローズドな質問では 7% だった。この違いは実験室の外で特に重要だ。実際の患者は、選択式のような形では質問しない。どのサプリが最適か、どの治療が最も早いか、あるいはそのクリニックの主張が妥当か、といった広い問いを投げかける。