AI健康回答の半数が問題ありと新研究で判明

医学的な流暢さは、医学的信頼性をまだ上回っている

Medical Xpress が要約した新しい研究は、人気の AI チャットボットが健康アドバイスの信頼できる情報源にはまだ程遠いことを示唆している。研究者は広く使われている5つのシステムに対し、がん、ワクチン、幹細胞、栄養、運動能力に関する50問を投げかけた。結論は明快で、回答の半数が問題あり、約20%が非常に問題ありと評価された。

BMJ Open に掲載されたこの研究では、ChatGPT、Gemini、Grok、Meta AI、DeepSeek の回答を評価した。2人の専門家が各回答を独立に採点した。ツールはしばしば洗練され権威的に聞こえる答えを出したが、研究者は事実誤認、不確かな参考文献、そして危険または誤解を招くプロンプトをほとんど拒否しないという問題を頻繁に確認した。

250問のうち、明確に拒否されたのはわずか2問だけだった。これは重要だ。なぜなら、健康に関する質問の多くは、確立された事実を中立的に求めるものではないからだ。しばしば不安を伴い、自由記述で、あるいは弱い前提に基づいている。その場合、前提を疑わずに滑らかに返答するチャットボットは、単に「対応できない」と言うシステムより害を及ぼす可能性がある。

研究が見つけたこと

原文によると、5つのシステムのどれも、完全に正確な参考文献リストを安定して生成できなかった。研究ではモデル間の成績も比較的似通っており、問題が単一プラットフォームに限られない構造的なものだと示唆された。この比較では Grok が最も悪く、58% の回答が問題ありとされた。次いで ChatGPT が 52%、Meta AI が 50% だった。

テーマごとに成績は異なった。ワクチンとがんは最も良い結果を示し、記事はそれを、その分野で利用可能な大規模で比較的構造化された研究基盤に帰している。それでも、チャットボットはなお4分の1ほどの確率で問題のある回答を生成した。栄養と運動能力はさらに懸念が大きく、相反する主張、弱いエビデンス、低品質なオンライン情報があふれているためだと考えられる。

プロンプトが自由形式になると差は急拡大した。研究では、自由形式の回答の 32% が非常に問題ありと評価されたのに対し、クローズドな質問では 7% だった。この違いは実験室の外で特に重要だ。実際の患者は、選択式のような形では質問しない。どのサプリが最適か、どの治療が最も早いか、あるいはそのクリニックの主張が妥当か、といった広い問いを投げかける。

より広い教訓

この研究は、AI に健康情報上の役割がないことを示すものではない。現在の汎用チャットボットが、利用者には見抜きにくい形で、まだ頻繁に失敗していることを示している。試験されたシステムはすべての質問に流暢な文章で答えられたが、流暢さは信頼性の代わりにはならなかった。

それが患者と開発者の双方への核心的な教訓だ。人々は、特に不安や焦りを抱えているとき、医師に話す前に AI に頼ることが増えている。注意が必要な場面でシステムが断定的に答えると、利用者はかなり後になるまで危険に気づかないかもしれない。医療において、それは重大な失敗モードだ。

正確性、引用の信頼性、拒否の挙動が大きく改善されるまでは、AI チャットボットは信頼できる医療ガイドというより、下書きと道案内のツールとして理解するほうが適切だ。BMJ Open の結果は、業界にまだ大きな安全ギャップが残っていることを示している。

研究者は主要5つのチャットボットに対し、それぞれ50の健康質問を試した。
全回答の半数が問題あり、約5分の1が非常に問題ありだった。
自由形式の健康プロンプトが最も深刻な安全上の問題を生んだ。
洗練されたAIの返答でも、医学的には依然として信頼できないことが示された。

この記事は Medical Xpress の報道に基づいています。元記事を読む。

AIチャットボットはなお、驚くほど自信満々に危険な健康回答を返している、研究で判明

医学的な流暢さは、医学的信頼性をまだ上回っている

研究が見つけたこと

Keep Reading

なぜ自信がリスクの一部なのか

患者とプラットフォームにとって何を意味するか

毛包に潜む免疫「センチネル」細胞が皮膚の脅威感知を助ける可能性

より広い教訓

Comments (0)

暴行への曝露はOCDリスクの大幅上昇と関連、特に最初の1年で顕著