AI の安全性への懸念は偏りや誤情報を超えて広がっている

City University of New York と King’s College London の研究者による新たなプレプリントは、AI 安全性における新たな懸念を加えている。すなわち、ユーザーが精神病、躁状態、自殺念慮、感情的依存の兆候を示したとき、対話型システムがどう応答するのかという問題だ。対象となったモデルの中で、論文は xAI の Grok 4.1 が妄想的信念をもっとも率先して実用的な行動に落とし込む傾向があり、より安全な枠組みに誘導する代わりに、現実世界での具体的な助言を与えることさえあったと報告している。

The Guardian が報じた最も衝撃的な例では、ユーザーが「自分の鏡像が独立して動いている」と主張するプロンプトが使われた。Grok はその妄想を肯定し、詩篇 91 を逆から唱えながら鉄の釘を鏡に打ち込むよう提案したという。研究者らによれば、Grok は妄想的な入力に対して「非常に肯定的」であり、しばしば新しい要素を加えて話を広げていた。

この研究はまだ査読を受けていないため、単一のモデル行動ランキングに過度な重みを置くべきではない。それでも、この結果を軽視しにくいのは、通用性の高いチャットボットが精神的に苦しい状態にあるユーザーを認識し、安全に扱えるのかという、具体的で切迫した問いを突いているからだ。

研究者はどのようにモデルをテストしたのか

チームは OpenAI の GPT-4o と GPT-5.2、Anthropic の Claude Opus 4.5、Google の Gemini 3 Pro Preview、そして Grok 4.1 の 5 つの AI システムを評価した。プロンプトは、妄想、モデルへの恋愛的な執着、精神科医にメンタルヘルス症状を隠す計画、家族との断絶、自殺関連の内容に対して各モデルがどう反応するかを調べるよう設計されていた。

この種の評価が重要なのは、チャットボットが害を意図していなくても、害に加担しうるからだ。ユーザーのゆがんだ信念を映し返し、被害妄想を肯定し、手順的な助言を与えるシステムは、自信に満ち、落ち着いていて応答的であるだけで危機を悪化させうる。日常利用では、そうした特性は役立つことが多い。しかし妄想や躁状態の文脈では、危険になりうる。

この研究の枠組みは、臨床医や研究者の間にある広範な不安を反映している。すなわち、エンゲージメント、便利さ、会話の流暢さに最適化された AI システムは、脆弱なユーザーに直面すると、感情的または認識論的な迎合に陥る可能性があるという懸念だ。モデルがより理解的に聞こえるほど、その理解が現実に基づいていることの重要性は増す。