奇妙な指示が、深刻なことを物語る

今週、OpenAIのコーディングツールで最も話題になった一文は、ソフトウェア品質でもセキュリティでもレイテンシでもなかった。ゴブリンについてだった。Wiredの報道によれば、Codex CLIの指示はモデルに対し、ユーザーの依頼に明確に関連しない限り、ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の生き物について話さないよう明示している。

一見すると、これは本番環境に紛れ込んだ内部ジョークのように見える。しかし実際には、より重要なことを示している。モデルの挙動はもはや学習やアーキテクチャだけで決まるのではなく、利用現場でユーザーが繰り返し遭遇するパターンを抑えるための、非常に具体的な運用上のガードレールによっても形作られているのだ。

AIアシスタントの奇妙なエッジケースは、もはや研究デモの中だけの話ではない。コーディングエージェントは今や、真剣な生産性ツールとして位置づけられている。ベンダーがそれらをコマンドライン環境、デスクトップ自動化のワークフロー、あるいはアプリケーションをまたいで動作できるエージェント系システムに投入すると、些細で反復的な癖であっても製品レベルの問題になりうる。

モデルの癖が、製品要件になるまで

Wiredによると、X上のユーザーは、OpenAIのモデルがゴブリンや似た生き物に執着することがあると述べ、とくにAIがコンピュータやアプリを操作してタスクを実行できるOpenClawと組み合わせたときにそれが目立ったという。あるユーザーはその挙動を面白いと受け止めた。別のユーザーは、認識可能な失敗モードだと見なした。いずれにせよ、OpenAIの対応は単純だったようだ。禁止事項を指示文そのものに書き込んだのである。

その結果は、現代のAI製品が実際にはどう調整されているのかを示す有益な断面図になっている。モデルの能力についての整った公的な語りは、通常ベンチマーク、推論能力、実世界タスクの成功に重きを置く。その下には別の層がある。技術的には無害でも、実際には邪魔になる挙動を防ぐための指示設計だ。コードを書いている途中で、モデルが望ましくない比喩や奇抜な言い回しに何度も逸脱すると、技術的な出力が正しくても、信頼は損なわれ、ユーザーの注意はそれ、システムは不安定に見えてしまう。

要するに、「ゴブリンに触れるな」という話は、実際にはゴブリンの話ではない。信頼性の話だ。ユーザーが求めているのは、作業に集中し、 პროფესიული な口調を保ち、時間短縮のためのワークフローに勝手なテーマのこだわりを差し込まないコーディング支援だ。