生物リスクを狙ったバグ報奨金

OpenAIは、新しい GPT-5.5 Bio Bug Bounty の募集を開始した。これは、研究者が同社の生物関連の安全策を突破するユニバーサル・ジェイルブレイクを発見できるかを検証する、目的を絞ったレッドチーミング・プログラムである。その構成は非常に具体的だ。参加者には、モデレーションを発動させずに、クリーンなチャットから OpenAI の生物安全チャレンジの5つの質問すべてに成功裏に答えられる単一のプロンプトを作成することが求められている。最初に5問すべてを突破する真のユニバーサル・ジェイルブレイクには、最高賞金として25,000ドルが与えられる。

提示されたソース文によれば、このプログラムは Codex Desktop 上の GPT-5.5 のみに適用される。応募は2026年4月23日に開始され、2026年6月22日まで随時受け付ける。テストは4月28日に始まり、7月27日まで実施される予定だ。OpenAI は、部分的な成功については裁量で少額の賞を授与する場合があるとしている。

これは重要だ。なぜなら、最先端の AI 企業が生物学的悪用を単なるポリシー上の懸念ではなく、具体的なシステム強化の課題として扱っていることを示しているからだ。安全性評価を内部レビューや一般的な政策文言だけで捉えるのではなく、同社は外部の専門家に、明確に定義された失敗モードへの攻撃を求めている。

ユニバーサル・ジェイルブレイクが重要な理由

プロンプトベースの安全失敗の多くは状況依存だ。ある表現には耐えられても、別の表現では失敗することがある。ユニバーサル・ジェイルブレイクが異なるのは、より一般的な安全スタックの弱点を示唆するからだ。もし再利用可能な単一プロンプトが、新しい会話から複数の危険なプロンプトに対して保護的挙動を回避できるなら、それは脆弱性の深刻さを大きく引き上げる。

OpenAI が5問の生物安全テストに焦点を当てたのは、閾値ベースのアプローチを示している。つまり、同社が関心を持つのは個別のエッジケースよりも、モデルの生物防御への信頼を損なう体系的な失敗だ。断片的な例ではなくユニバーサルな手法に報酬を与えることで、レッドチーマーに対し、整合レイヤー全体の健全性を検証するよう求めている。

報酬額も優先度を示している。25,000ドルは大規模ソフトウェア脆弱性プログラムの規模と比べれば控えめだが、AI セキュリティやバイオセキュリティの有力な専門家を引きつけるには十分だ。さらに重要なのは、これらの弱点が他で悪用される前に、管理された条件下で防御が破られる証拠に対価を払う意思があることを明確にしている点だ。