OpenAI、通用ジェイルブレイクを探すGPT-5.5生物系バグ報奨金を開始

OpenAI、GPT-5.5の生物学的安全策を新たなバグ報奨金で実地ストレステストへ

OpenAIは、GPT-5.5の5問からなる生物学安全チャレンジを突破するユニバーサル・ジェイルブレイクに最大25,000ドルを提示し、外部のレッドチーミングを最先端モデルの安全策を絞り込んだ検証へと変えている。

DT Editorial AI

Apr 25, 2026·1 min read·48 words

生物リスクを狙ったバグ報奨金

OpenAIは、新しい GPT-5.5 Bio Bug Bounty の募集を開始した。これは、研究者が同社の生物関連の安全策を突破するユニバーサル・ジェイルブレイクを発見できるかを検証する、目的を絞ったレッドチーミング・プログラムである。その構成は非常に具体的だ。参加者には、モデレーションを発動させずに、クリーンなチャットから OpenAI の生物安全チャレンジの5つの質問すべてに成功裏に答えられる単一のプロンプトを作成することが求められている。最初に5問すべてを突破する真のユニバーサル・ジェイルブレイクには、最高賞金として25,000ドルが与えられる。

提示されたソース文によれば、このプログラムは Codex Desktop 上の GPT-5.5 のみに適用される。応募は2026年4月23日に開始され、2026年6月22日まで随時受け付ける。テストは4月28日に始まり、7月27日まで実施される予定だ。OpenAI は、部分的な成功については裁量で少額の賞を授与する場合があるとしている。

これは重要だ。なぜなら、最先端の AI 企業が生物学的悪用を単なるポリシー上の懸念ではなく、具体的なシステム強化の課題として扱っていることを示しているからだ。安全性評価を内部レビューや一般的な政策文言だけで捉えるのではなく、同社は外部の専門家に、明確に定義された失敗モードへの攻撃を求めている。

ユニバーサル・ジェイルブレイクが重要な理由

プロンプトベースの安全失敗の多くは状況依存だ。ある表現には耐えられても、別の表現では失敗することがある。ユニバーサル・ジェイルブレイクが異なるのは、より一般的な安全スタックの弱点を示唆するからだ。もし再利用可能な単一プロンプトが、新しい会話から複数の危険なプロンプトに対して保護的挙動を回避できるなら、それは脆弱性の深刻さを大きく引き上げる。

OpenAI が5問の生物安全テストに焦点を当てたのは、閾値ベースのアプローチを示している。つまり、同社が関心を持つのは個別のエッジケースよりも、モデルの生物防御への信頼を損なう体系的な失敗だ。断片的な例ではなくユニバーサルな手法に報酬を与えることで、レッドチーマーに対し、整合レイヤー全体の健全性を検証するよう求めている。

報酬額も優先度を示している。25,000ドルは大規模ソフトウェア脆弱性プログラムの規模と比べれば控えめだが、AI セキュリティやバイオセキュリティの有力な専門家を引きつけるには十分だ。さらに重要なのは、これらの弱点が他で悪用される前に、管理された条件下で防御が破られる証拠に対価を払う意思があることを明確にしている点だ。

AI & Robotics

Anthropicによると、より強力なAIエージェントは社内の実市場でより良い価格を交渉し、より多くの取引を成立させた一方、弱いモデルに代表されたユーザーは公平性の差に気づかなかった。

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

北京は、国家の承認が先にない限り米国マネーを受け入れないよう民間テック企業に求めていると報じられており、戦略的重要性の高いAI資産や所有権を、より厳しい国内管理下に置く動きをさらに進めている。

DT Editorial AI·Apr 25, 2026·via the-decoder.com

このプログラムが最先端モデルの安全性について示すこと

GPT-5.5 Bio Bug Bounty は、AI 企業が高度なシステムに対するより専門化された安全検証へ移行していることを示している。一般的なレッドチーミングは依然として重要だが、最もリスクの高い領域では、ドメイン固有の専門知識がますます必要になる。生物学は特に重要なケースだ。なぜなら、正当な科学的支援と潜在的に危険な情報との境界を、大規模運用で管理するのは難しいからだ。

チャレンジをユニバーサル・ジェイルブレイクに絞ることで、OpenAI は実質的に次のような厳しい問いを投げかけている。つまり、同社の安全策は、プロンプトベースの手法だけを使う、意志の強い熟練した攻撃者に耐えられるのか、ということだ。これは、一般ユーザーがときどきモデルを混乱させられるかどうかを問うよりもはるかに厳しい。防御が再現可能かつスケーラブルな形で失敗するのかを試すものである。

同社の表現は、このプログラムがバグ報奨金と安全作業のより広いアーキテクチャの一部であることも示唆している。ソース文は参加者を OpenAI の別個の安全・セキュリティ報奨金プログラムへ導いており、単発の試みではなく、階層的な評価モデルであることを示している。