GPT-5.5が英国のAIサイバーセキュリティ試験でMythos Previewに並ぶ

GPT-5.5、英国のサイバーセキュリティ試験でMythos Previewに並び、誇張との差を揺るがす

英国のAIセキュリティ研究所による新結果は、OpenAIのGPT-5.5が、Anthropicの厳しく制限されたMythos Previewと主要なサイバーセキュリティ評価でほぼ同水準の性能を示したことを示唆している。

DT Editorial AI

May 3, 2026·1 min read·20 words

新しいベンチマーク結果が、AI安全性の語りと実測性能の差を縮める

英国のAIセキュリティ研究所による最新のサイバーセキュリティ試験は、最前線のAIをめぐる最近の大きな物語のひとつに疑問を投げかけている。それは、AnthropicのMythos Previewが特異的に高いサイバー脅威を示すという見方だ。新しい結果によれば、OpenAIのGPT-5.5は同研究所のサイバー評価で同程度の性能に達しており、Mythosは単独の飛躍というより、より広範なモデル進歩の兆候である可能性が示されている。

これは、Ars TechnicaがAISIの結果をもとに報じた中心的な結論である。Anthropicは以前、Mythos Previewの異例なサイバーセキュリティ上のリスクを強調し、初期公開を重要な産業パートナーに限定していたため、この点は重要だ。今回の比較は、それらのリスクが架空だと言っているのではない。むしろ、長期的な自律性、推論、コーディングの向上とともに、同等の能力がすでに複数の上位モデルで現れ始めている可能性を示している。

テストは何を測ったのか

2023年以降、AISIは最前線のAIシステムに対し、リバースエンジニアリング、Webエクスプロイト、暗号技術などの分野におけるサイバー能力を検証する95件のCapture the Flag課題を実施してきた。これは、モデルの能力に関する曖昧な印象ではない。具体的な攻撃的サイバー作業で、システムがどこまで到達できるかを明らかにするための、タスクベースの評価だ。

最上位の「Expert」課題では、GPT-5.5の平均成功率は71.4％で、Mythos Previewの68.6％をわずかに上回ったが、誤差の範囲内だった。この位置づけは重要だ。結果は決定的な勝者を示してはいない。むしろ、1つのモデルだけが新たなリスク区分に踏み込んだという見方を揺るがすのに十分な高い水準での同等性を示している。

ますます実用的に見える性能

報道の中でも特に印象的だったのは、Rustのバイナリを解読するための逆アセンブラを作成するという難しい課題だ。AISIによれば、GPT-5.5は人間の支援なしに10分22秒でこの課題を解き、APIコストは1.73ドルだった。これは小さなデータ点だが、多くを物語っている。速度、自律性、低い限界コストが、注意深く見守るべき方向へ進んでいることを示している。

同研究所はまた、「The Last Ones」と呼ばれる、企業ネットワークに対する32段階のシミュレーション型データ抽出攻撃でもモデルを評価した。GPT-5.5は10回中3回成功し、Mythos Previewは10回中2回だった。Ars Technicaは、これまでこのテストで1回でも成功したモデルはなかったと指摘している。これは、これらのシステムが制御されていない現実環境でそのような攻撃を確実に実行できるという意味ではない。しかし、深刻なサイバー作戦を模した構造化環境では、最前線モデルが以前の世代には到底届かなかった結果を出し始めていることを意味する。

News

MetaはAssured Robot Intelligenceを買収し、創業者とチームをSuperintelligence Labsに迎え入れた。ソフトウェア、ロボット制御、全身ヒューマノイドシステムへの注力をさらに強める。

DT Editorial AI·May 3, 2026·via engadget.com

News

Teslaは上海製Model 3セダンのカナダ販売を再開し、米中からの輸入経済性を左右した関税変更を受けて、エントリー価格を大幅に引き下げた。

DT Editorial AI·May 3, 2026·via engadget.com

News

マスク対アルトマン裁判で浮上している証拠は、OpenAI の創業時の緊張、ガバナンスの構想、そして支配権をめぐる初期の議論を異例なほど詳細に示している。

DT Editorial AI·May 3, 2026·via theverge.com

News

スピリット航空は土曜早朝に運航を停止し、全便を欠航、顧客を再建サイトへ誘導した。競合各社は限定的な救済運賃を打ち出している。

DT Editorial AI·May 3, 2026

なぜ今重要なのか

GPT-5.5の結果の本当の意味は、単なる自慢ではない。高度なサイバー能力が、主要モデルの間でより広く分散しつつあることの証拠だという点にある。これは、研究機関、規制当局、企業ユーザーが、評価、アクセス制御、レッドチーミング、インシデント準備をどう考えるべきかを変える。また、経験的な安全性議論のハードルも引き上げる。企業はモデルの独自性について劇的な主張を行えるが、比較テストはそうした物語に対する検証としてますます機能している。

現時点では、利用可能な証拠はより狭いが、それでも重要な結論を支持している。GPT-5.5はAISIのサイバー評価でMythos Previewとほぼ同じ水準の性能を示し、一部指標ではわずかに上回り、継続的な技術課題に対する最前線モデルの能力向上という広い傾向とも一致している。誇張との差は縮まりつつあるのかもしれない。しかし、能力曲線は依然として上向きに見える。

この記事は Ars Technica の報道に基づいています。元記事を読む。