新しいベンチマーク結果が、AI安全性の語りと実測性能の差を縮める

英国のAIセキュリティ研究所による最新のサイバーセキュリティ試験は、最前線のAIをめぐる最近の大きな物語のひとつに疑問を投げかけている。それは、AnthropicのMythos Previewが特異的に高いサイバー脅威を示すという見方だ。新しい結果によれば、OpenAIのGPT-5.5は同研究所のサイバー評価で同程度の性能に達しており、Mythosは単独の飛躍というより、より広範なモデル進歩の兆候である可能性が示されている。

これは、Ars TechnicaがAISIの結果をもとに報じた中心的な結論である。Anthropicは以前、Mythos Previewの異例なサイバーセキュリティ上のリスクを強調し、初期公開を重要な産業パートナーに限定していたため、この点は重要だ。今回の比較は、それらのリスクが架空だと言っているのではない。むしろ、長期的な自律性、推論、コーディングの向上とともに、同等の能力がすでに複数の上位モデルで現れ始めている可能性を示している。

テストは何を測ったのか

2023年以降、AISIは最前線のAIシステムに対し、リバースエンジニアリング、Webエクスプロイト、暗号技術などの分野におけるサイバー能力を検証する95件のCapture the Flag課題を実施してきた。これは、モデルの能力に関する曖昧な印象ではない。具体的な攻撃的サイバー作業で、システムがどこまで到達できるかを明らかにするための、タスクベースの評価だ。

最上位の「Expert」課題では、GPT-5.5の平均成功率は71.4%で、Mythos Previewの68.6%をわずかに上回ったが、誤差の範囲内だった。この位置づけは重要だ。結果は決定的な勝者を示してはいない。むしろ、1つのモデルだけが新たなリスク区分に踏み込んだという見方を揺るがすのに十分な高い水準での同等性を示している。

ますます実用的に見える性能

報道の中でも特に印象的だったのは、Rustのバイナリを解読するための逆アセンブラを作成するという難しい課題だ。AISIによれば、GPT-5.5は人間の支援なしに10分22秒でこの課題を解き、APIコストは1.73ドルだった。これは小さなデータ点だが、多くを物語っている。速度、自律性、低い限界コストが、注意深く見守るべき方向へ進んでいることを示している。

同研究所はまた、「The Last Ones」と呼ばれる、企業ネットワークに対する32段階のシミュレーション型データ抽出攻撃でもモデルを評価した。GPT-5.5は10回中3回成功し、Mythos Previewは10回中2回だった。Ars Technicaは、これまでこのテストで1回でも成功したモデルはなかったと指摘している。これは、これらのシステムが制御されていない現実環境でそのような攻撃を確実に実行できるという意味ではない。しかし、深刻なサイバー作戦を模した構造化環境では、最前線モデルが以前の世代には到底届かなかった結果を出し始めていることを意味する。