新しいエクスプロイト・ベンチマークがブラウザ攻撃におけるAIの限界を測る

より危険な能力の最前線をベンチマークする

カーネギーメロン大学の研究者らは、GoogleのV8 JavaScriptエンジンにある実際の脆弱性を悪用する際、AIエージェントがどこまで進めるのかを試す新しいベンチマークを発表した。The Decoder が提供した元記事によると、その結果は先端モデルの攻撃的セキュリティにおける振る舞いをより具体的に示している。一部のシステムは、もはやバグの特定やクラッシュの誘発にとどまらず、完全なコード実行へと進んでいる。

このベンチマークが重要なのは、結果を単純な合否に潰し込むのではなく、段階ごとに性能を測る点にある。元記事で説明されているように、この枠組みはエージェントを5段階で評価し、最終的には対象システム上での任意コード実行に至る。その構造は、自律的または半自律的なモデルがエクスプロイト開発のワークフローで実際に何を達成できるかを、より現実的に捉えられる。

Claude Mythos が先行し、GPT-5.5 は後れを取る

報じられている注目の結果は、テストでの2つの有力システムの間に大きな差があったことだ。Anthropic の Claude Mythos Preview は、時折の人間の後押しを受けつつ、16点満点中の平均9.90点を獲得し、41件の脆弱性のうち21件で最上位に到達した。OpenAI の GPT-5.5 は5.51点で、最上位に達したのはそのうち2件だけだった。

完全自律モードでも、その差は大きいままだった。Mythos はほとんど低下せず9.55点を記録したのに対し、Codex 経由の GPT-5.5 は4.30点にとどまった。元記事によれば、他の試験モデルで完全なコード実行に到達したものはなかった。これらの数値がより広い検証でも裏付けられるなら、攻撃的サイバータスクにおけるモデル能力の最先端は、多くの公開評価が示してきたよりも速いペースで他の領域から離れつつあることを示唆している。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0が2,000時間のロボティクスデータセットを公開

X Square Robotは、実ロボットの学習データ量を減らすことを目的に、XRZero-G0と2,000時間のマルチモーダルデータセットを公開した。

Read article

コストが解釈を変える

このベンチマークが単純な勝者を示しているわけではない。The Decoder の元記事は、Mythos の性能には高い代償が伴ったことを強調している。Mythos の122エピソードにわたる完全実行には約36,428ドルかかった一方で、GPT-5.5 は123エピソードを約3,075ドルで実行した。これはおよそ12倍の差だ。

これは、能力だけをコスト抜きで見れば誤解を招きうるからだ。大幅に優れた性能を示しても、はるかに大きな支出を要するモデルが、必ずしもより重要な話になるとは限らない。特に、より安価な競合が、より多くの計算資源やより長い実行時間を使うことで改善できるならなおさらだ。記事はまさにその可能性に触れ、OpenAI はより多くの計算資源をこの課題に割り当てることで差を縮められるかもしれないと示唆している。

V8 が重要な標的である理由

V8 に焦点を当てていることは、事態の重要性を一段引き上げる。元記事は、V8 が Chrome、Edge、Node.js、Cloudflare Workers を支えており、現代インターネットで最も重要なソフトウェアエンジンの一つだと指摘している。したがって、実在する V8 の脆弱性に結びついたベンチマークは、おもちゃ環境やパズル形式の課題よりも、実際のセキュリティ上の含意をよく示している。

段階的な設計が注目に値するのもそのためだ。これは、問題を見つけることと、それを武器化することの違いを反映している。セキュリティ業務では、この違いがすべてだ。バグ発見から成功した悪用までを推論できるエージェントは、疑わしいコードパターンを指摘するだけのエージェントとは、まったく異なるリスク領域にある。

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

AnthropicのDario Amodei CEOは、透明性ルールだけではもはや不十分だとして、最先端AIシステムに対する第三者の義務的監査を求めている。

Read article

人間レベルとの比較には注意が必要

元記事は、ExploitBench の共同著者で、20件以上のブラウザ脆弱性を報告してきた経験豊富なセキュリティ研究者 Seunghyun Lee が結果を確認し、Mythos は有能な人間のブラウザセキュリティ研究者に匹敵すると判断したと伝えている。これは印象的な主張だが、慎重に読む必要がある。ベンチマークは実能力を明らかにしうる一方で、信頼性、再現性、そして構造化された評価環境の外でのモデルの挙動に関する疑問を残す。

それでも、方向性は無視しがたい。少なくとも一部の先端AIシステムが、主要ソフトウェアエンジンにおけるエンドツーエンドのエクスプロイト開発に近づいていることを、このベンチマークは示唆している。残る議論は、そうした傾向があるかどうかではなく、程度、コスト、運用上の制約へと移りつつある。

政策立案者、プラットフォーム運営者、研究機関にとって、議論の焦点は変わる。最も重要な問いは、モデルが攻撃的サイバー業務に役立つかどうかではなく、その支援がどれだけ早く、より安価に、より自律的に、そしてより広く利用可能になるかかもしれない。

この記事は The Decoder の報道に基づいています。元記事を読む。

Originally published on the-decoder.com

新しいエクスプロイト・ベンチマークが、先端AIモデルの攻撃的セキュリティへの踏み込みを示す