Google Gemini API Agent Skillがコーディングベンチマーク結果を向上

Googleはコーディング支援の基本的な弱点に狙いを定める

GoogleはGemini API向けに「Agent Skill」と呼ぶものを導入した。これは、大規模言語モデルで構築されたほぼすべてのコーディング支援ツールに共通する問題に対処するためのものだ。モデル自体は高性能でも、ツールやSDK、ベストプラクティスに関する内部知識は現実から遅れてしまうことがある。

同社のアプローチは原理的にはシンプルだ。モデルの学習データに最新の製品変更が含まれていることを期待するのではなく、このskillがエージェントに、利用可能なモデル、ソフトウェア開発キット、サンプルコードに関する最新情報を与える。これにより、バージョンのずれや古い利用パターンが失敗を招きやすいタスクに対して、システムは生きた参照層を持てる。

これは、多くの実用上のコーディングミスが、実は推論の失敗ではないから重要だ。文書化の失敗なのだ。モデルはプログラミング概念を十分理解していても、間違った関数を呼び出したり、古いパッケージAPIを参照したり、もはや推奨されない例に依存したりすると、使えないコードを生成してしまう。

ベンチマークの伸びは大きい

公表されたテスト結果によると、その効果は117件のコーディングタスクからなるベンチマークで劇的だった。比較でGoogleの最上位モデルであるGemini 3.1 Pro Previewは、skillなしでは成功率28.2%だったのに対し、skillありでは96.6%まで改善した。

これらの数字は、ベンチマークを超えて一般化できるなら、モデルの生の知能が突然変わったことを示すというより、現在の構造化されたガイダンスにアクセスできるかどうかで性能がどれほど左右されるかを示している。このskillは、モデルが推論できることと、実際に使うべきツールチェーンについて知っていることの差を、実質的に縮めている。

Googleはまた、古いGemini 2.5モデルでは改善幅がかなり小さかったと報告した。その説明として、新しいモデルはより強い推論能力を持ち、注入された情報をよりうまく活用できるという点が挙げられた。この見方では、skillは推論を置き換えるのではなく、モデルが効果的に使える関連コンテキストを与えることで推論を増強する。

この違いは、AIシステムを評価する開発者にとって重要だ。モデルがそれを解釈できなければ、より良い基盤データの恩恵は小さい。しかし、古い知識を使わされると、高性能モデルでもひどく失敗する可能性がある。Googleの結果は、高い能力を持つモデルと、最新で範囲の狭い参照素材を組み合わせることが、最大の改善につながることを示唆している。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0が2,000時間のロボティクスデータセットを公開

X Square Robotは、実ロボットの学習データ量を減らすことを目的に、XRZero-G0と2,000時間のマルチモーダルデータセットを公開した。

Read article

AIコーディングシステムの作り方におけるより大きな変化

今回の発表は、AIツール全体のより広い潮流も反映している。モデルの重みを唯一の真実の源泉とみなすのではなく、開発者は一般用途のモデルの上に、外部指示、skills、リポジトリ、プロトコルサービスを重ねるようになっている。Anthropicのskillsフレームワークはこのパターンを広める一助となり、Google版はそれを特に商業的重要性の高い用途、つまりコード生成に直接適用している。

実務的には、これは「1つの巨大な事前学習済みモデルが、現代のソフトウェア課題を解くのに必要なすべてをすでに知っているはずだ」という考え方からの転換を意味する。急速に変化するプラットフォームに対して、その期待は常に非現実的だった。APIは頻繁に変わり、SDKはすぐに進化し、公式のパターンも絶えず改訂される。環境がダイナミックであるほど、学習だけに依存するアプローチは脆くなる。

Googleはその脆さを認め、システムレベルで対処しているようだ。モデルは依然として推論エンジンだが、skillは推論時にその作業知識を更新するための手段になる。

報告では、Vercelの調査がAGENTS.mdのような直接指示ファイルのほうが場合によってはさらに効果的である可能性を示し、GoogleもMCPサービスを含む別の選択肢を検討しているとされる。これは、Googleが現在のskillを最終解とは見ていないことを示している。むしろ、より広い設計原則の一実装に見える。つまり、コーディングエージェントは、維持され、タスクに関連した外部知識につながっているときに最もよく機能する。

開発者が注目すべき理由

実際のソフトウェアチームにとって、示唆は実務的だ。AIコーディング支援の品質は、モデル名そのものよりも、システムが適切なローカルコンテキスト、最新のドキュメント、現在のベストプラクティスを反映した例にアクセスできるかどうかに左右される可能性が高い。単独では平凡に見えるモデルでも、適切に grounding されれば非常に有効になる。ベンチマークでは強力に見えるモデルでも、古いインターフェースを幻覚するままでは大きく失敗し得る。

それは製品設計にも影響する。ベンダーはより大きなモデルを追い続けることはできるが、検索、ドキュメントのパイプライン、指示レイヤーを改善するほうが早く成果を出せるかもしれない。Google自身のテスト結果がそれを強く示している。伸びは漸進的ではなく、変革的だった。

それでも注意は必要だ。報告された数値は特定のベンチマークに基づいており、ベンチマークはしばしば混沌とした実際の開発環境を反映しない。また、保守性、デバッグ品質、曖昧な要件への対応力といった問いにも完全には答えない。しかし、核心となる教訓は十分に信頼でき、無視しにくくなっている。

AIコーディングシステムに必要なのは知能だけではない。新しさも必要だ。GoogleのGemini API Agent Skillは、その考えを具体化する一つの試みであり、報告された改善は、モデルを進化するエコシステムと同期させ続けることが、それらを本当に役立つものにする最も効果的な方法の一つである可能性を示している。

この記事はThe Decoderの報道に基づいています。元記事を読む。

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

AnthropicのDario Amodei CEOは、透明性ルールだけではもはや不十分だとして、最先端AIシステムに対する第三者の義務的監査を求めている。

Read article

Originally published on the-decoder.com

GoogleのGemini API「Agent Skill」は、最新ドキュメントがコーディング結果を大きく改善し得ることを示している