Metaのハイパーエージェントはタスクと自己改善ロジックの両方を向上させる

Metaと学術機関の共同研究が自己改善型AIをさらに一歩前進させる

Meta、ブリティッシュコロンビア大学、その他の機関の研究者らは、「ハイパーエージェント」と呼ばれる新しいクラスのシステムを開発したと述べている。これは、タスクを解く能力を高めるだけでなく、自分自身を改善するために使うプロセスそのものを洗練させることもできるという。もしこの手法が有効なら、従来の方法がうまく機能していた領域、特にプログラミングを超えて、自己改善型AIを大きく拡張することになる。

The Decoderによると、この研究はDarwin Gödel Machine、つまりDGMを土台にしている。DGMは、エージェントが自分のコードの変種を生成し、テストし、成功した版をアーカイブに保存して次の改良に活用できる仕組みだ。元の構成の主な制約は、改良を導く仕組み自体は人間によって固定されていた点だという。エージェントはその枠組みの中で最適化できたが、枠組み自体を変えることはできなかった。

ハイパーエージェントが異なる点

提案された解決策は、1つの編集可能なプログラムの中に2つの機能を組み込むことだ。1つのコンポーネントは、科学論文の評価やロボット向け報酬関数の設計のような、目の前のタスクを処理する。もう1つのコンポーネントは、エージェントを改変し、新しい変種を作る。両方のコンポーネントが同じコードベースに存在するため、システムは原理的には、タスク解決の振る舞いだけでなく、改善のロジックまでも書き換えられる。

それがハイパーエージェントの考え方の核心だ。人間が書いた固定の殻の中だけで改善するのではなく、その殻自体も最適化できる。元の報告の表現を借りれば、タスクでも「そもそもどう改善すべきかを見つけること」でも、より上手くなる。

これは重要だ。なぜなら、自己改善には長らく上限があったからだ。あるシステムが特定分野で非常に有能でも、それ自体が進化しない手作りの仕組みに依存している場合がある。ハイパーエージェントは、メタレベルも編集可能にすることで、そのボトルネックを取り除こうとしている。

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0が2,000時間のロボティクスデータセットを公開

X Square Robotは、実ロボットの学習データ量を減らすことを目的に、XRZero-G0と2,000時間のマルチモーダルデータセットを公開した。

Read article

以前の自己改善がうまく一般化しなかった理由

提供された元文によれば、元のDarwin Gödel Machineはプログラミングのタスクで有望だった。というのも、より優れたプログラマーであることと、より良い自己修正を書くことの間には自然な関係があるからだ。コーディングでは、タスク能力と自分の実装を変える能力が密接に結びついている。

しかしプログラミング以外では、そのつながりは弱くなる。科学論文の評価が上達したエージェントが、自分のコードを書き換える能力まで自動的に高まるわけではない。研究者らは、これが元のDGMがプログラミング以外で手動調整なしにはうまく機能しなかった理由だと主張している。報告によると、人間が調整に介入しない限り、非プログラミングのタスクではほぼゼロの性能だったという。

ハイパーエージェントは、この失敗モードに対処するためのものだ。改善メカニズムそのものも最適化できるようにすることで、研究者らはDGMのアーカイブベースの進化構造を保ちながら、メタエージェントが恒久的に固定される状況を避けようとしている。

新システム: DGM-H

チームはこの新しい手法をDGM-Hyperagents、略してDGM-Hと呼んでいる。アーカイブは依然として手法の重要な要素だ。システムは変種を生成し、評価し、成功した版を将来の変更の足がかりとして使う。変わるのは、「メタ」コンポーネントがもはや固定されないことだ。アーキテクチャは、より良い版を生み出すエージェントのプロセス自体も、同じサイクルの一部として変更できるように設計されている。

これは大きな概念的転換だ。多くのAIシステムでは、自己改善は、オブジェクトレベルのタスク解決器と、メタレベルの制御や学習ロジックが厳密に分離されていることで制約される。DGM-Hは、両方を編集可能なコードに置くことで、その分離を縮めている。少なくとも理論上は、改善への道筋がすでにタスク能力と一致していない未知の領域にも適応しやすいシステムになる。

Anthropic、AIを戦略インフラとして再定義しつつ拘束力のある監査を求める

AnthropicのDario Amodei CEOは、透明性ルールだけではもはや不十分だとして、最先端AIシステムに対する第三者の義務的監査を求めている。

Read article

4つのタスク分野で報告された結果

候補テキストによると、研究者らはDGM-Hを4つのタスク分野で検証し、大きな改善を報告した。ただし抜粋には数値結果の詳細がないため、過大に述べるべきではない。言えるのは、研究チームがこのシステムを、より広い適用性の観点で元の構成より大幅に強いものとして提示していることだ。

この主張が重要なのは、一般性が自己改善型AIにおける最も難しい目標の1つだからだ。多くのシステムは狭い条件下ではうまく動くが、環境が変わると破綻する手作りの前提に依存している。ハイパーエージェントが異なる種類のタスクで有意に改善できるなら、それはより柔軟な自律システムに向けた前進を意味する。

同時に、提供された資料はこれを研究と位置づけており、製品機能とはしていない。したがって、これは実験的な一歩として理解すべきであり、広範に自己加速するAIがすでに大規模に稼働している証拠ではない。

この研究の意義

ハイパーエージェントのより広い意義は、前線をどこへ押し広げるかにある。AI研究者は長年、検索や最適化、コード生成によって性能を高めるシステムを探ってきた。より難しい問題は、改善の論理そのものを見直しても、無益な変更に崩れ落ちないシステムを作ることだ。DGM-Hは、その再帰的ループをより有能で、より広く有用にする試みとして提示されている。

この手法が堅牢であると証明されれば、タスク技能と自己改変技能が自然には一致しない領域で重要になる可能性がある。元のテキストでは、科学分析、ロボティクス、その他の複雑な分野が例として挙げられている。そうした場面では、システムの価値は単に行動できるかどうかだけでなく、学習と適応の仕組みを再設計できるかどうかにも、ますます左右されるだろう。

その見通しが、この研究が技術的詳細を超えて注目を集める理由でもある。自分自身の最適化器を最適化できるシステムは、AI能力の増大、安全性、評価、制御といった核心的な問題に触れる。提供された報道は性能向上の可能性を強調しているが、同じアーキテクチャの発想は、監督やアラインメントを懸念する研究者の精査も受けるだろう。

漸進的だが注目に値する一歩

利用可能な材料に基づけば、最も安全な結論は、Metaとその協力者たちが制御不能な再帰的知能への解決済みの道筋を示したのではなく、より柔軟な自己改善モデルを前進させているということだ。この研究は、以前の自己改変アプローチにおける特定の弱点に対処し、複数のタスク領域で進展があったと主張している。

それだけでも注目に値する。自己改善型AIは、しばしば抽象的あるいは思弁的に語られる。ハイパーエージェントは、その議論により具体的な技術的形を与える。編集可能なメタメカニズム、アーカイブベースの反復、そしてソフトウェア工学を超えて一般化しようとする明示的な試みだ。この手法が基盤的なものになるのか、有用な実験のまま残るのかは、ここで示された要約を超える結果次第だ。しかし研究方向としては、AIにおける最も重要な問いの1つ、つまりシステムが改善できるかどうかだけでなく、改善そのもののプロセスを改善できるかどうか、を明確に狙っている。

この記事はThe Decoderの報道に基づいています。元記事を読む。

Originally published on the-decoder.com

Metaの研究者ら、「ハイパーエージェント」はタスクと改善方法の両方を向上できると主張