なぜエージェントループの高速化が重要なのか
OpenAIは、Responses APIの基盤を作り直してエージェント型のワークフローを大幅に高速化したと述べている。複雑なタスクの最中に、ツール、モデル、API呼び出しが行ったり来たりする間、ユーザーが待つ時間を減らすことを狙った変更だ。
4月22日に公開された技術記事で同社は、Codexのようなシステムでは1つの作業を完了するのに数十回の順次リクエストが必要になることがあると説明した。モデルが次の行動を決め、ツールがクライアント側で実行され、その結果がAPIに戻され、これを繰り返す。このパターンでは、小さなオーバーヘッドでもすぐに積み重なる。
OpenAIによれば、推論そのものが速くなるにつれて、この性能問題はより見えやすくなった。同社は、Responses APIの初期の主力モデルは毎秒約65トークンで動作していたと述べている。GPT-5.3-Codex-Sparkでは、Cerebrasのハードウェアを使って毎秒1,000トークン超を目標にした。モデル生成がその速度に達すると、ループ内の遅い部分はもはや隠しきれなくなった。
推論のボトルネックからAPIのボトルネックへ
OpenAIはエージェントのレイテンシを、APIサービスの処理、モデル推論、クライアント側の時間という3つの大きな段階に分けている。ツールの実行やコンテキストの組み立てが必要なためクライアント側も依然として重要だが、同社はAPI層自体が意味のあるボトルネックになっていたと述べる。
この変化により、最適化の方針も変わった。GPUのスループットだけに注目するのではなく、OpenAIはリクエスト経路全体の摩擦を取り除き始めたという。2025年11月ごろ、同社はResponses APIでいわゆるパフォーマンス・スプリントを開始した。取り組みには、レンダリング済みトークンとモデル設定をメモリ内でキャッシュすること、推論サービスをより直接的に呼び出して余分なネットワーク往復を減らすこと、そして一部の会話をより速く分類できるよう安全性スタックの一部を高速化することが含まれていた。
同社によると、これらの変更で最初のトークンまでの時間は約45%改善した。ただしOpenAIは、それでも新しい推論スタックの速度向上を完全には引き出せなかったとしている。
WebSocketへの移行
より大きな変化はアーキテクチャ面だった。複数の個別の同期API呼び出しを、WebSocketを使ったResponses APIへの持続的な接続に置き換えたのである。実際には、クライアントとAPIがエージェントループ全体を通して接続を維持し、リクエスト状態を毎回破棄して再構築する必要がなくなることを意味する。
OpenAIは、持続的なセッションによって有用な情報を接続そのものに紐づけたままにできたという。これにより、繰り返しのセットアップ作業が減り、ターンをまたいでコンテキストをより効率的に再利用できるようになった。その結果、エンドツーエンドのエージェントループ速度は約40%向上したと同社は述べている。
ユーザーにとっての意味は単純だ。コーディングや調査のエージェントが作業を終えるまでに多くのツール呼び出しを必要とするなら、各サイクルのオーバーヘッドを削ることは、1つの段階だけを速くするより大きな効果を持つ。以前はアクションの合間で止まっているように感じられたワークフローが、よりライブな対話に近づく。
OpenAIが最適化したもの
- 高価なセットアップ作業の繰り返しを避けるための接続スコープのキャッシュ。
- APIサービスと推論サービスの間の不要なネットワーク往復の削減。
- モデレーションと分類パイプラインの一部における安全チェックの高速化。
- 複数ターンでのツール利用コストを下げる持続的なWebSocketチャネル。
OpenAIは、この作業を業界全体の変化への対応として位置づけた。推論が十分に速くなり、周辺システムが製品の知覚品質をますます左右するようになっているという見方だ。この環境では、モデルは速く考えられても、オーケストレーション層が遅ければ体験はまだ遅く感じられる。
Codexを超えて何を意味するか
OpenAIはCodexを例に問題を示したが、その示唆はツールを使うあらゆるエージェントに及ぶ。企業向けアシスタント、カスタマーサービスシステム、リサーチ用のコパイロット、ソフトウェアエージェントはいずれも、1回の長いモデル出力ではなく、多数の小さなやり取りに依存している。そのため、持続的なセッションやより低いオーケストレーションのオーバーヘッドは、ベンチマークの生の性能と同じくらい重要になりうる。
この投稿は、変化する競争環境も示している。モデル提供者は長年、より優れた推論能力やより大きなコンテキストウィンドウを強調してきた。しかし今では、システム工学、つまりスループット、応答性、安全性のレイテンシ、外部ツールとどれだけ効率よくループを維持できるかでも競争している。
OpenAIのメッセージは、モデルを取り巻くインフラそのものが今や製品機能になっているということだ。推論速度がさらに上がれば、その事実はおそらく一層明確になる。
より大きなシグナル
より深い示唆は、WebSocketが単に繰り返しの同期呼び出しより速いというだけではない。エージェント製品は、API、キャッシュ、安全レイヤー、ツールのランタイム間の連携に性能が左右されるリアルタイムソフトウェアシステムへと成熟しつつある、ということだ。
つまり、この更新は単なる技術メモではない。AIの使いやすさにおける次の改善は、各モデルステップをより賢くすることだけではなく、モデルの各ステップ間の摩擦を減らすことから生まれる可能性があることを示している。エージェント型システムがより長く複雑なタスクを担うようになるにつれ、その違いが、それらを実験段階と見るか運用段階と見るかを分けるかもしれない。
この記事はOpenAIの報道に基づいています。元記事を読む。
Originally published on openai.com








