なぜエージェントループの高速化が重要なのか
OpenAIは、Responses APIの基盤を作り直してエージェント型のワークフローを大幅に高速化したと述べている。複雑なタスクの最中に、ツール、モデル、API呼び出しが行ったり来たりする間、ユーザーが待つ時間を減らすことを狙った変更だ。
4月22日に公開された技術記事で同社は、Codexのようなシステムでは1つの作業を完了するのに数十回の順次リクエストが必要になることがあると説明した。モデルが次の行動を決め、ツールがクライアント側で実行され、その結果がAPIに戻され、これを繰り返す。このパターンでは、小さなオーバーヘッドでもすぐに積み重なる。
OpenAIによれば、推論そのものが速くなるにつれて、この性能問題はより見えやすくなった。同社は、Responses APIの初期の主力モデルは毎秒約65トークンで動作していたと述べている。GPT-5.3-Codex-Sparkでは、Cerebrasのハードウェアを使って毎秒1,000トークン超を目標にした。モデル生成がその速度に達すると、ループ内の遅い部分はもはや隠しきれなくなった。
推論のボトルネックからAPIのボトルネックへ
OpenAIはエージェントのレイテンシを、APIサービスの処理、モデル推論、クライアント側の時間という3つの大きな段階に分けている。ツールの実行やコンテキストの組み立てが必要なためクライアント側も依然として重要だが、同社はAPI層自体が意味のあるボトルネックになっていたと述べる。
この変化により、最適化の方針も変わった。GPUのスループットだけに注目するのではなく、OpenAIはリクエスト経路全体の摩擦を取り除き始めたという。2025年11月ごろ、同社はResponses APIでいわゆるパフォーマンス・スプリントを開始した。取り組みには、レンダリング済みトークンとモデル設定をメモリ内でキャッシュすること、推論サービスをより直接的に呼び出して余分なネットワーク往復を減らすこと、そして一部の会話をより速く分類できるよう安全性スタックの一部を高速化することが含まれていた。
同社によると、これらの変更で最初のトークンまでの時間は約45%改善した。ただしOpenAIは、それでも新しい推論スタックの速度向上を完全には引き出せなかったとしている。


