OpenAI、WebSocketでエージェント型APIワークフローが約40%高速化と発表

OpenAI、持続的なWebSocketセッションでエージェントループのレイテンシを約40%短縮と発表

OpenAIは、持続的なWebSocket接続と接続スコープのキャッシュを中心にResponses APIのエージェントループを再設計し、モデル推論速度が急速に上がる中で、エンドツーエンドのレイテンシを約40%削減したと述べている。

DT Editorial AI

Apr 26, 2026·1 min read·5 words

なぜエージェントループの高速化が重要なのか

OpenAIは、Responses APIの基盤を作り直してエージェント型のワークフローを大幅に高速化したと述べている。複雑なタスクの最中に、ツール、モデル、API呼び出しが行ったり来たりする間、ユーザーが待つ時間を減らすことを狙った変更だ。

4月22日に公開された技術記事で同社は、Codexのようなシステムでは1つの作業を完了するのに数十回の順次リクエストが必要になることがあると説明した。モデルが次の行動を決め、ツールがクライアント側で実行され、その結果がAPIに戻され、これを繰り返す。このパターンでは、小さなオーバーヘッドでもすぐに積み重なる。

OpenAIによれば、推論そのものが速くなるにつれて、この性能問題はより見えやすくなった。同社は、Responses APIの初期の主力モデルは毎秒約65トークンで動作していたと述べている。GPT-5.3-Codex-Sparkでは、Cerebrasのハードウェアを使って毎秒1,000トークン超を目標にした。モデル生成がその速度に達すると、ループ内の遅い部分はもはや隠しきれなくなった。

推論のボトルネックからAPIのボトルネックへ

OpenAIはエージェントのレイテンシを、APIサービスの処理、モデル推論、クライアント側の時間という3つの大きな段階に分けている。ツールの実行やコンテキストの組み立てが必要なためクライアント側も依然として重要だが、同社はAPI層自体が意味のあるボトルネックになっていたと述べる。

この変化により、最適化の方針も変わった。GPUのスループットだけに注目するのではなく、OpenAIはリクエスト経路全体の摩擦を取り除き始めたという。2025年11月ごろ、同社はResponses APIでいわゆるパフォーマンス・スプリントを開始した。取り組みには、レンダリング済みトークンとモデル設定をメモリ内でキャッシュすること、推論サービスをより直接的に呼び出して余分なネットワーク往復を減らすこと、そして一部の会話をより速く分類できるよう安全性スタックの一部を高速化することが含まれていた。

同社によると、これらの変更で最初のトークンまでの時間は約45%改善した。ただしOpenAIは、それでも新しい推論スタックの速度向上を完全には引き出せなかったとしている。

WebSocketへの移行

より大きな変化はアーキテクチャ面だった。複数の個別の同期API呼び出しを、WebSocketを使ったResponses APIへの持続的な接続に置き換えたのである。実際には、クライアントとAPIがエージェントループ全体を通して接続を維持し、リクエスト状態を毎回破棄して再構築する必要がなくなることを意味する。

OpenAIは、持続的なセッションによって有用な情報を接続そのものに紐づけたままにできたという。これにより、繰り返しのセットアップ作業が減り、ターンをまたいでコンテキストをより効率的に再利用できるようになった。その結果、エンドツーエンドのエージェントループ速度は約40%向上したと同社は述べている。

ユーザーにとっての意味は単純だ。コーディングや調査のエージェントが作業を終えるまでに多くのツール呼び出しを必要とするなら、各サイクルのオーバーヘッドを削ることは、1つの段階だけを速くするより大きな効果を持つ。以前はアクションの合間で止まっているように感じられたワークフローが、よりライブな対話に近づく。

OpenAI、持続的なWebSocketセッションでエージェントループのレイテンシを約40%短縮と発表

なぜエージェントループの高速化が重要なのか

推論のボトルネックからAPIのボトルネックへ

Keep Reading

WebSocketへの移行

OpenAIが最適化したもの

CohereのAleph Alpha買収で、ソブリンAIが越境戦略になる

Codexを超えて何を意味するか

より大きなシグナル

Comments (0)

OpenAI、プライバシー優先のAIワークフロー向けにローカル実行型のPII除去モデルを公開