OpenAI dit que les WebSockets ont rendu les workflows agentiques de l'API environ 40 % plus rapides

OpenAI affirme que des sessions WebSocket persistantes réduisent d'environ 40 % la latence des boucles d'agents

OpenAI indique qu'une refonte de la boucle d'agents de son Responses API, centrée sur des connexions WebSocket persistantes et un cache lié à la connexion, a réduit la latence de bout en bout d'environ 40 % à mesure que les vitesses d'inférence du modèle augmentaient fortement.

DT Editorial AI

Apr 26, 2026·4 min read·965 words

Pourquoi des boucles d'agents plus rapides comptent

OpenAI affirme avoir remanié l'infrastructure sous-jacente de son Responses API pour rendre les workflows de type agent sensiblement plus rapides, un changement visant à réduire le temps d'attente des utilisateurs pendant que les outils, les modèles et les appels API font des allers-retours au cours de tâches complexes.

Dans un billet technique publié le 22 avril, l'entreprise a expliqué comment des systèmes comme Codex peuvent nécessiter des dizaines de requêtes séquentielles pour accomplir une seule tâche : le modèle décide de l'action suivante, un outil s'exécute côté client, le résultat est renvoyé à l'API, puis le cycle recommence. Ce schéma fait que même de petites quantités de surcharge s'accumulent rapidement.

Selon OpenAI, le problème de performance est devenu plus visible à mesure que l'inférence elle-même s'accélérait. L'entreprise a indiqué que les anciens modèles phares de l'API Responses fonctionnaient à environ 65 tokens par seconde. Pour GPT-5.3-Codex-Spark, OpenAI visait plus de 1 000 tokens par seconde en utilisant du matériel Cerebras. Une fois la génération du modèle devenue aussi rapide, les parties les plus lentes de la boucle n'étaient plus faciles à masquer.

Du goulot d'étranglement de l'inférence au goulot d'étranglement de l'API

OpenAI décompose la latence des agents en trois grandes étapes : le travail du service API, l'inférence du modèle et le temps côté client. Le côté client reste important, car les outils doivent s'exécuter et le contexte doit être assemblé, mais l'entreprise a indiqué que la couche API elle-même était devenue un goulot d'étranglement significatif.

Ce changement a imposé une autre stratégie d'optimisation. Plutôt que de se concentrer uniquement sur le débit GPU, OpenAI dit avoir commencé à supprimer les frictions tout au long du chemin de la requête. Vers novembre 2025, l'entreprise a lancé ce qu'elle a appelé un sprint de performance sur le Responses API. Les travaux comprenaient la mise en cache en mémoire des tokens rendus et de la configuration du modèle, la réduction des sauts réseau inutiles en appelant les services d'inférence plus directement, et l'accélération de certaines parties de la pile de sécurité afin que certaines conversations puissent être classées plus rapidement.

Ces changements ont amélioré le temps jusqu'au premier token de près de 45 %, selon l'entreprise. Mais OpenAI dit que cela restait insuffisant pour exposer pleinement les gains de vitesse de sa nouvelle pile d'inférence.

AI & Robotics

OpenAI met ChatGPT for Clinicians gratuitement à disposition des médecins, infirmiers praticiens, assistants médicaux et pharmaciens américains vérifiés, tout en lançant un nouveau benchmark pour les tâches de chat clinique.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

OpenAI offre jusqu’à 25 000 dollars pour un jailbreak universel qui contourne un défi de sécurité biologique en cinq questions dans GPT-5.5, transformant le red teaming externe en test ciblé des garde-fous des modèles de pointe.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Un nouveau guide d’OpenAI Academy présente Codex moins comme une démo que comme un outil centré sur les projets, en mettant l’accent sur les dossiers locaux, les contrôles de permissions, les premières tâches simples et la construction progressive de la confiance.

DT Editorial AI·Apr 25, 2026·via openai.com

Le virage WebSocket

Le changement le plus important était architectural : remplacer une série d'appels API synchrones distincts par une connexion persistante au Responses API via WebSockets. En pratique, cela signifie que le client et l'API peuvent rester connectés sur l'ensemble de la boucle d'agent au lieu de détruire et reconstruire sans cesse l'état de la requête.

OpenAI affirme que les sessions persistantes lui ont permis de conserver des informations utiles attachées à la connexion elle-même. Cela a réduit le travail de configuration répété et aidé le système à réutiliser le contexte plus efficacement d'un tour à l'autre. Le résultat, selon l'entreprise, a été une amélioration d'environ 40 % de la vitesse de la boucle d'agent de bout en bout.

Pour les utilisateurs, l'intérêt est clair. Si un agent de programmation ou de recherche a besoin de nombreux appels d'outils pour terminer une tâche, réduire la surcharge de chaque cycle peut avoir un effet plus important que d'accélérer une seule étape. Un workflow qui semblait autrefois bloqué entre les actions peut commencer à se rapprocher d'une interaction en temps réel.

OpenAI affirme que des sessions WebSocket persistantes réduisent d'environ 40 % la latence des boucles d'agents

Pourquoi des boucles d'agents plus rapides comptent

Du goulot d'étranglement de l'inférence au goulot d'étranglement de l'API

Related Articles

Keep Reading

OpenAI lance un modèle local pour la suppression des PII, pensé pour des workflows d’IA axés sur la confidentialité par défaut

Le virage WebSocket

Ce qu'OpenAI a optimisé

OpenAI pousse l’automatisation partagée au travail avec ses nouveaux « workspace agents » dans ChatGPT

Pourquoi cela compte au-delà de Codex

Le signal plus large

OpenAI présente Workspace Agents comme la prochaine couche de l’IA d’entreprise au quotidien

Comments (0)

OpenAI va plus loin dans les workflows agentiques avec le lancement de GPT-5.5

OpenAI rend ChatGPT pour les cliniciens gratuit pour les professionnels de santé américains vérifiés

OpenAI met les garde-fous biologiques de GPT-5.5 à l’épreuve avec une nouvelle prime aux bogues

OpenAI publie un guide de démarrage pour Codex et pousse vers un onboarding plus concret des workflows d’IA

L’accord de Cohere sur Aleph Alpha fait de l’IA souveraine une stratégie transfrontalière