Pourquoi des boucles d'agents plus rapides comptent

OpenAI affirme avoir remanié l'infrastructure sous-jacente de son Responses API pour rendre les workflows de type agent sensiblement plus rapides, un changement visant à réduire le temps d'attente des utilisateurs pendant que les outils, les modèles et les appels API font des allers-retours au cours de tâches complexes.

Dans un billet technique publié le 22 avril, l'entreprise a expliqué comment des systèmes comme Codex peuvent nécessiter des dizaines de requêtes séquentielles pour accomplir une seule tâche : le modèle décide de l'action suivante, un outil s'exécute côté client, le résultat est renvoyé à l'API, puis le cycle recommence. Ce schéma fait que même de petites quantités de surcharge s'accumulent rapidement.

Selon OpenAI, le problème de performance est devenu plus visible à mesure que l'inférence elle-même s'accélérait. L'entreprise a indiqué que les anciens modèles phares de l'API Responses fonctionnaient à environ 65 tokens par seconde. Pour GPT-5.3-Codex-Spark, OpenAI visait plus de 1 000 tokens par seconde en utilisant du matériel Cerebras. Une fois la génération du modèle devenue aussi rapide, les parties les plus lentes de la boucle n'étaient plus faciles à masquer.

Du goulot d'étranglement de l'inférence au goulot d'étranglement de l'API

OpenAI décompose la latence des agents en trois grandes étapes : le travail du service API, l'inférence du modèle et le temps côté client. Le côté client reste important, car les outils doivent s'exécuter et le contexte doit être assemblé, mais l'entreprise a indiqué que la couche API elle-même était devenue un goulot d'étranglement significatif.

Ce changement a imposé une autre stratégie d'optimisation. Plutôt que de se concentrer uniquement sur le débit GPU, OpenAI dit avoir commencé à supprimer les frictions tout au long du chemin de la requête. Vers novembre 2025, l'entreprise a lancé ce qu'elle a appelé un sprint de performance sur le Responses API. Les travaux comprenaient la mise en cache en mémoire des tokens rendus et de la configuration du modèle, la réduction des sauts réseau inutiles en appelant les services d'inférence plus directement, et l'accélération de certaines parties de la pile de sécurité afin que certaines conversations puissent être classées plus rapidement.

Ces changements ont amélioré le temps jusqu'au premier token de près de 45 %, selon l'entreprise. Mais OpenAI dit que cela restait insuffisant pour exposer pleinement les gains de vitesse de sa nouvelle pile d'inférence.

Le virage WebSocket

Le changement le plus important était architectural : remplacer une série d'appels API synchrones distincts par une connexion persistante au Responses API via WebSockets. En pratique, cela signifie que le client et l'API peuvent rester connectés sur l'ensemble de la boucle d'agent au lieu de détruire et reconstruire sans cesse l'état de la requête.

OpenAI affirme que les sessions persistantes lui ont permis de conserver des informations utiles attachées à la connexion elle-même. Cela a réduit le travail de configuration répété et aidé le système à réutiliser le contexte plus efficacement d'un tour à l'autre. Le résultat, selon l'entreprise, a été une amélioration d'environ 40 % de la vitesse de la boucle d'agent de bout en bout.

Pour les utilisateurs, l'intérêt est clair. Si un agent de programmation ou de recherche a besoin de nombreux appels d'outils pour terminer une tâche, réduire la surcharge de chaque cycle peut avoir un effet plus important que d'accélérer une seule étape. Un workflow qui semblait autrefois bloqué entre les actions peut commencer à se rapprocher d'une interaction en temps réel.

Ce qu'OpenAI a optimisé

  • Mise en cache liée à la connexion pour éviter de répéter des opérations de configuration coûteuses.
  • Moins de sauts réseau inutiles entre les services API et les services d'inférence.
  • Contrôles de sécurité plus rapides dans certaines parties de la chaîne de modération et de classification.
  • Un canal WebSocket persistant pour réduire le coût de l'utilisation d'outils sur plusieurs tours.

OpenAI a présenté ce travail comme une réponse à une évolution plus large du secteur : l'inférence devient suffisamment rapide pour que les systèmes environnants déterminent de plus en plus la qualité perçue du produit. Dans cet environnement, un modèle peut penser rapidement, mais l'expérience peut encore sembler lente si les couches d'orchestration prennent du retard.

Pourquoi cela compte au-delà de Codex

Bien qu'OpenAI ait illustré le problème avec Codex, les implications s'étendent à tout agent utilisant des outils. Les assistants d'entreprise, les systèmes de service client, les copilotes de recherche et les agents logiciels reposent tous sur de nombreuses interactions courtes plutôt que sur une seule longue complétion du modèle. Des sessions persistantes et une orchestration moins coûteuse peuvent donc compter autant que les performances brutes des benchmarks.

Le billet donne aussi un aperçu d'un paysage concurrentiel en mutation. Pendant des années, les fournisseurs de modèles ont mis l'accent sur un meilleur raisonnement et des fenêtres de contexte plus larges. Mais ils sont de plus en plus en concurrence sur l'ingénierie des systèmes : débit, réactivité, latence de sécurité et efficacité avec laquelle un modèle peut rester dans la boucle avec des outils externes.

Le message d'OpenAI est que l'infrastructure autour du modèle est désormais une fonctionnalité du produit à part entière. Si les vitesses d'inférence continuent d'augmenter, cela deviendra probablement encore plus vrai.

Le signal plus large

Le constat le plus profond n'est pas seulement que les WebSockets sont plus rapides que les appels synchrones répétés. C'est que les produits d'agents mûrissent en systèmes logiciels temps réel dont la performance dépend de la coordination entre API, caches, couches de sécurité et runtimes d'outils.

Cela fait de cette mise à jour bien plus qu'une note d'ingénierie. C'est le signe que les prochains gains d'utilisabilité de l'IA pourraient venir de la réduction des frictions entre les étapes du modèle, et pas seulement du fait de rendre chaque étape individuelle plus intelligente. À mesure que les systèmes agentiques prennent en charge des tâches plus longues et plus complexes, cette distinction pourrait déterminer s'ils paraissent expérimentaux ou opérationnels.

Cet article s'appuie sur un reportage d'OpenAI. Lire l'article original.

Originally published on openai.com