Pourquoi des boucles d'agents plus rapides comptent
OpenAI affirme avoir remanié l'infrastructure sous-jacente de son Responses API pour rendre les workflows de type agent sensiblement plus rapides, un changement visant à réduire le temps d'attente des utilisateurs pendant que les outils, les modèles et les appels API font des allers-retours au cours de tâches complexes.
Dans un billet technique publié le 22 avril, l'entreprise a expliqué comment des systèmes comme Codex peuvent nécessiter des dizaines de requêtes séquentielles pour accomplir une seule tâche : le modèle décide de l'action suivante, un outil s'exécute côté client, le résultat est renvoyé à l'API, puis le cycle recommence. Ce schéma fait que même de petites quantités de surcharge s'accumulent rapidement.
Selon OpenAI, le problème de performance est devenu plus visible à mesure que l'inférence elle-même s'accélérait. L'entreprise a indiqué que les anciens modèles phares de l'API Responses fonctionnaient à environ 65 tokens par seconde. Pour GPT-5.3-Codex-Spark, OpenAI visait plus de 1 000 tokens par seconde en utilisant du matériel Cerebras. Une fois la génération du modèle devenue aussi rapide, les parties les plus lentes de la boucle n'étaient plus faciles à masquer.
Du goulot d'étranglement de l'inférence au goulot d'étranglement de l'API
OpenAI décompose la latence des agents en trois grandes étapes : le travail du service API, l'inférence du modèle et le temps côté client. Le côté client reste important, car les outils doivent s'exécuter et le contexte doit être assemblé, mais l'entreprise a indiqué que la couche API elle-même était devenue un goulot d'étranglement significatif.
Ce changement a imposé une autre stratégie d'optimisation. Plutôt que de se concentrer uniquement sur le débit GPU, OpenAI dit avoir commencé à supprimer les frictions tout au long du chemin de la requête. Vers novembre 2025, l'entreprise a lancé ce qu'elle a appelé un sprint de performance sur le Responses API. Les travaux comprenaient la mise en cache en mémoire des tokens rendus et de la configuration du modèle, la réduction des sauts réseau inutiles en appelant les services d'inférence plus directement, et l'accélération de certaines parties de la pile de sécurité afin que certaines conversations puissent être classées plus rapidement.
Ces changements ont amélioré le temps jusqu'au premier token de près de 45 %, selon l'entreprise. Mais OpenAI dit que cela restait insuffisant pour exposer pleinement les gains de vitesse de sa nouvelle pile d'inférence.








