Por qué importan los bucles de agentes más rápidos
OpenAI dice que ha rehecho la infraestructura detrás de su Responses API para acelerar de forma notable los flujos de trabajo tipo agente, un cambio orientado a reducir el tiempo que los usuarios pasan esperando mientras herramientas, modelos y llamadas a la API van y vienen durante tareas complejas.
En una publicación técnica del 22 de abril, la empresa describió cómo sistemas como Codex pueden requerir decenas de solicitudes secuenciales para completar una sola tarea: el modelo decide qué hacer a continuación, una herramienta se ejecuta en el lado del cliente, el resultado se envía de vuelta a la API y el ciclo se repite. Ese patrón hace que incluso pequeñas cantidades de sobrecarga se acumulen con rapidez.
Según OpenAI, el problema de rendimiento se volvió más visible a medida que la inferencia en sí se aceleró. La empresa dijo que los modelos insignia anteriores en la Responses API funcionaban a unas 65 tokens por segundo. Para GPT-5.3-Codex-Spark, OpenAI apuntó a más de 1.000 tokens por segundo usando hardware de Cerebras. Una vez que la generación del modelo se volvió tan rápida, las partes más lentas del bucle dejaron de ser fáciles de ocultar.
Del cuello de botella de inferencia al cuello de botella de la API
OpenAI divide la latencia de los agentes en tres etapas amplias: trabajo del servicio de API, inferencia del modelo y tiempo del lado del cliente. El lado del cliente sigue importando porque las herramientas necesitan ejecutarse y el contexto debe ensamblarse, pero la empresa dijo que la capa de API se había convertido en un cuello de botella importante.
Ese cambio obligó a una estrategia de optimización diferente. En lugar de centrarse solo en el rendimiento de las GPU, OpenAI dice que empezó a eliminar fricciones a lo largo de la ruta de la solicitud. Hacia noviembre de 2025, la empresa lanzó lo que llamó un sprint de rendimiento en la Responses API. El trabajo incluyó cachear en memoria los tokens renderizados y la configuración del modelo, reducir saltos de red innecesarios llamando a los servicios de inferencia de forma más directa y acelerar partes de la pila de seguridad para que algunas conversaciones pudieran clasificarse más rápido.
Esos cambios mejoraron el tiempo hasta el primer token en casi un 45%, según la empresa. Pero OpenAI dice que eso todavía no era suficiente para exponer por completo las ganancias de velocidad de su pila de inferencia más reciente.








