OpenAI dice que WebSockets hicieron unos 40% más rápidos los flujos de trabajo agénticos de la API

OpenAI dice que las sesiones persistentes de WebSocket reducen en aproximadamente un 40% la latencia del bucle de agentes

OpenAI afirma que una rediseño del bucle de agentes de su Responses API, centrado en conexiones WebSocket persistentes y caché asociada a la conexión, redujo la latencia de extremo a extremo en alrededor de un 40% a medida que la velocidad de inferencia del modelo aumentaba con fuerza.

DT Editorial AI

Apr 26, 2026·4 min read·995 words

Por qué importan los bucles de agentes más rápidos

OpenAI dice que ha rehecho la infraestructura detrás de su Responses API para acelerar de forma notable los flujos de trabajo tipo agente, un cambio orientado a reducir el tiempo que los usuarios pasan esperando mientras herramientas, modelos y llamadas a la API van y vienen durante tareas complejas.

En una publicación técnica del 22 de abril, la empresa describió cómo sistemas como Codex pueden requerir decenas de solicitudes secuenciales para completar una sola tarea: el modelo decide qué hacer a continuación, una herramienta se ejecuta en el lado del cliente, el resultado se envía de vuelta a la API y el ciclo se repite. Ese patrón hace que incluso pequeñas cantidades de sobrecarga se acumulen con rapidez.

Según OpenAI, el problema de rendimiento se volvió más visible a medida que la inferencia en sí se aceleró. La empresa dijo que los modelos insignia anteriores en la Responses API funcionaban a unas 65 tokens por segundo. Para GPT-5.3-Codex-Spark, OpenAI apuntó a más de 1.000 tokens por segundo usando hardware de Cerebras. Una vez que la generación del modelo se volvió tan rápida, las partes más lentas del bucle dejaron de ser fáciles de ocultar.

Del cuello de botella de inferencia al cuello de botella de la API

OpenAI divide la latencia de los agentes en tres etapas amplias: trabajo del servicio de API, inferencia del modelo y tiempo del lado del cliente. El lado del cliente sigue importando porque las herramientas necesitan ejecutarse y el contexto debe ensamblarse, pero la empresa dijo que la capa de API se había convertido en un cuello de botella importante.

Ese cambio obligó a una estrategia de optimización diferente. En lugar de centrarse solo en el rendimiento de las GPU, OpenAI dice que empezó a eliminar fricciones a lo largo de la ruta de la solicitud. Hacia noviembre de 2025, la empresa lanzó lo que llamó un sprint de rendimiento en la Responses API. El trabajo incluyó cachear en memoria los tokens renderizados y la configuración del modelo, reducir saltos de red innecesarios llamando a los servicios de inferencia de forma más directa y acelerar partes de la pila de seguridad para que algunas conversaciones pudieran clasificarse más rápido.

Esos cambios mejoraron el tiempo hasta el primer token en casi un 45%, según la empresa. Pero OpenAI dice que eso todavía no era suficiente para exponer por completo las ganancias de velocidad de su pila de inferencia más reciente.

AI & Robotics

OpenAI ofrece hasta 25.000 dólares por un jailbreak universal que venza un desafío de seguridad biológica de cinco preguntas en GPT-5.5, convirtiendo el red teaming externo en una prueba concentrada de las salvaguardas de modelos de frontera.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Una nueva guía de OpenAI Academy presenta Codex menos como una demo y más como una herramienta basada en proyectos, con énfasis en carpetas locales, controles de permisos, tareas iniciales sencillas y una confianza que se construye gradualmente.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

La adquisición prevista de Aleph Alpha por parte de Cohere es más que una compra de una startup. Es una apuesta por construir un proveedor de IA soberana con respaldo político para gobiernos e industrias reguladas en Europa y más allá.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

Por qué importa más allá de Codex

Aunque OpenAI ilustró el problema con Codex, las implicaciones se extienden a cualquier agente que use herramientas. Los asistentes empresariales, los sistemas de atención al cliente, los copilotos de investigación y los agentes de software dependen de muchas interacciones pequeñas en lugar de una única generación larga del modelo. Por tanto, las sesiones persistentes y una menor sobrecarga de orquestación podrían importar tanto como el rendimiento bruto en benchmarks.

La publicación también ofrece una mirada a un panorama competitivo en cambio. Durante años, los proveedores de modelos han enfatizado un mejor razonamiento y ventanas de contexto más grandes. Sin embargo, cada vez compiten también en ingeniería de sistemas: rendimiento, capacidad de respuesta, latencia de seguridad y con qué eficiencia un modelo puede mantenerse en el circuito con herramientas externas.

El mensaje de OpenAI es que la infraestructura alrededor del modelo es ahora una característica del producto en sí misma. Si las velocidades de inferencia siguen subiendo, eso probablemente será todavía más cierto.

OpenAI dice que las sesiones persistentes de WebSocket reducen en aproximadamente un 40% la latencia del bucle de agentes

Por qué importan los bucles de agentes más rápidos

Del cuello de botella de inferencia al cuello de botella de la API

Related Articles

Keep Reading

OpenAI impulsa la automatización compartida en el trabajo con los nuevos “workspace agents” de ChatGPT

El cambio a WebSocket

Qué optimizó OpenAI

OpenAI sitúa Workspace Agents como la siguiente capa de la IA empresarial cotidiana

Por qué importa más allá de Codex

La señal más grande

OpenAI hace gratuito ChatGPT para clínicos para profesionales sanitarios verificados en EE. UU.

Comments (0)

El mercado interno de Anthropic sugiere que los mejores agentes de IA consiguen mejores acuerdos sin hacer ruido

OpenAI somete las salvaguardas biológicas de GPT-5.5 a una prueba de esfuerzo en vivo con una nueva recompensa por fallos

OpenAI publica una guía inicial de Codex mientras impulsa una incorporación más práctica a los flujos de trabajo de IA

El acuerdo de Cohere con Aleph Alpha convierte la IA soberana en una estrategia transfronteriza

OpenAI avanza aún más hacia los flujos de trabajo agénticos con el lanzamiento de GPT-5.5