OpenAI diz que WebSockets tornaram fluxos de trabalho agênticos da API cerca de 40% mais rápidos

OpenAI diz que sessões persistentes de WebSocket reduziram em cerca de 40% a latência do loop de agentes

A OpenAI afirma que uma reformulação do loop de agentes da Responses API, centrada em conexões WebSocket persistentes e cache associado à conexão, reduziu a latência de ponta a ponta em cerca de 40% à medida que as velocidades de inferência do modelo subiam rapidamente.

DT Editorial AI

Apr 26, 2026·4 min read·956 words

Por que loops de agentes mais rápidos importam

A OpenAI diz que refez a infraestrutura por trás da Responses API para tornar fluxos de trabalho no estilo agente substancialmente mais rápidos, uma mudança voltada a reduzir o tempo que os usuários passam esperando enquanto ferramentas, modelos e chamadas de API vão e voltam durante tarefas complexas.

Em uma publicação técnica de 22 de abril, a empresa descreveu como sistemas como o Codex podem exigir dezenas de solicitações sequenciais para concluir uma única tarefa: o modelo decide o que fazer em seguida, uma ferramenta é executada no lado do cliente, o resultado é enviado de volta à API, e o ciclo se repete. Esse padrão faz com que até pequenas quantidades de sobrecarga se acumulem rapidamente.

Segundo a OpenAI, o problema de desempenho ficou mais visível à medida que a inferência em si ficou mais rápida. A empresa disse que os modelos carro-chefe anteriores na Responses API rodavam a cerca de 65 tokens por segundo. Para o GPT-5.3-Codex-Spark, a OpenAI mirou mais de 1.000 tokens por segundo usando hardware da Cerebras. Quando a geração do modelo ficou tão rápida, as partes mais lentas do loop deixaram de ser fáceis de esconder.

Do gargalo de inferência ao gargalo da API

A OpenAI divide a latência do agente em três grandes estágios: trabalho do serviço de API, inferência do modelo e tempo do lado do cliente. O lado do cliente ainda importa porque as ferramentas precisam ser executadas e o contexto precisa ser montado, mas a empresa disse que a própria camada de API havia se tornado um gargalo relevante.

Essa mudança exigiu uma estratégia de otimização diferente. Em vez de focar apenas na vazão de GPU, a OpenAI diz que começou a remover atrito ao longo do caminho da requisição. Por volta de novembro de 2025, a empresa lançou o que chamou de sprint de desempenho na Responses API. O trabalho incluiu armazenar em cache na memória os tokens renderizados e a configuração do modelo, reduzir saltos extras de rede chamando os serviços de inferência de forma mais direta e acelerar partes da pilha de segurança para que algumas conversas pudessem ser classificadas mais rapidamente.

Essas mudanças melhoraram o tempo até o primeiro token em quase 45%, segundo a empresa. Mas a OpenAI diz que isso ainda não era suficiente para expor totalmente os ganhos de velocidade da sua pilha de inferência mais nova.

AI & Robotics

A OpenAI está disponibilizando gratuitamente o ChatGPT for Clinicians para médicos, enfermeiros praticantes, assistentes médicos e farmacêuticos verificados nos Estados Unidos, junto com um novo benchmark para tarefas clínicas de chat.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

A OpenAI está oferecendo até US$ 25.000 por um jailbreak universal que supere um desafio de segurança biológica de cinco perguntas no GPT-5.5, transformando o red teaming externo em um teste focado das salvaguardas de modelos de fronteira.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Um novo guia da OpenAI Academy trata o Codex menos como uma demo e mais como uma ferramenta orientada a projetos, com foco em pastas locais, controle de permissões, primeiras tarefas simples e construção gradual de confiança.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Por que isso importa além do Codex

Embora a OpenAI tenha ilustrado o problema com o Codex, as implicações se estendem a qualquer agente que use ferramentas. Assistentes corporativos, sistemas de atendimento ao cliente, copilotos de pesquisa e agentes de software dependem de muitas interações pequenas em vez de uma única resposta longa do modelo. Assim, sessões persistentes e menor sobrecarga de orquestração podem importar tanto quanto o desempenho bruto em benchmarks.

A publicação também oferece um vislumbre de um cenário competitivo em mudança. Por anos, os fornecedores de modelos enfatizaram melhor raciocínio e janelas de contexto maiores. Cada vez mais, porém, eles também competem em engenharia de sistemas: vazão, responsividade, latência de segurança e quão eficientemente um modelo consegue permanecer no loop com ferramentas externas.

A mensagem da OpenAI é que a infraestrutura ao redor do modelo agora é um recurso do produto por direito próprio. Se as velocidades de inferência continuarem subindo, isso provavelmente se tornará ainda mais verdadeiro.

OpenAI diz que sessões persistentes de WebSocket reduziram em cerca de 40% a latência do loop de agentes

Por que loops de agentes mais rápidos importam

Do gargalo de inferência ao gargalo da API

Related Articles

Keep Reading

OpenAI lança um modelo local-first para remoção de PII voltado a fluxos de trabalho de IA com privacidade por padrão

A mudança para WebSocket

O que a OpenAI otimizou

OpenAI impulsiona a automação compartilhada no trabalho com os novos “workspace agents” do ChatGPT

Por que isso importa além do Codex

O sinal maior

A OpenAI posiciona os Workspace Agents como a próxima camada da IA corporativa do dia a dia

Comments (0)

OpenAI avança ainda mais em fluxos de trabalho agentivos com o lançamento do GPT-5.5

OpenAI torna gratuito o ChatGPT para Clínicos para profissionais de saúde verificados nos EUA

OpenAI coloca as salvaguardas biológicas do GPT-5.5 em um teste de estresse ao vivo com uma nova recompensa por bugs

A OpenAI publica um guia inicial do Codex enquanto aposta em um onboarding mais prático para fluxos de trabalho de IA

O acordo da Cohere com a Aleph Alpha transforma a IA soberana em uma estratégia transfronteiriça