Por que loops de agentes mais rápidos importam
A OpenAI diz que refez a infraestrutura por trás da Responses API para tornar fluxos de trabalho no estilo agente substancialmente mais rápidos, uma mudança voltada a reduzir o tempo que os usuários passam esperando enquanto ferramentas, modelos e chamadas de API vão e voltam durante tarefas complexas.
Em uma publicação técnica de 22 de abril, a empresa descreveu como sistemas como o Codex podem exigir dezenas de solicitações sequenciais para concluir uma única tarefa: o modelo decide o que fazer em seguida, uma ferramenta é executada no lado do cliente, o resultado é enviado de volta à API, e o ciclo se repete. Esse padrão faz com que até pequenas quantidades de sobrecarga se acumulem rapidamente.
Segundo a OpenAI, o problema de desempenho ficou mais visível à medida que a inferência em si ficou mais rápida. A empresa disse que os modelos carro-chefe anteriores na Responses API rodavam a cerca de 65 tokens por segundo. Para o GPT-5.3-Codex-Spark, a OpenAI mirou mais de 1.000 tokens por segundo usando hardware da Cerebras. Quando a geração do modelo ficou tão rápida, as partes mais lentas do loop deixaram de ser fáceis de esconder.
Do gargalo de inferência ao gargalo da API
A OpenAI divide a latência do agente em três grandes estágios: trabalho do serviço de API, inferência do modelo e tempo do lado do cliente. O lado do cliente ainda importa porque as ferramentas precisam ser executadas e o contexto precisa ser montado, mas a empresa disse que a própria camada de API havia se tornado um gargalo relevante.
Essa mudança exigiu uma estratégia de otimização diferente. Em vez de focar apenas na vazão de GPU, a OpenAI diz que começou a remover atrito ao longo do caminho da requisição. Por volta de novembro de 2025, a empresa lançou o que chamou de sprint de desempenho na Responses API. O trabalho incluiu armazenar em cache na memória os tokens renderizados e a configuração do modelo, reduzir saltos extras de rede chamando os serviços de inferência de forma mais direta e acelerar partes da pilha de segurança para que algumas conversas pudessem ser classificadas mais rapidamente.
Essas mudanças melhoraram o tempo até o primeiro token em quase 45%, segundo a empresa. Mas a OpenAI diz que isso ainda não era suficiente para expor totalmente os ganhos de velocidade da sua pilha de inferência mais nova.








