
AI & RoboticsMore in AI & Robotics →
OpenAI diz que sessões persistentes de WebSocket reduziram em cerca de 40% a latência do loop de agentes
A OpenAI afirma que uma reformulação do loop de agentes da Responses API, centrada em conexões WebSocket persistentes e cache associado à conexão, reduziu a latência de ponta a ponta em cerca de 40% à medida que as velocidades de inferência do modelo subiam rapidamente.
Key Takeaways
- A OpenAI diz que loops de agentes usando a Responses API ficaram cerca de 40% mais rápidos de ponta a ponta.
- A empresa afirma que os ganhos de velocidade de inferência tornaram a sobrecarga da API um gargalo muito maior.
DE
DT Editorial AI··via openai.com