OpenAI म्हणते WebSockets मुळे Agentic API Workflows सुमारे 40% वेगवान झाले

OpenAI म्हणते, Persistent WebSocket Sessions मुळे Agent Loop Latency सुमारे 40% कमी झाली

Responses API agent loop च्या पुनर्रचनेत persistent WebSocket connections आणि connection-scoped caching यांचा केंद्रबिंदू होता, आणि model inference speeds झपाट्याने वाढत असताना end-to-end latency सुमारे 40% कमी झाली, असे OpenAI म्हणते.

DT Editorial AI

Apr 26, 2026·3 min read·737 words

वेगवान Agent Loops का महत्त्वाचे आहेत

agent-style workflows लक्षणीयरीत्या वेगवान करण्यासाठी OpenAI ने आपल्या Responses API मागील plumbing पुन्हा मांडले असल्याचे सांगितले. complex tasks दरम्यान tools, models, आणि API calls सतत पुढे-मागे होत असताना वापरकर्त्यांचा प्रतीक्षा वेळ कमी करणे हा या बदलाचा उद्देश आहे.

२२ एप्रिल रोजी प्रसिद्ध झालेल्या technical post मध्ये कंपनीने स्पष्ट केले की Codex सारख्या systems ला एकच assignment पूर्ण करण्यासाठी डझनावधी sequential requests लागू शकतात: model पुढे काय करायचे ते ठरवतो, client side वर एक tool चालते, परिणाम API कडे पाठवला जातो, आणि हा cycle पुन्हा सुरू होतो. अशा pattern मध्ये छोटेसुद्धा overhead पटकन जमा होतो.

OpenAI नुसार, inference स्वतःच वेगवान होत गेल्यामुळे performance problem अधिक स्पष्ट झाली. Responses API मधील earlier flagship models सुमारे 65 tokens per second या वेगाने चालत होते, असे कंपनीने सांगितले. GPT-5.3-Codex-Spark साठी OpenAI ने Cerebras hardware वापरून 1,000 tokens per second पेक्षा जास्त वेगाचे लक्ष्य ठेवले. model generation इतकी वेगवान झाल्यावर loop मधील मंद भाग लपवणे सोपे राहिले नाही.

Inference Bottleneck पासून API Bottleneck पर्यंत

OpenAI agent latency ला तीन broad stages मध्ये विभागते: API service work, model inference, आणि client-side time. tools execute व्हायला हवे आणि context assemble व्हायला हवा म्हणून client side अजूनही महत्त्वाचा आहे, पण कंपनीच्या मते API layer स्वतः एक महत्त्वाचा bottleneck बनला होता.

त्या बदलामुळे वेगळी optimization strategy आवश्यक झाली. फक्त GPU throughput वर लक्ष केंद्रित करण्याऐवजी, OpenAI ने request path मधील friction कमी करण्यास सुरुवात केली. सुमारे नोव्हेंबर 2025 मध्ये कंपनीने Responses API वर performance sprint सुरू केला. यामध्ये rendered tokens आणि model configuration memory मध्ये cache करणे, inference services अधिक थेट call करून extra network hops कमी करणे, आणि safety stack च्या काही भागांना गती देणे यांचा समावेश होता, जेणेकरून काही conversations जलद classify होतील.

कंपनीनुसार, या बदलांमुळे time to first token मध्ये जवळपास 45% सुधारणा झाली. पण OpenAI म्हणते की नवीन inference stack चे speed gains पूर्णपणे दिसण्यासाठी तेही पुरेसे नव्हते.

AI & Robotics

Aleph Alpha चे नियोजित अधिग्रहण हे फक्त एक स्टार्टअप ताबा नाही. हा युरोप आणि त्यापलीकडे सरकारे आणि कडक नियमन असलेल्या उद्योगांसाठी राजकीय पाठबळ असलेला sovereign AI पुरवठादार उभारण्याचा प्रयत्न आहे.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

OpenAI म्हणते GPT-5.5 कमी देखरेखीखाली दीर्घ, tool-using workflows हाताळण्यासाठी तयार केले आहे, ज्यामुळे coding, research, आणि data work साठी agent-style AI systems कडे कंपनीचा प्रवास अधिक पुढे जातो.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

WebSocket Shift

मोठा बदल architectural होता: वेगवेगळ्या synchronous API calls च्या मालिकेऐवजी WebSockets वापरून Responses API शी persistent connection ठेवणे. प्रत्यक्षात याचा अर्थ client आणि API संपूर्ण agent loop दरम्यान connected राहू शकतात, request state वारंवार तोडण्याची आणि पुन्हा तयार करण्याची गरज राहत नाही.

Persistent sessions मुळे connection शीच उपयुक्त माहिती जोडून ठेवता आली, असे OpenAI म्हणते. त्यामुळे repeated setup work कमी झाले आणि turns दरम्यान context अधिक कार्यक्षमतेने reuse करता आला. परिणामी end-to-end agent loop speed मध्ये सुमारे 40% सुधारणा झाली, असे कंपनीने सांगितले.

वापरकर्त्यांसाठी याचे महत्त्व सरळ आहे. जर एखाद्या coding किंवा research agent ला काम पूर्ण करण्यासाठी अनेक tool calls लागल्या, तर प्रत्येक cycle मधील overhead कमी केल्याने फक्त एका stage ला वेग देण्यापेक्षा अधिक परिणाम होऊ शकतो. एकेकाळी actions मधे अडकलेला workflow आता live interaction च्या अधिक जवळ वाटू शकतो.

OpenAI म्हणते, Persistent WebSocket Sessions मुळे Agent Loop Latency सुमारे 40% कमी झाली

वेगवान Agent Loops का महत्त्वाचे आहेत

Inference Bottleneck पासून API Bottleneck पर्यंत

Related Articles

Keep Reading

privacy-by-default AI workflows साठी OpenAI ने local-first PII redaction model जारी केले

WebSocket Shift

OpenAI ने काय Optimize केले

OpenAI ने ChatGPT मधील नवीन ‘workspace agents’ सह सामायिक कार्यस्थळ स्वयंचलनाला चालना दिली

Codex पलीकडे का महत्त्वाचे आहे

मोठा संकेत

OpenAI ने GPT-5.5 च्या जीवशास्त्रीय संरक्षणांची नव्या bug bounty सह live stress test घेतली

Comments (0)

Cohere चा Aleph Alpha करार sovereign AI ला सीमापार धोरणात रूपांतरित करतो

GPT-5.5 लाँचसह एजेंटिक वर्कफ्लोजमध्ये OpenAI आणखी पुढे