वेगवान Agent Loops का महत्त्वाचे आहेत

agent-style workflows लक्षणीयरीत्या वेगवान करण्यासाठी OpenAI ने आपल्या Responses API मागील plumbing पुन्हा मांडले असल्याचे सांगितले. complex tasks दरम्यान tools, models, आणि API calls सतत पुढे-मागे होत असताना वापरकर्त्यांचा प्रतीक्षा वेळ कमी करणे हा या बदलाचा उद्देश आहे.

२२ एप्रिल रोजी प्रसिद्ध झालेल्या technical post मध्ये कंपनीने स्पष्ट केले की Codex सारख्या systems ला एकच assignment पूर्ण करण्यासाठी डझनावधी sequential requests लागू शकतात: model पुढे काय करायचे ते ठरवतो, client side वर एक tool चालते, परिणाम API कडे पाठवला जातो, आणि हा cycle पुन्हा सुरू होतो. अशा pattern मध्ये छोटेसुद्धा overhead पटकन जमा होतो.

OpenAI नुसार, inference स्वतःच वेगवान होत गेल्यामुळे performance problem अधिक स्पष्ट झाली. Responses API मधील earlier flagship models सुमारे 65 tokens per second या वेगाने चालत होते, असे कंपनीने सांगितले. GPT-5.3-Codex-Spark साठी OpenAI ने Cerebras hardware वापरून 1,000 tokens per second पेक्षा जास्त वेगाचे लक्ष्य ठेवले. model generation इतकी वेगवान झाल्यावर loop मधील मंद भाग लपवणे सोपे राहिले नाही.

Inference Bottleneck पासून API Bottleneck पर्यंत

OpenAI agent latency ला तीन broad stages मध्ये विभागते: API service work, model inference, आणि client-side time. tools execute व्हायला हवे आणि context assemble व्हायला हवा म्हणून client side अजूनही महत्त्वाचा आहे, पण कंपनीच्या मते API layer स्वतः एक महत्त्वाचा bottleneck बनला होता.

त्या बदलामुळे वेगळी optimization strategy आवश्यक झाली. फक्त GPU throughput वर लक्ष केंद्रित करण्याऐवजी, OpenAI ने request path मधील friction कमी करण्यास सुरुवात केली. सुमारे नोव्हेंबर 2025 मध्ये कंपनीने Responses API वर performance sprint सुरू केला. यामध्ये rendered tokens आणि model configuration memory मध्ये cache करणे, inference services अधिक थेट call करून extra network hops कमी करणे, आणि safety stack च्या काही भागांना गती देणे यांचा समावेश होता, जेणेकरून काही conversations जलद classify होतील.

कंपनीनुसार, या बदलांमुळे time to first token मध्ये जवळपास 45% सुधारणा झाली. पण OpenAI म्हणते की नवीन inference stack चे speed gains पूर्णपणे दिसण्यासाठी तेही पुरेसे नव्हते.