तेज़ Agent Loops क्यों महत्वपूर्ण हैं

OpenAI का कहना है कि उसने अपनी Responses API के पीछे की plumbing को फिर से तैयार किया है ताकि agent-style workflows काफी तेज़ हो सकें। इसका उद्देश्य उन जटिल कार्यों के दौरान उपयोगकर्ताओं के इंतज़ार का समय कम करना है, जब tools, models, और API calls बार-बार आगे-पीछे होते रहते हैं।

22 अप्रैल को प्रकाशित एक तकनीकी पोस्ट में, कंपनी ने बताया कि Codex जैसी प्रणालियों को एक ही assignment पूरा करने के लिए दर्जनों sequential requests की ज़रूरत पड़ सकती है: model तय करता है कि अगला कदम क्या होगा, client side पर एक tool चलता है, परिणाम API को भेजा जाता है, और यह चक्र दोहराया जाता है। इस pattern में overhead का थोड़ा-सा हिस्सा भी जल्दी ही जमा हो जाता है।

OpenAI के अनुसार, performance की यह समस्या तब अधिक स्पष्ट हुई जब inference खुद तेज़ होने लगा। कंपनी ने कहा कि Responses API में earlier flagship models लगभग 65 tokens per second की गति से चलते थे। GPT-5.3-Codex-Spark के लिए OpenAI ने Cerebras hardware का उपयोग करते हुए 1,000 tokens per second से अधिक का लक्ष्य रखा। जब model generation इतनी तेज़ हो गई, तो loop के धीमे हिस्सों को छिपाना आसान नहीं रहा।

Inference Bottleneck से API Bottleneck तक

OpenAI agent latency को तीन व्यापक stages में बांटता है: API service work, model inference, और client-side time। Client side अभी भी महत्वपूर्ण है क्योंकि tools को execute करना होता है और context को assemble करना होता है, लेकिन कंपनी ने कहा कि API layer स्वयं एक महत्वपूर्ण bottleneck बन चुकी थी।

इस बदलाव ने optimization की एक अलग strategy को मजबूर किया। केवल GPU throughput पर ध्यान देने के बजाय, OpenAI का कहना है कि उसने request path के हर हिस्से में friction हटाना शुरू किया। लगभग नवंबर 2025 में, कंपनी ने Responses API पर एक performance sprint शुरू किया। इस काम में rendered tokens और model configuration को memory में cache करना, inference services को अधिक सीधे call करके अतिरिक्त network hops कम करना, और safety stack के कुछ हिस्सों को तेज़ करना शामिल था ताकि कुछ conversations को जल्दी classify किया जा सके।

कंपनी के अनुसार, इन बदलावों से time to first token में लगभग 45% सुधार हुआ। लेकिन OpenAI का कहना है कि यह उसके नए inference stack की speed gains को पूरी तरह सामने लाने के लिए अभी भी पर्याप्त नहीं था।