দ্রুততর Agent Loops কেন গুরুত্বপূর্ণ
agent-style workflows অনেক বেশি দ্রুত করতে OpenAI তার Responses API-র পেছনের plumbing পুনর্গঠন করেছে বলে জানিয়েছে। জটিল কাজের সময় tools, models, এবং API calls বারবার এদিক-ওদিক হওয়ার কারণে ব্যবহারকারীদের অপেক্ষার সময় কমানোই এই পরিবর্তনের লক্ষ্য।
২২ এপ্রিল প্রকাশিত এক technical post-এ কোম্পানি ব্যাখ্যা করে যে Codex-এর মতো systems-কে একটি assignment শেষ করতে ডজনখানেক sequential requests লাগতে পারে: model ঠিক করে পরের পদক্ষেপ কী হবে, client side-এ একটি tool চলে, ফলাফল API-তে পাঠানো হয়, এবং এই চক্র আবার শুরু হয়। এমন pattern-এ ছোটখাটো overheadও দ্রুত জমে বড় হয়ে যায়।
OpenAI-এর মতে, inference নিজেই দ্রুত হওয়ায় performance problem আরও স্পষ্ট হয়ে ওঠে। Responses API-তে earlier flagship models প্রায় 65 tokens per second গতিতে চলত বলে কোম্পানি জানায়। GPT-5.3-Codex-Spark-এর জন্য Cerebras hardware ব্যবহার করে 1,000 tokens per second-এর বেশি লক্ষ্যমাত্রা নির্ধারণ করেছিল OpenAI। model generation এত দ্রুত হয়ে গেলে loop-এর ধীর অংশগুলো আর সহজে আড়াল করা যায় না।
Inference Bottleneck থেকে API Bottleneck
OpenAI agent latency-কে তিনটি broad stage-এ ভাগ করে: API service work, model inference, এবং client-side time। tools execute করতে হয় এবং context assemble করতে হয় বলে client side এখনও গুরুত্বপূর্ণ, তবে কোম্পানির মতে API layer নিজেই একটি উল্লেখযোগ্য bottleneck হয়ে উঠেছিল।
এই পরিবর্তন optimization-এর ভিন্ন কৌশল বাধ্য করে। শুধু GPU throughput-এর দিকে না তাকিয়ে OpenAI request path-এর বিভিন্ন জায়গায় friction কমাতে শুরু করে। প্রায় ২০২৫ সালের নভেম্বর মাসে কোম্পানি Responses API-তে একটি performance sprint শুরু করে। এর মধ্যে ছিল rendered tokens এবং model configuration memory-তে cache করা, inference services আরও সরাসরি call করে extra network hops কমানো, এবং safety stack-এর কিছু অংশ দ্রুত করা যাতে কিছু conversation আরও দ্রুত classify করা যায়।
কোম্পানির দাবি, এসব পরিবর্তনে time to first token প্রায় 45% উন্নত হয়েছিল। তবে OpenAI বলছে, তার নতুন inference stack-এর speed gains পুরোপুরি প্রকাশ করতে সেটাও যথেষ্ট ছিল না।





