দ্রুততর Agent Loops কেন গুরুত্বপূর্ণ

agent-style workflows অনেক বেশি দ্রুত করতে OpenAI তার Responses API-র পেছনের plumbing পুনর্গঠন করেছে বলে জানিয়েছে। জটিল কাজের সময় tools, models, এবং API calls বারবার এদিক-ওদিক হওয়ার কারণে ব্যবহারকারীদের অপেক্ষার সময় কমানোই এই পরিবর্তনের লক্ষ্য।

২২ এপ্রিল প্রকাশিত এক technical post-এ কোম্পানি ব্যাখ্যা করে যে Codex-এর মতো systems-কে একটি assignment শেষ করতে ডজনখানেক sequential requests লাগতে পারে: model ঠিক করে পরের পদক্ষেপ কী হবে, client side-এ একটি tool চলে, ফলাফল API-তে পাঠানো হয়, এবং এই চক্র আবার শুরু হয়। এমন pattern-এ ছোটখাটো overheadও দ্রুত জমে বড় হয়ে যায়।

OpenAI-এর মতে, inference নিজেই দ্রুত হওয়ায় performance problem আরও স্পষ্ট হয়ে ওঠে। Responses API-তে earlier flagship models প্রায় 65 tokens per second গতিতে চলত বলে কোম্পানি জানায়। GPT-5.3-Codex-Spark-এর জন্য Cerebras hardware ব্যবহার করে 1,000 tokens per second-এর বেশি লক্ষ্যমাত্রা নির্ধারণ করেছিল OpenAI। model generation এত দ্রুত হয়ে গেলে loop-এর ধীর অংশগুলো আর সহজে আড়াল করা যায় না।

Inference Bottleneck থেকে API Bottleneck

OpenAI agent latency-কে তিনটি broad stage-এ ভাগ করে: API service work, model inference, এবং client-side time। tools execute করতে হয় এবং context assemble করতে হয় বলে client side এখনও গুরুত্বপূর্ণ, তবে কোম্পানির মতে API layer নিজেই একটি উল্লেখযোগ্য bottleneck হয়ে উঠেছিল।

এই পরিবর্তন optimization-এর ভিন্ন কৌশল বাধ্য করে। শুধু GPU throughput-এর দিকে না তাকিয়ে OpenAI request path-এর বিভিন্ন জায়গায় friction কমাতে শুরু করে। প্রায় ২০২৫ সালের নভেম্বর মাসে কোম্পানি Responses API-তে একটি performance sprint শুরু করে। এর মধ্যে ছিল rendered tokens এবং model configuration memory-তে cache করা, inference services আরও সরাসরি call করে extra network hops কমানো, এবং safety stack-এর কিছু অংশ দ্রুত করা যাতে কিছু conversation আরও দ্রুত classify করা যায়।

কোম্পানির দাবি, এসব পরিবর্তনে time to first token প্রায় 45% উন্নত হয়েছিল। তবে OpenAI বলছে, তার নতুন inference stack-এর speed gains পুরোপুরি প্রকাশ করতে সেটাও যথেষ্ট ছিল না।

WebSocket Shift

বড় পরিবর্তন ছিল architectural: আলাদা আলাদা synchronous API calls-এর ধারাকে WebSockets ব্যবহার করে Responses API-র সঙ্গে একটি persistent connection-এ বদলানো। ব্যবহারিকভাবে এর অর্থ, client এবং API পুরো agent loop জুড়ে connected থাকতে পারে, বারবার request state ভেঙে আবার তৈরি করার দরকার হয় না।

OpenAI বলছে persistent sessions connection-এর সঙ্গেই দরকারি তথ্য যুক্ত করে রাখতে সাহায্য করেছে। এতে repeated setup work কমেছে এবং turns-এর মধ্যে context আরও দক্ষতার সঙ্গে reuse করা গেছে। ফলে end-to-end agent loop speed প্রায় 40% বেড়েছে বলে কোম্পানি জানায়।

ব্যবহারকারীদের জন্য এর তাৎপর্য সরল। যদি কোনো coding বা research agent একটি কাজ শেষ করতে অনেক tool calls লাগে, তবে প্রতিটি cycle-এর overhead কমালে শুধু একটি stage দ্রুত করার চেয়ে বড় প্রভাব পড়তে পারে। একসময় যে workflow action-এর মাঝে থেমে থাকা মনে হতো, তা live interaction-এর কাছাকাছি লাগতে শুরু করতে পারে।

OpenAI কী Optimize করেছে

  • Connection-scoped caching, যাতে ব্যয়বহুল setup work বারবার না করতে হয়।
  • API services এবং inference services-এর মধ্যে অপ্রয়োজনীয় network hops কমানো।
  • Moderation এবং classification pipeline-এর কিছু অংশে দ্রুত safety checks।
  • বহু-turn tool use-এর খরচ কমাতে একটি persistent WebSocket channel।

OpenAI এই কাজকে শিল্পে চলমান এক বৃহত্তর পরিবর্তনের প্রতিক্রিয়া হিসেবে দেখিয়েছে: inference এখন এতটাই দ্রুত হচ্ছে যে আশপাশের systems-ই perceived product quality নির্ধারণ করছে। এমন পরিবেশে model দ্রুত ভাবতে পারলেও orchestration layers পিছিয়ে থাকলে অভিজ্ঞতা এখনও ধীর মনে হতে পারে।

Codex-এর বাইরে কেন এটি গুরুত্বপূর্ণ

OpenAI সমস্যাটি Codex দিয়ে ব্যাখ্যা করলেও এর প্রভাব যে কোনো tool-using agent-এর ক্ষেত্রে প্রযোজ্য। Enterprise assistants, customer-service systems, research copilots, এবং software agents-রা দীর্ঘ model completion-এর চেয়ে অনেক ছোট interaction-এর ওপর নির্ভর করে। তাই persistent sessions এবং কম orchestration overhead raw benchmark performance-এর মতোই গুরুত্বপূর্ণ হতে পারে।

এই post পরিবর্তনশীল competitive landscape-এরও একটি ঝলক দেয়। Model vendors বহু বছর ধরে better reasoning এবং larger context windows-এর ওপর জোর দিয়েছে। কিন্তু এখন তারা systems engineering-এও প্রতিযোগিতা করছে: throughput, responsiveness, safety latency, এবং external tools-এর সঙ্গে model-কে loop-এর মধ্যে কতটা দক্ষতার সঙ্গে রাখা যায়, সেই সক্ষমতায়।

OpenAI-এর বার্তা হলো, model-এর চারপাশের infrastructure এখন নিজেই একটি product feature। inference speeds আরও বাড়তে থাকলে, এটি সম্ভবত আরও সত্য হয়ে উঠবে।

বড় ইঙ্গিত

গভীর takeaway শুধু এই নয় যে WebSockets repeated synchronous calls-এর চেয়ে দ্রুত। আসল কথা হলো, agent products এখন real-time software systems-এ পরিণত হচ্ছে, য deren performance APIs, caches, safety layers, এবং tool runtimes-এর coordination-এর ওপর নির্ভর করে।

এটি শুধু একটি engineering footnote নয়। AI usability-র পরবর্তী উন্নতি model steps-এর মধ্যকার friction কমানোর মাধ্যমে আসতে পারে, প্রতিটি individual step-কে শুধু আরও smarter করার মাধ্যমে নয়। agentic systems যখন আরও দীর্ঘ এবং জটিল কাজ নেবে, তখন এই পার্থক্যই নির্ধারণ করতে পারে সেগুলো experimental মনে হবে নাকি operational।

এই articleটি OpenAI-এর reporting-এর ওপর ভিত্তি করে। মূল article পড়ুন.

Originally published on openai.com