OpenAI বলছে WebSockets Agentic API Workflows প্রায় 40% দ্রুত করেছে

OpenAI বলছে, Persistent WebSocket Sessions Agent Loop Latency প্রায় 40% কমিয়েছে

OpenAI বলছে, Responses API-এর agent loop পুনর্গঠনের কেন্দ্রবিন্দু ছিল persistent WebSocket connections এবং connection-scoped caching, যার ফলে model inference speeds দ্রুত বাড়ার সঙ্গে সঙ্গে end-to-end latency প্রায় 40% কমেছে।

DT Editorial AI

Apr 26, 2026·3 min read·705 words

দ্রুততর Agent Loops কেন গুরুত্বপূর্ণ

agent-style workflows অনেক বেশি দ্রুত করতে OpenAI তার Responses API-র পেছনের plumbing পুনর্গঠন করেছে বলে জানিয়েছে। জটিল কাজের সময় tools, models, এবং API calls বারবার এদিক-ওদিক হওয়ার কারণে ব্যবহারকারীদের অপেক্ষার সময় কমানোই এই পরিবর্তনের লক্ষ্য।

২২ এপ্রিল প্রকাশিত এক technical post-এ কোম্পানি ব্যাখ্যা করে যে Codex-এর মতো systems-কে একটি assignment শেষ করতে ডজনখানেক sequential requests লাগতে পারে: model ঠিক করে পরের পদক্ষেপ কী হবে, client side-এ একটি tool চলে, ফলাফল API-তে পাঠানো হয়, এবং এই চক্র আবার শুরু হয়। এমন pattern-এ ছোটখাটো overheadও দ্রুত জমে বড় হয়ে যায়।

OpenAI-এর মতে, inference নিজেই দ্রুত হওয়ায় performance problem আরও স্পষ্ট হয়ে ওঠে। Responses API-তে earlier flagship models প্রায় 65 tokens per second গতিতে চলত বলে কোম্পানি জানায়। GPT-5.3-Codex-Spark-এর জন্য Cerebras hardware ব্যবহার করে 1,000 tokens per second-এর বেশি লক্ষ্যমাত্রা নির্ধারণ করেছিল OpenAI। model generation এত দ্রুত হয়ে গেলে loop-এর ধীর অংশগুলো আর সহজে আড়াল করা যায় না।

Inference Bottleneck থেকে API Bottleneck

OpenAI agent latency-কে তিনটি broad stage-এ ভাগ করে: API service work, model inference, এবং client-side time। tools execute করতে হয় এবং context assemble করতে হয় বলে client side এখনও গুরুত্বপূর্ণ, তবে কোম্পানির মতে API layer নিজেই একটি উল্লেখযোগ্য bottleneck হয়ে উঠেছিল।

এই পরিবর্তন optimization-এর ভিন্ন কৌশল বাধ্য করে। শুধু GPU throughput-এর দিকে না তাকিয়ে OpenAI request path-এর বিভিন্ন জায়গায় friction কমাতে শুরু করে। প্রায় ২০২৫ সালের নভেম্বর মাসে কোম্পানি Responses API-তে একটি performance sprint শুরু করে। এর মধ্যে ছিল rendered tokens এবং model configuration memory-তে cache করা, inference services আরও সরাসরি call করে extra network hops কমানো, এবং safety stack-এর কিছু অংশ দ্রুত করা যাতে কিছু conversation আরও দ্রুত classify করা যায়।

কোম্পানির দাবি, এসব পরিবর্তনে time to first token প্রায় 45% উন্নত হয়েছিল। তবে OpenAI বলছে, তার নতুন inference stack-এর speed gains পুরোপুরি প্রকাশ করতে সেটাও যথেষ্ট ছিল না।

AI & Robotics

নতুন OpenAI Academy গাইড Codex-কে ডেমোর বদলে project-ভিত্তিক tool হিসেবে তুলে ধরে, যেখানে local folders, permission controls, সহজ প্রথম কাজ, এবং ধীরে ধীরে trust-building-এর ওপর জোর দেওয়া হয়েছে.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Aleph Alpha অধিগ্রহণের Cohere-এর পরিকল্পনা কেবল একটি স্টার্টআপ টেকওভার নয়। এটি ইউরোপ ও তার বাইরে সরকার এবং নিয়ন্ত্রিত শিল্পগুলোর জন্য রাজনৈতিকভাবে সমর্থিত sovereign AI সরবরাহকারী গড়ার একটি প্রচেষ্টা।

DT Editorial AI·Apr 25, 2026·via the-decoder.com

WebSocket Shift

বড় পরিবর্তন ছিল architectural: আলাদা আলাদা synchronous API calls-এর ধারাকে WebSockets ব্যবহার করে Responses API-র সঙ্গে একটি persistent connection-এ বদলানো। ব্যবহারিকভাবে এর অর্থ, client এবং API পুরো agent loop জুড়ে connected থাকতে পারে, বারবার request state ভেঙে আবার তৈরি করার দরকার হয় না।

OpenAI বলছে persistent sessions connection-এর সঙ্গেই দরকারি তথ্য যুক্ত করে রাখতে সাহায্য করেছে। এতে repeated setup work কমেছে এবং turns-এর মধ্যে context আরও দক্ষতার সঙ্গে reuse করা গেছে। ফলে end-to-end agent loop speed প্রায় 40% বেড়েছে বলে কোম্পানি জানায়।

ব্যবহারকারীদের জন্য এর তাৎপর্য সরল। যদি কোনো coding বা research agent একটি কাজ শেষ করতে অনেক tool calls লাগে, তবে প্রতিটি cycle-এর overhead কমালে শুধু একটি stage দ্রুত করার চেয়ে বড় প্রভাব পড়তে পারে। একসময় যে workflow action-এর মাঝে থেমে থাকা মনে হতো, তা live interaction-এর কাছাকাছি লাগতে শুরু করতে পারে।

OpenAI বলছে, Persistent WebSocket Sessions Agent Loop Latency প্রায় 40% কমিয়েছে

দ্রুততর Agent Loops কেন গুরুত্বপূর্ণ

Inference Bottleneck থেকে API Bottleneck

Related Articles

Keep Reading

privacy-by-default AI workflows-এর জন্য OpenAI local-first PII redaction model প্রকাশ করেছে

WebSocket Shift

OpenAI কী Optimize করেছে

OpenAI নতুন ChatGPT ‘workspace agents’ দিয়ে যৌথ কর্মক্ষেত্র স্বয়ংক্রিয়করণকে এগিয়ে নিচ্ছে

Codex-এর বাইরে কেন এটি গুরুত্বপূর্ণ

বড় ইঙ্গিত

OpenAI নতুন bug bounty দিয়ে GPT-5.5-এর জীববৈজ্ঞানিক সুরক্ষা লাইভ stress test-এ ফেলছে

Comments (0)

OpenAI Codex-এর জন্য স্টার্টার গাইড প্রকাশ করেছে, বাস্তবধর্মী AI ওয়ার্কফ্লো অনবোর্ডিংকে গুরুত্ব দিয়ে

Cohere-এর Aleph Alpha চুক্তি sovereign AI-কে সীমান্তপারের কৌশলে পরিণত করছে