সম্পূর্ণ agent workflows-এর দিকে Qwen-কে ঘোরাচ্ছে Alibaba

Alibaba-এর Qwen দল Qwen3.7-Plus প্রকাশ করেছে, একটি নতুন multimodal model যা visual understanding-কে coding এবং tool use-এর মতো classic agent capabilities-এর সঙ্গে একত্রিত করে। কোম্পানি এটিকে একটি multimodal interactive hybrid agent হিসেবে বর্ণনা করছে, এবং এর অবস্থান উল্লেখযোগ্য: এটিকে image input-সহ একটি chatbot হিসেবে নয়, বরং interfaces অনুভব করে সেগুলির মধ্যে কাজ করার জন্য তৈরি একটি system হিসেবে উপস্থাপন করা হয়েছে।

দেওয়া source text অনুযায়ী, Qwen3.7-Plus বাস্তব দুনিয়ার দৃশ্য চিনতে, screen content পড়তে, graphical user interfaces চালাতে, visual templates থেকে code লিখতে, এবং mobile apps end to end নেভিগেট করতে তৈরি। Operating model এখানে গুরুত্বপূর্ণ। UI clicks এবং command-line instructions একই agent loop-এর মধ্যে চলে, যা ইঙ্গিত দেয় যে Alibaba perception, planning, এবং execution-এর জন্য আলাদা models-এর বদলে automation-এর আরও একীভূত রূপ লক্ষ্য করছে।

দীর্ঘমেয়াদি tasks-ই এই প্রচারের কেন্দ্র

Alibaba-এর showcase examples দীর্ঘ workflows-এ autonomy-এর উপর জোর দেয়। একটি demonstration-এ, একটি hybrid agent system 11 ঘণ্টারও বেশি সময় ধরে একটি English vocabulary learning app তৈরি করে। source অনুযায়ী, সেই run-এ 1,000-এরও বেশি agent calls জুড়ে 10,000-এরও বেশি code lines তৈরি হয়েছিল।

রিপোর্ট করা প্রক্রিয়ায় requirements documentation, automated code generation, dependency installation, test-case creation, GUI-based testing, parallel test scenarios, এবং version management অন্তর্ভুক্ত ছিল। এই বিবরণগুলি গুরুত্বপূর্ণ, কারণ এগুলি গল্পটিকে একবারে করা coding demo-এর বাইরে নিয়ে যায়। Alibaba-র যুক্তি হলো, model বহু ধাপের software project জুড়ে টিকে থেকে কাজ করতে পারে এবং বারবার মানুষের সহায়তা ছাড়াই tools ও interfaces-এর মধ্যে কাজ চালিয়ে যেতে পারে।

দ্বিতীয় demonstration software generation থেকে software imitation-এর দিকে গিয়েছে। Alibaba বলছে, agent interface parse করে, SwiftUI code তৈরি করে, একটি external real-time stock data API যুক্ত করে, ফলাফল compile করে, এবং নিজে থেকেই দশটি functional tests চালিয়ে Apple-এর native macOS Stocks app পুনর্নির্মাণ করেছে। যদি সেই কর্মক্ষমতা সর্বত্র প্রযোজ্য হয়, তবে model-এর মূল্য prompts-এর উত্তর দেওয়ার চেয়ে কাজ করা একটি interface দেখে সেটিকে code-এ পুনর্গঠনের মধ্যকার সময় কমিয়ে আনার মধ্যে বেশি হতে পারে।

Browser এবং cloud operations পরিসর বাড়ায়

তৃতীয় use case model-কে browser-based operations-এ বিস্তৃত করে। Qwen for Chrome নামে একটি sidebar extension-এর মাধ্যমে, system user permission নিয়ে agent mode-এ যেতে পারে এবং cloud console tasks সম্পন্ন করতে পারে। source text-এ একটি উদাহরণ উল্লেখ করা হয়েছে যেখানে model image, storage, এবং security-group options সেটআপসহ সবচেয়ে সস্তা উপলব্ধ virtual server instance কিনেছে।

Alibaba আরও বলছে, model follow-up scaling এবং maintenance tasks সামলেছে। এটি গুরুত্বপূর্ণ, কারণ এটি প্রচারকে বিচ্ছিন্ন task সম্পন্ন করা থেকে lifecycle management-এর দিকে সরিয়ে দেয়। যে model একটি service তৈরি, test, configure, এবং পরে maintain করতে পারে, সেটি সেই পরিসরে প্রবেশ করে যা enterprises সাধারণত engineers, scripts, এবং workflow tools-এর সমন্বয়ের জন্য রেখে দেয়।

শক্তিশালী GUI performance, কিন্তু pure reasoning-এ দুর্বলতা

দেওয়া material-এ benchmark চিত্রটি মিশ্র। Alibaba-এর প্রকাশিত ফলাফল reportedly দেখায় যে Qwen3.7-Plus graphical interface tasks-এ বিশেষভাবে ভালো করছে। AndroidWorld এবং ScreenSpot Pro-তে, model-কে GPT-5.4 (xhigh)-এর অনেক এগিয়ে বলা হয়েছে। এটি Alibaba-কে একটি crowded market-এ স্পষ্ট সুবিধা দেয়: যদি interface manipulation AI যুদ্ধক্ষেত্রের বড় অংশ হয়ে ওঠে, তবে Qwen শুধু conversation নয়, execution-এও প্রতিদ্বন্দ্বিতা করতে চায়।

একই সঙ্গে, source text বলে যে system pure logic benchmarks-এ পিছিয়ে। এই caveat গুরুত্বপূর্ণ। এটি ইঙ্গিত করে যে পরিবেশ নিজেই structure, visual anchors, এবং action affordances প্রদান করলে Qwen3.7-Plus বেশি কার্যকর হতে পারে, তুলনায় যখন model-কে সেই context ছাড়াই abstract reasoning tasks সমাধান করতে হয়।

ব্যবহারিকভাবে, model-এর শক্তি software দেখা এবং তার ভেতরে কাজ করার মধ্যে নিহিত বলে মনে হয়। এটি intelligence-এর একটি সীমিত কিন্তু বাণিজ্যিকভাবে গুরুত্বপূর্ণ সংজ্ঞা, বিশেষ করে enterprise automation, testing, customer operations, এবং software prototyping-এর জন্য।

এই প্রকাশ কেন গুরুত্বপূর্ণ

Qwen3.7-Plus-কে Alibaba Cloud-এর মাধ্যমে proprietary কিন্তু তুলনামূলকভাবে সস্তা একটি option হিসেবেও অবস্থান দেওয়া হয়েছে। মূল্য এবং deployment path গুরুত্বপূর্ণ, কারণ agentic systems দীর্ঘ session চালালে, বহু call execute করলে, এবং external tools-এর সঙ্গে interact করলে খরচ দ্রুত বেড়ে যেতে পারে। Alibaba যদি operating costs কম রেখে শক্তিশালী interface performance দিতে পারে, তবে frontier-model pricing ছাড়াই automation চাইছেন এমন developers এবং businesses-এর মধ্যে এটি সাড়া পেতে পারে।

বৃহত্তর তাৎপর্য হলো, Qwen3.7-Plus দেখায় AI vendors কীভাবে progress সংজ্ঞায়িত করছেন। শুধু benchmark scores বা chat quality-র দিকে না তাকিয়ে, Alibaba গুরুত্ব দিচ্ছে একটি model interface পর্যবেক্ষণ করতে পারে কি না, সিদ্ধান্ত নিতে পারে কি না, tools call করতে পারে কি না, code লিখতে পারে কি না, এবং ঘণ্টার পর ঘণ্টা task-এ স্থির থাকতে পারে কি না। এটি reliability, oversight, এবং failure handling নিয়ে কঠিন প্রশ্নগুলোর সমাধান করে না। তবে এটি দেখায়, প্রতিযোগিতা কোন দিকে যাচ্ছে: এমন AI systems-এর দিকে যেগুলো কী বলতে পারে তার চেয়ে কী সম্পন্ন করতে পারে তা দিয়ে বিচার করা হবে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com