Kimi K2.6 একটি ওপেন-ওয়েট প্রস্তাব নিয়ে ফ্রন্টিয়ার রেসে প্রবেশ করছে

Moonshot AI Kimi K2.6 প্রকাশ করেছে, একটি ওপেন-ওয়েট মডেল যাকে কোম্পানির দাবি অনুযায়ী কোডিং এবং এজেন্ট বেঞ্চমার্কে GPT-5.4, Claude Opus 4.6, এবং Gemini 3.1 Pro-এর সঙ্গে প্রতিযোগিতা করতে পারে। এই রিলিজটি শুধু বেঞ্চমার্ক দাবির কারণে নয়, বরং Moonshot সেগুলোর সঙ্গে একটি অস্বাভাবিকভাবে আক্রমণাত্মক পণ্যের দিক যুক্ত করছে বলেও আলাদা করে চোখে পড়ে: বৃহৎ আকারের multi-agent execution।

প্রদত্ত source text অনুযায়ী, K2.6 Tools-সহ HLE-তে 54.0, SWE-Bench Pro-তে 58.6, এবং BrowseComp-এ 83.2 পেয়েছে। Moonshot বলছে, মডেলটি 4,000-রও বেশি tool calls শৃঙ্খলবদ্ধ করতে পারে এবং Rust, Go, এবং Python-সহ ভাষায় 12 ঘণ্টার বেশি সময় ধরে একটানা চলতে পারে। মডেলটিকে OpenAI, Anthropic, এবং Google-এর শীর্ষ সিস্টেমগুলোর সঙ্গে কোডিং ও এজেন্ট টাস্কে তাল মিলিয়ে চলতে সক্ষম হিসেবে বর্ণনা করা হয়েছে, যদিও pure reasoning এবং vision-এ এটি পিছিয়ে আছে।

এই শক্তি-দুর্বলতার মিশ্রণটি তাৎপর্যপূর্ণ। K2.6 একসঙ্গে সবকিছু হওয়ার চেষ্টা করছে না। এখানে জোর operational performance-এ: একটি মডেল কত ভালোভাবে কাজ ভাঙতে পারে, tool ডাকতে পারে, টাস্কে স্থির থাকতে পারে, এবং দীর্ঘমেয়াদি software বা research workflow শেষ করতে পারে। Frontier market এখন ক্রমশ সেই দিকেই এগোচ্ছে, বিশেষ করে enterprise ক্রেতা ও developers-এর জন্য যারা benchmark theater-এর চেয়ে মডেলটি সত্যিই কাজ শেষ করতে পারে কি না, সেটিকে বেশি গুরুত্ব দেন।

মূল বৈশিষ্ট্য শুধু বুদ্ধিমত্তা নয়, scale

Moonshot-এর সবচেয়ে বড় দাবি Agent Swarm, এমন একটি system যা parallel-এ 300 পর্যন্ত sub-agent চালাতে পারে, যেখানে প্রতিটি agent 4,000 steps পর্যন্ত নিতে পারে। কোম্পানির দাবি, systemটি স্বয়ংক্রিয়ভাবে কাজকে subtasks-এ ভেঙে বিশেষায়িত agents-এর কাছে সেগুলো বরাদ্দ করে। এই agents-দের web research, document analysis, এবং writing একসঙ্গে করার কথা বলা হয়েছে, যাতে একক run-এ websites, documents, slide decks, এবং spreadsheets-এর মতো সম্পূর্ণ output তৈরি করা যায়।

যদি এই সক্ষমতাগুলো বাস্তবে ঠিকঠাক কাজ করে, তাহলে এর গুরুত্ব যথেষ্ট। AI agents নিয়ে বাজারের আলোচনা বহুদিন ধরে একটিমাত্র model কি স্বয়ংক্রিয়ভাবে কাজ করতে পারে, সেই প্রশ্নে আটকে ছিল। Kimi K2.6 সেই প্রশ্নটিকে নতুনভাবে গঠন করে। একক agent-কে সবকিছু করার জন্য না বলে, Moonshot model-scale orchestrated labor-এর দিকে ঠেলে দিচ্ছে, যেখানে বহু agent parallel-এ কাজ করে এবং একটি coordinating system ব্যর্থতা, handoff, এবং specialization পরিচালনা করে।

source text-এ "claw groups" নামে একটি preview feature-ও আছে, যা মানুষ এবং একাধিক agent-কে দল হিসেবে একসঙ্গে কাজ করতে দেয়, আর K2.6 coordination সামলে নেয় এবং কোনো agent ব্যর্থ হলে বা আটকে গেলে হস্তক্ষেপ করে। এই design choice গুরুত্বপূর্ণ, কারণ এটি deployment-এর আরও বাস্তবসম্মত একটি model-এর ইঙ্গিত দেয়: পূর্ণ autonomy নয়, বরং supervised swarms যেখানে software agents এবং মানুষ কাজ ভাগ করে নেয়।

বন্ধ model incumbents-দের জন্য আরও তীক্ষ্ণ চ্যালেঞ্জ

Kimi K2.6 আরও উল্লেখযোগ্য কারণ Moonshot এটিকে open-weight model হিসেবে উপলব্ধ করছে। এমন একটি বাজারে, যেখানে সবচেয়ে শক্তিশালী system-গুলো মূলত কঠোরভাবে নিয়ন্ত্রিত API এবং subscription product-এর মাধ্যমে দেওয়া হয়েছে, open-weight release এক ভিন্ন ধরনের চাপ তৈরি করে। এগুলো developers-কে model inspect, adapt, host, এবং নিজেদের stack-এ integrate করার জন্য বেশি জায়গা দেয়, যদিও license-এ কিছু শর্ত থেকে যায়।

এই ক্ষেত্রে, মডেলটি modified MIT license-এ শিপ করা হয়েছে। source text বলছে, 100 million-এর বেশি monthly active user বা মাসিক 20 million ডলারের বেশি revenue-সহ commercial deployment-গুলিকে user interface-এ স্পষ্টভাবে "Kimi K2.6" ক্রেডিট দিতে হবে। এটি শর্তহীন মুক্তি নয়, কিন্তু সম্পূর্ণ closed frontier system-এর তুলনায় বিস্তৃত access-এর দিকে এটি এখনও একটি অর্থবহ পদক্ষেপ।

availability-ও বিস্তৃত reach সর্বাধিক করার জন্য পরিকল্পিত মনে হচ্ছে। Moonshot K2.6-কে kimi.com-এ chat এবং agent mode-এ, Kimi Code-এর মাধ্যমে coding tool হিসেবে, API দিয়ে, এবং Hugging Face-এ open-source download হিসেবে দিচ্ছে। এই বিস্তার দেখায় যে কোম্পানি experiment থেকে production পর্যন্ত developer funnel-এর পুরো অংশে প্রতিযোগিতা করতে চায়।

এই launch AI-এর পরের ধাপ সম্পর্কে কী বলছে

এই release-এ সবচেয়ে গুরুত্বপূর্ণ বিষয় হতে পারে model progress বলতে কী বোঝায়, সেই ধারণার পরিবর্তন। Moonshot K2.6-কে মূলত একটি ভালো chatbot হিসেবে উপস্থাপন করছে না। তারা এটিকে extended execution-এর জন্য একটি system হিসেবে উপস্থাপন করছে। দীর্ঘ runs, heavy tool usage, multi-agent delegation, এবং finished artifacts এই pitch-এর কেন্দ্রে।

এতে K2.6 agentic software development-এর উদীয়মান প্রতিযোগিতার কেন্দ্রে চলে আসে। source text বলছে, মডেলটি text prompt থেকে animation এবং database connection-সহ সম্পূর্ণ websites তৈরি করতে পারে, এবং user sign-up, database operation, session management-এর মতো basic full-stack কাজও সামলাতে পারে। এই output-গুলো production-এর জন্য যথেষ্ট নির্ভরযোগ্য কি না, সেটা আলাদা প্রশ্ন, কিন্তু দিকটি স্পষ্ট: model vendor-রা এখন prompt থেকে working system-এর পথটি নিজেদের দখলে নিতে চায়।

প্রতিযোগিতামূলক framing-ও গুরুত্বপূর্ণ। GPT-5.4 এবং Claude Opus 4.6-কে peer হিসেবে নাম দিয়ে Moonshot বলছে, open-weight model-দের আর শুধু সস্তা, দুর্বল বিকল্প হিসেবে অবস্থান করানোর প্রয়োজন নেই। বরং অন্তত কিছু কাজের ক্ষেত্রে, এগুলোকে একই performance tier-এ বিশ্বাসযোগ্য প্রতিদ্বন্দ্বী হিসেবে দেখানো যায়।

তবুও, প্রদত্ত text-এ একটি গুরুত্বপূর্ণ caveat আছে: K2.6 pure reasoning এবং vision-এ শীর্ষ system-গুলোর চেয়ে পিছিয়ে। এর মানে, model-এর promise raw all-purpose capability-এর চেয়ে workflow design এবং tool integration-এর ওপর বেশি নির্ভর করতে পারে। কিন্তু সেটিই হয়তো আসল পয়েন্ট। বাস্তব deployment-এ, সময়ের সঙ্গে অনেক ছোট কাজ সমন্বয় করতে পারা generalized intelligence comparison জেতার চেয়ে বেশি গুরুত্বপূর্ণ হতে পারে।

সুতরাং Kimi K2.6-কে conventional model launch-এর চেয়ে AI product design কোন দিকে যাচ্ছে, তার একটি বিবৃতি হিসেবে দেখা যায়: parallel agents, long-horizon execution, এবং এমন model, যাদের বিচার করা হবে তারা কত কাজ শেষ করতে পারে, সংক্ষিপ্ত কথোপকথনে তারা কতটা impressive শোনায় তার ভিত্তিতে নয়।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com