Kimi K2.6 एक ओपन-वेट दावे के साथ फ्रंटियर दौड़ में प्रवेश करता है

Moonshot AI ने Kimi K2.6 जारी किया है, एक ओपन-वेट मॉडल जिसे कंपनी का कहना है कि यह कोडिंग और एजेंट बेंचमार्क में GPT-5.4, Claude Opus 4.6, और Gemini 3.1 Pro से मुकाबला कर सकता है। यह रिलीज़ केवल बेंचमार्क दावों की वजह से नहीं, बल्कि इसलिए भी अलग दिखती है क्योंकि Moonshot इन्हें एक असामान्य रूप से आक्रामक उत्पाद दिशा के साथ जोड़ रहा है: बड़े पैमाने पर मल्टी-एजेंट निष्पादन।

प्रदान किए गए स्रोत पाठ के अनुसार, K2.6 ने Tools के साथ HLE पर 54.0, SWE-Bench Pro पर 58.6, और BrowseComp पर 83.2 अंक हासिल किए हैं। Moonshot का कहना है कि मॉडल 4,000 से अधिक टूल कॉल्स को श्रृंखलाबद्ध कर सकता है और Rust, Go, और Python सहित भाषाओं में 12 घंटे से अधिक समय तक लगातार चल सकता है। मॉडल को OpenAI, Anthropic, और Google की शीर्ष प्रणालियों के साथ कोडिंग और एजेंट कार्यों में तालमेल बनाए रखने वाला बताया गया है, जबकि शुद्ध तर्क और विज़न में यह पीछे रहता है।

ताकत और कमजोरियों का यह मिश्रण महत्वपूर्ण है। K2.6 हर चीज़ एक साथ बनने की कोशिश नहीं कर रहा है। यहाँ जोर संचालनात्मक प्रदर्शन पर है: कोई मॉडल काम को कितनी अच्छी तरह तोड़ सकता है, टूल्स को कॉल कर सकता है, कार्य पर टिके रह सकता है, और लंबे समय तक चलने वाले सॉफ़्टवेयर या शोध वर्कफ़्लो को पूरा कर सकता है। फ्रंटियर बाज़ार अब तेजी से इसी दिशा में बढ़ रहा है, खासकर उन एंटरप्राइज़ खरीदारों और डेवलपरों के लिए जो बेंचमार्क थिएटर से कम और इस बात से अधिक चिंतित हैं कि मॉडल वास्तव में काम पूरा कर पाता है या नहीं।

मुख्य विशेषता बुद्धिमत्ता नहीं, पैमाना है

Moonshot का सबसे बड़ा दावा Agent Swarm है, एक ऐसी प्रणाली जो समानांतर रूप से 300 तक उप-एजेंट चला सकती है, और हर एजेंट 4,000 तक स्टेप ले सकता है। कंपनी का कहना है कि यह प्रणाली अपने आप कार्यों को उप-कार्यों में विभाजित करती है और उन्हें विशेषीकृत एजेंटों को सौंपती है। इन एजेंटों के बारे में कहा गया है कि वे वेब रिसर्च, दस्तावेज़ विश्लेषण, और लेखन को जोड़ते हैं, ताकि एक ही रन में वेबसाइट, दस्तावेज़, स्लाइड डेक, और स्प्रेडशीट जैसे तैयार आउटपुट बनाए जा सकें।

यदि ये क्षमताएँ व्यवहार में भी कायम रहती हैं, तो इसका महत्व काफी बड़ा है। AI एजेंटों को लेकर बाज़ार की चर्चा अक्सर इस प्रश्न पर केंद्रित रही है कि क्या एक मॉडल स्वायत्त रूप से काम कर सकता है। Kimi K2.6 उस प्रश्न को नए सिरे से परिभाषित करता है। हर काम एक ही एजेंट से करवाने के बजाय, Moonshot मॉडल-स्तरीय समन्वित श्रम की दिशा में बढ़ रहा है, जहाँ कई एजेंट समानांतर रूप से काम करते हैं और एक कोऑर्डिनेटिंग सिस्टम विफलताओं, हस्तांतरणों, और विशेषज्ञता का प्रबंधन करता है।

स्रोत पाठ में "claw groups" नाम की एक प्रीव्यू सुविधा का भी उल्लेख है, जो मनुष्यों और कई एजेंटों को एक टीम की तरह साथ काम करने देती है, जहाँ K2.6 समन्वय संभालता है और जब कोई एजेंट विफल हो जाता है या अटक जाता है तो हस्तक्षेप करता है। यह डिज़ाइन चुनाव महत्वपूर्ण है क्योंकि यह तैनाती के एक अधिक यथार्थवादी मॉडल की ओर इशारा करता है: पूर्ण स्वायत्तता नहीं, बल्कि सुपरवाइज़्ड स्वॉर्म जहाँ सॉफ़्टवेयर एजेंट और लोग मिलकर काम करते हैं।

बंद मॉडल वाले incumbents को और सीधी चुनौती

Kimi K2.6 इस वजह से भी उल्लेखनीय है क्योंकि Moonshot इसे एक ओपन-वेट मॉडल के रूप में उपलब्ध करा रहा है। ऐसे बाज़ार में जहाँ सबसे मजबूत प्रणालियाँ बड़े पैमाने पर कड़ाई से नियंत्रित APIs और सब्सक्रिप्शन उत्पादों के माध्यम से दी गई हैं, ओपन-वेट रिलीज़ एक अलग प्रकार का दबाव बनाती हैं। वे डेवलपरों को मॉडल को अपने ढंग से देखने, अनुकूलित करने, होस्ट करने, और अपने स्टैक में एकीकृत करने की अधिक गुंजाइश देती हैं, भले ही लाइसेंस में कुछ शर्तें बनी रहें।

इस मामले में, मॉडल एक संशोधित MIT लाइसेंस के तहत जारी किया गया है। स्रोत पाठ में कहा गया है कि जिन व्यावसायिक तैनातियों में 100 मिलियन से अधिक मासिक सक्रिय उपयोगकर्ता हों या मासिक राजस्व 20 मिलियन डॉलर से अधिक हो, उन्हें यूज़र इंटरफ़ेस में स्पष्ट रूप से "Kimi K2.6" का श्रेय देना होगा। यह बिना शर्त रिलीज़ नहीं है, लेकिन पूरी तरह बंद फ्रंटियर प्रणालियों की तुलना में व्यापक पहुँच की दिशा में यह फिर भी एक महत्वपूर्ण कदम है।

उपलब्धता भी अधिकतम पहुँच के लिए बनाई गई लगती है। Moonshot K2.6 को kimi.com पर चैट और एजेंट मोड में, Kimi Code के माध्यम से एक कोडिंग टूल के रूप में, API के जरिए, और Hugging Face पर एक ओपन-सोर्स डाउनलोड के रूप में पेश कर रहा है। यह विस्तार दर्शाता है कि कंपनी प्रयोग से लेकर उत्पादन तक डेवलपर फ़नल के हर हिस्से में प्रतिस्पर्धा करना चाहती है।

लॉन्च AI के अगले चरण के बारे में क्या बताता है

इस रिलीज़ का सबसे महत्वपूर्ण विवरण शायद यह है कि मॉडल प्रगति का अर्थ क्या माना जाए, इसमें बदलाव आया है। Moonshot K2.6 को मुख्य रूप से एक बेहतर चैटबॉट के रूप में नहीं पेश कर रहा है। वह इसे विस्तारित निष्पादन के लिए एक प्रणाली के रूप में पेश कर रहा है। लंबे रन, भारी टूल उपयोग, मल्टी-एजेंट प्रतिनिधिमंडल, और तैयार कलाकृतियाँ इस दावे के केंद्र में हैं।

यह K2.6 को agentic सॉफ़्टवेयर विकास की उभरती प्रतिस्पर्धा के केंद्र में रखता है। स्रोत पाठ कहता है कि मॉडल टेक्स्ट प्रॉम्प्ट से एनीमेशन और डेटाबेस कनेक्शनों वाली पूरी वेबसाइटें बना सकता है, और यूज़र साइन-अप, डेटाबेस संचालन, और सेशन प्रबंधन जैसे बुनियादी full-stack कार्य भी संभाल सकता है। क्या ये आउटपुट उत्पादन के लिए पर्याप्त भरोसेमंद हैं, यह अलग प्रश्न है, लेकिन दिशा स्पष्ट है: मॉडल विक्रेता अब प्रॉम्प्ट से काम करने वाली प्रणाली तक का रास्ता अपने नियंत्रण में लेना चाहते हैं।

प्रतिस्पर्धी framing भी मायने रखती है। GPT-5.4 और Claude Opus 4.6 को समकक्ष बताकर Moonshot यह घोषित कर रहा है कि ओपन-वेट मॉडल अब केवल सस्ते, कमजोर विकल्पों के रूप में रखे जाने की ज़रूरत नहीं है। इसके बजाय, उन्हें कम-से-कम कुछ कार्य-श्रेणियों में समान प्रदर्शन स्तर के विश्वसनीय दावेदारों के रूप में पेश किया जा सकता है।

फिर भी, दिए गए पाठ में एक महत्वपूर्ण चेतावनी बनी हुई है: K2.6 शुद्ध तर्क और विज़न में शीर्ष प्रणालियों से पीछे है। इसका मतलब है कि मॉडल का वादा संभवतः वर्कफ़्लो डिज़ाइन और टूल इंटीग्रेशन पर अधिक निर्भर करता है, न कि उसकी कच्ची सर्व-उद्देश्य क्षमता पर। लेकिन शायद यही बात है। वास्तविक तैनातियों में, समय के साथ कई संकीर्ण कार्रवाइयों का समन्वय कर पाना, सामान्य बुद्धिमत्ता की तुलना जीतने से अधिक महत्वपूर्ण हो सकता है।

इसलिए Kimi K2.6 एक पारंपरिक मॉडल लॉन्च से कम और इस बात के बयान जैसा दिखता है कि AI उत्पाद डिज़ाइन अगली बार किस दिशा में जा रहा है: समानांतर एजेंटों, लंबी-क्षितिज निष्पादन, और ऐसे मॉडलों की ओर जिन्हें इस आधार पर परखा जाएगा कि वे कितना काम पूरा कर सकते हैं, न कि इस आधार पर कि छोटी बातचीत में वे कितने प्रभावशाली लगते हैं।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Originally published on the-decoder.com