Anthropic के मध्य-स्तरीय कार्यकर्ता के लिए एक बड़ी छलांग

Anthropic ने Claude Sonnet 4.6 जारी किया है, जो इसके सबसे व्यापक रूप से उपयोग किए जाने वाले मॉडल स्तर का नवीनतम अपडेट है, जो कोडिंग क्षमता, निर्देश अनुसरण और कंप्यूटर उपयोग में पर्याप्त सुधार प्रदान करता है जबकि संदर्भ विंडो को दस लाख टोकन तक दोगुना करता है। यह रिलीज़ Anthropic के लगभग चार महीने की अपडेट गति को बनाए रखता है और 5 फरवरी 2026 को कंपनी द्वारा अपने प्रमुख Opus 4.6 मॉडल को लॉन्च करने के मात्र दो सप्ताह बाद आता है।

Sonnet 4.6 तुरंत Anthropic के Claude प्लेटफ़ॉर्म के मुफ़्त और प्रो स्तर के उपयोगकर्ताओं के लिए डिफ़ॉल्ट मॉडल बन जाता है, जिसका अर्थ है कि लाखों उपयोगकर्ता कोई भी सेटिंग बदले बिना सुधारों का अनुभव करेंगे। API पर निर्माण करने वाले डेवलपर्स के लिए, यह मॉडल क्षमता-से-लागत अनुपात में एक महत्वपूर्ण अपग्रेड का प्रतिनिधित्व करता है जिसने Sonnet स्तर को उत्पादन एप्लिकेशन के लिए सबसे लोकप्रिय विकल्प बना दिया है।

बेंचमार्क प्रदर्शन बार को ऊंचा उठाता है

Sonnet 4.6 के लिए शीर्षक संख्याएं कई मूल्यांकन श्रेणियों में प्रभावशाली हैं। SWE-Bench पर, जो वास्तविक-विश्व सॉफ़्टवेयर इंजीनियरिंग समस्याओं को हल करने के लिए AI मॉडल की क्षमता का मूल्यांकन करने के लिए उद्योग-मानक बेंचमार्क है, Sonnet 4.6 अपनी कक्षा के मॉडल के लिए रिकॉर्ड स्कोर प्राप्त करता है। यह बेंचमार्क लोकप्रिय ओपन-सोर्स प्रोजेक्ट से वास्तविक GitHub समस्याओं पर मॉडल का परीक्षण करता है, जिसके लिए उन्हें जटिल कोडबेस को समझना, बग के मूल कारण की पहचान करना और सही फिक्स जेनरेट करना आवश्यक है। यहाँ मजबूत प्रदर्शन सीधे AI कोडिंग सहायकों का उपयोग करने वाले डेवलपर्स के लिए वास्तविक-विश्व उपयोगिता में बदल जाता है।

OS World पर, जो ऑपरेटिंग सिस्टम को नेविगेट करके, एप्लिकेशन का उपयोग करके और स्क्रीन इंटरैक्शन के माध्यम से बहु-चरणीय कार्य पूरा करके कंप्यूटर इंटरफेस के साथ इंटरैक्ट करने की क्षमता का मूल्यांकन करता है, Sonnet 4.6 भी नए रिकॉर्ड स्थापित करता है। यह क्षमता Anthropic की कंप्यूटर उपयोग सुविधा के लिए केंद्रीय है, जो Claude को उपयोगकर्ताओं की ओर से डेस्कटॉप एप्लिकेशन और वेब ब्राउजर को नियंत्रित करने की अनुमति देता है। बेहतर स्कोर अधिक विश्वसनीय और सक्षम स्वायत्त कंप्यूटर इंटरैक्शन का सुझाव देते हैं।

शायद सबसे आकर्षक बेंचमार्क परिणाम ARC-AGI-2 पर है, एक परीक्षण विशेष रूप से सामान्य बुद्धिमत्ता की विशेषता माने जाने वाली तर्क क्षमता को मापने के लिए डिज़ाइन किया गया है। Sonnet 4.6 इस मूल्यांकन पर 60.4 प्रतिशत का स्कोर प्राप्त करता है, प्रतिद्वंद्वी AI प्रयोगशालाओं से अधिकांश तुलनीय मॉडल से आगे निकल जाता है। मॉडल केवल Anthropic के अपने Opus 4.6, Google के Gemini 3 Deep Think, और OpenAI के GPT 5.2 के एक परिष्कृत वेरिएंट से पीछे है। एक बेंचमार्क पर 60 प्रतिशत से ऊपर स्कोर प्राप्त करना जो AI तर्क की सीमा का परीक्षण करने के लिए डिज़ाइन किया गया है, एक मध्य-स्तरीय मॉडल के लिए एक अर्थपूर्ण मील का पत्थर दर्शाता है।

दस लाख टोकन संदर्भ विंडो

Sonnet की संदर्भ विंडो को 500,000 से दस लाख टोकन तक दोगुना करना डेवलपर्स और उद्यम उपयोगकर्ताओं दोनों से सबसे बार-बार अनुरोध की गई क्षमता में से एक को संबोधित करता है। एक दस लाख टोकन की संदर्भ विंडो संपूर्ण कोडबेस, लंबे कानूनी अनुबंध, शोध पत्रों के व्यापक संग्रह या विस्तृत तकनीकी दस्तावेज़ को एक ही बातचीत में रखा जा सकता है।

डेवलपर्स के लिए, इसका अर्थ है किसी प्रोजेक्ट के पूरे स्रोत कोड को एक ही Claude सेशन में लोड करने और प्रश्न पूछने या संशोधन का अनुरोध करने की क्षमता जो पूरे कोडबेस को ध्यान में रखे। अलग-अलग फ़ाइलें प्रदान करने और उम्मीद करने के बजाय कि मॉडल व्यापक आर्किटेक्चर का अनुमान लगाए, डेवलपर्स अब पूर्ण चित्र प्रस्तुत कर सकते हैं और प्रतिक्रियाएं प्राप्त कर सकते हैं जो उनकी परियोजना के पूर्ण संदर्भ द्वारा सूचित हैं।

उद्यम उपयोगकर्ता भी महत्वपूर्ण रूप से लाभ उठाते हैं। कानूनी टीमें विश्लेषण के लिए पूरे अनुबंध सूट लोड कर सकती हैं। अनुसंधान संगठन साहित्य समीक्षा और संश्लेषण के लिए एक साथ दर्जनों कागजात को संसाधित कर सकते हैं। वित्तीय विश्लेषक व्यापक त्रैमासिक फाइलिंग प्रदान कर सकते हैं और विश्लेषण प्राप्त कर सकते हैं जो दस्तावेज़ों के माध्यम से काम करने के बजाय सभी प्रकट की गई जानकारी के दायरे को ध्यान में रखता है।

विस्तारित संदर्भ विंडो बीटा में उपलब्ध है, यह सुझाव देता है कि Anthropic अभी भी बहुत लंबे संदर्भ इनपुट के लिए अनुभव को अनुकूलित कर रहा है। संदर्भ विंडो के चरम सिरों पर विलंबता और सटीकता जैसी कार्यक्षमता विशेषताएं सुविधा परिपक्व होने के साथ निरीक्षण करने के लिए महत्वपूर्ण मेट्रिक्स होंगी।

व्यवहार में कोडिंग सुधार

जबकि बेंचमार्क उपयोगी तुलनात्मक डेटा प्रदान करते हैं, कोडिंग कार्यों के लिए Sonnet 4.6 का उपयोग करने का व्यावहारिक अनुभव वह जगह है जहां सुधार वास्तव में मायने रखते हैं। Anthropic ने विशेष रूप से कोडिंग को सुधार का एक प्रमुख क्षेत्र के रूप में हाइलाइट किया है, और SWE-Bench स्कोर इस दावे को कठोर डेटा के साथ समर्थन करते हैं।

निर्देश अनुसरण में सुधार कोडिंग उपयोगिता से निकटता से संबंधित है। मॉडल जो जटिल, बहु-चरणीय निर्देशों का सटीक रूप से पालन करते हैं, सॉफ़्टवेयर विकास वर्कफ़्लो के लिए नाटकीय रूप से अधिक उपयोगी हैं, जहां एक गलत समझे गए आवश्यकता घंटों के डीबगिंग में बढ़ सकती है। बेहतर निर्देश अनुसरण का अर्थ है कि डेवलपर्स विस्तृत विनिर्देश प्रदान कर सकते हैं और इस बात का अधिक आत्मविश्वास कर सकते हैं कि जेनरेट किया गया कोड उनके इरादे से मेल खाएगा।

कंप्यूटर उपयोग सुधार विकास संदर्भों में मॉडल की उपयोगिता को और भी विस्तारित करते हैं। स्वचालित परीक्षण, परिनियोजन वर्कफ़्लो और इंटरैक्टिव डीबगिंग सेशन सभी एक मॉडल से लाभान्वित होते हैं जो इंटरफेस को अधिक विश्वसनीय रूप से नेविगेट कर सकता है, सही बटन क्लिक कर सकता है और स्क्रीन सामग्री की सटीकता से व्याख्या कर सकता है।

प्रतिस्पर्धात्मक स्थिति

Sonnet 4.6 की रिलीज़ मध्य-स्तरीय AI मॉडल के लिए एक तेजी से प्रतिस्पर्धी बाजार में आती है। OpenAI की GPT श्रृंखला, Google की Gemini लाइनअप, और Meta के ओपन-सोर्स Llama मॉडल सभी समान डेवलपर और उद्यम दर्शकों के लिए प्रतिस्पर्धा करते हैं। AI मॉडल बाजार सबसे सक्षम सीमांत मॉडल के लिए एक सरल दौड़ के बाहर विकसित हुआ है। मध्य-स्तरीय सेगमेंट, जहां लागत दक्षता, विश्वसनीयता और गति शुद्ध क्षमता जितना ही महत्वपूर्ण हैं, उत्पादन अपनाने के लिए प्रमुख युद्ध का मैदान बन गया है।

Anthropic की Sonnet स्तर को तेजी से अपडेट करने की रणनीति, इसे क्षमता की सीमा के करीब रखते हुए जबकि उत्पादन वर्कलोड के लिए डेवलपर्स को आवश्यक कम लागत और तेजी से प्रतिक्रिया समय बनाए रखते हुए, इस प्रतिस्पर्धा में कंपनी को अच्छी तरह से तैनात करता है। Sonnet 4.6 को सभी उपयोगकर्ताओं के लिए डिफ़ॉल्ट बनाकर, Anthropic सुनिश्चित करता है कि इसका सबसे दृश्यमान और व्यापक रूप से उपयोग किया जाने वाला मॉडल हमेशा कंपनी की नवीनतम क्षमताओं का प्रतिनिधित्व करता है।

आने वाले सप्ताह में प्रत्याशित Haiku मॉडल अपडेट के साथ, Anthropic एक सामंजस्यपूर्ण गति पर अपनी पूरी मॉडल लाइनअप को ताज़ा करने के लिए प्रतिबद्ध प्रतीत होता है। यह नियमित अपडेट चक्र डेवलपर्स को विश्वास देता है कि जिस प्लेटफ़ॉर्म पर वे निर्माण कर रहे हैं वह सुधारना जारी रखेगा, स्विचिंग जोखिम को कम करता है जो अन्यथा उन्हें प्रतिद्वंद्वियों की ओर धकेल सकता है।

आगे क्या आता है

Opus 4.6 और Sonnet 4.6 रिलीज़ का तेजी से उत्तराधिकार यह सुझाव देता है कि Anthropic एक ऐसी गति से काम कर रहा है जो सुधारी गई क्षमताओं को जल्दी से उपयोगकर्ताओं के हाथों में पाने को प्राथमिकता देता है। अपेक्षित Haiku अपडेट सभी तीन स्तरों पर अपडेट चक्र को पूरा करेगा, पूरे Claude प्लेटफ़ॉर्म को एक समन्वित पीढ़ी की छलांग देगा।

व्यापक AI उद्योग के लिए, ARC-AGI-2 और SWE-Bench पर Sonnet 4.6 का बेंचमार्क प्रदर्शन दर्शाता है कि मध्य-स्तरीय और सीमांत मॉडल के बीच क्षमता अंतर सिकुड़ना जारी है। सुविधाएं और प्रदर्शन स्तर जो मात्र कुछ महीने पहले सबसे महंगे, सबसे धीमे मॉडल के लिए विशेष थे, अब तेज़ और सस्ते विकल्पों में उपलब्ध हैं। यह प्रक्षेपवक्र AI उपकरण का उपयोग करने वाले सभी को लाभ देता है, दैनिक अनुप्रयोगों में व्यावहारिक और सस्ती की सीमा को आगे बढ़ाता है।

यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें