GPT-5.5 AI बेंचमार्क में शीर्ष पर, लेकिन Hallucinations अब भी तस्वीर धुंधली करती हैं

एक अधिक सक्षम मॉडल, लेकिन पुरानी समस्या के साथ

OpenAI का GPT-5.5 उस तरह की सुर्खी के साथ आया है जो आमतौर पर किसी बड़े मॉडल रिलीज़ को परिभाषित करती है: यह अब Artificial Analysis Intelligence Index में शीर्ष पर है, और स्रोत पाठ के अनुसार Anthropic और Google के प्रमुख प्रतिस्पर्धियों से आगे निकल गया है। प्रदर्शन के लिहाज़ से, लॉन्च को संक्षेप में बताना आसान है। मुश्किल हिस्सा यह है कि वही रिपोर्ट एक स्थायी और गंभीर कमजोरी का भी वर्णन करती है: hallucination.

The Decoder के विवरण में GPT-5.5 को ऐसे मॉडल के रूप में प्रस्तुत किया गया है जो बड़े भाषा मॉडलों की सबसे जिद्दी व्यवहारगत खामियों में से एक को हल किए बिना frontier price-performance तस्वीर को बेहतर बनाता है। उन्नत AI प्रणालियों का मूल्यांकन करते समय यह संयोजन लगातार अधिक केंद्रीय होता जा रहा है। बेहतर स्कोर और बेहतर दक्षता मायने रखते हैं। उतना ही यह भी मायने रखता है कि मॉडल जानता है या नहीं कि उसे कब नहीं पता।

क्या बेहतर हुआ

स्रोत के अनुसार GPT-5.5 Artificial Analysis Intelligence Index पर 60 अंक हासिल करता है, जिससे यह Claude Opus 4.7 और Gemini 3.1 Pro Preview से तीन अंक आगे है, जो 57 पर बराबरी पर थे। यह भी कहा गया है कि मॉडल GPT-5.4 की तुलना में लगभग 40 प्रतिशत कम टोकन उपयोग करता है। यह टोकन कमी महत्वपूर्ण है क्योंकि यह रिलीज़ की economics बदल देती है।

नाममात्र रूप से, GPT-5.5 की API कीमत बढ़कर प्रति मिलियन input tokens $5 और प्रति मिलियन output tokens $30 हो गई, जबकि GPT-5.4 में यह कम थी। लेकिन कम टोकन खपत व्यवहार में इस बढ़ोतरी को नरम कर देती है। स्रोत अनुमान लगाता है कि दक्षता लाभों को ध्यान में रखने पर प्रभावी लागत वृद्धि लगभग 20 प्रतिशत है। बेंचमार्क के संदर्भ में, यह भी तर्क दिया गया है कि GPT-5.5 Anthropic के मॉडल की maximum settings की तुलना में बहुत कम लागत पर medium compute पर Claude Opus 4.7-स्तरीय स्कोर हासिल कर सकता है।

यह वही तरह का tradeoff है जिसे developers वास्तव में नोटिस करते हैं। frontier model race अब सिर्फ leaderboard पर सबसे ऊपर पहुँचने के बारे में नहीं है। यह इस बारे में है कि क्या performance gains उचित token usage, manageable latency और production deployment को सही ठहराने लायक विश्वसनीयता के साथ आते हैं। इन मानदंडों पर, GPT-5.5 OpenAI की स्थिति को मजबूत करता दिखता है।

Sakana AI bets AI that improves itself can break the compute arms race of frontier labs

Sakana AI ने recursive self-improvement के लिए लैब बनाई

Sakana AI ने recursive self-improvement के लिए एक समर्पित लैब बनाई है, और तर्क दिया है कि अपनी ही नींव को बेहतर बनाने वाली AI प्रणालियाँ compute arms race का एक विकल्प दे सकती हैं।

Read article

Hallucination की समस्या अब भी क्यों मायने रखती है

स्रोत का अधिक चिंताजनक हिस्सा यह दावा है कि GPT-5.5 अब भी Artificial Analysis के AA Omniscience benchmark पर 86 प्रतिशत hallucination rate दर्ज करता है। उस तथ्य-प्रधान benchmark पर अग्रणी accuracy के बावजूद, रिपोर्ट के अनुसार मॉडल अब भी gaps को लगातार स्वीकार करने के बजाय उत्तर गढ़ता रहता है।

यह अंतर निर्णायक है। कोई मॉडल समग्र factual tasks पर प्रतिद्वंद्वियों से बेहतर प्रदर्शन कर सकता है, फिर भी जब उसे abstain करना चाहिए तब भी वह आत्मविश्वास से उत्तर देने को तैयार हो सकता है। उपयोगकर्ताओं के लिए, खासकर तकनीकी या operational settings में, यह व्यवहार एक छोटी बात नहीं है। अक्सर यही एक उपयोगी assistant और एक जोखिमभरे assistant के बीच का फर्क होता है।

बड़ा सबक यह है कि intelligence rankings और reliability एक ही चीज़ नहीं हैं। एक मजबूत benchmark profile बेहतर reasoning, व्यापक knowledge, या inference-time compute के अधिक प्रभावी उपयोग का संकेत दे सकती है। लेकिन इसका मतलब यह नहीं कि मॉडल uncertainty के मामले में अनुशासित हो गया है। यहाँ वर्णित GPT-5.5 इस अंतर को पाटने के बजाय उसे और स्पष्ट करता दिखता है।

यह रिलीज़ व्यापक बाज़ार में कैसे फिट बैठती है

स्रोत GPT-5.5 की तुलना केवल Anthropic के Claude Opus 4.7 से ही नहीं, बल्कि Google के Gemini 3.1 Pro Preview से भी करता है। इसका framing बताता है कि Gemini लागत और versatility के मामले में, खासकर Google products और vision tasks में, अब भी आकर्षक है, जबकि OpenAI और Anthropic की नवीनतम प्रणालियाँ coding और agentic work में आगे रहती हैं। यह commercial AI race की मौजूदा स्थिति का उपयोगी snapshot है: खरीदार किसी एक abstract “best” मॉडल को नहीं चुन रहे, बल्कि model strengths को workflows से मिला रहे हैं।

इसलिए GPT-5.5 की रिलीज़ किसी निर्णायक knockout की तरह कम और frontier के reset की तरह अधिक दिखती है। OpenAI ने benchmark lead फिर से हासिल किया है और token efficiency सुधारी है, लेकिन tradeoffs साफ़ बने रहते हैं। कीमत अभी भी बढ़ी हुई है। Hallucinations अभी भी ऊँची हैं। और benchmark leadership उन प्रतिस्पर्धियों के दबाव को खत्म नहीं करती जो सस्ते हो सकते हैं या विशिष्ट कार्यों के लिए बेहतर tuned हो सकते हैं।

उपयोगकर्ताओं के लिए इसका मतलब

Developers को practical token costs में समानुपाती बढ़ोतरी के बिना बेहतर frontier performance मिल सकती है।
Benchmark gains को factual reliability के समाधान के रूप में नहीं समझना चाहिए।
High-stakes use cases के लिए अब भी guardrails, verification, या abstention-focused workflows की जरूरत है।

इससे GPT-5.5 एक महत्वपूर्ण, लेकिन अधूरा कदम बनता है। यह performance frontier को आगे बढ़ाता है और efficiency को इस हद तक सुधारता है कि commercial रूप से मायने रखे। साथ ही, यह उस मूल तनाव को बनाए रखता है जो आधुनिक generative AI के साथ शुरुआत से जुड़ा है: सिस्टम अधिक स्मार्ट हो रहे हैं, लेकिन भरोसेमंद ढंग से विनम्र नहीं। जब तक यह नहीं बदलता, हर नया benchmark win एक operational asterisk के साथ आएगा।

यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.

Alibaba ने Qwen3.7-Plus लॉन्च के साथ agentic AI को आगे बढ़ाया

Alibaba ने Qwen3.7-Plus पेश किया है, एक multimodal मॉडल जिसे देखने, क्लिक करने, कोड लिखने और एक ही agent loop के भीतर software चलाने के लिए बनाया गया है, जो autonomous AI systems की दिशा में एक और तेज़ कदम का संकेत देता है.

Read article

Originally published on the-decoder.com

GPT-5.5 ने AI बेंचमार्क की ऊंचाई बढ़ाई, लेकिन एक पुरानी कमजोरी अब भी बनी हुई है