GPT-5.5 AI बेंचमार्कमध्ये अव्वल, पण Hallucination समस्या कायम

जुनी समस्या सोबत असलेले अधिक मजबूत मॉडेल

OpenAI चे GPT-5.5 अशा प्रकारच्या मथळ्यासह आले आहे जो सहसा एखाद्या मोठ्या मॉडेल प्रकाशनाची ओळख ठरतो: दिलेल्या source text नुसार, ते आता Artificial Analysis Intelligence Index च्या शीर्षस्थानी आहे, Anthropic आणि Google मधील आघाडीच्या प्रतिस्पर्ध्यांवर मात करून. कार्यक्षमतेच्या दृष्टीने, हे प्रकाशन थोडक्यात सांगणे सोपे आहे. कठीण भाग असा की त्याच अहवालात एक सातत्याने टिकून राहिलेली आणि गंभीर कमजोरीही वर्णन केली आहे: hallucination.

The Decoder च्या वृत्तांतात GPT-5.5 ला असे मॉडेल म्हणून मांडले आहे जे मोठ्या भाषा मॉडेल्सच्या सर्वात हट्टी वर्तनात्मक त्रुटींपैकी एक न सोडवता frontier price-performance चित्र सुधारते. प्रगत AI प्रणालींचे मूल्यांकन करताना ही जोड अधिकाधिक मध्यवर्ती ठरत आहे. चांगले स्कोर्स आणि चांगली efficiency महत्त्वाची आहे. तसेच, मॉडेलला जे माहीत नाही ते त्याला माहीत आहे का, हेही तितकेच महत्त्वाचे आहे.

काय सुधारले

स्रोत सांगतो की GPT-5.5 Artificial Analysis Intelligence Index वर 60 गुणांपर्यंत पोहोचते, ज्यामुळे ते 57 वर बरोबरीत असलेल्या Claude Opus 4.7 आणि Gemini 3.1 Pro Preview पेक्षा तीन गुणांनी पुढे आहे. हेही सांगितले आहे की हे मॉडेल GPT-5.4 च्या तुलनेत सुमारे 40 टक्के कमी टोकन्स वापरते. ही token reduction महत्त्वाची आहे, कारण ती प्रकाशनाची अर्थव्यवस्था बदलते.

नाममात्र पातळीवर, GPT-5.5 चे API मूल्य GPT-5.4 च्या तुलनेत प्रति दशलक्ष input tokens साठी $5 आणि प्रति दशलक्ष output tokens साठी $30 इतके दुप्पट झाले. पण कमी token consumption प्रत्यक्षात ती वाढ कमी करते. efficiency gains लक्षात घेतल्यावर प्रत्यक्ष खर्चवाढ सुमारे 20 टक्के असल्याचा स्रोताचा अंदाज आहे. बेंचमार्कच्या दृष्टीने, Anthropic च्या मॉडेलच्या maximum settings वरच्या खर्चाच्या तुलनेत GPT-5.5 medium compute वर Claude Opus 4.7-स्तरीय स्कोर्स खूपच कमी खर्चात मिळवू शकते, असेही तो मांडतो.

हा तोच प्रकारचा tradeoff आहे ज्याकडे developers खरोखर लक्ष देतात. frontier model शर्यत आता फक्त leaderboard वर कोण वर आहे याबद्दल राहिलेली नाही. ती या बाबतीत आहे की performance gains योग्य token usage, व्यवस्थापनीय latency, आणि production deployment योग्य ठरेल इतकी reliability घेऊन येतात का. त्या निकषांवर GPT-5.5 OpenAI चे स्थान मजबूत करत असल्याचे दिसते.

Sakana AI bets AI that improves itself can break the compute arms race of frontier labs

साकाना एआयने पुनरावर्ती स्व-सुधारणा पुढे नेण्यासाठी प्रयोगशाळा स्थापन केली

साकाना एआयने पुनरावर्ती स्व-सुधारणेसाठी एक समर्पित प्रयोगशाळा तयार केली आहे, असा युक्तिवाद करत की स्वतःची पायाभरणी सुधारू शकणाऱ्या एआय प्रणाली संगणकीय शस्त्रस्पर्धेला पर्याय देऊ शकतात.

Read article

Hallucination समस्या अजूनही का महत्त्वाची आहे

स्रोताचा अधिक चिंताजनक भाग असा दावा करतो की GPT-5.5 अजूनही Artificial Analysis च्या AA Omniscience बेंचमार्कवर 86 टक्के hallucination rate नोंदवते. त्या fact-focused बेंचमार्कवर आघाडीची accuracy असूनही, मॉडेल अजूनही सतत उत्तरे बनवत राहते, असे सांगितले जाते, म्हणजेच त्याला माहितीची कमतरता असल्याचे ते सातत्याने मान्य करत नाही.

हा फरक अत्यंत महत्त्वाचा आहे. एखादे मॉडेल एकूण factual कामांमध्ये प्रतिस्पर्ध्यांना मागे टाकू शकते, तरीही जिथे थांबायला हवे तिथे ते आत्मविश्वासाने उत्तर देण्यास तयार असू शकते. वापरकर्त्यांसाठी, विशेषतः technical किंवा operational settings मध्ये, हे वर्तन किरकोळ नाही. अनेकदा हेच उपयुक्त सहाय्यक आणि धोकादायक सहाय्यक यांच्यातील फरक ठरते.

मोठा धडा असा की intelligence rankings आणि reliability एकच नाहीत. एक मजबूत बेंचमार्क प्रोफाइल चांगले reasoning, विस्तृत knowledge, किंवा inference-time compute चा अधिक प्रभावी वापर सूचित करू शकते. पण त्याचा अर्थ असा नाही की मॉडेल uncertainty बाबतीत शिस्तबद्ध झाले आहे. इथे वर्णन केलेले GPT-5.5 हा फरक मिटवण्याऐवजी तो अधिक ठळक करत असल्यासारखे दिसते.

हे प्रकाशन मोठ्या बाजारात कुठे बसते

स्रोत GPT-5.5 ची तुलना केवळ Anthropic च्या Claude Opus 4.7 शीच नाही, तर Google च्या Gemini 3.1 Pro Preview शीही करतो. त्याच्या framing नुसार, विशेषतः Google products आणि vision tasks मध्ये, Gemini cost आणि versatility मध्ये आकर्षक राहते, तर नवीनतम OpenAI आणि Anthropic systems coding आणि agentic work मध्ये आघाडीवर आहेत. हे व्यावसायिक AI स्पर्धा कुठे उभी आहे याचे उपयुक्त snapshot आहे: खरेदीदार सैद्धांतिकदृष्ट्या एकच सर्वोत्तम मॉडेल निवडत नाहीत, तर मॉडेलच्या ताकदी workflows शी जुळवत आहेत.

म्हणून GPT-5.5 चे प्रकाशन निर्णायक knockout पेक्षा frontier चे रीसेट अधिक वाटते. OpenAI ने बेंचमार्क आघाडी पुन्हा मिळवली आहे आणि token efficiency सुधारली आहे, पण tradeoffs अजूनही दिसतात. किंमत अजूनही वाढली आहे. Hallucinations उच्चच आहेत. आणि benchmark leadership काही विशिष्ट कामांसाठी अधिक स्वस्त किंवा चांगले tuned प्रतिस्पर्ध्यांवरील दबाव नाहीसा करत नाही.

वापरकर्त्यांसाठी याचा अर्थ

Developers ना practical token costs मध्ये प्रमाणानुसार मोठी वाढ न होता चांगली frontier performance मिळू शकते.
Benchmark gains म्हणजे factual reliability ची समस्या सुटली, असे समजणे चुकीचे ठरेल.
High-stakes use cases साठी अजूनही guardrails, verification, किंवा abstention-focused workflows आवश्यक आहेत.

यामुळे GPT-5.5 एक महत्त्वाचे पण अपूर्ण पाऊल ठरते. ते performance frontier पुढे ढकलते आणि व्यावसायिकदृष्ट्या महत्त्वाची efficiency सुधारते. त्याच वेळी, आधुनिक generative AI सोबत सुरुवातीपासून जोडलेली मुख्य tension ते कायम ठेवते: प्रणाली अधिक हुशार होत आहेत, पण विश्वासार्हपणे नम्र नाहीत. ते बदलत नाही तोपर्यंत, प्रत्येक नवीन benchmark विजयासोबत एक operational asterisk राहील.

हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.

Originally published on the-decoder.com

GPT-5.5 ने AI बेंचमार्कची मर्यादा वर नेली, पण एक परिचित कमजोरी कायम आहे