जुनी समस्या सोबत असलेले अधिक मजबूत मॉडेल

OpenAI चे GPT-5.5 अशा प्रकारच्या मथळ्यासह आले आहे जो सहसा एखाद्या मोठ्या मॉडेल प्रकाशनाची ओळख ठरतो: दिलेल्या source text नुसार, ते आता Artificial Analysis Intelligence Index च्या शीर्षस्थानी आहे, Anthropic आणि Google मधील आघाडीच्या प्रतिस्पर्ध्यांवर मात करून. कार्यक्षमतेच्या दृष्टीने, हे प्रकाशन थोडक्यात सांगणे सोपे आहे. कठीण भाग असा की त्याच अहवालात एक सातत्याने टिकून राहिलेली आणि गंभीर कमजोरीही वर्णन केली आहे: hallucination.

The Decoder च्या वृत्तांतात GPT-5.5 ला असे मॉडेल म्हणून मांडले आहे जे मोठ्या भाषा मॉडेल्सच्या सर्वात हट्टी वर्तनात्मक त्रुटींपैकी एक न सोडवता frontier price-performance चित्र सुधारते. प्रगत AI प्रणालींचे मूल्यांकन करताना ही जोड अधिकाधिक मध्यवर्ती ठरत आहे. चांगले स्कोर्स आणि चांगली efficiency महत्त्वाची आहे. तसेच, मॉडेलला जे माहीत नाही ते त्याला माहीत आहे का, हेही तितकेच महत्त्वाचे आहे.

काय सुधारले

स्रोत सांगतो की GPT-5.5 Artificial Analysis Intelligence Index वर 60 गुणांपर्यंत पोहोचते, ज्यामुळे ते 57 वर बरोबरीत असलेल्या Claude Opus 4.7 आणि Gemini 3.1 Pro Preview पेक्षा तीन गुणांनी पुढे आहे. हेही सांगितले आहे की हे मॉडेल GPT-5.4 च्या तुलनेत सुमारे 40 टक्के कमी टोकन्स वापरते. ही token reduction महत्त्वाची आहे, कारण ती प्रकाशनाची अर्थव्यवस्था बदलते.

नाममात्र पातळीवर, GPT-5.5 चे API मूल्य GPT-5.4 च्या तुलनेत प्रति दशलक्ष input tokens साठी $5 आणि प्रति दशलक्ष output tokens साठी $30 इतके दुप्पट झाले. पण कमी token consumption प्रत्यक्षात ती वाढ कमी करते. efficiency gains लक्षात घेतल्यावर प्रत्यक्ष खर्चवाढ सुमारे 20 टक्के असल्याचा स्रोताचा अंदाज आहे. बेंचमार्कच्या दृष्टीने, Anthropic च्या मॉडेलच्या maximum settings वरच्या खर्चाच्या तुलनेत GPT-5.5 medium compute वर Claude Opus 4.7-स्तरीय स्कोर्स खूपच कमी खर्चात मिळवू शकते, असेही तो मांडतो.

हा तोच प्रकारचा tradeoff आहे ज्याकडे developers खरोखर लक्ष देतात. frontier model शर्यत आता फक्त leaderboard वर कोण वर आहे याबद्दल राहिलेली नाही. ती या बाबतीत आहे की performance gains योग्य token usage, व्यवस्थापनीय latency, आणि production deployment योग्य ठरेल इतकी reliability घेऊन येतात का. त्या निकषांवर GPT-5.5 OpenAI चे स्थान मजबूत करत असल्याचे दिसते.