பழைய பிரச்சினையுடன் வந்த ஒரு வலுவான மாடல்
OpenAI-யின் GPT-5.5 ஒரு பெரிய மாடல் வெளியீட்டை பொதுவாக வரையறுக்கும் வகையான தலைப்புச் செய்தியுடன் வந்துள்ளது: வழங்கப்பட்ட மூல உரையின் படி, அது இப்போது Artificial Analysis Intelligence Index-இன் உச்சியில் உள்ளது, Anthropic மற்றும் Google நிறுவனங்களின் முன்னணி போட்டியாளர்களை முந்தியுள்ளது. செயல்திறன் கோணத்தில், அந்த வெளியீட்டை சுருக்குவது எளிது. கடினமான பகுதி என்னவென்றால், அதே அறிக்கை தொடர்ந்து நிலவும், தீவிரமான ஒரு பலவீனத்தையும் விவரிக்கிறது: hallucination.
The Decoder-இன் விளக்கத்தில் GPT-5.5, பெரிய மொழி மாதிரிகளின் மிகக் கடினமான நடத்தைப் பிழைகளில் ஒன்றைத் தீர்க்காமல், frontier price-performance படத்தை மேம்படுத்தும் ஒரு மாடலாகக் காட்டப்படுகிறது. மேம்பட்ட AI அமைப்புகளை மதிப்பிடும் விதத்தில் இந்த சேர்க்கை இப்போது மேலும் மையமாகியுள்ளது. சிறந்த மதிப்பெண்களும் சிறந்த திறனும் முக்கியம். அதேபோல், ஒரு மாடல் எப்போது தன்னிடம் தெரியாது என்பதை அறிகிறதா என்பதும் முக்கியம்.
என்ன மேம்பட்டது
GPT-5.5, Artificial Analysis Intelligence Index-இல் 60 புள்ளிகளை எட்டுகிறது என்றும், Claude Opus 4.7 மற்றும் Gemini 3.1 Pro Preview-ஐ விட மூன்று புள்ளிகள் மேலாக உள்ளது என்றும், அவை 57-இல் இணைந்திருந்தன என்றும் மூலமே தெரிவிக்கிறது. மேலும், GPT-5.4-ஐ விட மாடல் சுமார் 40 சதவீதம் குறைவான டோக்கன்களை பயன்படுத்துகிறது என்றும் கூறுகிறது. இந்த டோக்கன் குறைப்பு முக்கியமானது, ஏனெனில் இது வெளியீட்டின் பொருளாதாரத்தை மாற்றுகிறது.
பெயரளவில், GPT-5.5-இன் API விலை ஒரு மில்லியன் input tokens-க்கு $5 மற்றும் ஒரு மில்லியன் output tokens-க்கு $30 ஆக இரட்டிப்பானது, GPT-5.4-ஐ ஒப்பிடும்போது. ஆனால் குறைந்த டோக்கன் பயன்பாடு நடைமுறையில் அந்த உயர்வை மென்மைப்படுத்துகிறது. செயல்திறன் நன்மைகளை கணக்கில் எடுத்தால், உண்மையான செலவு உயர்வு சுமார் 20 சதவீதம் என மூலமே மதிப்பிடுகிறது. பெஞ்ச்மார்க் அடிப்படையில், Anthropic-இன் மாடலின் maximum settings-இல் இருக்கும் செலவுடன் ஒப்பிடுகையில், GPT-5.5 medium compute-இல் Claude Opus 4.7 அளவிலான மதிப்பெண்களை மிகவும் குறைந்த செலவில் எட்ட முடியும் என்றும் அது வாதிடுகிறது.
இதுவே டெவலப்பர்கள் உண்மையில் கவனிக்கும் tradeoff. frontier மாடல் போட்டி இனி leaderboard-இல் யார் மேலே இருக்கிறார் என்பதோடு மட்டும் முடிவதில்லை. செயல்திறன் மேம்பாடுகள் நியாயமான டோக்கன் பயன்பாடு, நிர்வகிக்கக்கூடிய latency, மற்றும் production deployment-ஐ நியாயப்படுத்தும் அளவுக்கு நம்பகத்தன்மையுடன் வருகிறதா என்பதே முக்கியம். அந்த அளவுகோல்களில் GPT-5.5 OpenAI-யின் நிலையை வலுப்படுத்துகிறது போலத் தெரிகிறது.

