GPT-5.5 ஏஐ பெஞ்ச்மார்க்குகளில் முதலிடம், ஆனால் Hallucination பிரச்சினை தொடர்கிறது

பழைய பிரச்சினையுடன் வந்த ஒரு வலுவான மாடல்

OpenAI-யின் GPT-5.5 ஒரு பெரிய மாடல் வெளியீட்டை பொதுவாக வரையறுக்கும் வகையான தலைப்புச் செய்தியுடன் வந்துள்ளது: வழங்கப்பட்ட மூல உரையின் படி, அது இப்போது Artificial Analysis Intelligence Index-இன் உச்சியில் உள்ளது, Anthropic மற்றும் Google நிறுவனங்களின் முன்னணி போட்டியாளர்களை முந்தியுள்ளது. செயல்திறன் கோணத்தில், அந்த வெளியீட்டை சுருக்குவது எளிது. கடினமான பகுதி என்னவென்றால், அதே அறிக்கை தொடர்ந்து நிலவும், தீவிரமான ஒரு பலவீனத்தையும் விவரிக்கிறது: hallucination.

The Decoder-இன் விளக்கத்தில் GPT-5.5, பெரிய மொழி மாதிரிகளின் மிகக் கடினமான நடத்தைப் பிழைகளில் ஒன்றைத் தீர்க்காமல், frontier price-performance படத்தை மேம்படுத்தும் ஒரு மாடலாகக் காட்டப்படுகிறது. மேம்பட்ட AI அமைப்புகளை மதிப்பிடும் விதத்தில் இந்த சேர்க்கை இப்போது மேலும் மையமாகியுள்ளது. சிறந்த மதிப்பெண்களும் சிறந்த திறனும் முக்கியம். அதேபோல், ஒரு மாடல் எப்போது தன்னிடம் தெரியாது என்பதை அறிகிறதா என்பதும் முக்கியம்.

என்ன மேம்பட்டது

GPT-5.5, Artificial Analysis Intelligence Index-இல் 60 புள்ளிகளை எட்டுகிறது என்றும், Claude Opus 4.7 மற்றும் Gemini 3.1 Pro Preview-ஐ விட மூன்று புள்ளிகள் மேலாக உள்ளது என்றும், அவை 57-இல் இணைந்திருந்தன என்றும் மூலமே தெரிவிக்கிறது. மேலும், GPT-5.4-ஐ விட மாடல் சுமார் 40 சதவீதம் குறைவான டோக்கன்களை பயன்படுத்துகிறது என்றும் கூறுகிறது. இந்த டோக்கன் குறைப்பு முக்கியமானது, ஏனெனில் இது வெளியீட்டின் பொருளாதாரத்தை மாற்றுகிறது.

பெயரளவில், GPT-5.5-இன் API விலை ஒரு மில்லியன் input tokens-க்கு $5 மற்றும் ஒரு மில்லியன் output tokens-க்கு $30 ஆக இரட்டிப்பானது, GPT-5.4-ஐ ஒப்பிடும்போது. ஆனால் குறைந்த டோக்கன் பயன்பாடு நடைமுறையில் அந்த உயர்வை மென்மைப்படுத்துகிறது. செயல்திறன் நன்மைகளை கணக்கில் எடுத்தால், உண்மையான செலவு உயர்வு சுமார் 20 சதவீதம் என மூலமே மதிப்பிடுகிறது. பெஞ்ச்மார்க் அடிப்படையில், Anthropic-இன் மாடலின் maximum settings-இல் இருக்கும் செலவுடன் ஒப்பிடுகையில், GPT-5.5 medium compute-இல் Claude Opus 4.7 அளவிலான மதிப்பெண்களை மிகவும் குறைந்த செலவில் எட்ட முடியும் என்றும் அது வாதிடுகிறது.

இதுவே டெவலப்பர்கள் உண்மையில் கவனிக்கும் tradeoff. frontier மாடல் போட்டி இனி leaderboard-இல் யார் மேலே இருக்கிறார் என்பதோடு மட்டும் முடிவதில்லை. செயல்திறன் மேம்பாடுகள் நியாயமான டோக்கன் பயன்பாடு, நிர்வகிக்கக்கூடிய latency, மற்றும் production deployment-ஐ நியாயப்படுத்தும் அளவுக்கு நம்பகத்தன்மையுடன் வருகிறதா என்பதே முக்கியம். அந்த அளவுகோல்களில் GPT-5.5 OpenAI-யின் நிலையை வலுப்படுத்துகிறது போலத் தெரிகிறது.

Sakana AI bets AI that improves itself can break the compute arms race of frontier labs

சகானா AI மீள்சுற்று சுயமேம்பாட்டை முன்னெடுக்க ஆய்வகத்தை அமைக்கிறது

சகானா AI மீள்சுற்று சுயமேம்பாட்டுக்கான ஒரு தனித்த ஆய்வகத்தை உருவாக்கியுள்ளது; தங்கள் அடித்தளங்களைத் தாமே மேம்படுத்தும் AI அமைப்புகள் கணினி வளப் போட்டிக்கு மாற்றாக அமையலாம் என்று அது வாதிடுகிறது.

Read article

Hallucination பிரச்சினை இன்னும் ஏன் முக்கியம்

மூலத்தின் மிகுந்த கவலையளிக்கும் பகுதி என்னவென்றால், GPT-5.5 இன்னும் Artificial Analysis-இன் AA Omniscience பெஞ்ச்மார்க்கில் 86 சதவீத hallucination rate-ஐ பதிவு செய்கிறது என்ற கூற்று. அந்த fact-focused பெஞ்ச்மார்க்கில் முன்னணி துல்லியம் இருந்தாலும், மாடல் தொடர்ந்து தன்னுடைய பதில்களில் தகவலை உருவாக்கிக் கூறுகிறது; தன்னிடம் உள்ள இடைவெளிகளைச் சமமாக ஒப்புக்கொள்வதில்லை என்று தெரிவிக்கப்படுகிறது.

இந்த வேறுபாடு மிக முக்கியமானது. ஒரு மாடல் மொத்த fact-based பணிகளில் போட்டியாளர்களை மிஞ்சினாலும், அது நிறுத்தி வைக்க வேண்டிய நேரத்தில் நம்பிக்கையுடன் பதிலளிக்கத் தயாராக இருக்கலாம். பயனர்களுக்கு, குறிப்பாக தொழில்நுட்ப அல்லது செயல்பாட்டு சூழல்களில், அந்த நடத்தை ஒரு சிறிய குறிப்பல்ல. அது பல நேரங்களில் ஒரு பயனுள்ள உதவியாளரும் ஒரு ஆபத்தான உதவியாளரும் இடையிலான வித்தியாசமாகிறது.

பெரிய பாடம் என்னவென்றால், intelligence rankings மற்றும் reliability ஒன்றுக்கொன்று மாற்றாக இல்லை. ஒரு வலுவான பெஞ்ச்மார்க் சுயவிவரம் சிறந்த reasoning, விரிவான knowledge, அல்லது inference-time compute-ஐ சிறப்பாகப் பயன்படுத்துதல் ஆகியவற்றைக் குறிக்கலாம். ஆனால் அதனால் மாடல் uncertainty குறித்து கட்டுப்பாடானதாக மாறிவிட்டது என்று அர்த்தமில்லை. இங்கே விவரிக்கப்பட்ட GPT-5.5 அந்த இடைவெளியை மூடுவதற்குப் பதிலாக, அதை மேலும் வெளிப்படுத்துகிறது போலத் தெரிகிறது.

இந்த வெளியீடு பெரிய சந்தையில் எவ்வாறு பொருந்துகிறது

GPT-5.5-ஐ Anthropic-இன் Claude Opus 4.7-உடன் மட்டுமல்ல, Google-இன் Gemini 3.1 Pro Preview-உடனும் மூலமே ஒப்பிடுகிறது. அதன் framing, குறிப்பாக Google தயாரிப்புகள் மற்றும் vision பணிகளில், Gemini செலவு மற்றும் பல்துறை பயன்பாட்டில் ஈர்ப்பைத் தொடர்ந்து வைத்திருப்பதாகவும், அதே நேரத்தில் சமீபத்திய OpenAI மற்றும் Anthropic அமைப்புகள் coding மற்றும் agentic work-இல் முன்னிலை வகிப்பதாகவும் சொல்கிறது. இது வணிக AI போட்டியின் தற்போதைய நிலையைப் பற்றிய பயனுள்ள snapshot: வாங்குபவர்கள் ஒரே சிறந்த மாடலை abstract-ஆக தேர்வு செய்வதில்லை; மாறாக, மாடல்களின் வலிமைகளை workflows-க்கு பொருத்துகிறார்கள்.

அதனால் GPT-5.5 வெளியீடு ஒரு தெளிவான knockout-ஐ விட frontier-ஐ மீண்டும் அமைத்ததுபோல் தெரிகிறது. OpenAI benchmark முன்னணியை மீட்டுள்ளது, token efficiency-யையும் மேம்படுத்தியுள்ளது, ஆனால் tradeoffs இன்னும் தெளிவாக உள்ளன. விலை இன்னும் உயர்ந்துள்ளது. Hallucinations உயரமாகவே உள்ளன. மேலும் benchmark leadership குறைந்த விலையில் அல்லது குறிப்பிட்ட பணிகளுக்கு சிறப்பாக tune செய்யப்பட்ட போட்டியாளர்களின் அழுத்தத்தை நீக்குவதில்லை.

பயனர்களுக்கு இது என்ன பொருள்

Developers-க்கு, practical token costs-ல் சமமான உயர்வு இல்லாமல் சிறந்த frontier performance கிடைக்கலாம்.
Benchmark gains-ஐ factual reliability பிரச்சினை தீர்ந்துவிட்டதாக கருதக் கூடாது.
High-stakes பயன்பாடுகளுக்கு இன்னும் guardrails, verification, அல்லது abstention-focused workflows தேவை.

இதனால் GPT-5.5 முக்கியமான ஆனால் முழுமையற்ற ஒரு படியாகிறது. இது performance frontier-ஐ முன்னோக்கித் தள்ளுகிறது, மேலும் வணிக ரீதியாக முக்கியமான அளவுக்கு efficiency-யையும் மேம்படுத்துகிறது. அதே நேரத்தில், நவீன generative AI-யுடன் தொடக்கத்திலிருந்தே வந்த முக்கிய tension-ஐ அது தொடர வைத்திருக்கிறது: அமைப்புகள் புத்திசாலியாகி வருகின்றன, ஆனால் நம்பகமான பணிவு இன்னும் இல்லை. அது மாறும் வரை, ஒவ்வொரு புதிய benchmark வெற்றிக்கும் ஒரு operational asterisk இருக்கும்.

இந்தக் கட்டுரை The Decoder-இன் செய்தியின்மேல் அடிப்படையாக்கப்பட்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on the-decoder.com

GPT-5.5 ஏஐ பெஞ்ச்மார்க்குகளின் உச்ச வரம்பை உயர்த்துகிறது, ஆனால் பழக்கமான ஒரு பலவீனம் தொடர்கிறது