OpenAI-யின் சமீபத்திய image model ஒரு முக்கிய இடைவெளியை மூடியதாகத் தெரிகிறது

ZDNET நடத்திய image-generation சோதனைகளின் புதிய சுற்று, OpenAI image quality மற்றும் prompt handling-இல் கணிசமான முன்னேற்றம் செய்துள்ளதாகக் காட்டுகிறது. ஏப்ரல் 27 அன்று வெளியிடப்பட்ட ஒன்பது-சோதனை ஒப்பீட்டில் ChatGPT Images 2.0 97% மதிப்பெண் பெற்றது; Google Gemini-யின் Nano Banana 85% பெற்றது. இதற்கு முன்பு நடந்த ஒப்பீட்டில் ChatGPT, Google-ன் image system-க்குப் பின்னால் இருந்தது. இம்முறை நிலைமையே புரண்டது.

மூலக் கட்டுரை இந்த முடிவை வெறும் model-vs.-model போட்டியாக அல்லாமல் பார்க்கிறது. OpenAI-யின் புதுப்பிப்பு சிறிதளவு மேம்பாடு மட்டும் அல்ல, அன்றாட பயன்பாட்டில் முக்கியமான பகுதிகளில் கணிசமாக சிறந்தது என அது வாதிடுகிறது: வழிமுறைகளைப் பின்பற்றுதல், image-உள்ளேயான text-ஐ கையாளுதல், மற்றும் output-ஐ மூல prompt-க்கு ஏற்ப வைத்திருத்தல். இவையே பெரும்பாலும் கவர்ச்சியான demo-வும் நம்பகமாகப் பயன்படுத்தக்கூடிய கருவியும் இடையே வித்தியாசத்தை உருவாக்கும் அம்சங்கள்.

இந்த முடிவு ஏன் தனித்திருக்கிறது

Image generation AI-யின் அதிவேகமாக நகரும் முனைகளில் ஒன்றாகிவிட்டது. பல systems இப்போது அழகான படங்களை உருவாக்க முடிகிறது, ஆனால் consistency இன்னும் கடினமான சவாலாகவே உள்ளது. பயனர்கள் கண்ணுக்கு இனிமையான ஒன்றை மட்டும் விரும்பவில்லை. சூழலைப் புரிந்துகொள்கின்ற, கட்டுப்பாடுகளைப் பின்பற்றுகின்ற, மற்றும் கோரியதிலிருந்து விலகாத system-ஐ அவர்கள் விரும்புகிறார்கள்.

வழங்கப்பட்ட மூலப் பொருளின் படி, ChatGPT Images 2.0 தனது வலுவான முன்னேற்றத்தை இங்கேதான் காட்டியது. அந்த model “dramatically” மேம்பட்டதாக ZDNET கூறியது, மேலும் குறிப்பாக context awareness சிறந்ததாக குறிப்பிட்டது. text rendering-ஐயும் கட்டுரை வலியுறுத்தியது; image models வரலாற்றாகச் சிரமப்பட்ட பகுதி அது. ஒரு model prompt-க்கு உண்மையாக இருந்தபடி image-க்குள் படிக்கக்கூடிய, பொருத்தமான text-ஐ இட முடிந்தால், அது presentations, mockups, diagrams, கல்வி visuals, மற்றும் இலகுரக design tasks-க்கு மிகவும் பயனுள்ளதாகிறது.

Google-ன் Nano Banana இந்த ஒப்பீட்டில் முற்றிலும் தோல்வியடையவில்லை. 85% மதிப்பெண் இன்னும் திறனுள்ள system-ஐச் சுட்டுகிறது. ஆனால் report-இன் படி அது prompt discipline மற்றும் text handling-இல் தடுமாறியது; casual experimentation-ஐத் தாண்டிய பயன்பாட்டில் அவை விரைவில் தீர்மானிக்கக்கூடிய பலவீனங்களாக மாறுகின்றன. நடைமுறையில், பயனருக்கு Google-ன் model ஒரு striking image-ஐ வழங்கலாம், ஆனால் அதைத் திருத்த அல்லது மீண்டும் இயக்க அதிக நேரம் தேவைப்படலாம்.

முந்தைய சுற்றிலிருந்து என்ன மாறியது

கட்டுரையின் மிகவும் குறிப்பிடத்தக்க விவரம் ChatGPT வென்றது மட்டுமல்ல; முந்தைய benchmark-ஐ விட அது எவ்வளவு தெளிவாக வென்றது என்பதும்தான். ZDNET கூறுவதப்படி, 2025 டிசம்பரில் இதேபோன்ற சோதனைகளில் Nano Banana 93% பெற்றிருந்தது; ChatGPT 74% மட்டுமே பெற்றது, அதற்குக் காரணமாக சில pop-culture prompts-ஐ அது மறுத்ததும் இருந்தது. புதிய ஒப்பீட்டில் OpenAI-யின் model 97% ஆக உயர்ந்தது, Gemini-யின் மதிப்பெண் 85% ஆகக் குறைந்தது.

இந்த மாற்றம் ஒரே நேரத்தில் இரண்டு விஷயங்கள் நடக்கக்கூடும் என்பதைத் தெரிவிக்கிறது. முதலில், OpenAI core generation quality மற்றும் instruction-following-ஐ மேம்படுத்தியிருக்கிறது. இரண்டாவது, இந்த வகை benchmark முடிவுகள் prompt policy, refusal behavior, model tuning ஆகியவற்றை மிக அதிகமாக நம்பியிருப்பதால் நிலையானவை அல்ல. ஒரு நிறுவனம் product behavior-ஐ மாற்றினால், model அதிக புத்திசாலியாக, அதிக அனுமதிப்பதாக, அதிக எச்சரிக்கையாக, அல்லது மூன்றும் ஒரே நேரத்தில் உணரப்படலாம்.

இது காலப்போக்கில் கருவிகளை ஒப்பிடும் பயனர்களுக்கு முக்கியமானது. image AI-யில் performance நிலையானது அல்ல. சில மாதங்களுக்கு முன்பு தெளிவாகப் பின்தங்கியதாகத் தோன்றிய model, அதன் பலவீனங்கள் குறுகியவையாக இருந்து product teams அவற்றைச் சரிசெய்வதில் கவனம் செலுத்தினால், விரைவில் முன்னணி ஆகலாம்.

காட்சிச்சேவையைத் தாண்டி, enterprise value இப்போது தெளிவாகிறது

மூலப் பொருள் ஒரு பெரிய பாடத்தைக் காட்டுகிறது: இப்போது image models novelty-யை விட utility அடிப்படையில்தான் மதிப்பிடப்படுகின்றன. ChatGPT Images 2.0 context மற்றும் உண்மையான தரவை முன்பைவிட சிறப்பாகப் பயன்படுத்த முடியும் என்ற கருத்தை OpenAI ஏற்கனவே முன்வைத்திருந்தது. இந்த ஒப்பீடு அந்த வாதத்தை சாதாரண image-generation பணிகளுக்கும் விரிவுபடுத்துகிறது, மேலும் புதிய model advanced features-க்காக core quality-ஐ தியாகம் செய்யவில்லை என்பதைக் காட்டுகிறது.

இது முக்கியம், ஏனெனில் வணிகங்களும் தொழில்முறையினரும் ஒவ்வொரு visual task-க்கும் தனித் தனி கருவிகளை விரும்பவில்லை. ideation, text-heavy graphics, context-rich generation ஆகியவற்றை தொடர்ந்து prompt திருத்தமின்றி கையாளக்கூடிய ஒரு system-ஐ அவர்கள் விரும்புகிறார்கள். ZDNET சோதனைகள் பிரதிநிதியாக இருந்தால், ChatGPT Images 2.0 அந்த all-purpose பங்கிற்கு நெருங்கி வருகிறது.

பெயரிடலும் packaging-மும் பிரச்சினையின் ஒரு பகுதியாக மாறிவருவதாகக் கட்டுரை குறிப்பிடுகிறது. பல AI platforms-இல் உள்ள overlapping product labels, modes, versions ஆகியவற்றை பயனர்கள் பின்தொடர வேண்டும் என்று எதிர்பார்க்கப்படுகிறது. இந்த குழப்பம் cosmetic விஷயம் போலத் தோன்றலாம்; ஆனால் அதன் விளைவுகள் உண்மை. buyers, teams, non-expert users ஆகியோருக்கு உண்மையில் என்ன மேம்பட்டது, எந்த capability-யை அவர்கள் சோதித்து வருகிறார்கள் என்பதைப் புரிந்துகொள்வது கடினமாகிறது.

கவலைக்குறிப்பு: personalization privacy பிரச்சினையாக மாறலாம்

மூலக் கட்டுரையின் மிகக் கடுமையான எச்சரிக்கை image quality பற்றி அல்ல. Gemini-யின் “personalization surprise” privacy concerns-ஐ எழுப்பியதாக ZDNET கூறியது. வழங்கப்பட்ட உரையில் இறுதிக் குறிப்பிட்ட உதாரணம் விவரிக்கப்படவில்லை என்றாலும், அந்த ஒப்பீட்டின் மிகவும் குறிப்பிடத்தக்க கண்டுபிடிப்புகளில் ஒன்று “freaky and uncool” என்று தோன்றிய நடத்தை என்பதைக் தெளிவாகச் சொல்கிறது.

இந்த எச்சரிக்கை கவனத்துக்குரியது, ஏனெனில் image models மேலும் context-aware ஆகவும், பயனர் தரவுடன் ஆழமான ஒருங்கிணைப்புக்குமானதாகவும் மாறிக்கொண்டு வருகின்றன. model-க்கு அதிக பொருத்தமான, tailored முடிவுகளை உருவாக்க உதவும் அதே திறன், அது மிக அதிகமாக அறிந்ததாக, மிக அதிகமாக ஊகித்ததாக, அல்லது தெளிவான எதிர்பார்ப்பின்றி தனிப்பயனாக்குவதாகத் தோன்றினால், பயனர்களை அசௌகரியப்படுத்தவும் முடியும்.

இது consumer AI போட்டியின் அடுத்த பெரிய பிளவுகளில் ஒன்றாக மாற வாய்ப்புள்ளது. துல்லியமும் படைப்பாற்றலும் இன்னும் முக்கியம்; ஆனால் நம்பிக்கையும் இப்போது அதே அளவு முக்கியமாகிறது. ஊடுருவுவதாகத் தோன்றும் model, தொழில்நுட்ப ரீதியாக சிறப்பாக செயல்பட்டாலும் பின்தள்ளப்படலாம்.

இந்த சோதனை உண்மையில் என்ன சொல்கிறது

பெரிய கதை என்னவென்றால் image generation இன்னும் முதிர்ந்த கட்டத்திற்குள் நுழைந்து கொண்டிருக்கிறது. போட்டி இப்போது யார் அழகான படத்தை உருவாக்க முடியும் என்பது மட்டும் அல்ல. யார் system-ஆக intent-ஐ output-ஆக நம்பகமாக மாற்ற முடியும், கட்டுப்பாடுகளைப் பாதுகாக்க முடியும், பயனரின் நிம்மதி வரம்புகளை மீறாமல் அதைச் செய்ய முடியும் என்பதுதான்.

வழங்கப்பட்ட மூல உரையின் அடிப்படையில், தற்போது OpenAIக்கு அந்தப் பக்கம் வேகம் உள்ளது. ChatGPT Images 2.0 தன் முந்தைய பலவீனங்களில் போதிய அளவு திருத்தம் செய்து, இந்த குறிப்பிட்ட ஒப்பீட்டில் ஒரு வலுவான Google எதிராளியை மிஞ்சியுள்ளது. ஆனால் அதே சோதனை, பயனர் எதிர்பார்ப்புகள் எவ்வளவு வேகமாக உயர்கின்றன என்பதையும் காட்டுகிறது. வலுவான visuals இப்போது அடிப்படை எதிர்பார்ப்பு. prompt discipline, வாசிக்கக்கூடிய text, context awareness, privacy behavior ஆகியவை புதிய அளவுகோல்களாக மாறுகின்றன.

அதனால் இது ஒருநாள் வெற்றிக் கொண்டாட்டத்தைவிட, சந்தை எங்கு செல்கிறது என்பதற்கான அறிகுறியாக உள்ளது. image AI-யில் வெற்றியாளர்கள் சிறந்த படங்களை மட்டும் உருவாக்க மாட்டார்கள். அவர்கள் அதிக நம்பகமான முடிவுகளை உருவாக்கி, அவை எவ்வாறு வடிவமைக்கப்பட்டன என்பதில் பயனர்களுக்கு நம்பிக்கையையும் தருவார்கள்.

இந்த கட்டுரை ZDNET-ன் செய்திப்படிப்பை அடிப்படையாகக் கொண்டது. மூல கட்டுரையை படிக்கவும்.

Originally published on zdnet.com