ChatGPT Images 2.0 ने नवीन चाचणीत Gemini Nano Banana ला हरवले

OpenAI चे नवीनतम image model एक मोठी दरी कमी करत असल्याचे दिसते

ZDNET ने केलेल्या image-generation चाचण्यांच्या नव्या फेरीतून असे सूचित होते की OpenAI ने image quality आणि prompt handling मध्ये लक्षणीय झेप घेतली आहे. 27 एप्रिल रोजी प्रकाशित झालेल्या नऊ-चाचण्यांच्या तुलनेत ChatGPT Images 2.0 ला 97% गुण मिळाले, तर Google Gemini च्या Nano Banana ला 85% गुण मिळाले. यापूर्वीच्या तुलनेत ChatGPT, Google च्या image system पेक्षा बराच मागे होता. यावेळी क्रम उलटला.

मूळ लेख हा निकाल केवळ model-vs.-model स्पर्धा म्हणून पाहत नाही. तो असा युक्तिवाद करतो की OpenAI चे अपडेट फक्त टप्प्याटप्प्याने झालेली सुधारणा नाही, तर रोजच्या वापरासाठी महत्त्वाच्या बाबींमध्ये नाट्यमय प्रगती आहे: सूचना पाळणे, image मधील text हाताळणे, आणि output मूळ prompt शी सुसंगत ठेवणे. हीच ती कामे आहेत जी अनेकदा एक आकर्षक demo आणि प्रत्यक्ष कामासाठी वापरता येईल अशा भरोसेमंद tool मध्ये फरक निर्माण करतात.

हा निकाल का वेगळा दिसतो

Image generation हे AI मधील सर्वात वेगाने बदलणाऱ्या आघाड्यांपैकी एक बनले आहे. अनेक systems आता आकर्षक चित्रे तयार करू शकतात, पण consistency अजूनही कठीण समस्या आहे. वापरकर्त्यांना फक्त दिसायला चांगले काहीतरी नको असते. त्यांना असा system हवा असतो जो context समजतो, constraints पाळतो, आणि मागणीपासून भरकटत नाही.

दिलेल्या source text नुसार, ChatGPT Images 2.0 ने आपली सर्वात मोठी सुधारणा इथेच दाखवली. ZDNET ने model “dramatically” सुधारल्याचे म्हटले आणि विशेषतः context awareness चांगली असल्याचे नमूद केले. article ने text rendering वरही भर दिला, जो image models साठी ऐतिहासिकदृष्ट्या अडचणीचा भाग राहिला आहे. जर एखादा model prompt प्रति प्रामाणिक राहून image मध्ये वाचता येईल असा, योग्य text बसवू शकतो, तर तो presentations, mockups, diagrams, शैक्षणिक visuals, आणि हलक्या design tasks साठी खूपच उपयोगी ठरतो.

Google चा Nano Banana या तुलनेत पूर्णपणे कोसळला नाही. 85% गुण अजूनही एक सक्षम system सूचित करतात. पण अहवाल म्हणतो की त्याने prompt discipline आणि text handling मध्ये अडखळले, आणि हीच कमतरता casual experimentation च्या बाहेर लवकरच निर्णायक ठरू शकते. प्रत्यक्षात याचा अर्थ असा की वापरकर्त्याला Google च्या model कडून आकर्षक image मिळू शकते, पण ती सुधारण्यात किंवा पुन्हा चालवण्यात अधिक वेळ लागू शकतो.

Visa is handling AI-prompted transactions for OpenAI - but can you trust it?

Visa आणि OpenAI agentic payments पुढे नेत आहेत

Visa आणि OpenAI AI-चालित transactions ला guardrails सह पाठिंबा देण्याच्या दिशेने पुढे जात आहेत, हे agentic commerce एक गंभीर payments battleground बनत असल्याचे संकेत देते.

Read article

मागील फेरीपासून काय बदलले

लेखातील सर्वात लक्षवेधी बाब ChatGPT जिंकल्याचीच नाही, तर मागील benchmark च्या तुलनेत त्याने किती निर्णायकरीत्या जिंकले याची आहे. ZDNET ने सांगितले की डिसेंबर 2025 मध्ये केलेल्या अशाच चाचण्यांमध्ये Nano Banana ला 93% मिळाले होते, तर ChatGPT ला 74% मिळाले होते, काही अंशी कारण त्याने काही pop-culture prompts नाकारले होते. नव्या तुलनेत OpenAI चे model 97% वर गेले, तर Gemini चे गुण 85% वर आले.

हा बदल दोन गोष्टी एकाच वेळी घडत असल्याचे सूचित करतो. पहिली, OpenAI ने core generation quality आणि instruction-following सुधारले असावे. दुसरी, या प्रकारच्या benchmark निकालांमध्ये स्थैर्य कमी असते, कारण ते prompt policy, refusal behavior, आणि model tuning वर खूप अवलंबून असतात. एखादी company आपल्या product behavior मध्ये बदल करू शकते, ज्यामुळे model अधिक smart, अधिक permissive, अधिक cautious, किंवा तिन्ही एकत्र वाटू शकतो.

काळानुसार tools ची तुलना करणाऱ्या वापरकर्त्यांसाठी हे महत्त्वाचे आहे. image AI मध्ये performance स्थिर नसते. काही महिन्यांपूर्वी स्पष्टपणे मागे दिसणारा model, त्याच्या कमकुवत जागा मर्यादित असतील आणि product teams ने त्या सुधारण्यावर लक्ष केंद्रित केले असेल, तर पटकन पुढे येऊ शकतो.

फक्त देखाव्यापलीकडे enterprise value आता अधिक स्पष्ट आहे

source text एक व्यापक निष्कर्ष दाखवतो: image models आता novelty पेक्षा utility च्या आधारावर मोजले जात आहेत. ChatGPT Images 2.0 context आणि real data पूर्वीपेक्षा चांगल्या प्रकारे वापरू शकते, ही कल्पना OpenAI ने आधीच मांडली होती. ही तुलना त्या युक्तिवादाला अधिक standard image-generation tasks मध्ये नेते आणि दाखवते की नवीन model advanced features साठी core quality ची आहुती देत नाही.

हे महत्त्वाचे आहे, कारण व्यवसाय आणि व्यावसायिकांना प्रत्येक visual task साठी वेगवेगळ्या tools ची गरज नसते. त्यांना असा एक system हवा असतो जो ideation, text-heavy graphics, context-rich generation हे वारंवार prompt repair शिवाय हाताळू शकेल. जर ZDNET ची चाचणी प्रतिनिधीक असेल, तर ChatGPT Images 2.0 त्या all-purpose भूमिकेकडे पुढे जात आहे.

लेखात naming आणि packaging हीही समस्येचा भाग बनत असल्याचे नमूद केले आहे. वापरकर्त्यांनी अनेक AI platforms वर overlapping product labels, modes, versions यांचा मागोवा ठेवण्याची अपेक्षा असते. हे गोंधळाचे वाटू शकते, पण त्याचे प्रत्यक्ष परिणाम आहेत. खरेदीदार, टीम्स, आणि non-expert users साठी प्रत्यक्षात काय सुधारले आहे आणि ते कोणती क्षमता तपासत आहेत, हे समजणे कठीण जाते.

Anthropic ने US आदेशानंतर Fable 5 आणि Mythos 5 निलंबित केले

राष्ट्रीय सुरक्षा चिंतांशी आणि कथित jailbreak जोखमीशी संबंधित अमेरिकन सरकारी आदेशानंतर Anthropic ने आपल्या नव्या Fable 5 आणि Mythos 5 मॉडेल्सवरील ग्राहक प्रवेश बंद केला आहे.

Read article

सावधानता: personalization privacy समस्या बनू शकते

source article मधील सर्वात गंभीर इशारा image quality बद्दल नाही. ZDNET ने म्हटले की Gemini चे “personalization surprise” privacy concerns निर्माण करते. दिलेल्या मजकुरात अंतिम उदाहरणाचा तपशील नसला तरी, तुलनेतील सर्वात उल्लेखनीय निष्कर्षांपैकी एक “freaky and uncool” वाटणारे वर्तन होते, हे स्पष्ट केले आहे.

हा इशारा महत्त्वाचा आहे, कारण image models अधिक context-aware होत आहेत आणि वापरकर्ता data सोबत अधिक खोलवर integrate होत आहेत. जे capability model ला अधिक संबंधित, tailored results देण्यास मदत करते, तीच capability जर खूप जास्त माहिती असल्यासारखी, खूप जास्त अंदाज बांधणारी, किंवा स्पष्ट अपेक्षेशिवाय personalize करणारी वाटली, तर वापरकर्त्यांना अस्वस्थही करू शकते.

हे कदाचित consumer AI स्पर्धेतील पुढचे मोठे फूटबिंदू ठरेल. accuracy आणि creativity अजूनही महत्त्वाची आहेत, पण trust देखील तितकाच महत्त्वाचा होत आहे. invasive वाटणारा model, तांत्रिकदृष्ट्या चांगला असला तरी, मागे पडू शकतो.

ही चाचणी प्रत्यक्षात काय सांगते

मोठी कथा म्हणजे image generation अधिक परिपक्व टप्प्यात प्रवेश करत आहे. स्पर्धा आता फक्त कोण सर्वात सुंदर image तयार करू शकतो, यावर नाही. ती या गोष्टीवर आहे की कोणती system intent ला output मध्ये विश्वासार्हपणे रूपांतरित करू शकते, constraints टिकवू शकते, आणि वापरकर्त्याच्या comfort lines न ओलांडता ते करू शकते.

दिलेल्या source text च्या आधारावर, सध्या OpenAI कडे या दिशेने गती आहे. ChatGPT Images 2.0 ने आपल्या आधीच्या कमकुवत जागा पुरेशा प्रमाणात सुधारून या विशिष्ट तुलनेत एक मजबूत Google प्रतिस्पर्धी मागे टाकला आहे. पण तीच चाचणी हेही दाखवते की वापरकर्त्यांच्या अपेक्षा किती वेगाने वाढत आहेत. मजबूत visuals आता baseline आहेत. prompt discipline, वाचता येणारा text, context awareness, privacy behavior, हे नवीन निकष होत आहेत.

म्हणूनच हे एका दिवसाच्या विजयापेक्षा बाजार कुठे जातो आहे, याचे लक्षण अधिक आहे. image AI मधील विजेते फक्त चांगल्या चित्रांची निर्मिती करणार नाहीत. ते अधिक भरोसेमंद परिणाम देतील आणि ते परिणाम कसे घडतात, याबाबत वापरकर्त्यांना विश्वास देत राहतील.

हा लेख ZDNET च्या वार्तांकनावर आधारित आहे. मूळ लेख वाचा.