يبدو أن أحدث نموذج صور من OpenAI قد سد فجوة كبيرة
تشير جولة جديدة من اختبارات توليد الصور أجرتها ZDNET إلى أن OpenAI حققت قفزة كبيرة في جودة الصور وفهم التعليمات النصية. في مقارنة من تسع اختبارات نُشرت في 27 أبريل، حصل ChatGPT Images 2.0 على 97%، متفوقًا على Nano Banana من Google Gemini الذي سجل 85%. وتكتسب النتيجة أهمية لأن مقارنة سابقة كانت قد وضعت ChatGPT متأخرًا بوضوح عن نظام الصور لدى Google. هذه المرة انقلب الترتيب.
ويعرض المقال الأصلي النتيجة على أنها أكثر من مجرد مواجهة بسيطة بين نموذجين. فهو يجادل بأن تحديث OpenAI ليس أفضل بشكل طفيف فحسب، بل تحسن بشكل كبير في المجالات التي تهم الاستخدام اليومي: اتباع التعليمات، والتعامل مع النص داخل الصور، والحفاظ على توافق المخرجات مع الطلب الأصلي. وهذه هي بالضبط المهام التي غالبًا ما تفصل بين عرض مبهر وأداة يمكن الاعتماد عليها في العمل الحقيقي.
لماذا تبرز هذه النتيجة
أصبح توليد الصور واحدًا من أسرع مجالات الذكاء الاصطناعي تطورًا. يمكن للعديد من الأنظمة الآن إنتاج صور جذابة، لكن الاتساق لا يزال مشكلة أصعب. لا يريد المستخدمون مجرد شيء ملفت بصريًا. بل يريدون نظامًا يفهم السياق، يلتزم بالقيود، ولا يبتعد عما طُلب منه.
وفقًا للنص المصدر المقدم، هنا حقق ChatGPT Images 2.0 أكبر مكاسبه. قالت ZDNET إن النموذج تحسن “dramatically”، وأشارت تحديدًا إلى تحسن واضح في الوعي بالسياق. كما شدد المقال على عرض النصوص داخل الصور، وهو مجال عانت فيه نماذج الصور تاريخيًا. إذا استطاع نموذج وضع نص مقروء ومناسب داخل صورة مع الالتزام بالطلب، فإنه يصبح أكثر فائدة للعروض التقديمية، والنماذج الأولية، والمخططات، والمرئيات التعليمية، ومهام التصميم الخفيفة.
لم ينهَر Nano Banana من Google في المقارنة. فدرجة 85% لا تزال تشير إلى نظام قادر. لكن التقرير يقول إنه تعثر في الانضباط تجاه الطلبات وفي التعامل مع النصوص، وهما نقطتان ضعيفتان يمكن أن تصبحا سريعًا عائقًا حاسمًا خارج نطاق التجربة العابرة. عمليًا، هذا يعني أن المستخدم قد يحصل على صورة مبهرة من نموذج Google، لكنه قد يقضي وقتًا أطول في تصحيحها أو إعادة توليدها.
ما الذي تغير منذ الجولة السابقة
أكثر تفصيل لافت في المقال ليس فقط أن ChatGPT فاز، بل مقدار الحسم الذي حققه مقارنةً بالاختبار المرجعي السابق. قالت ZDNET إنه عندما أجرت اختبارات مشابهة في ديسمبر 2025، سجل Nano Banana نسبة 93% بينما حقق ChatGPT 74%، وتراجع أداؤه جزئيًا لأنه رفض بعض الطلبات المتعلقة بالثقافة الشعبية. في المقارنة الأحدث، ارتفع نموذج OpenAI إلى 97% بينما تراجعت درجة Gemini إلى 85%.
يوحي هذا التحول بأن تغييرين منفصلين قد يحدثان في الوقت نفسه. أولًا، يبدو أن OpenAI حسنت جودة التوليد الأساسية واتباع التعليمات. ثانيًا، نتائج المعايير في هذه الفئة هشة لأنها تعتمد بدرجة كبيرة على سياسة الطلبات، وسلوك الرفض، وضبط النموذج. يمكن للشركة أن تغير سلوك المنتج بطرق تجعل النموذج يبدو أذكى أو أكثر تساهلًا أو أكثر حذرًا أو كل ذلك معًا.
وهذا مهم للمستخدمين الذين يقارنون الأدوات عبر الزمن. ففي الذكاء الاصطناعي للصور، الأداء ليس ثابتًا. فالنموذج الذي بدا متأخرًا بوضوح قبل بضعة أشهر يمكن أن يصبح سريعًا الرائد إذا كانت نقاط ضعفه محدودة وركزت فرق المنتج على إصلاحها.
أبعد من الجاذبية البصرية، أصبحت القيمة المؤسسية أوضح
يشير النص المصدر إلى خلاصة أوسع: نماذج الصور تُقيّم بشكل متزايد بناءً على فائدتها لا على حداثتها. كانت OpenAI قد طرحت بالفعل فكرة أن ChatGPT Images 2.0 يمكنه استخدام السياق والبيانات الحقيقية بفعالية أكبر من ذي قبل. وتمتد هذه المقارنة بالحجة نفسها إلى مهام توليد الصور التقليدية أكثر، وتشير إلى أن النموذج الجديد لا يضحي بالجودة الأساسية من أجل الميزات المتقدمة.
وهذا مهم لأن الشركات والمهنيين لا يريدون أدوات منفصلة لكل مهمة بصرية. إنهم يريدون نظامًا واحدًا يمكنه التعامل مع توليد الأفكار، والرسومات الغنية بالنصوص، والتوليد المرتبط بالسياق من دون إصلاح مستمر للطلبات. وإذا كانت اختبارات ZDNET ممثلة للواقع، فإن ChatGPT Images 2.0 يقترب أكثر من هذا الدور العام الشامل.
ويشير المقال أيضًا إلى أن التسمية والتغليف أصبحتا جزءًا من المشكلة. يُتوقع من المستخدمين مواكبة تسميات المنتجات والأوضاع والإصدارات المتداخلة عبر منصات الذكاء الاصطناعي المختلفة. قد يبدو هذا الارتباك شكليًا، لكنه يترتب عليه آثار حقيقية. إذ يصبح من الأصعب على المشترين والفرق والمستخدمين غير المتخصصين معرفة ما الذي تحسن فعليًا وما القدرة التي يختبرونها بالضبط.
التحفظ: يمكن أن يصبح التخصيص مشكلة خصوصية
التحذير الأكثر جدية في المقال الأصلي لا يتعلق بجودة الصورة على الإطلاق. قالت ZDNET إن “personalization surprise” في Gemini أثارت مخاوف بشأن الخصوصية. ورغم أن النص المقدم لا يفصل المثال النهائي، فإنه يوضح أن أحد أبرز نتائج المقارنة كان سلوكًا بدا “freaky and uncool”.
ويستحق هذا التحذير الانتباه لأن نماذج الصور تتحرك نحو وعي أكبر بالسياق واندماج أعمق مع بيانات المستخدم. فالميزة نفسها التي تساعد النموذج على إنتاج نتائج أكثر صلة وتخصيصًا قد تربك المستخدمين أيضًا إذا بدا أنه يعرف أكثر مما ينبغي، أو يستنتج أكثر مما ينبغي، أو يخصّص دون توقع واضح.
ومن المرجح أن يصبح هذا أحد خطوط الصدع الرئيسية التالية في المنافسة على الذكاء الاصطناعي الاستهلاكي. لا تزال الدقة والإبداع مهمين، لكن الثقة تزداد أهمية بالقدر نفسه تقريبًا. فالنموذج الذي يبدو متدخلًا قد يفقد أرضًا حتى لو كان أداؤه التقني جيدًا.
ما الذي تخبرنا به التجربة فعليًا
القصة الأكبر هي أن توليد الصور يدخل مرحلة أكثر نضجًا. لم تعد المسابقة تتعلق فقط بمن يستطيع صنع أجمل صورة. بل أصبحت تتعلق بأي نظام يمكنه تحويل النية إلى مخرجات بشكل موثوق، والحفاظ على القيود، وفعل ذلك من دون تجاوز حدود راحة المستخدم.
وبناءً على النص المصدر المقدم، تمتلك OpenAI الزخم حاليًا في هذا المسار. يبدو أن ChatGPT Images 2.0 أصلح ما يكفي من نقاط ضعفه السابقة ليتفوق على منافس قوي من Google في هذه المقارنة المحددة. لكن الاختبار نفسه يوضح أيضًا مدى سرعة ارتفاع توقعات المستخدمين. فالمرئيات القوية أصبحت الآن الحد الأدنى. أما الانضباط في الطلبات، والنص المقروء، والوعي بالسياق، وسلوك الخصوصية، فتتحول إلى المعايير الجديدة.
وهذا يجعل الأمر أقل شبهاً بانتصار يوم واحد وأكثر شبهاً بإشارة إلى الاتجاه الذي يسير فيه السوق. الفائزون في الذكاء الاصطناعي للصور لن يكتفوا بتوليد صور أفضل. بل سيولدون نتائج أكثر موثوقية مع منح المستخدمين ثقة في كيفية تشكّل تلك النتائج.
هذا المقال مبني على تقرير من ZDNET. اقرأ المقال الأصلي.
Originally published on zdnet.com







