يبدو أن أحدث نموذج صور من OpenAI قد سد فجوة كبيرة

تشير جولة جديدة من اختبارات توليد الصور أجرتها ZDNET إلى أن OpenAI حققت قفزة كبيرة في جودة الصور وفهم التعليمات النصية. في مقارنة من تسع اختبارات نُشرت في 27 أبريل، حصل ChatGPT Images 2.0 على 97%، متفوقًا على Nano Banana من Google Gemini الذي سجل 85%. وتكتسب النتيجة أهمية لأن مقارنة سابقة كانت قد وضعت ChatGPT متأخرًا بوضوح عن نظام الصور لدى Google. هذه المرة انقلب الترتيب.

ويعرض المقال الأصلي النتيجة على أنها أكثر من مجرد مواجهة بسيطة بين نموذجين. فهو يجادل بأن تحديث OpenAI ليس أفضل بشكل طفيف فحسب، بل تحسن بشكل كبير في المجالات التي تهم الاستخدام اليومي: اتباع التعليمات، والتعامل مع النص داخل الصور، والحفاظ على توافق المخرجات مع الطلب الأصلي. وهذه هي بالضبط المهام التي غالبًا ما تفصل بين عرض مبهر وأداة يمكن الاعتماد عليها في العمل الحقيقي.

لماذا تبرز هذه النتيجة

أصبح توليد الصور واحدًا من أسرع مجالات الذكاء الاصطناعي تطورًا. يمكن للعديد من الأنظمة الآن إنتاج صور جذابة، لكن الاتساق لا يزال مشكلة أصعب. لا يريد المستخدمون مجرد شيء ملفت بصريًا. بل يريدون نظامًا يفهم السياق، يلتزم بالقيود، ولا يبتعد عما طُلب منه.

وفقًا للنص المصدر المقدم، هنا حقق ChatGPT Images 2.0 أكبر مكاسبه. قالت ZDNET إن النموذج تحسن “dramatically”، وأشارت تحديدًا إلى تحسن واضح في الوعي بالسياق. كما شدد المقال على عرض النصوص داخل الصور، وهو مجال عانت فيه نماذج الصور تاريخيًا. إذا استطاع نموذج وضع نص مقروء ومناسب داخل صورة مع الالتزام بالطلب، فإنه يصبح أكثر فائدة للعروض التقديمية، والنماذج الأولية، والمخططات، والمرئيات التعليمية، ومهام التصميم الخفيفة.

لم ينهَر Nano Banana من Google في المقارنة. فدرجة 85% لا تزال تشير إلى نظام قادر. لكن التقرير يقول إنه تعثر في الانضباط تجاه الطلبات وفي التعامل مع النصوص، وهما نقطتان ضعيفتان يمكن أن تصبحا سريعًا عائقًا حاسمًا خارج نطاق التجربة العابرة. عمليًا، هذا يعني أن المستخدم قد يحصل على صورة مبهرة من نموذج Google، لكنه قد يقضي وقتًا أطول في تصحيحها أو إعادة توليدها.