GPT-5.5 يتصدر معايير الذكاء الاصطناعي لكن الهلوسة لا تزال تعكر الصورة

نموذج أقوى مع مشكلة قديمة ما زالت ملاصقة له

وصل GPT-5.5 من OpenAI مع نوع العنوان الذي غالبًا ما يحدد إطلاق نموذج رئيسي: فهو يتصدر الآن Artificial Analysis Intelligence Index، متقدمًا على أبرز المنافسين من Anthropic وGoogle، وفقًا للنص المصدر المرفق. من ناحية الأداء، يجعل ذلك تلخيص الإطلاق سهلًا. أما الجزء الأصعب فهو أن التقرير نفسه يصف نقطة ضعف مستمرة وخطيرة: الهلوسة.

يعرض The Decoder GPT-5.5 على أنه نموذج يحسن صورة السعر مقابل الأداء على الحدود الأمامية دون أن يحل إحدى أكثر العيوب السلوكية عنادًا في نماذج اللغة الكبيرة. وهذا المزيج أصبح أكثر مركزية في كيفية تقييم أنظمة الذكاء الاصطناعي المتقدمة. درجات أفضل وكفاءة أعلى أمران مهمان. وكذلك معرفة النموذج متى لا يعرف.

ما الذي تحسن

يقول المصدر إن GPT-5.5 يحقق 60 نقطة على Artificial Analysis Intelligence Index، ما يضعه أعلى بثلاث نقاط من Claude Opus 4.7 وGemini 3.1 Pro Preview، اللذين تعادلا عند 57. كما يذكر أن النموذج يستخدم نحو 40 في المائة أقل من الرموز مقارنةً بـ GPT-5.4. هذا الانخفاض في استهلاك الرموز مهم لأنه يغير اقتصاديات الإصدار.

اسميًا، تضاعف سعر واجهة برمجة التطبيقات لـ GPT-5.5 إلى 5 دولارات لكل مليون رمز إدخال و30 دولارًا لكل مليون رمز إخراج، مقارنةً بـ GPT-5.4. لكن انخفاض استهلاك الرموز يخفف هذه الزيادة عمليًا. ويقدّر المصدر أن الارتفاع الفعلي في التكلفة يبلغ نحو 20 في المائة بعد احتساب مكاسب الكفاءة. وبالمقاييس المعيارية، يجادل أيضًا بأن GPT-5.5 قادر على الوصول إلى مستوى Claude Opus 4.7 عند مستوى حوسبة متوسط مقابل تكلفة أقل بكثير من نموذج Anthropic عند الإعدادات القصوى.

هذا هو نوع المفاضلة التي يلاحظها المطورون فعلًا. لم تعد منافسة النماذج الأمامية تدور فقط حول من يتصدر لوحة الصدارة. بل أصبحت تدور حول ما إذا كانت مكاسب الأداء تأتي مع استخدام معقول للرموز، وزمن استجابة قابل للإدارة، وموثوقية كافية تبرر النشر في الإنتاج. ووفق هذه المعايير، يبدو أن GPT-5.5 يعزز موقع OpenAI.

OpenAI says "chat is dead" and plans to rebuild ChatGPT as a full-blown agent app

OpenAI Declares 'Chat is Dead,' Plans to Rebuild ChatGPT as a Full-Blown Agent App

OpenAI is overhauling ChatGPT into a 'superapp' that bundles coding tools, AI agents, and partner integrations like Canva and Booking.com, moving beyond simple chat.

Read article

لماذا تظل مشكلة الهلوسة مهمة

الجزء الأكثر إزعاجًا في المصدر هو الادعاء بأن GPT-5.5 لا يزال يسجل معدل هلوسة يبلغ 86 في المائة على معيار AA Omniscience من Artificial Analysis. وحتى مع دقة رائدة في هذا المعيار الذي يركز على الحقائق، يُقال إن النموذج لا يزال يختلق الإجابات بدلًا من الاعتراف بثغراته على نحو ثابت.

هذا الفرق حاسم. يمكن لنموذج أن يتفوق على منافسيه في المهام الواقعية الإجمالية، ومع ذلك يظل سريعًا جدًا في الإجابة بثقة عندما ينبغي أن يمتنع. بالنسبة للمستخدمين، ولا سيما في البيئات التقنية أو التشغيلية، ليس هذا السلوك مجرد تفصيل جانبي. إنه غالبًا الفارق بين مساعد مفيد وآخر ينطوي على مخاطرة.

والدرس الأوسع هو أن تصنيفات الذكاء والموثوقية ليستا شيئًا واحدًا. قد يشير ملف أقوى في المعايير إلى تفكير أفضل، أو معرفة أوسع، أو استخدام أكثر فاعلية للحوسبة أثناء الاستدلال. لكنه لا يعني تلقائيًا أن النموذج أصبح منضبطًا في التعامل مع عدم اليقين. ويبدو أن GPT-5.5، كما وُصف هنا، يعمق هذه الفجوة بدلًا من سدها.

كيف يندمج هذا الإصدار في السوق الأوسع

يقارن المصدر GPT-5.5 ليس فقط مع Claude Opus 4.7 من Anthropic، بل أيضًا مع Gemini 3.1 Pro Preview من Google. ويشير هذا التأطير إلى أن Gemini لا يزال جذابًا من حيث التكلفة والتنوع، خاصة عبر منتجات Google وفي مهام الرؤية، بينما تميل أحدث أنظمة OpenAI وAnthropic إلى التفوق في البرمجة والعمل الوكيلي. وهذه لقطة مفيدة لموقع سباق الذكاء الاصطناعي التجاري: المشترون لا يختارون نموذجًا واحدًا هو الأفضل بشكل مجرد، بل يطابقون نقاط قوة النموذج مع سير العمل.

لذلك يبدو إصدار GPT-5.5 أقل كضربة قاضية وأكثر كإعادة ضبط للحدود الأمامية. يبدو أن OpenAI استعادت الصدارة في المعايير وحسنت كفاءة الرموز، لكن المفاضلات ما زالت واضحة. السعر ما زال مرتفعًا. والهلوسة ما زالت عالية. كما أن قيادة المعايير لا تمحو الضغط التنافسي من المنافسين الذين قد يكونون أرخص أو أكثر ضبطًا لمهام محددة.

ماذا يعني ذلك للمستخدمين

قد يحصل المطورون على أداء أفضل في الطليعة دون قفزة متناسبة في تكاليف الرموز العملية.
لا ينبغي الخلط بين مكاسب المعايير وبين حل موثوقية الحقائق.
لا تزال حالات الاستخدام عالية المخاطر تحتاج إلى حواجز حماية أو تحقق أو سير عمل يركز على الامتناع عن الإجابة.

هذا يجعل GPT-5.5 خطوة مهمة لكنها غير مكتملة. فهو يدفع حدود الأداء إلى الأمام ويحسن الكفاءة بما يكفي ليكون له أثر تجاري. وفي الوقت نفسه، يحافظ على التوتر الأساسي الذي رافق الذكاء الاصطناعي التوليدي الحديث منذ بدايته: الأنظمة أصبحت أذكى، لكنها ليست متواضعة على نحو موثوق. وحتى يتغير ذلك، ستظل كل انتصار جديد في المعايير مرفقًا بنجمة تشغيلية.

هذه المقالة مبنية على تغطية The Decoder. اقرأ المقال الأصلي.

Microsoft Hacked to Deliver Malware to Claude and Gemini Users

Microsoft Shuts Down 70+ GitHub Repos After Hackers Plant Malware Targeting AI Coding Agents

Microsoft disabled over 70 GitHub repositories after hackers injected malware that steals credentials from AI coding tools like Claude Code and Gemini CLI.

Read article

Originally published on the-decoder.com