نموذج أقوى مع مشكلة قديمة ما زالت ملاصقة له

وصل GPT-5.5 من OpenAI مع نوع العنوان الذي غالبًا ما يحدد إطلاق نموذج رئيسي: فهو يتصدر الآن Artificial Analysis Intelligence Index، متقدمًا على أبرز المنافسين من Anthropic وGoogle، وفقًا للنص المصدر المرفق. من ناحية الأداء، يجعل ذلك تلخيص الإطلاق سهلًا. أما الجزء الأصعب فهو أن التقرير نفسه يصف نقطة ضعف مستمرة وخطيرة: الهلوسة.

يعرض The Decoder GPT-5.5 على أنه نموذج يحسن صورة السعر مقابل الأداء على الحدود الأمامية دون أن يحل إحدى أكثر العيوب السلوكية عنادًا في نماذج اللغة الكبيرة. وهذا المزيج أصبح أكثر مركزية في كيفية تقييم أنظمة الذكاء الاصطناعي المتقدمة. درجات أفضل وكفاءة أعلى أمران مهمان. وكذلك معرفة النموذج متى لا يعرف.

ما الذي تحسن

يقول المصدر إن GPT-5.5 يحقق 60 نقطة على Artificial Analysis Intelligence Index، ما يضعه أعلى بثلاث نقاط من Claude Opus 4.7 وGemini 3.1 Pro Preview، اللذين تعادلا عند 57. كما يذكر أن النموذج يستخدم نحو 40 في المائة أقل من الرموز مقارنةً بـ GPT-5.4. هذا الانخفاض في استهلاك الرموز مهم لأنه يغير اقتصاديات الإصدار.

اسميًا، تضاعف سعر واجهة برمجة التطبيقات لـ GPT-5.5 إلى 5 دولارات لكل مليون رمز إدخال و30 دولارًا لكل مليون رمز إخراج، مقارنةً بـ GPT-5.4. لكن انخفاض استهلاك الرموز يخفف هذه الزيادة عمليًا. ويقدّر المصدر أن الارتفاع الفعلي في التكلفة يبلغ نحو 20 في المائة بعد احتساب مكاسب الكفاءة. وبالمقاييس المعيارية، يجادل أيضًا بأن GPT-5.5 قادر على الوصول إلى مستوى Claude Opus 4.7 عند مستوى حوسبة متوسط مقابل تكلفة أقل بكثير من نموذج Anthropic عند الإعدادات القصوى.

هذا هو نوع المفاضلة التي يلاحظها المطورون فعلًا. لم تعد منافسة النماذج الأمامية تدور فقط حول من يتصدر لوحة الصدارة. بل أصبحت تدور حول ما إذا كانت مكاسب الأداء تأتي مع استخدام معقول للرموز، وزمن استجابة قابل للإدارة، وموثوقية كافية تبرر النشر في الإنتاج. ووفق هذه المعايير، يبدو أن GPT-5.5 يعزز موقع OpenAI.