معيار جديد في الذكاء الاصطناعي الفعال
باحثو Apple، بالتعاون مع المتعاونين في جامعة University of Wisconsin-Madison، كشفوا عن إطار عمل تدريب يسمى RubiCap يطعن في أحد أكثر الافتراضات رسوخاً في الذكاء الاصطناعي: أن النماذج الأكبر حجماً تنتج دائماً نتائج أفضل. في معايير كتابة التسميات التوضيحية للصور، نماذج RubiCap بـ 7 مليارات معاملة فقط تفوقت باستمرار على الأنظمة المنافسة بعشرة أضعاف حجمها — وفي بعض الحالات، نماذج بـ 72 مليار معاملة.
الآثار تمتد بعيداً عن معيار واحد فقط. النماذج الأصغر والأكثر قدرة تعني تكاليف حوسبة أقل، استدلال أسرع، استهلاك طاقة أقل، وإمكانية تشغيل ميزات ذكاء اصطناعي قوية على الجهاز بدلاً من مراكز البيانات البعيدة. Apple، التي راهنت الكثير من استراتيجية Apple Intelligence على معالجة خاصة على الجهاز، لديها اهتمام استراتيجي واضح في الحصول على أقصى أداء من العمارات المدمجة.
ما الذي يفعله RubiCap فعلاً
معظم نماذج كتابة التسميات التوضيحية للصور تُنشئ وصفاً عاماً واحداً للمشهد. يستهدف RubiCap ما يسميه الباحثون dense captioning — إنتاج وصف مفصل وخاص بالمنطقة لعناصر متعددة داخل صورة واحدة. هذا هو نوع الفهم البصري الغني اللازم لتدريب نماذج vision-language أكثر قدرة، وتمكين البحث الدقيق عن الصور، وتفعيل ميزات إمكانية الوصول للمستخدمين ذوي الإعاقات البصرية.
يأتي الاختراق في التدريب من كيفية توليد RubiCap لإشارات التعلم. بدلاً من الاعتماد على مجموعات بيانات مشروحة يدوياً مكلفة أو أساليب التعلم الموجه التقليدية، يستخدم الإطار استراتيجية reinforcement learning. يستخدم نموذج frontier قوي — Gemini 2.5 Pro تحديداً — لتقييم التسميات التوضيحية المرشحة التي ينتجها نماذج أصغر. يحدد المقيّم نقاط الإجماع والفجوات عبر مخرجات مرشحة متعددة، ثم يصيغ معايير تقييم صريحة توجه النموذج الأصغر نحو مخرجات أفضل دون الحاجة إلى أي إجابة "صحيحة" من الحقيقة الأساسية.
هذا يمثل انحرافاً مهماً عن كيفية تدريب معظم النماذج الصغيرة. الأساليب التقليدية غالباً ما تتضمن distillation من نماذج كبيرة أو ضبط دقيق على مجموعات بيانات موسومة. RubiCap بدلاً من ذلك يعلم النموذج التفكير في جودة التسمية التوضيحية من خلال حلقات تغذية راجعة متكررة، مما يمكّنه من تطوير غرائز تقييم تتعمم على نطاق واسع.
ثلاث نماذج، إطار عمل واحد
أطلقت Apple ثلاث متغيرات تحت اسم RubiCap: نموذج بـ 2 مليار معاملة (RubiCap-2B)، نموذج بـ 3 مليارات معاملة (RubiCap-3B)، والنموذج الرائد RubiCap-7B بـ 7 مليارات معاملة. عبر جميع تقييمات المعايير، حققت متغيرة 7B أعلى معدلات الفوز، متفوقة على نماذج تصل إلى 72 مليار معاملة. تفوقت نسخة 3B على المنافسين الأكبر في عدة معايير محددة، مما يدل على أن حتى المتغيرة من الفئة المتوسطة تتفوق بكثير على توقعاتها.
بشكل حاسم، الحفاظ على معدلات hallucination منخفضة طوال الاختبار — وهي وضعية فشل مستمرة لأنظمة كتابة التسميات التوضيحية للصور التي تختلق تفاصيل غير موجودة في المشهد. Dense captioning يتطلب الانتباه لمناطق صور متعددة في نفس الوقت، مما يضخم خطر hallucination، مما يجعل أداء RubiCap في هذا البعد جديرة بملاحظة خاصة.
الكفاءة كهدف تصميم أساسي
يؤكد البحث اتجاهاً أوسع في تطوير الذكاء الاصطناعي: الانتقال من القوة الغاشمة للقياس نحو التطور المعماري والمنهجي. لسنوات، كانت الصيغة السائدة لأفضل ذكاء اصطناعي هي ببساطة تدريب نماذج أكبر على بيانات أكثر. RubiCap يثبت أن منهجية التدريب — كيف يتعلم النموذج، وليس فقط حجمه — يمكن أن تكون المتغير الحاسم.
بالنسبة لـ Apple، هذا يتوافق مباشرة مع قيود الأجهزة والخصوصية. تشغيل نموذج بـ 7 مليارات معاملة محلياً على iPhone أو Mac قابل للتطبيق مع أجهزة neural processing الحديثة. تشغيل نموذج بـ 72 مليار معاملة ليس كذلك. القدرة على تحقيق نتائج كتابة تسميات توضيحية من الدرجة الأولى من نموذج بحجم الجهاز يفتح الباب أمام ميزات إمكانية وصول أغنى، تنظيم صور أذكى، وبحث بصري أكثر قدرة دون توجيه الصور الحساسة عبر خوادم سحابية.
للبحث أيضاً آثار على صناعة الذكاء الاصطناعي الأوسع، حيث أصبح تكلفة تدريب ونشر نماذج frontier عائقاً كبيراً. إذا قابلت إقليمياً نهج reinforcement learning من RubiCap إلى حالات الاستخدام الأخرى، فيمكنها إعادة تشكيل كيف تفكر الشركات حول تطوير النموذج — معطية الأولوية لكفاءة التدريب على عدد المعاملات الخام.
النظر إلى الأمام
لم تعلن Apple عن جدول زمني لنشر منتجات RubiCap. المنشور هو ورقة بحثية، وليس إطلاق منتج. لكن تاريخ الشركة في نشر أبحاث الذكاء الاصطناعي التي تظهر في النهاية في ميزات نظام التشغيل — من التعرف على speech على الجهاز إلى neural machine translation — يقترح أن التقنيات يتم تطويرها مع نشر العالم الحقيقي في الاعتبار.
مع استمرار Apple Intelligence في التوسع عبر iOS و macOS و iPadOS، يمكن لقدرات مثل dense image captioning تحسين أدوات إمكانية الوصول، تسليط الضوء على البحث عن الصور السياقي، وتحسين دقة وصف الصور التي ولدتها AI. قد تكون الفجوة بين عرض البحث وميزة المستهلك، وهي تاريخياً رحلة من سنتين إلى ثلاث سنوات في Apple، تغلق بشكل أسرع مع تعميق الشركة جهودها في الذكاء الاصطناعي التطبيقي.
تعتمد هذه المقالة على تقارير 9to5Mac. اقرأ المقالة الأصلية.




