أحدث نموذج رائد من Anthropic موجّه مباشرةً إلى أعمال البرمجة
أطلقت Anthropic نموذج Claude Opus 4.7 كتحديث مباشر لـ Opus 4.6، واضعةً النموذج بوصفه نظامًا أكثر قدرة على البرمجة الذاتية والأعمال التقنية المعقدة. وبالاستناد إلى المادة المصدرية المقدمة، فإن العنوان الأبرز هو تحسن كبير في معيار SWE-bench Pro الخاص بالبرمجة، حيث سجل Opus 4.7 نسبة 64.3 في المئة مقابل 53.4 في المئة لـ Opus 4.6.
ويذكر التقرير أيضًا أن هذه النتيجة تضع النموذج فوق GPT-5.4 من OpenAI الذي سجل 57.7 في المئة على المعيار نفسه، مع بقائه خلف Claude Mythos Preview الخاص بـ Anthropic الذي سجل 77.8 في المئة. هذا الإطار مهم. فالشركة لا تقدم Opus 4.7 باعتباره أقصى نظام تجريبي لديها على الإطلاق، بل كنموذج موجه للإنتاج يحسن بصورة ملموسة عن سلفه المباشر في مجال مهم تجاريًا: هندسة البرمجيات.
بالنسبة إلى المشترين من الشركات وفرق التطوير، يُعد أداء البرمجة أحد أوضح الفروقات في منتجات الذكاء الاصطناعي لأنه يرتبط مباشرةً بتوفير الوقت وتقليل الأخطاء والقدرة على أتمتة أعمال هندسية محددة النطاق. ويشير إعلان Anthropic إلى أن الشركة تواصل المنافسة عبر تحسين جودة المخرجات العملية بدلًا من الاعتماد على إعادة تموضع تسويقي شامل.
اتباع التعليمات والرؤية يتقدمان أيضًا
وتقول Anthropic أيضًا إن Opus 4.7 يتبع التعليمات بدقة أكبر من Opus 4.6. قد يبدو ذلك تحسنًا تدريجيًا، لكنه قد تكون له عواقب حقيقية في بيئة الإنتاج. وتشير المادة المصدرية إلى أن المطالبات المكتوبة للنماذج الأقدم قد تنتج الآن نتائج غير متوقعة لأن النظام الجديد يفسر التعليمات بصورة أكثر حرفية، بدلًا من التعامل معها بمرونة أو تجاوز أجزاء منها.
هذا النوع من التغيير يحمل أثرين متعاكسين. فالالتزام الأفضل قد يجعل سلوك النموذج أكثر موثوقية عندما تكون المطالبات مكتوبة جيدًا، لكنه قد يكشف أيضًا ضعف تصميم المطالبات الذي كان يمر سابقًا دون ملاحظة. عمليًا، قد تحتاج الفرق التي تنتقل إلى Opus 4.7 إلى مراجعة المطالبات الحالية، والضوابط، ومسارات التقييم بدلًا من افتراض التكافؤ الجاهز.
أما الرؤية فهي مجال آخر شهد تغييرًا ملحوظًا. ووفقًا للنص المقدم، يعالج النموذج الآن الصور حتى 2,576 بكسل على الحافة الأطول، أو نحو 3.75 ميغابكسل، وهو ما تقول Anthropic إنه يزيد بأكثر من ثلاثة أضعاف ما كانت النماذج السابقة من Claude قادرة على التعامل معه. وترتبط الشركة بذلك بأداء أفضل لوكلاء استخدام الحاسوب الذين يقرؤون لقطات شاشة كثيفة، وكذلك لاستخراج المعلومات من المخططات المعقدة.
ويذكر المقال ارتفاعًا في معيار OfficeQA Pro للاستدلال على المستندات من 57.1 في المئة مع Opus 4.6 إلى 80.6 في المئة مع Opus 4.7. كما يصف مكاسب في الاستدلال الجزيئي الحيوي والتنقل البصري على ScreenSpot-Pro. وبالنظر إلى هذه التغييرات مجتمعة، يبدو أن Anthropic تتعامل مع الفهم البصري لا كميزة جانبية، بل كجزء أساسي من فائدة النموذج في سير العمل المكتبية والتقنية والوكيلية.
Anthropic تجعل المفاضلات الأمنية واضحة
من التفاصيل غير المعتادة في هذا الإصدار أنه لا يضيف قدرة جديدة فقط، بل يفرض تقييدًا متعمدًا أيضًا. فالمصدر يقول إن Anthropic حاولت أثناء التدريب خفض القدرات السيبرانية الخطرة، وهي تحجب الآن تلقائيًا الطلبات ذات الصلة. وهذا يجعل Opus 4.7 لافتًا ليس فقط لأنه أكثر قدرة إجمالًا، بل لأنه أقل قدرة بصورة انتقائية في مجال تعتبره الشركة خطيرًا.
هذه إشارة مهمة للسوق. فكثير من إعلانات النماذج المتقدمة تركز أولًا على المكاسب الخام ثم على لغة السياسات. أما هنا، فتبدو Anthropic وكأنها تبرز فكرة أن النماذج الأعلى أداءً لا تحتاج إلى التقدم بالتساوي في كل مجال. ورسالة المنتج هي أن دعم البرمجة الأقوى والفهم البصري الأقوى لا يعنيان بالضرورة سلوكًا سيبرانيًا غير مقيد.
وسيتوقف ما إذا كان العملاء سيعتبرون ذلك ميزة أم قيدًا على حالة الاستخدام. لكن بالنسبة إلى تطوير البرمجيات السائد، تراهن الشركة على أن الإجابة واضحة: الحدود الأكثر أمانًا حول السلوك المرتبط بالسيبرانية مقبولة إذا كانت جودة البرمجة لا تزال ترتفع بشكل حاد.
قد تكون ملاحظة التسعير مهمة بقدر مكسب المعيار
ويذكر التقرير أن تسعير كل رمز يبقى من دون تغيير، لكنه يضيف تحذيرًا مهمًا: إن tokenizer جديدًا قد يربط النص نفسه بما يصل إلى 35 في المئة رموزًا أكثر. وهذا يعني أن التكلفة الفعلية للطلب قد ترتفع حتى عندما لا يتغير السعر المنشور لكل رمز.
هذه التفاصيل يسهل تفويتها ويصعب على المشترين تجاهلها. فالمؤسسات التي تقيم نماذج الذكاء الاصطناعي تهتم بشكل متزايد بالاقتصاد الفعلي لأحمال العمل، لا بمجرد جداول الأسعار المعلنة. وإذا كانت تغييرات الترميز تزيد الاستخدام القابل للفوترة، فإن تقييم نموذج جديد يتطلب قياس الدقة والزمن والتكلفة معًا.
بعبارة أخرى، قد يكون Claude Opus 4.7 أفضل بشكل ملموس، لكنه قد لا يكون أرخص بشكل ملموس في مهمة معينة. وهذا لا ينتقص من الإصدار، لكنه ينقل النقاش من الأداء العنواني إلى القيمة التشغيلية.
إصدار منتج موجّه للمستخدمين الجادين
وبالاستناد إلى المادة المقدمة، فإن Claude Opus 4.7 إصدار مركّز: برمجة ذاتية أفضل، معالجة صور أفضل، التزام أكثر حرفية بالمطالبات، ومحاولة أوضح لكبح السلوك السيبراني الخطير. إنه لا يُباع بوصفه قفزة غامضة في الذكاء، بل كنظام تقني أكثر فائدة.
وهذا ما يجعل الإطلاق لافتًا. سوق الذكاء الاصطناعي ينتقل من الادعاءات العامة إلى الفوارق المنتجية الأوضح. وتشير خطوة Anthropic الأخيرة إلى أن أحد هذه الفوارق سيكون الاستعداد لتحسين القدرات عالية القيمة مع تقييد قدرات أخرى عمدًا.
تعتمد هذه المقالة على تقرير من The Decoder. اقرأ المقال الأصلي.
Originally published on the-decoder.com




