Google توسّع نطاق فيديو الذكاء الاصطناعي للمستهلكين

تُطرح قدرة Gemini Omni الجديدة من Google، وفقا للمواد المرشحة المقدمة، بوصفها خطوة كبيرة إلى الأمام في الفيديو المولَّد بالذكاء الاصطناعي. والوصف طموح: يمكن للمستخدمين دمج النصوص والصور والصوت والفيديو كمدخلات، وإنشاء مقاطع عالية الجودة، بل وحتى إنتاج مقاطع تعتمد على صورة رمزية تبدو وتصدر الصوت مثلهم. وإذا عملت هذه الحزمة كما هو معلن، فإن Omni ليست مجرد إصدار نموذج آخر. إنها محاولة لجعل توليد الفيديو متعدد الوسائط جزءا من سير العمل السائد للمستهلكين وصنّاع المحتوى.

تصوغ المادة المصدرية Omni على أنها تقوم للفيديو بما فعله إصدار صور سابق من Google للصور: رفع مستوى التوقعات من حيث جودة التوليد وقابليته للتحكم. هذه المقارنة مهمة لأن الفيديو ظل أصعب من الصور الثابتة في عدة جوانب في الوقت نفسه، بما في ذلك الاتساق، والتحرير، واتساق الهوية، والحركة المقنعة. يبدو أن Google تجادل بأن Omni تضيق هذه الفجوات بما يكفي لنقل توليد الفيديو إلى المنتجات اليومية بدلا من إبقائه مجرد عرض متخصص.

ما الذي يجعل Omni لافتا

تظهر من التغطية المقدمة ثلاثة عناصر بارزة. الأول هو الإدخال متعدد الوسائط. تقول Google إن المستخدمين يمكنهم البدء بالنص أو الصور أو الصوت أو الفيديو، بدلا من أن يكونوا مقيدين بنوع واحد من المطالبات. وهذا يشير إلى بيئة إنتاج أكثر مرونة يمكن للمبدعين أن يبدأوا فيها بلقطات أولية، أو صورة مرجعية، أو نص مكتوب، أو مسار صوتي، أو تعليمات بلغة طبيعية.

العنصر الثاني هو الإطلاق المتدرج. يقول نص المرشح إن Omni ستُطرح أولا باسم Gemini Omni Flash وستصل إلى تطبيق Gemini وGoogle Flow وYouTube Shorts. إن مسار التوزيع هذا أهم من اسم النموذج نفسه، لأنه يضع توليد الفيديو في الأماكن التي يقضي فيها المستخدمون العاديون وقتهم بالفعل، خصوصا في بيئات إنشاء المحتوى القصير.

العنصر الثالث هو توليد الصور الرمزية. تقول Google إن المستخدمين يمكنهم إنشاء نسخة رقمية من أنفسهم وإنتاج مقاطع تبدو وتصدر الصوت مثلهم. وقد تكون هذه هي الميزة الأكثر جاذبية تجاريا في الحزمة لأنها تعالج مشكلة حقيقية لدى صناع المحتوى: إنتاج فيديو مصقول من دون الظهور أمام الكاميرا في كل مرة. لكنها أيضا الميزة الأكثر احتمالا لإثارة المخاوف فوريا.

مشكلة الثقة تأتي مع المنتج

القدرة نفسها التي تساعد المبدع على النشر بكفاءة أكبر تجعل محاكاة الهوية أسهل أيضا. ويشير النص المصدر المقدم صراحة إلى مخاوف بشأن الخصوصية والواقعية والثقة. وهذا هو التأطير الصحيح. فعندما تصبح المنصة قادرة على إنشاء فيديو قائم على ملامح شخص وصوته، لم يعد السؤال المركزي هو ما إذا كان الناتج يبدو جيدا. بل هل يستطيع المشاهدون التمييز بشكل موثوق بين ما هو اصطناعي، وما هو محرر، وما هو حقيقي.

هذه المخاوف ليست مجردة. فقد حمل الفيديو طويلا هالة إثباتية لا يمتلكها النص والصور الثابتة دائما. ومع تحسن الإنتاج الاصطناعي، تضعف هذه الميزة. وإذا أصبحت المقاطع المعتمدة على الصور الرمزية شائعة في المنتجات الاستهلاكية، فسوف تصبح الوسوم والأصل والسياسة متطلبات منتج، لا مجرد أفكار متأخرة في الحوكمة.

يبدو أن Google تدرك حجم الفرصة، لكن المواد المقدمة تترك تفاصيل تنفيذية أساسية مفتوحة. وهذا الغموض جزء من القصة. فالمكان الذي تتوفر فيه Omni بالضبط، وكيف تُوسَم المخرجات، وما الضمانات المطبقة على استخدام الهوية، وكيف تتحرك المقاطع المولدة عبر منظومة Google، كلها عوامل ستحدد ما إذا كانت الميزة ستصل كأداة إبداعية مفيدة أم ستسرع موجة جديدة من انعدام الثقة في الوسائط الاصطناعية.

أداة للمبدعين ومخاطرة للمنصة في آن واحد

من منظور الإنتاج، يسهل فهم Omni. فالمبدعون يريدون تكرارا أسرع، وتحكما في الأسلوب، وتحريرا أنظف، والقدرة على إعادة استخدام الأصول عبر الأشكال المختلفة. والنظام الذي يقبل مدخلات مختلطة ويعيد فيديو مصقولا يخفض الحاجز العملي أمام إنتاج المحتوى. ولهذا من المرجح أن تكون الميزة جذابة في التسويق والتعليم والشروحات والترفيه القصير.

لكن سهولة الإنشاء نفسها قد تغمر المنصات بمخرجات اصطناعية. وتذكر المادة المصدرية صراحة احتمال ظهور مزيد من محتوى الذكاء الاصطناعي الرديء إلى جانب أعمال مفيدة فعلا. وهذه هي التوترات التي تحدد كثيرا من الوسائط التوليدية اليوم. فالأدوات الأفضل لا ترفع السقف فقط، بل ترفع أيضا حجم المحتوى المقبول بشكل كبير.

وبالنسبة إلى YouTube Shorts والواجهات المشابهة، قد يصبح ذلك قضية اقتصادية بقدر ما هو قضية تحريرية. فعندما يصبح إنشاء الفيديو أرخص، يدخل محتوى أكثر إلى النظام، وتشتد المنافسة على الانتباه، وتصبح الأصالة ميزة تمييز أقوى. عندها تواجه المنصات تحديا أصعب في الإشراف: ليس فقط التزييف العميق الضار، بل فئة أوسع من المحتوى الاصطناعي المسموح به والمقنع والصعب على نطاق واسع من حيث السياق.

لماذا تهم Omni أبعد من هذا الإصدار

تكمن الأهمية الأعمق لـ Omni في أنها تدفع محاولة Google لدمج نماذج الاستدلال مع توليد الوسائط. تؤكد صياغة المنتج في النص المصدر هذا الربط. فالهدف ليس مجرد إنشاء مقاطع من المطالبات، بل ربط المخرجات بمعرفة أوسع ومدخلات متنوعة. وإذا نجح ذلك، فهو يشير إلى مستقبل تعمل فيه أنظمة الوسائط التوليدية أقرب إلى بيئات إنتاج، لا إلى أدوات غرائبية معزولة.

ويأتي هذا المستقبل مع المفاضلات المألوفة. فالواجهات الأفضل ستساعد المبدعين الشرعيين على العمل أسرع، لكنها ستجعل أيضا الهوية الاصطناعية والتلفيق المقنع أسهل في الإنتاج. Omni لا تخلق هذه المعضلة، لكنها تدفعها أقرب إلى الاستخدام العادي.

لذلك، فإن إصدار Google مهم على مستويين. إنه قصة قدرة تتعلق بتوليد فيديو بالذكاء الاصطناعي أقوى. كما أنه قصة توزيع تتعلق بإدخال هذه القدرة إلى منتجات موجهة للمستهلكين. وبمجرد أن يلتقي الأمران، ينتقل القطاع من التجريب إلى التطبيع.

هذه المقالة مبنية على تقرير من ZDNET. اقرأ المقال الأصلي.

Originally published on zdnet.com