AI ভিডিও এখন আরও বিশ্বাসযোগ্য দেখায়, তবে অবশ্যই আরও বুদ্ধিমান নয়

AI ভিডিও সিস্টেমের সর্বশেষ প্রজন্ম আগের মডেলগুলোর তুলনায় আরও মসৃণ গতি, শক্তিশালী আলো, এবং আরও বাস্তবসম্মত টেক্সচারের সঙ্গে ক্রমশ পরিশীলিত ক্লিপ তৈরি করতে পারে। কিন্তু Tsinghua University-এর গবেষকদের একটি নতুন বেঞ্চমার্ক যুক্তি দিচ্ছে যে দৃশ্যমান মান একটি গভীর সীমাবদ্ধতাকে আড়াল করছে: অনেক সিস্টেম এখনো বোঝে না পৃথিবী কীভাবে কাজ করার কথা।

WorldReasonBench নামের এই বেঞ্চমার্কটি মাপার জন্য তৈরি করা হয়েছে যে কোনো মডেল কি এমনভাবে একটি দৃশ্যকে এগিয়ে নিতে পারে, যা শারীরিক, সামাজিক, যৌক্তিক, এবং তথ্যগতভাবে বিশ্বাসযোগ্য থাকে। এটি এই প্রশ্ন থেকে আলাদা যে একটি ভিডিও শুধু দেখতে ভালো কি না। গবেষকদের framing-এ, উপস্থিতির বাস্তবতা আর reasoning-এর বাস্তবতা এক জিনিস নয়।

এই পার্থক্য গুরুত্বপূর্ণ, কারণ জেনারেটিভ ভিডিওর অনেক শিরোনাম-দখলকারী উদাহরণ মূলত স্টাইল এবং একনজরে সামঞ্জস্যের ভিত্তিতে বিচার করা হয়। কোনো ক্লিপ সিনেম্যাটিক ও প্রবাহমান মনে হতে পারে, কিন্তু তা সাধারণ প্রত্যাশা ভেঙে দিতে পারে যেমন মাধ্যাকর্ষণ, বস্তুর আচরণ, মানবিক মিথস্ক্রিয়া, বা কারণ-পরিণতি। WorldReasonBench ঠিক এই ফাঁকটিই প্রকাশ করতে তৈরি।

বেঞ্চমার্ক কীভাবে বিশ্ব-অবগতি পরীক্ষা করে

ইমেজ কোয়ালিটি গ্রেড করার বদলে, বেঞ্চমার্কটি একটি দৃশ্য থেকে শুরু করে এবং মডেলকে সেটি এমনভাবে বাড়াতে বলে যাতে তা অর্থবহ হয়। উৎস নিবন্ধে একটি সহজ উদাহরণ আছে: একটি ডালে থাকা আপেল, এরপর সেটিকে ফেলে দেওয়ার নির্দেশ। একটি সিস্টেম সুন্দর একটি সিকোয়েন্স তৈরি করতে পারে, তবু কাজটি ব্যর্থ হতে পারে যদি আপেলটি উপরের দিকে চলে, বেলুনের মতো আচরণ করে, বা অবাস্তবভাবে পড়ে।

এটাই সেই মূল সমস্যা, যেটিকে বেঞ্চমার্কটি আলাদা করে ধরতে চায়। একটি পালিশড আউটপুট প্রচলিত নান্দনিক মানে ভালো স্কোর করতে পারে, কিন্তু ঘটনার যুক্তিতে ব্যর্থ হতে পারে। তাই WorldReasonBench মূল্যায়নকে চারটি reasoning ক্ষেত্র এবং 22টি উপশ্রেণিতে ভাগ করেছে।

  • বিশ্ব জ্ঞান, যার মধ্যে পদার্থবিদ্যা, আবহাওয়া, এবং সাংস্কৃতিক নিয়ম রয়েছে
  • মানবকেন্দ্রিক দৃশ্য, যেমন বস্তু পরিচালনা এবং সামাজিক মিথস্ক্রিয়া
  • যৌক্তিক reasoning, যার মধ্যে গণিত, জ্যামিতি, এবং বিজ্ঞান পরীক্ষা রয়েছে
  • তথ্যভিত্তিক reasoning, যেমন ডেটা এবং ডায়াগ্রাম পড়া

সূত্র অনুযায়ী, বেঞ্চমার্কে প্রায় 400টি টেস্ট কেস রয়েছে। গবেষকরা এর সঙ্গে WorldRewardBench-ও যুক্ত করেছেন, যা প্রশিক্ষিত annotator-দের দ্বারা র‌্যাঙ্ক করা প্রায় 6,000 ভিডিও তুলনার একটি preference dataset। এই দ্বিতীয় datasetটি মডেলগুলিকে শুধুমাত্র abstract scoring rules-এর বিরুদ্ধে নয়, একে অপরের সঙ্গে তুলনা করতে সাহায্য করার জন্য তৈরি।

বিশ্বাসযোগ্যতার জন্য দুই ধাপের scoring system

মূল্যায়ন প্রক্রিয়ায় দুই স্তর রয়েছে। প্রথমে, process-aware পদ্ধতি structured প্রশ্ন করে দেখে ভিডিওটি সঠিক শেষ অবস্থায় পৌঁছেছে কি না এবং সেখানে পৌঁছানোর উপায়টি বিশ্বাসযোগ্য কি না। তারপর দ্বিতীয় ধাপে তিনটি broader গুণমানকে স্কোর করা হয়: reasoning quality, temporal consistency, এবং visual aesthetics.

এই নকশাটি উল্লেখযোগ্য, কারণ এটি presentation quality বাদ দেয় না। বরং, এটি সেটিকে তার যথাযথ স্থানে রাখে। বেঞ্চমার্ক এখনও স্বীকার করে যে একটি কার্যকর ভিডিও মডেলকে দৃশ্যত বিশ্বাসযোগ্য হতে হবে, কিন্তু aesthetics-কে এটি ফলাফলের একটি অংশ হিসেবে দেখে, পুরো গল্প হিসেবে নয়।

ক্ষেত্রটির জন্য এটি একটি গুরুত্বপূর্ণ পরিবর্তন। ইমেজ ও ভিডিও জেনারেশনে, অগ্রগতি প্রায়শই এমন ডেমোর মাধ্যমে দেখানো হয় যা প্রশংসা করা সহজ কিন্তু অডিট করা কঠিন। কেবল surface quality নয়, consequences-কেন্দ্রিক একটি বেঞ্চমার্ক আরও কঠোর মানদণ্ড তৈরি করে, বিশেষ করে এমন use case-এ যেখানে তৈরি ভিডিওকে নির্দেশনা, পরীক্ষা, ডায়াগ্রাম, বা বাস্তব বিশ্বের ঘটনা দেখাতে হতে পারে।

বাণিজ্যিক সিস্টেম এগিয়ে, কিন্তু কোনোটি mastery-এর কাছাকাছি নয়

গবেষকরা পাঁচটি বাণিজ্যিক সিস্টেম এবং ছয়টি open-source model পরীক্ষা করেন। বাণিজ্যিক দলে ছিল Sora 2, Kling, Wan 2.6, Seedance 2.0, এবং Veo 3.1-Fast। open-source দলে ছিল LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, এবং LongCat-Video.

বেঞ্চমার্কের মূল reasoning metric-এ, বাণিজ্যিক model-গুলো অনেক ভালো পারফর্ম করেছে। সূত্র বলছে, তারা open-source সিস্টেমগুলোর তুলনায় প্রায় দ্বিগুণ স্কোর করেছে, এবং দুই দলের মধ্যে কোনো statistical overlap ছিল না। এই ফলাফল ইঙ্গিত দেয় যে সবচেয়ে সক্ষম proprietary model-গুলো appearance ছাড়িয়ে যেতে হলে এখনও অনেক এগিয়ে আছে।

তবু, বৃহত্তর উপসংহার এই নয় যে বাণিজ্যিক সিস্টেম ভিডিও reasoning সমস্যার সমাধান করে ফেলেছে। নিবন্ধটি বলছে, পরীক্ষা করা প্রতিটি model-ই logic-এ হোঁচট খেয়েছে। পড়ে যাওয়া domino, একটি claw machine, এবং একটি সহজ circuit-এর মতো উদাহরণই ব্যর্থতা প্রকাশ করার জন্য যথেষ্ট ছিল। অন্য কথায়, ভালো product আছে, কিন্তু শক্তিশালী world understanding এখনো সর্বত্র অনুপস্থিত।

এটি একটি গুরুত্বপূর্ণ ফল, কারণ এটি generative AI-এ একটি সাধারণ ধারণার বিপরীতে দাঁড়ায়: আরও বাস্তবসম্মত আউটপুট মানেই গভীর দক্ষতা। WorldReasonBench উল্টো ইঙ্গিত দেয় যে প্রায়ই তার বিপরীতটি সত্য হতে পারে। মডেলগুলো style-এ উন্নতি করার সঙ্গে সঙ্গে, তাদের বাকি ব্যর্থতাগুলো casual observer-দের চোখে আরও কঠিন হতে পারে, এমনকি সেই ব্যর্থতাগুলো বাস্তব ব্যবহারে গুরুত্বপূর্ণ হলেও।

বেঞ্চমার্ক র‌্যাঙ্কিং-এর বাইরেও কেন এটি গুরুত্বপূর্ণ

এই বেঞ্চমার্ক এমন এক সময়ে এসেছে যখন AI ভিডিও টুলগুলোকে শুধু বিনোদন ইঞ্জিন নয়, বরং এমন সিস্টেম হিসেবেও মূল্যায়ন করা হচ্ছে যা ভবিষ্যতে শিক্ষা, নকশা, simulation, যোগাযোগ, এবং automated content production-এ সহায়তা করতে পারে। এসব ক্ষেত্রে, plausibility ঐচ্ছিক নয়। কোনো মডেল যদি গতি, পরিমাপ, বা মিথস্ক্রিয়ার সুন্দর কিন্তু ভুল উপস্থাপন তৈরি করে, তবে তা কেবল imperfect নয়। এটি বিভ্রান্তিকরও হতে পারে।

তাই WorldReasonBench multimodal AI-র একটি বৃহত্তর চ্যালেঞ্জের দিকে ইঙ্গিত করে। যদি সিস্টেমগুলো সাধারণ শারীরিক আচরণ বা মৌলিক যৌক্তিক কাঠামো নির্ভরযোগ্যভাবে উপস্থাপন করতে না পারে, তাহলে ভালো rendering-ও তাদের নির্ভরযোগ্য করে তুলবে না। গবেষণাটি বলছে না যে visual quality গুরুত্বপূর্ণ নয়। এটি বলছে, ক্ষেত্রটি reasoning-এর তুলনায় সেটিকে খুব বেশি পুরস্কৃত করেছে।

এ কারণেই নির্দিষ্ট ranking সময়ের সঙ্গে বদলালেও বেঞ্চমার্কটি মূল্যবান। এটি ভিডিও জেনারেশনের জন্য আরও কঠিন একটি প্রশ্ন নির্ধারণ করে: কোনো ক্লিপ বাস্তব দেখায় কি না, তা নয়, বরং সেটি এমনভাবে আচরণ করে কি না যেন তা বাস্তব জগতের অংশ।

এখনকার জন্য, উত্তর সর্বোচ্চ হলে মিশ্র। শীর্ষ বাণিজ্যিক সিস্টেমগুলো স্পষ্টভাবে এগিয়ে, কিন্তু বেঞ্চমার্কের মূল বার্তা কোনো leaderboard result-এর চেয়ে বেশি তীক্ষ্ণ। AI ভিডিও এখন নজরকাড়া দৃশ্য তৈরি করতে পারে। তবে এটি এখনও নিজের তৈরি দৃশ্যগুলো বুঝতে হিমশিম খাচ্ছে।

এই নিবন্ধটি The Decoder-এর রিপোর্টিং-এর ভিত্তিতে। মূল নিবন্ধ পড়ুন.

Originally published on the-decoder.com