ভিডিও generation থেকে shared simulation-এ

AI lab Odyssey Agora-1 চালু করেছে, একটি world model যা একসঙ্গে চারজন পর্যন্ত খেলোয়াড়কে একই AI-generated environment-এ রাখতে পারে। কোম্পানিটি Nintendo 64 ক্লাসিক GoldenEye ব্যবহার করে সিস্টেমটি দেখিয়েছে, গেমটিকে live multi-player simulation-এ রূপান্তর করেছে যেখানে প্রতিটি অংশগ্রহণকারী shared underlying state থেকে real time-এ তৈরি আলাদা viewpoint দেখতে পায়।

এই প্রকাশনাটি গুরুত্বপূর্ণ, কারণ অধিকাংশ public world-model demonstration একক active user-কেন্দ্রিক ছিল। Agora-1 বরং একটি কঠিন সমস্যাকে লক্ষ্য করেছে: যখন একাধিক মানুষ একই generated world-এর মধ্যে একই সময়ে কাজ করছে, তখন multiple perspectives-কে coherent রাখা।

Agora-1 কীভাবে গঠিত

source text অনুযায়ী, Odyssey system-টিকে দুটি models-এ ভাগ করেছে। একটি common game state ক্রমাগত simulate করে, original game-এর internal state থেকে শেখে কীভাবে খেলোয়াড়রা নড়াচড়া ও কাজ করার সময় world বদলে যায়। আরেকটি, diffusion-based model, সেই shared state থেকে প্রতিটি খেলোয়াড়ের জন্য আলাদা visual perspective render করে।

এই বিভাজনই design-এর কেন্দ্র। traditional video generators নির্দিষ্ট clips বা reactive visuals তৈরি করে, কিন্তু explicit, persistent simulation বজায় রাখে না। Agora-1 learned game engine-এর মতো আচরণ করে। simulation layer world-এ কী ঘটছে তা ট্র্যাক করে; rendering layer সেই world-কে আলাদা camera positions থেকে visuals-এ বদলে দেয়।

state স্পষ্টভাবে পরিচালিত হওয়ায় Odyssey বলছে, system mechanics বজায় রেখে নতুন levels-ও generate করতে পারে। অর্থাৎ, কোম্পানি recorded gameplay শুধুই restyle করছে না, বরং গেমপ্লের অন্তর্নিহিত নিয়মগুলোর অন্তত কিছু অংশ ধরতে সক্ষম একটি model তৈরি করছে।

multi-agent consistency কেন কঠিন

source text বলছে, Multiverse বা Solaris-এর মতো আগের multi-agent approaches বিশেষত তখন সমস্যায় পড়েছিল যখন খেলোয়াড়রা একে অপরকে হারিয়ে ফেলত। shared world-এ consistency failure খুব দ্রুত প্রকাশ পায়। যদি একজন খেলোয়াড় দরজা খোলে, গুলি চালায় বা ঘর পেরোয়, তাহলে অন্যদের তাদের নিজ নিজ অবস্থান থেকে সামঞ্জস্যপূর্ণ ফলাফল অনুভব করতে হবে। system drift করলে illusion ভেঙে যায়।

Agora-1-কে এই সমস্যার উত্তর হিসেবে উপস্থাপন করা হয়েছে। game state-কে explicit এবং shared রেখে Odyssey নিশ্চিত করতে চায় যে আলাদা renderings একই world-এর synchronized view, loosely correlated hallucination নয়। কার্যত, কোম্পানি “কি ঘটল” আর “প্রতিটি participant কী দেখছে” এই পার্থক্যটি আলাদা করছে, যা game engine-গুলো দশকের পর দশক ধরে state replication এবং client rendering দিয়ে সামলে এসেছে।

নতুনত্ব হলো hard-coded simulation এবং rendering pipelines-এর বদলে learned model ব্যবহার করা।

শুধু game demo নয়

GoldenEye setting Agora-1-কে সঙ্গে সঙ্গে চিনতে পারার মতো showcase দেয়, কিন্তু Odyssey প্রযুক্তিটিকে আরও বিস্তৃতভাবে উপস্থাপন করছে। কোম্পানি Starchild-1 নামে একটি সম্পর্কিত system চালু করেছে, যাকে interactive audio-video world model বলা হয়েছে, যা synchronized visuals ও sound তৈরি করে এবং চলমান text input-এর প্রতিক্রিয়া দেয়। Agora-1-এর বিপরীতে, Starchild-1 একক ব্যবহারকারীর উপর ফোকাস করে, তবে speech এবং ambient audio যোগ করে। source text অনুযায়ী, এখনও public demo নেই; sample videos এবং technical paper আছে মাত্র।

এই দুটি ঘোষণা একসাথে দেখায় যে Odyssey passive generation-এর বাইরে গিয়ে interactive environments-এর দিকে এগোচ্ছে। এই দিকটি গুরুত্বপূর্ণ, কারণ world models-এর সবচেয়ে মূল্যবান প্রয়োগগুলোর কিছু cinema-style content-এ নাও থাকতে পারে। সেগুলো এমন simulated environments-এ থাকতে পারে যেখানে agents, robots বা humans-কে কাজ করতে, ফলাফল দেখতে এবং সমন্বয় করতে হয়।

AI training এবং robotics-এ সম্ভাব্য ব্যবহার

Odyssey ভবিষ্যতের ব্যবহার হিসেবে AI agent training এবং collaborative robotics-কে স্পষ্টভাবে লক্ষ্য করছে। যুক্তি সহজ। যদি কোনো system বহু actors-এর সঙ্গে একটি persistent shared environment simulate করতে পারে, তাহলে সেটি coordination, planning এবং embodied decision-making-এর জন্য sandbox হয়ে উঠতে পারে।

robotics-এ multi-agent consistency কোনো সাজসজ্জামূলক বৈশিষ্ট্য নয়। একসঙ্গে কাজ করা robots-এর space, objects এবং একে অপরের actions সম্পর্কে সামঞ্জস্যপূর্ণ beliefs দরকার। বদলাতে থাকা viewpoints-এর মধ্যে সেই সম্পর্কগুলো ধরে রাখতে পারে এমন learned world model synthetic training-এর পাশাপাশি deployment-এর আগে policies পরীক্ষা করতেও কাজে লাগতে পারে।

AI agents-দের ক্ষেত্রেও একই কথা প্রযোজ্য, যারা সহযোগিতা, প্রতিযোগিতা বা যোগাযোগ শিখছে। single-user sandbox দরকারি, কিন্তু অনেক বাস্তব কাজেই একাধিক actor একই environment ভাগ করে। Agora-1 সেই পরিস্থিতি সরাসরি model করার প্রাথমিক প্রচেষ্টা।

প্রতিযোগিতামূলক পরিসরে এটি কোথায় দাঁড়ায়

source text Agora-1-কে OpenAI-এর Sora এবং Google-এর Veo 3-এর মতো video generators-এর সঙ্গে তুলনা করেছে, যেগুলো persistent simulation-এর বদলে clips তৈরি করে। broader world-model space-এ Google-এর Genie 3-কে আরও পরিচিত competitor হিসেবেও উল্লেখ করা হয়েছে। এই তুলনা কাজে লাগে, কারণ এটি product category স্পষ্ট করে। Agora-1 মূলত সুন্দর video নিয়ে নয়। এটি shared latent world-এর মধ্যে continuous interaction নিয়ে।

এটি কঠিন সমস্যা, এবং এর evaluation criteria ভিন্ন। frame quality গুরুত্বপূর্ণ, তবে consistency, responsiveness এবং সময়ের সঙ্গে world rules-এর স্থায়িত্বও সমান গুরুত্বপূর্ণ।

প্রাথমিক হলেও অর্থবহ এক ধাপ

Agora-1 এখনও একটি demo system, এবং source material production readiness দাবি করে না। তবু, এটি generative AI-তে একটি গুরুত্বপূর্ণ পরিবর্তনের ইঙ্গিত দেয়। ক্ষেত্রটি এখন isolated media outputs তৈরি থেকে এমন environments simulate করার দিকে এগোচ্ছে, যেখানে একাধিক participant একসঙ্গে থাকতে ও কাজ করতে পারে।

এই পরিবর্তন স্থায়ী হলে, এর গুরুত্ব nostalgia-ভিত্তিক game recreation-এর অনেক বাইরে যাবে। shared world models agents training, interfaces prototyping এবং interactive media-র নতুন রূপ অন্বেষণের infrastructure হয়ে উঠতে পারে। Odyssey-এর GoldenEye experiment একটি ছোট showcase হলেও, এটি একটি বৃহত্তর প্রযুক্তিগত পরিবর্তন ধরেছে: AI systems এখন শুধু scenes নয়, continuity, rules এবং একাধিক point of view-সহ worlds-ও model করতে শুরু করেছে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ভিত্তিতে তৈরি। মূল নিবন্ধ পড়ুন.

Originally published on the-decoder.com