Stability AI সঙ্গীত সৃষ্টিকে আরও দীর্ঘ ফরম্যাটে নিয়ে যাচ্ছে

Stability AI তার অডিও উচ্চাকাঙ্ক্ষা বাড়াচ্ছে একটি নতুন সঙ্গীত ও সাউন্ড মডেল পরিবারের মাধ্যমে, যার লক্ষ্য AI-উৎপাদিত অডিওকে আরও দীর্ঘ, আরও নমনীয়, এবং বিভিন্ন ডিভাইসে সহজে স্থাপনযোগ্য করা। কোম্পানির মতে, তাদের নতুন Stability Audio 3.0 লাইনআপে চারটি মডেল রয়েছে, যা ডিভাইসে ব্যবহারের জন্য তৈরি কম্প্যাক্ট সিস্টেম থেকে শুরু করে ছয় মিনিটেরও বেশি দৈর্ঘ্যের পূর্ণাঙ্গ সঙ্গীত রচনা তৈরি করতে সক্ষম বড় সিস্টেম পর্যন্ত বিস্তৃত।

এই নতুন প্রকাশ দুই কারণে গুরুত্বপূর্ণ। প্রথমত, এটি আগের open সংস্করণের তুলনায় সৃষ্টির দৈর্ঘ্য উল্লেখযোগ্যভাবে বাড়ায়। দ্বিতীয়ত, এটি AI অডিওর জন্য একটি আরও বিভক্ত কৌশলকে প্রতিফলিত করে, যেখানে deployment লক্ষ্য এবং licensing মডেল এখন raw quality-এর মতোই গুরুত্বপূর্ণ হয়ে উঠছে। Stability একটি একক universal model পাঠাচ্ছে না। তারা একটি portfolio পাঠাচ্ছে।

চারটি মডেল, ভিন্ন ভিন্ন ব্যবহার

প্রদত্ত source text অনুযায়ী, Stability Audio 3.0 পরিবারে small SFX, small, medium, এবং large ভ্যারিয়েন্ট রয়েছে। দুটি ছোট মডেলের প্রত্যেকটিতে 459 মিলিয়ন parameters রয়েছে এবং এগুলো ডিভাইসে sound ও music generation-এর জন্য তৈরি, যা সর্বোচ্চ দুই মিনিট পর্যন্ত track সমর্থন করে। medium মডেলে 1.4 বিলিয়ন parameters এবং large মডেলে 2.7 বিলিয়ন parameters রয়েছে।

যেসব ব্যবহারকারী ছোট ক্লিপের বদলে পূর্ণ গান নিয়ে কাজ করেন, তাদের জন্য সবচেয়ে বড় পরিবর্তন উপরের স্তরে। Stability জানায়, medium এবং large মডেল 6 মিনিট 20 সেকেন্ড পর্যন্ত compositions তৈরি করতে পারে, একই সঙ্গে melodic tone এবং সামগ্রিক musical structure বজায় রাখে। এটি 2024 সালে প্রকাশিত Stability Audio 2.0-এর তুলনায় সমর্থিত দৈর্ঘ্যের দ্বিগুণেরও বেশি, এবং আগের Stable Audio Open প্রকাশের 47-সেকেন্ড সীমার অনেক বাইরে।

সঙ্গীত সৃষ্টিতে দৈর্ঘ্য শুধু একটি বাহ্যিক সূচক নয়। ছোট ক্লিপ effect, loop, এবং concepting-এর জন্য কাজ করতে পারে, কিন্তু দীর্ঘ-রূপ সৃষ্টিতে আরও সম্পূর্ণ demo, soundtrack sketch, এবং draft composition-এর সম্ভাবনা তৈরি হয়। ফলে এগুলো এমন creators-এর কাছে বেশি প্রাসঙ্গিক হয়ে ওঠে যাদের বিচ্ছিন্ন audio মুহূর্তের চেয়ে continuity এবং development দরকার।

Open weights, তবে সীমাবদ্ধতা সহ

Stability এমন একটি সীমা টানছে যেখানে তারা যেটিকে ব্যাপকভাবে গ্রহণযোগ্য করতে চায় এবং যেটিকে আরও ঘনিষ্ঠভাবে commercialize করতে চায়, তার মধ্যে পার্থক্য স্পষ্ট। কোম্পানি small SFX, small, এবং medium মডেল open weights-সহ উন্মুক্ত করছে, যাতে developers এবং researchers এগুলো ব্যবহার ও পরিবর্তন করতে পারেন। অন্যদিকে, large মডেলটি API এবং paid self-hosting বিকল্পের পেছনে রাখা হচ্ছে। যেসব কোম্পানির বার্ষিক রাজস্ব 1 মিলিয়ন ডলারের বেশি, তাদের enterprise license লাগবে।

এই কাঠামো বলছে বাজার কোন দিকে যাচ্ছে। Open-weight প্রকাশ এখনো একটি শক্তিশালী distribution tool, বিশেষ করে developer goodwill এবং ecosystem growth-এর জন্য। কিন্তু সবচেয়ে সক্ষম মডেল প্রায়ই monetized tier হয়ে ওঠে, বিশেষ করে যখন inference খরচ এবং enterprise demand বাড়ে। Stability ইতিমধ্যে image এবং language AI-তে পরিচিত একটি ধারা অনুসরণ করছে: growth engine হিসেবে openness, business layer হিসেবে নিয়ন্ত্রিত access।

লাইসেন্সিং প্রশ্ন এখন কেন্দ্রীয়

সঙ্গীত-সৃষ্টির খাতের ওপর ঝুলে থাকা আরেকটি বড় সমস্যা হলো training data। প্রদত্ত source text Stability-এর প্রকাশকে music AI নিয়ে চলমান আইনি চাপের প্রেক্ষিতে রাখে, যেখানে Suno এবং Udio-কে ঘিরে আদালতের লড়াইয়ের কথা উল্লেখ করা হয়েছে। এই পরিবেশে licensing কোনো পার্শ্ব বিষয় নয়। এটি মূল প্রতিযোগিতামূলক ভেরিয়েবলগুলোর একটি।

Stability জানায়, তাদের সর্বশেষ audio models সম্পূর্ণ licensed data ব্যবহার করে তৈরি হয়েছে। এই দাবি বিশেষভাবে গুরুত্বপূর্ণ, কারণ AI সঙ্গীতে দীর্ঘমেয়াদি বাণিজ্যিক টিকে থাকা নির্ভর করতে পারে কে গান তৈরি করতে পারে তার চেয়ে বেশি, কে এমন rights structure-সহ গান তৈরি করতে পারে যা labels, publishers, এবং enterprise customer-রা গ্রহণ করবে। গত বছর, Stability Warner Music Group এবং Universal Music Group-এর সঙ্গে models এবং music-creation tools তৈরি করতে চুক্তি করেছিল। এখন সেই সম্পর্কগুলো branding সাফল্যের চেয়ে বেশি, আইনি বিরোধপূর্ণ বাজারে টিকে থাকার অবকাঠামোর মতো দেখায়।

পেশাদার সঙ্গীতশিল্পীদের জন্য বড় পদক্ষেপ

এই প্রকাশ আরও বড় product strategy-এর ইঙ্গিত দেয়। Stability জানায়, তারা professional musicians-এর জন্য একটি নতুন products suite তৈরি করছে, যদিও প্রদত্ত text-এ feature details প্রকাশ করেনি। এছাড়া, Universal Audio এবং Fender-এর former chief digital officer Ethan Kaplan-কে তাদের professional music offering-এর নেতৃত্ব দিতে নিয়োগ করেছে।

এই পদক্ষেপ generative audio কোম্পানিগুলোর মধ্যে একটি বৃহত্তর trend-এর সঙ্গে মেলে, যাদের অনেকেই এখন credibility বাড়াতে এবং licensing, partnerships, ও go-to-market strategy সামলাতে music-industry executives নিয়োগ করছে। প্রযুক্তি দ্রুত উন্নত হচ্ছে, কিন্তু কোম্পানিগুলোর এখন model capability-এর পাশাপাশি domain fluency-ও সমানভাবে দরকার।

  • ছোট মডেলগুলো ডিভাইসে সর্বোচ্চ দুই মিনিট পর্যন্ত generation-এর জন্য লক্ষ্য করা হয়েছে।
  • Medium এবং large মডেল 6 মিনিট 20 সেকেন্ড পর্যন্ত দীর্ঘ compositions লক্ষ্য করে।
  • তিনটি মডেল open weights-সহ উপলব্ধ, আর সবচেয়ে বড়টি paid access এবং enterprise licensing-এর অধীনে আরও নিয়ন্ত্রিত।
  • Stability জানায়, নতুন মডেলগুলো সম্পূর্ণ licensed data দিয়ে প্রশিক্ষিত।

এই প্রকাশ কেন গুরুত্বপূর্ণ

Stability Audio 3.0 music-AI বিতর্কের সমাধান করে না, এবং কোম্পানির performance claims শেষ পর্যন্ত creators ও developers-ই বিচার করবে। তবু এই launch শিল্পের জন্য একটি গুরুত্বপূর্ণ সূচক। এটি দীর্ঘ-রূপ সৃষ্টির ক্ষমতা, একটি মিশ্র open-and-commercial release strategy, এবং licensing-first অবস্থানকে এমন এক সময়ে একত্র করে, যখন audio AI বাজার novelty থেকে infrastructure-এর দিকে এগোচ্ছে। অন্য কথায়, Stability আর শুধু প্রমাণ করতে চাইছে না যে AI সঙ্গীত তৈরি করতে পারে। তারা দেখাতে চাইছে যে AI music-কে productize, deploy, এবং বড় পরিসরে commercialize করা যায়।

এই নিবন্ধটি TechCrunch-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধ পড়ুন.

Originally published on techcrunch.com