Stability AI संगीत-निर्माण को लंबे प्रारूपों तक ले जा रहा है
Stability AI अपने ऑडियो महत्वाकांक्षाओं का दायरा एक नए संगीत और ध्वनि मॉडल परिवार के साथ बढ़ा रहा है, जिसका लक्ष्य AI-जनित ऑडियो को अधिक लंबा, अधिक लचीला और अलग-अलग डिवाइसों पर तैनात करना आसान बनाना है। कंपनी का कहना है कि उसकी नई Stability Audio 3.0 लाइनअप में चार मॉडल शामिल हैं, जो छोटे, डिवाइस पर उपयोग के लिए उपयुक्त सिस्टम से लेकर बड़े मॉडलों तक फैले हैं, जो छह मिनट से अधिक लंबे पूर्ण संगीत टुकड़े बना सकते हैं।
यह नई रिलीज़ दो कारणों से महत्वपूर्ण है। पहला, यह कंपनी के पहले खुले संस्करणों की तुलना में जनरेशन की लंबाई को काफी बढ़ाती है। दूसरा, यह AI ऑडियो के लिए एक अधिक खंडित रणनीति को दर्शाती है, जिसमें तैनाती का लक्ष्य और लाइसेंसिंग मॉडल कच्ची गुणवत्ता जितने ही महत्वपूर्ण होते जा रहे हैं। Stability एक सार्वभौमिक मॉडल नहीं भेज रही है। वह एक पोर्टफोलियो भेज रही है।
चार मॉडल, अलग-अलग उपयोग-परिदृश्य
प्रदान किए गए स्रोत पाठ के अनुसार, Stability Audio 3.0 परिवार में small SFX, small, medium, और large वैरिएंट शामिल हैं। दो छोटे मॉडलों में प्रत्येक में 459 मिलियन पैरामीटर हैं और इन्हें डिवाइस पर ध्वनि और संगीत जनरेशन के लिए बनाया गया है, जो दो मिनट तक के ट्रैक का समर्थन करते हैं। medium मॉडल में 1.4 बिलियन पैरामीटर हैं, और large मॉडल में 2.7 बिलियन।
जो उपयोगकर्ता छोटे क्लिप्स के बजाय पूरे गानों पर ध्यान दे रहे हैं, उनके लिए सबसे बड़ा बदलाव ऊपरी सीमा पर है। Stability का कहना है कि medium और large मॉडल 6 मिनट 20 सेकंड तक की रचनाएँ बना सकते हैं, जबकि वे मधुरता और समग्र संगीत संरचना को बनाए रखते हैं। यह 2024 में जारी Stability Audio 2.0 द्वारा समर्थित लंबाई से दोगुने से भी अधिक है, और पहले Stable Audio Open रिलीज़ की 47 सेकंड की सीमा से कहीं आगे जाता है।
संगीत-निर्माण में लंबाई केवल एक सौंदर्यात्मक माप नहीं है। छोटे क्लिप्स इफेक्ट्स, लूप्स और अवधारणा-निर्माण के लिए उपयोगी हो सकते हैं, लेकिन लंबी अवधि की जनरेशन अधिक पूर्ण डेमो, साउंडट्रैक स्केच और ड्राफ्ट रचनाओं की संभावना खोलती है। इससे ये मॉडल उन रचनाकारों के लिए अधिक प्रासंगिक बनते हैं जिन्हें अलग-अलग ऑडियो क्षणों के बजाय निरंतरता और विकास की आवश्यकता होती है।
ओपन वेट्स, लेकिन सीमाओं के साथ
Stability यह भी साफ कर रहा है कि वह किन चीज़ों को व्यापक रूप से अपनाना चाहता है और किन्हें अधिक कसकर व्यावसायीकृत करने की योजना है। कंपनी small SFX, small, और medium मॉडल open weights के साथ उपलब्ध करा रही है, जिससे डेवलपर्स और शोधकर्ता उनका उपयोग और संशोधन कर सकें। इसके विपरीत, large मॉडल को API और पेड self-hosting विकल्पों के पीछे रखा जा रहा है। जिन कंपनियों का राजस्व $1 million से अधिक है, उन्हें enterprise license की आवश्यकता होगी।
यह संरचना बाजार की दिशा के बारे में बहुत कुछ बताती है। open-weight रिलीज़ अभी भी वितरण का एक शक्तिशाली साधन बनी हुई हैं, खासकर डेवलपर सद्भावना और इकोसिस्टम वृद्धि के लिए। लेकिन सबसे सक्षम मॉडल अक्सर monetized tier बन जाता है, विशेषकर जब inference लागत और enterprise मांग बढ़ती है। Stability एक ऐसे पैटर्न का अनुसरण कर रही है जो image और language AI में पहले से परिचित है: growth engine के रूप में openness, business layer के रूप में नियंत्रित access।
लाइसेंसिंग का सवाल अब केंद्र में है
संगीत-निर्माण क्षेत्र पर छाया दूसरा बड़ा मुद्दा training data है। प्रदान किया गया स्रोत पाठ Stability की रिलीज़ को संगीत AI के आसपास चल रहे कानूनी दबाव के संदर्भ में रखता है, जिसमें Suno और Udio से जुड़े मुकदमे शामिल हैं। इस माहौल में licensing कोई साइड नोट नहीं है। यह मूल प्रतिस्पर्धी कारकों में से एक है।
Stability का कहना है कि उसके नवीनतम ऑडियो मॉडल पूरी तरह licensed data पर आधारित हैं। यह दावा विशेष रूप से महत्वपूर्ण है क्योंकि AI संगीत में दीर्घकालिक व्यावसायिक व्यवहार्यता इस बात पर कम निर्भर हो सकती है कि कौन गाना बना सकता है, और अधिक इस पर कि कौन इसे ऐसे rights structure के साथ बना सकता है जिसे labels, publishers, और enterprise ग्राहक स्वीकार करें। पिछले वर्ष, Stability ने Warner Music Group और Universal Music Group के साथ मॉडल और संगीत-निर्माण टूल विकसित करने के लिए समझौते किए थे। अब वे संबंध branding जीत से कम और कानूनी रूप से विवादित बाजार में survival infrastructure जैसे दिखते हैं।
पेशेवर संगीतकारों के लिए एक बड़ा दांव
यह रिलीज़ एक व्यापक product strategy की ओर भी संकेत करती है। Stability का कहना है कि वह पेशेवर संगीतकारों के लिए उत्पादों का एक नया suite विकसित कर रही है, हालांकि प्रदान किए गए पाठ में उसने feature details साझा नहीं किए। उसने Ethan Kaplan को भी नियुक्त किया है, जो पहले Universal Audio और Fender में chief digital officer थे, ताकि वे उसके professional music offering का नेतृत्व कर सकें।
यह कदम generative audio कंपनियों के एक व्यापक रुझान से मेल खाता है, जिनमें से कई अब संगीत-उद्योग के अधिकारियों को नियुक्त कर रही हैं ताकि विश्वसनीयता बढ़ाई जा सके और licensing, partnerships, और go-to-market strategy में मदद मिले। तकनीक तेजी से बेहतर हो रही है, लेकिन कंपनियों को अब केवल model capability नहीं, domain fluency भी चाहिए।
- छोटे मॉडल डिवाइस पर दो मिनट तक की जनरेशन के लिए बनाए गए हैं।
- medium और large मॉडल 6 मिनट 20 सेकंड तक की लंबी रचनाओं को लक्षित करते हैं।
- तीन मॉडल open weights के साथ उपलब्ध हैं, जबकि सबसे बड़ा मॉडल पेड और अधिक नियंत्रित बना रहता है।
- Stability का कहना है कि नए मॉडल पूरी तरह licensed data पर प्रशिक्षित किए गए हैं।
यह रिलीज़ क्यों महत्वपूर्ण है
Stability Audio 3.0 संगीत-AI बहस को समाप्त नहीं करती, और कंपनी के प्रदर्शन दावे अंततः रचनाकारों और डेवलपर्स द्वारा परखे जाएंगे। लेकिन यह लॉन्च फिर भी उद्योग के लिए एक महत्वपूर्ण संकेतक है। यह लंबी अवधि की जनरेशन, एक मिश्रित open-and-commercial रिलीज़ रणनीति, और licensing-first रुख को जोड़ता है, ऐसे समय में जब audio AI बाजार novelty से infrastructure की ओर बढ़ रहा है। दूसरे शब्दों में, Stability अब केवल यह साबित करने की कोशिश नहीं कर रही कि AI संगीत बना सकता है। वह यह दिखाने की कोशिश कर रही है कि AI संगीत को उत्पादित, तैनात, और बड़े पैमाने पर व्यावसायीकृत किया जा सकता है।
यह लेख TechCrunch की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on techcrunch.com







