Stability AI संगीत निर्मितीला अधिक दीर्घ स्वरूपांकडे नेत आहे
Stability AI आपल्या ऑडिओ महत्त्वाकांक्षा एका नवीन संगीत आणि साउंड मॉडेल कुटुंबाद्वारे विस्तारत आहे, ज्याचा उद्देश AI-निर्मित ऑडिओ अधिक लांब, अधिक लवचिक, आणि विविध उपकरणांवर तैनात करणे सोपे बनवणे हा आहे. कंपनीच्या मते, तिच्या नवीन Stability Audio 3.0 लाईनअपमध्ये चार मॉडेल्स आहेत, जी डिव्हाइसवर वापरण्यासाठी तयार कॉम्पॅक्ट प्रणालींपासून ते सहा मिनिटांहून अधिक लांबीची पूर्ण संगीत रचना तयार करू शकणाऱ्या मोठ्या मॉडेल्सपर्यंत पसरतात.
हे नवीन प्रकाशन दोन कारणांसाठी महत्त्वाचे आहे. पहिले, ते कंपनीच्या पूर्वीच्या open आवृत्त्यांच्या तुलनेत निर्मितीची लांबी लक्षणीयरीत्या वाढवते. दुसरे, ते AI ऑडिओसाठी अधिक विभाजित धोरण दर्शवते, जिथे deployment लक्ष्य आणि licensing मॉडेल कच्च्या गुणवत्तेइतकेच महत्त्वाचे होत आहेत. Stability एक सार्वत्रिक model पाठवत नाही. ती एक portfolio पाठवत आहे.
चार मॉडेल्स, वेगवेगळे वापर
दिलेल्या source text नुसार, Stability Audio 3.0 कुटुंबात small SFX, small, medium, आणि large variants समाविष्ट आहेत. दोन लहान मॉडेल्समध्ये प्रत्येकी 459 दशलक्ष parameters आहेत आणि ती डिव्हाइसवर sound आणि music generation साठी उद्दिष्टित आहेत, जी जास्तीत जास्त दोन मिनिटांपर्यंतचे track समर्थन करतात. medium model मध्ये 1.4 अब्ज parameters आहेत, आणि large model मध्ये 2.7 अब्ज parameters आहेत.
लहान क्लिप्सपेक्षा पूर्ण गाण्यांवर लक्ष केंद्रित करणाऱ्या वापरकर्त्यांसाठी, सर्वात मोठा बदल वरच्या टोकावर आहे. Stability नुसार, medium आणि large मॉडेल्स 6 मिनिटे 20 सेकंदांपर्यंतच्या compositions तयार करू शकतात, तेही melodic tone आणि एकूण संगीत रचना टिकवून. हे 2024 मध्ये प्रसिद्ध झालेल्या Stability Audio 2.0 ने समर्थित केलेल्या लांबीपेक्षा दुप्पटाहून अधिक आहे, आणि पूर्वीच्या Stable Audio Open प्रकाशनाच्या 47-सेकंद मर्यादेपेक्षा खूप पुढचे आहे.
संगीत निर्मितीमध्ये लांबी हा फक्त सौंदर्यात्मक मापदंड नाही. लहान क्लिप्स effects, loops, आणि concepting साठी उपयोगी पडतात, पण दीर्घ-स्वरूप निर्मितीमुळे अधिक संपूर्ण demos, soundtrack sketches, आणि draft compositions ची शक्यता निर्माण होते. त्यामुळे हे मॉडेल्स अशा creators साठी अधिक संबंधित ठरतात ज्यांना वेगळ्या audio क्षणांपेक्षा continuity आणि development हवी असते.
Open weights, पण मर्यादांसह
Stability कोणत्या गोष्टी व्यापकपणे स्वीकारल्या जाव्यात आणि कोणत्या अधिक काटेकोरपणे commercialize करायच्या आहेत, यामध्ये स्पष्ट रेषा आखत आहे. कंपनी small SFX, small, आणि medium मॉडेल्स open weights सह उपलब्ध करून देत आहे, ज्यामुळे developers आणि researchers त्यांचा वापर आणि बदल करू शकतात. याउलट, large model API आणि paid self-hosting पर्यायांच्या मागे ठेवले जात आहे. वर्षाला 1 दशलक्ष डॉलर्सपेक्षा जास्त महसूल असलेल्या कंपन्यांना enterprise license लागेल.
ही रचना बाजार कोणत्या दिशेने जात आहे हे बरंच काही सांगते. Open-weight प्रकाशने अजूनही शक्तिशाली distribution tool आहेत, विशेषतः developer goodwill आणि ecosystem growth साठी. पण सर्वात सक्षम model अनेकदा monetized tier बनतो, विशेषतः inference खर्च आणि enterprise मागणी वाढल्यावर. Stability आधीच image आणि language AI मध्ये परिचित असलेला नमुना पाळत आहे: growth engine म्हणून openness, business layer म्हणून नियंत्रित access.
लायसेंसिंगचा प्रश्न आता केंद्रस्थानी आहे
संगीत-निर्मिती क्षेत्रावर घोंघावणारा दुसरा मोठा मुद्दा म्हणजे training data. दिलेल्या source text मध्ये Stability च्या प्रकाशनाला music AI भोवती सुरू असलेल्या कायदेशीर दबावाच्या संदर्भात ठेवले आहे, Suno आणि Udio शी संबंधित न्यायालयीन लढायांकडे निर्देश करत. अशा वातावरणात licensing ही किरकोळ गोष्ट नाही. ती स्पर्धेतील मुख्य चलांपैकी एक आहे.
Stability चे म्हणणे आहे की तिचे नवीनतम audio models पूर्णपणे licensed data वर आधारित आहेत. हा दावा विशेष महत्त्वाचा आहे, कारण AI संगीतामधील दीर्घकालीन व्यावसायिक व्यवहार्यता ही कोण गीत तयार करू शकते यापेक्षा अधिक, labels, publishers, आणि enterprise ग्राहक स्वीकारतील अशा rights structure सह ते कोण तयार करू शकते यावर अवलंबून असू शकते. मागील वर्षी, Stability ने Warner Music Group आणि Universal Music Group सोबत models आणि music-creation tools विकसित करण्यासाठी करार केले. आता ती नाती branding यशांपेक्षा, कायदेशीरदृष्ट्या वादग्रस्त बाजारात टिकण्यासाठीच्या पायाभूत सुविधांसारखी दिसत आहेत.
व्यावसायिक संगीतकारांसाठी मोठा प्रयत्न
हे प्रकाशन व्यापक product strategy कडेही निर्देश करते. Stability म्हणते की ती व्यावसायिक संगीतकारांसाठी नवीन products suite विकसित करत आहे, जरी दिलेल्या text मध्ये feature details उघड केलेले नाहीत. तिने Universal Audio आणि Fender मधील माजी chief digital officer Ethan Kaplan यांना आपल्या professional music offering चे नेतृत्व करण्यासाठी नियुक्त केले आहे.
ही हालचाल generative audio कंपन्यांमध्ये दिसणाऱ्या व्यापक प्रवाहाशी जुळते, ज्यापैकी अनेक आता credibility वाढवण्यासाठी आणि licensing, partnerships, तसेच go-to-market strategy हाताळण्यासाठी music-industry executives नियुक्त करत आहेत. तंत्रज्ञान वेगाने सुधारत आहे, पण कंपन्यांना model capability इतकीच domain fluency देखील increasingly आवश्यक आहे.
- लहान मॉडेल्स डिव्हाइसवर जास्तीत जास्त दोन मिनिटांपर्यंत निर्माणासाठी उद्दिष्टित आहेत.
- Medium आणि large मॉडेल्स 6 मिनिटे 20 सेकंदांपर्यंतच्या दीर्घ compositions लक्षात घेतात.
- तीन मॉडेल्स open weights सह उपलब्ध आहेत, तर सर्वात मोठे paid access आणि enterprise licensing अंतर्गत अधिक नियंत्रित आहे.
- Stability म्हणते की नवीन मॉडेल्स पूर्णपणे licensed data वर प्रशिक्षित करण्यात आली आहेत.
हे प्रकाशन का महत्त्वाचे आहे
Stability Audio 3.0 music-AI वादाचा शेवट करत नाही, आणि कंपनीच्या performance claims चे अंतिम मूल्यमापन creators आणि developers करतील. पण हे launch तरीही उद्योगासाठी एक महत्त्वाचा टप्पा आहे. ते दीर्घ-स्वरूप निर्मिती, मिश्र open-and-commercial release strategy, आणि licensing-first भूमिका यांना एकत्र आणते, अशा वेळी जेव्हा audio AI बाजार novelty कडून infrastructure कडे सरकत आहे. दुसऱ्या शब्दांत, Stability आता फक्त AI संगीत तयार करू शकतो हे सिद्ध करण्याचा प्रयत्न करत नाही. ती हे दाखवू इच्छिते की AI संगीताला productize, deploy, आणि मोठ्या प्रमाणावर commercialize करता येऊ शकते.
हा लेख TechCrunch च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on techcrunch.com







