Stability AI 将音乐生成推进到更长篇幅

Stability AI 正在扩展其音频布局,推出一组新的音乐与声音模型,旨在让 AI 生成音频更长、更灵活,并且更容易部署到不同设备上。公司表示,新的 Stability Audio 3.0 产品线包含四款模型,从适合设备端使用的紧凑型系统,到能够生成时长超过六分钟完整音乐作品的更大型系统。

这次发布有两个重要意义。首先,与公司此前的开源版本相比,它显著延长了生成时长。其次,它反映出 AI 音频领域正在走向更细分的策略,部署目标和许可模式正变得和原始质量同等重要。Stability 并不是在推出一款通用模型,而是在推出一个产品组合。

四款模型,对应不同场景

根据所提供的原文,Stability Audio 3.0 家族包括 small SFX、small、medium 和 large 四个变体。其中两款较小模型各有 4.59 亿参数,面向设备端的声音与音乐生成,支持最长两分钟的音轨。medium 模型为 14 亿参数,large 模型为 27 亿参数。

对于希望生成完整歌曲而非短片段的用户来说,真正的变化来自更高端的模型。Stability 表示,medium 和 large 模型可生成最长 6 分 20 秒的作品,同时保持旋律走向和整体音乐结构。这一时长是 Stability 在 2024 年发布的 Audio 2.0 的两倍多,也远超更早的 Stable Audio Open 47 秒上限。

在音乐生成中,时长并不只是一个表面指标。短片段适合音效、循环和概念草稿,但更长篇幅的生成意味着可以产出更完整的演示、配乐草图和草案作品。这让这些模型对需要连贯性和发展性的创作者更有价值,而不只是提供孤立的音频片段。

开放权重,但有边界

Stability 也在划分哪些模型希望被广泛采用,哪些则计划更严格商业化。公司将 small SFX、small 和 medium 三款模型以开放权重形式提供,允许开发者和研究人员使用并修改它们。相比之下,large 模型则保留在 API 和付费自托管选项之后。年收入超过 100 万美元的公司将需要企业许可。

这一结构说明了市场走向。开放权重版本仍然是强有力的分发工具,尤其有助于建立开发者好感和扩大生态。但能力最强的模型往往会成为变现层,尤其是在推理成本和企业需求上升时。Stability 正在沿用图像和语言 AI 领域已经很熟悉的模式:以开放推动增长,以受控访问作为商业层。

许可问题如今已成核心

音乐生成领域面临的另一大问题是训练数据。所提供的原文将 Stability 的发布置于围绕音乐 AI 的持续法律压力背景下,并提到了 Suno 和 Udio 相关诉讼。在这种环境中,许可不再是附带话题,而是核心竞争变量之一。

Stability 表示,最新音频模型基于完全获得许可的数据训练。这个说法尤其重要,因为 AI 音乐的长期商业可行性,也许更多取决于谁能在符合法权结构的前提下生成歌曲,而不是谁能生成歌曲本身。去年,Stability 与 Warner Music Group 和 Universal Music Group 达成协议,共同开发模型和音乐创作工具。如今,这些合作看起来不只是品牌层面的胜利,更像是在一个法律争议激烈市场中的生存基础设施。

面向职业音乐人的更大布局

这次发布也暗示了更广泛的产品战略。Stability 表示正在开发一套面向职业音乐人的新产品,但所提供的原文并未披露具体功能。公司还聘请了曾任 Universal Audio 和 Fender 首席数字官的 Ethan Kaplan,负责带领其职业音乐业务。

这一动作与生成式音频领域更广泛的趋势一致。许多公司如今都在招聘音乐行业高管,以增强可信度,并更好地应对许可、合作关系和市场进入策略。技术在快速进步,但企业越来越需要的不只是模型能力,还包括对行业的深度理解。

  • 小型模型面向设备端生成,最长可达两分钟。
  • medium 和 large 模型面向更长作品,最长可达 6 分 20 秒。
  • 三款模型提供开放权重,而最大模型仍处于付费和更严格控制之下。
  • Stability 表示,新模型使用了完全获得许可的数据训练。

这次发布为何重要

Stability Audio 3.0 并不会终结关于音乐 AI 的争论,而公司的性能主张最终仍要由创作者和开发者来检验。但这次发布仍然是一个有意义的行业信号。它把更长篇幅的生成能力、开放与商业并行的发布策略,以及以许可优先的立场结合在一起,而音频 AI 市场正从新奇走向基础设施。换句话说,Stability 不再只是试图证明 AI 能创作音乐,而是在尝试证明 AI 音乐可以被产品化、部署并在规模上商业化。

本文根据 TechCrunch 的报道改写。阅读原文

Originally published on techcrunch.com