图像生成器 Stable Diffusion 背后的公司 Stability AI 宣布推出一款名为Stable Audio的服务,这是一款基于人工智能的、将文本生成为音乐音频的服务。
这款新工具是 Stability AI 首次涉足音乐领域,可以生成长达 90 秒的高质量音乐片段和音效。它还能对体裁、乐器、情绪、BPM 等细节方面进行设置。
Stable Audio 训练数据集的来源,是 AudioSparx 音乐库中 80 多万个音频文件。Stability AI 表示,这个新平台 "非常适合音乐家创建音乐采样"。
他们在 stability.ai 发布的一篇博文中举例,说明了生成器的功能。它能够按照任何给定的 BPM 生成音乐样本,而 Meta 和谷歌等公司之前创建的人工智能音乐生成器迄今为止还无法做到这一点。
Stable Audio 的另一个优势是,除了流派和乐器等音乐属性外,它还能考虑 "音频文件的持续时间和开始时间",因此能创造出结构化的音乐创意。这就避免了许多人工智能生成器遇到的一个问题,即它们会随机生成歌曲的一些片段,这些片段在一个乐句的中间开始或结束。
Stable Audio 可以免费生成长达 20 秒的音频样本,每月 11.99 美元的付费版本可以让用户每月生成多达 500 首曲目,每首曲目最长 90 秒。
"Stability AI 首席执行官 Emad Mostaque 说:"作为唯一一家独立、开放和多样态的生成式人工智能公司,我们很高兴能利用我们的专业知识开发一款支持音乐创作者的产品。"我们希望 Stable Audio 能够让音乐爱好者和专业创作人员借助人工智能生成新的内容,我们期待着它将激发出无穷无尽的创新。"