免费AI写歌软件Stable Audio发布！华语乐坛有救了？

作者：ReadPaper论文阅读发布时间：2023-09-15

著名的开源平台Stability AI近日发布了其音频生成式AI产品——Stable Audio。用户只需通过文本提示，即可生成包括摇滚、爵士、电子、嘻哈等在内的20多种类型的背景音乐。例如，输入“迪斯科”、“鼓机”等关键词，就能生成相应的背景音乐。Stable Audio提供免费和付费两个版本。

其中免费版每月可生成20首音乐，最大时长为45秒，而付费版每月11.99美元，可生成500首音乐，最大时长为90秒。Stable Audio使用了一种先进的模型，允许用户控制生成音频的内容和长度，能够在不到一秒的时间内渲染出95秒的立体声音频。

官网：https://www.stableaudio.com/

详细的来说模型结构——Stable Audio的模型结构如下：

1. 主要组件：

变分自动编码器 (Variational Autoencoder, VAE): VAE允许模型通过接受输入音频数据并以压缩形式输出，其中包含足够的信息进行转换，从而更高效地学习和操作。

文本编码器 (Text Encoder): 该编码器名为CLAP，从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的连接。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。

扩散模型结构 (Diffusion Model Architecture of U-Net): 该模型是基于Moûsai模型的U-Net架构，拥有907百万参数。它使用残差层、自注意力层和交叉注意力层的组合，基于文本和时间嵌入对输入数据进行去噪。为了增强长序列的可扩展性，已经整合了高效的注意力机制。

2. 文本提示的集成：

文本提示使用名为CLAP的冻结文本编码器进行集成，该编码器从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的联系。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。

3. 时间嵌入的创建：

为了创建时间嵌入的音频片段，计算了片段的开始秒数（称为“seconds_start”）和原始音频文件中的总秒数（称为“seconds_total”）。这些值被转换为离散学习的嵌入，并与查询令牌连接在一起，然后传递给U-Net的注意力层。在推断过程中，提供相同的值作为条件，允许用户指定输出音频的总长度。

最后聊聊我的看法：

Stable Audio为内容创作者提供了一个高效、低成本的音乐生成工具，特别是对于那些没有音乐背景但需要背景音乐的创作者。华语乐坛会不会有救了？

特邀作者：早稻田大学计算机系在读博士王军杰

免费AI写歌软件Stable Audio发布！华语乐坛有救了？

推荐体验

相关资讯

大学生们有救了

Siri 们的“智障”终于有救了？

Siri 们的“愚笨”终于有救了？

ChatGPT：如果华语乐坛有名人堂，谁应该最先入选？

不会PS有救了！Adobe发布生成式AI工具：人工智能帮你做图

近期资讯

科兴制药：终止人干扰素α2b喷雾剂临床试验

亮点多多！湖北政法智能化建设成果应用优秀案例和优秀能手展演举行

重磅！河南省首批4个工业大模型发布

【品牌】OPPO新机发布计划曝光不止FindX8mini/Ultra/N5大折叠

210组件年底累计出货近380GW 叠加先进电池技术有望引领800W+时代

小米米家 3D 版界面曝光：动态可视化直观管控家中智能设备

年菜销售火热开启，普陀这个智慧菜场上了“高科技”

机器人辅助施工，5G无人塔吊、空中造楼机....江苏智能建造正向“新”而行

熊伟：期望数据库90%的开发、运维和调优可以用自然语言实现

中关村丰台园打造“AI+制造”创新联合体

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响