当前位置:首页|资讯|生成式AI|Stability AI

免费AI写歌软件Stable Audio发布!华语乐坛有救了?

作者:ReadPaper论文阅读发布时间:2023-09-15

著名的开源平台Stability AI近日发布了其音频生成式AI产品——Stable Audio。用户只需通过文本提示,即可生成包括摇滚、爵士、电子、嘻哈等在内的20多种类型的背景音乐。例如,输入“迪斯科”、“鼓机”等关键词,就能生成相应的背景音乐。Stable Audio提供免费和付费两个版本。

其中免费版每月可生成20首音乐,最大时长为45秒,而付费版每月11.99美元,可生成500首音乐,最大时长为90秒。Stable Audio使用了一种先进的模型,允许用户控制生成音频的内容和长度,能够在不到一秒的时间内渲染出95秒的立体声音频。

官网:https://www.stableaudio.com/

详细的来说模型结构——Stable Audio的模型结构如下:

1. 主要组件:

变分自动编码器 (Variational Autoencoder, VAE): VAE允许模型通过接受输入音频数据并以压缩形式输出,其中包含足够的信息进行转换,从而更高效地学习和操作。

文本编码器 (Text Encoder): 该编码器名为CLAP,从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的连接。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。

扩散模型结构 (Diffusion Model Architecture of U-Net): 该模型是基于Moûsai模型的U-Net架构,拥有907百万参数。它使用残差层、自注意力层和交叉注意力层的组合,基于文本和时间嵌入对输入数据进行去噪。为了增强长序列的可扩展性,已经整合了高效的注意力机制。

2. 文本提示的集成:

文本提示使用名为CLAP的冻结文本编码器进行集成,该编码器从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的联系。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。

3. 时间嵌入的创建:

为了创建时间嵌入的音频片段,计算了片段的开始秒数(称为“seconds_start”)和原始音频文件中的总秒数(称为“seconds_total”)。这些值被转换为离散学习的嵌入,并与查询令牌连接在一起,然后传递给U-Net的注意力层。在推断过程中,提供相同的值作为条件,允许用户指定输出音频的总长度。

最后聊聊我的看法:

Stable Audio为内容创作者提供了一个高效、低成本的音乐生成工具,特别是对于那些没有音乐背景但需要背景音乐的创作者。华语乐坛会不会有救了?


特邀作者:早稻田大学计算机系在读博士 王军杰 


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1