著名的开源平台Stability AI近日发布了其音频生成式AI产品——Stable Audio。用户只需通过文本提示,即可生成包括摇滚、爵士、电子、嘻哈等在内的20多种类型的背景音乐。例如,输入“迪斯科”、“鼓机”等关键词,就能生成相应的背景音乐。Stable Audio提供免费和付费两个版本。
其中免费版每月可生成20首音乐,最大时长为45秒,而付费版每月11.99美元,可生成500首音乐,最大时长为90秒。Stable Audio使用了一种先进的模型,允许用户控制生成音频的内容和长度,能够在不到一秒的时间内渲染出95秒的立体声音频。
官网:https://www.stableaudio.com/
详细的来说模型结构——Stable Audio的模型结构如下:
1. 主要组件:
变分自动编码器 (Variational Autoencoder, VAE): VAE允许模型通过接受输入音频数据并以压缩形式输出,其中包含足够的信息进行转换,从而更高效地学习和操作。
文本编码器 (Text Encoder): 该编码器名为CLAP,从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的连接。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。
扩散模型结构 (Diffusion Model Architecture of U-Net): 该模型是基于Moûsai模型的U-Net架构,拥有907百万参数。它使用残差层、自注意力层和交叉注意力层的组合,基于文本和时间嵌入对输入数据进行去噪。为了增强长序列的可扩展性,已经整合了高效的注意力机制。
2. 文本提示的集成:
文本提示使用名为CLAP的冻结文本编码器进行集成,该编码器从零开始在研究人员策划的数据集上进行训练。这确保文本特征包含足够的信息来建立单词和声音之间的联系。CLAP编码器的倒数第二层的文本特征通过U-Net的注意力层进行传递。
3. 时间嵌入的创建:
为了创建时间嵌入的音频片段,计算了片段的开始秒数(称为“seconds_start”)和原始音频文件中的总秒数(称为“seconds_total”)。这些值被转换为离散学习的嵌入,并与查询令牌连接在一起,然后传递给U-Net的注意力层。在推断过程中,提供相同的值作为条件,允许用户指定输出音频的总长度。
最后聊聊我的看法:
Stable Audio为内容创作者提供了一个高效、低成本的音乐生成工具,特别是对于那些没有音乐背景但需要背景音乐的创作者。华语乐坛会不会有救了?
特邀作者:早稻田大学计算机系在读博士 王军杰
西南发布 2024-11-19
OBOO鸥柏 2024-11-19
weiyi513 2024-11-19
小明侃家电 2024-11-19
浙江创弗化工有限公司 2024-11-19