音乐也逃不过AIGC：国风摇滚都来得（内藏ikun彩蛋）

作者：量子位发布时间：2023-06-13

AIGC

克雷西发自凹非寺

量子位 | 公众号 QbitAI

“再多看一眼就会爆炸，再靠近点就快被融化”到底是个什么感觉？

（这是一句《只因你太美》中的歌词）

下面的音乐或许能让你体会到这种“从来未有”的feel，坤坤听了都会直呼内行。

再多看一眼就会爆炸进度条00:1500:00/00:15

这段音乐来自Meta最新推出的文生音乐工具MusicGen。

只需要输入一段文字，点击生成按钮就能得到一段最长30秒的音乐，而且支持中文。

不懂乐理也没关系，MusicGen还可以 上传已有的音乐作为参照。

只因你太美混合进度条00:1800:00/00:18

比如上面这段音乐就是结合了原曲旋律重新生成的。

如果你实在不知道怎么prompt，也可以像这位网友一样问问ChatGPT：

无论是国风还是摇滚风都能轻松驾驭，甚至是两者结合。

混合风格进度条00:1400:00/00:14

哪怕国风伴奏也难不倒MusicGen。

京剧伴奏进度条00:1600:00/00:16

测试结果显示，MusicGen的综合评分比谷歌的MusicLM高出了5.36%。

有网友给出了详细的测评体验：

这个模型似乎没有专门针对乐队名称进行训练，但用已有的风格生成音乐时表现非常好。

……

尽管（项目）网站中的示例是（开发者）挑选过的，但这并不能否定它可以生成好的作品。

如何实现

音乐的合成涉及多段旋律以及多种音色（乐器）之间的协调。

而不同于语音合成，人类对音乐之中的不和谐因素更为敏感。

那么MusicGen是如何完成这一复杂任务的呢？

我们先来看看它的训练数据。

Meta团队一共使用了两万小时的音乐。

这之中包括一万条内部搜集的高质量音轨以及ShutterStock和Pond5素材库中的数据。

来自后两者的数据量分别为2.5万和36.5万。

这些音乐数据在32kHz下被重新采样，都配有流派、BPM等基本信息和复杂一些的文字说明。

除了上述训练数据，Meta团队还准备了评价数据集MusicCaps。

MusicCaps由5500条专业作曲家谱写的10秒长的音乐构成，其中包括一千条平衡各个音乐流派的子集。

说完训练数据，我们来具体看看MusicGen的工作流程。

第一步是将声音信息转化为token。

这一步使用的是Meta去年研发的卷积网络编码器EnCodec。

至于编码方式，Meta团队通过实验对四种不同的方式进行了测试。

最终，团队选择了延时模式（下图右下）并进行了精准建模。

最核心的Transformer部分，团队训练了300M、1.5B、3.3B三个不同参数量的自回归式Transformer。

在混合精度下，训练上述三个参数量的Transformer分别使用了32、64和96块GPU。

对于文字处理，在评估了多个前人成果后Meta团队最终选用了Google团队2020年提出的T5模型。

对于音乐旋律的调整，团队选用了无监督的方式进行，规避了监督数据不佳导致的过拟合问题。

最终，Transformer输出的数据被转换为对数形式，然后根据编码本生成最终的成品。

体验方式

目前，想要体验MusicGen，一共有三种方式。

第一种方式是 直接用官方在Hugging Face发布的DEMO。

（传送门见文末）

这种方法操作最为简单，点进链接就能用。

缺点是得排队，有时候还会赶上服务器被挤爆、重新building等情况。

第二种是 通过谷歌Colab搭建。

比第一种多了个一键部署的步骤，不过也比较简单，官方已经把部署要用的代码准备好了。

（传送门见文末）

进入之后，点击左上角的运行按钮即可完成一键部署，然后会得到一个专属链接，点进去就可以体验了。

不过这种操作方式需要谷歌账号才能用。

第三种方式则是 自行部署。

你需要有足够性能的GPU，且已经安装了PyTorch2.0或以上版本。

使用下面的命令即可完成安装：

# Best to make sure you have torch installed first, in particular before installing xformers.

# Don't run this if you already have PyTorch installed.

pip install'torch>=2.0'

# Then proceed to one of the following

pip install-U audiocraft # stable release

pip install-U git+https://git@github.com/facebookresearch/audiocraft #egg=audiocraft # bleeding edge

pip install-e . # or if you cloned the repo locally

安装好后，使用【python app.py】命令即可运行。

传送门

Hugging Face：

https://huggingface.co/spaces/facebook/MusicGen

谷歌Colab：

https://colab.research.google.com/drive/1-Xe9NCdIs2sCUbiSmwHXozK6AAhMm7_i?usp=sharing

— 完—

线下嗨聊 AIGC两整天，稀土开发者大会来袭！

超值199元门票限量抢购中，转发海报有机会赢免费参会！

北京大学王选计算机研究所教授、 CCF 自然语言处理专委会秘书长万小军确认出席主论坛，来自 字节跳动、腾讯、虾皮、Intel、Google等公司的技术嘉宾，将带来一整天的「大模型与AIGC 」分论坛。

近期资讯

广东率先开启“AI农业”全面探索

科技兴农是推动农业现代化、保障国家粮食安全的重要战略，正日益成为各行各业关注的焦点。与此同时，农业领域的科技创新比赛的影响力也在最近几年间逐渐彰显，通过以赛促研的方式，激发了农业领域的创新活力，培养更多掌握“新农具”的新农人，共同推动农业高质量发展。

羊城晚报 2024-12-30

做传统采矿行业的变革者（这些豫企相当潮）

跃薪公司做了哪些努力，是如何让企业在5G时代勇立“潮”头的？张帅：未来，公司将不断开拓新领域、研发新产品，落实国家对无人智慧矿山的发展要求，一如既往地创新发展。未来，我们将努力把业务从矿山承包领域拓展到对外销售，从国内矿区走向国际矿区，让传统采矿行业共享绿色智慧时代成果。

河南日报 2024-12-30

加快推进品牌强国建设（新时代画卷）

沈阳新松机器人自动化股份有限公司拥有自主知识产权的工业机器人、移动机器人、特种机器人三大类核心产品，为全球4000余家知名企业提供智慧升级服务。

金台资讯 2024-12-30

华为Pura 80 Art有望回归，旗舰手机设计标杆

近日有博主暗示，华为Pura80Art有望回归，定位跟非凡大师系列类似。资料显示，华为2023年3月推出了P60Art，该机凭借独具一格的设计引发行业关注。从博主爆料来看，Pura80系列有可能会新增Art版，该机的影像、工业设计都值得期待。

中关村在线 2024-12-30

时速400公里！全球最快高铁列车亮相

据新华社电记者从中国国家铁路集团有限公司获悉，12月29日，CR450动车组样车在北京发布，这标志着“CR450科技创新工程”取得重大突破，将极大提升我国铁路科技创新水平和科技自立自强能力，进一步巩固扩大我国高铁技术世界领跑优势。据介绍，CR450动车组样车运营速度、运行能耗、车内噪声、制动距离等主要指标国际领先。

新华日报 2024-12-30

微信小店蓝包：创新竞争电商新局

【微信小店新动作引发市场关注】微信小店“送礼物”在春节前低调灰测，相关概念股高涨。此新功能被称为微信“蓝包”，引发分析人士高呼“红包2.0来了”，但高管辟谣称无远大计划。微信蓝包面临内外竞争，内有微信小程序“礼物说”，外有淘宝版本的“送给TA”及抖音类似功能。电商发展需要新产品新玩法，创新推动竞争，市场底色是竞争，消费者在企业竞争中受益。

和讯网 2024-12-30

封面新闻 2024-12-30

曝任天堂Switch 2将于25年3月28日发布配件或提前上市

【CNMO科技消息】近日，关于任天堂Switch2的种种传闻再次引发关注。意大利网站UAGNA爆料称，任天堂Switch2的配件（包括官方和第三方配件）将于2025年3月28日上市。但值得注意的是，近期也有其他传言指出，任天堂可能会在2025年1月8日揭晓Switch2的真面目，并在3月底迎来正式发售。

手机中国 2024-12-30

音乐也逃不过AIGC：国风摇滚都来得（内藏ikun彩蛋）

推荐体验

相关资讯

SORA、Gen-2、Pika也逃不过，文生视频检测新工具来了，准确率高达93.7%

2023世界读书日丨逃不过的八本经典，你读过哪些？

音乐界ChatGPT悄然更新：敲水壶都能被AI变成摇滚乐

阜阳也“AI”了！首支AIGC国风版MV里看颍淮！

音乐界的 ChatGPT 来了，普通人也能“创作”音乐

近期资讯

广东率先开启“AI农业”全面探索

做传统采矿行业的变革者（这些豫企相当潮）

加快推进品牌强国建设（新时代画卷）

华为Pura 80 Art有望回归，旗舰手机设计标杆

时速400公里！全球最快高铁列车亮相

微信小店蓝包：创新竞争电商新局

一座实验室的向“新”修行

AI浪潮来袭，大学生会成为知识的“搬运工”吗

时速400公里全球最快高铁列车亮相

曝任天堂Switch 2将于25年3月28日发布配件或提前上市

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响