音乐版的ChatGPT来了，会颠覆音乐创作吗？

作者：新音乐产业观察发布时间：2023-02-08

OpenAI 的人工智能聊天机器人ChatGPT 迅速崛起，让人们期待生成式AI工具还能改变什么？Google最近发布的一篇研究论文给出了一个答案，可能歌曲创作和音乐行业的未来会因此而不同。

只需要输入文字“来段轻松的爵士乐”，AI就会自动生成音乐。描述内容越详尽，生成的音乐就会更丰富且充满细节。这就是谷歌论文介绍的名为 MusicLM的模型，这是一种从文本描述中生成音乐的AI模型。这一模型本身尚未正式发布，但公众已经可以在网络上浏览数十个音频成果，展示该模型突破性的功能。

虽然生成音乐的AI系统早已被开发出来，但由于技术限制和训练数据有限，还没有人能够创作出曲子特别复杂或保真度特别高的歌曲。相对而言，MusicLM 模型简直是生成音乐的小能手，会的乐曲五花八门，你能想到的它都会满足。

有人对这一研究给予极高的评价：这比大火的 ChatGPT 还重要，谷歌几乎解决了音乐生成问题。唯一的问题是，MusicLM什么时候能上线，或者还能不能上线。

AI可以把文字变成音乐

“这是街机游戏的主要配乐。它节奏快且乐观，带有朗朗上口的电吉他即兴重复段。音乐是重复的，容易记住，但有意想不到的声音，比如铙钹的撞击声或鼓声。”

“这是雷鬼和电子舞曲的融合，带有空旷的、超凡脱俗的声音。引发迷失在太空中的体验，音乐的设计旨在唤起一种惊奇和敬畏的感觉，同时又可以跟着跳舞。”

“上升合成器正在演奏带有大量混响的琶音。它由打击垫、次低音线和软鼓支持。这首歌充满了合成器的声音，营造出一种舒缓和冒险的氛围。它可能用来在音乐节的两首歌之间串场。”

这些都是都是供MusicLM创作的描述文本，MusicLM根据这些文字内容生成30秒钟的音乐。当然如果你觉得这些音乐太短，完全可以让机器创作一段长达5分钟的“轻松的爵士乐”。

再复杂的话，MusicLM 还有“故事模式”，可以根据一系列文本的需求，在不同的时间段生成不同的音乐风格。比如在2分钟的时间内，生成并串联起爵士乐、流行、摇滚、死亡金属、说唱……直到苏格兰民歌，让你好像经历了一部电影大片。

甚至，MusicLM 还可以根据画面主题生成音乐。比如马蒂斯的《舞蹈》、蒙克的《呐喊》、达利的《记忆的永恒》等等世界名画，都可以让MusicLM生成相应的主题音乐。MusicLM 为雅克-路易·大卫的名作《跨越阿尔卑斯山圣伯纳隘道的拿破仑》所作的配乐，就庄重典雅，将冬日的凌厉肃杀和英雄主义色彩体现地淋漓尽致。连《格尔尼卡》《星空》这类抽象派画作，MusicLM均可识别并创作。

如果你觉得仅文字描述还不够，该模型还允许用其他辅助手段指导AI的音乐创作。比如依靠音频输入，例如用口哨声、嗡嗡声，或者乐器演奏的片段来补充说明，让MusicLM更清楚地理解创作的需求，最终准确呈现文本提示描述的风格。

AI音乐的一次重要突破

使用 AI 生成音乐并不是什么新鲜事。Riffusion通过可视化来创作音乐， Dance Diffusion通过对数百小时的现有歌曲的学习让AI生成音乐片段。谷歌自己也发布过 AudioML，时下最热门的聊天机器人“ChatGPT”的研发者OpenAI 则推出过 Jukebox。

但之前的探索，尚未展示一种能够根据简单的文本提示生成合格音乐的工具。MusicLM 背后的团队称，在他们的论文中解释了AI 音乐生成面临的各种挑战。

首先，缺乏配对的音频和文本数据是一个问题——不像文本到图像的机器学习，他们说庞大的数据集对最近的进展“做出了重大贡献”。

人工智能音乐生成的另一个挑战，是音乐是“沿着时间维度”构建的，乐曲要延续一段时间。因此，让AI了解文本表达的意图，做出一段符合主题的持续的音乐要困难得多。

MusicLM 是克服这些挑战的重要一步。它其实是一个分层的“序列到序列”（Sequence-to-Sequence）模型。根据人工智能科学家Keunwoo Choi的说法，MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型，可谓集大成者。

MusicLM结合了MuLan+AudioLM等多个模型

其中，AudioLM模型可视作MusicLM的前身，MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件，可以通过文本描述，以24kHz的频率生成音乐，并在几分钟内保持这个频率。

相较而言，MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建，涵盖5500个音乐-文本对。

基于此，谷歌用280000小时的音乐数据集训练出了MusicLM。总之，MusicLM可以针对复杂描述生成有意义的音乐。研究人员还声称，他们的模型不但相比之前的系统可以更准确还原文本的意图，音频质量也优于以前的任何产品。

但MusicLM 肯定不是完美无缺的，或者说离完美仍有相当的距离。一些样本还有质量问题，而且虽然 MusicLM 在技术上可以生成人声，包括完成和声，但还有很多地方需要改进。大多数“歌词”也是蹩脚的英语或纯粹的胡言乱语，然后由合成的声音演唱，听起来像是奇怪的“混合物”。

AI何时与人同台竞技？

不过，MusicLM 尚未向公众发布，团队承认“与该用例相关的盗用创意内容存在潜在风险”，“我们强调的是，在解决这些与音乐生成相关的风险方面，未来需要更多的工作。”

简单说来，既然要AI学习创作，就需要日常喂给它大量的学习材料。但AI跟人一样，偶尔会偷懒直接抄袭这些素材。在一次实验中，团队发现，该系统生成的音乐中约有 1% 是直接复制自其训练的歌曲，这个问题足以让研究人员不愿意以目前的状态发布 MusicLM。

另外，用搜集来的素材供AI学习，这本身是否就已经涉及到侵犯版权？随着 OpenAI 音乐生成神经网络Jukebox 的发布，批评者也开始质疑在受版权保护的音乐材料上训练 AI 模型是否构成合理使用。围绕图像、代码和文本生成 AI 系统中使用的训练数据也引起了类似的担忧，这些数据通常是在创作者不知情的情况下从网络上收集的。

除此之外，还有另外一层问题。AI生成的音乐虽然是“原创”，但往往像不同音乐人作品的杂糅，也就是说有洗稿甚至是山寨的嫌疑。此前，就有AI模拟知名音乐人的声音演唱歌曲，这种Deepfake式的音乐引起的诉讼也会见于新闻媒体，但仍处于模糊的法律地带。

最根本的质疑，还是AI到底能不能真正代替人类的艺术创作？ChatGPT走红后，不少人用它创作Nick Cave风格的歌词，并把作品发送给音乐人本人。Nick Cave直接表示“这些歌词是胡说八道，是对人性的荒诞嘲弄”。

“自2022年11月以来，很多人都把 ChatGPT创作的‘尼克·凯夫风格’歌词寄给我，其中大部分人都对算法充满敬畏之情，”他在回复中写道。“已经有几十个了。可以说，我对这项技术没有同样的热情。我知道 ChatGPT 还处于起步阶段，但也许这就是AI出现的可怕之处——它将永远处于起步阶段，因为它总是会走得更远，而且方向总是向前的，总是更快的。”

Nick Cave针对ChatGPT作出的部分回应

“ChatGPT 令人忧郁的角色是，它注定要模仿，永远无法拥有真实的人类体验，无论人类体验最终会变得多么贬值和无关紧要。”Nick Cave说。

如今，MusicLM的音乐能力远超ChatGPT。但由AI系统生成的音乐到底算不算原创作品？或者它什么时候能真正有意识地创作音乐，以最终和“人造音乐”同台竞技？我们只能拭目以待了。

本文来自微信公众号 “新音乐产业观察”（ID：takoff），作者：益佰，36氪经授权发布。

音乐版的ChatGPT来了，会颠覆音乐创作吗？

AI可以把文字变成音乐

AI音乐的一次重要突破

AI何时与人同台竞技？

推荐体验

相关资讯

音乐创作中，人和AI谁重要？答案来了

AI与音乐创作设备：如何用人工智能改变音乐创作

人工智能时代的音乐创作随着

精彩活动 || 人工智能赋能音乐——音乐创作的未来之路

音乐界的 ChatGPT 来了，普通人也能“创作”音乐

近期资讯

如何应对忘记手机解锁图案的烦恼与解决方法分享

华为手机呼叫等待功能设置详解与注意事项

华为手机录屏功能详解：简单步骤与实用技巧

苏州工业园区和顺电气取得充电模块专利，便于人员对电芯进行安装的同时，也有利于缩小整体的体积

拉姆伯斯公司申请用于存储器模块的动态随机存取存储器专利，实现存储器模块数据访问定时控制

瑞昱半导体申请存储器时钟控制专利，控制存储器时钟

崎伟科技取得一种防触电充电桩专利，实现充电头干燥

英特尔申请存储器接口电路专利，提高存储器接口性能

如何有效清理电脑磁盘空间，避免“磁盘已满”烦恼

如何轻松开启笔记本电脑摄像头及常见问题解决方法

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响