OpenAI 的人工智能聊天机器人ChatGPT 迅速崛起,让人们期待生成式AI工具还能改变什么?Google最近发布的一篇研究论文给出了一个答案,可能歌曲创作和音乐行业的未来会因此而不同。
只需要输入文字“来段轻松的爵士乐”,AI就会自动生成音乐。描述内容越详尽,生成的音乐就会更丰富且充满细节。这就是谷歌论文介绍的名为 MusicLM的模型,这是一种从文本描述中生成音乐的AI模型。这一模型本身尚未正式发布,但公众已经可以在网络上浏览数十个音频成果,展示该模型突破性的功能。
虽然生成音乐的AI系统早已被开发出来,但由于技术限制和训练数据有限,还没有人能够创作出曲子特别复杂或保真度特别高的歌曲。相对而言,MusicLM 模型简直是生成音乐的小能手,会的乐曲五花八门,你能想到的它都会满足。
有人对这一研究给予极高的评价:这比大火的 ChatGPT 还重要,谷歌几乎解决了音乐生成问题。唯一的问题是,MusicLM什么时候能上线,或者还能不能上线。
“这是街机游戏的主要配乐。它节奏快且乐观,带有朗朗上口的电吉他即兴重复段。音乐是重复的,容易记住,但有意想不到的声音,比如铙钹的撞击声或鼓声。”
“这是雷鬼和电子舞曲的融合,带有空旷的、超凡脱俗的声音。引发迷失在太空中的体验,音乐的设计旨在唤起一种惊奇和敬畏的感觉,同时又可以跟着跳舞。”
“上升合成器正在演奏带有大量混响的琶音。它由打击垫、次低音线和软鼓支持。这首歌充满了合成器的声音,营造出一种舒缓和冒险的氛围。它可能用来在音乐节的两首歌之间串场。”
这些都是都是供MusicLM创作的描述文本,MusicLM根据这些文字内容生成30秒钟的音乐。当然如果你觉得这些音乐太短,完全可以让机器创作一段长达5分钟的“轻松的爵士乐”。
再复杂的话,MusicLM 还有“故事模式”,可以根据一系列文本的需求,在不同的时间段生成不同的音乐风格。比如在2分钟的时间内,生成并串联起爵士乐、流行、摇滚、死亡金属、说唱……直到苏格兰民歌,让你好像经历了一部电影大片。
甚至,MusicLM 还可以根据画面主题生成音乐。比如马蒂斯的《舞蹈》、蒙克的《呐喊》、达利的《记忆的永恒》等等世界名画,都可以让MusicLM生成相应的主题音乐。MusicLM 为雅克-路易·大卫的名作《跨越阿尔卑斯山圣伯纳隘道的拿破仑》所作的配乐,就庄重典雅,将冬日的凌厉肃杀和英雄主义色彩体现地淋漓尽致。连《格尔尼卡》《星空》这类抽象派画作,MusicLM均可识别并创作。
如果你觉得仅文字描述还不够,该模型还允许用其他辅助手段指导AI的音乐创作。比如依靠音频输入,例如用口哨声、嗡嗡声,或者乐器演奏的片段来补充说明,让MusicLM更清楚地理解创作的需求,最终准确呈现文本提示描述的风格。
使用 AI 生成音乐并不是什么新鲜事。Riffusion通过可视化来创作音乐, Dance Diffusion通过对数百小时的现有歌曲的学习让AI生成音乐片段。谷歌自己也发布过 AudioML,时下最热门的聊天机器人“ChatGPT”的研发者OpenAI 则推出过 Jukebox。
但之前的探索,尚未展示一种能够根据简单的文本提示生成合格音乐的工具。MusicLM 背后的团队称,在他们的论文中解释了AI 音乐生成面临的各种挑战。
首先,缺乏配对的音频和文本数据是一个问题——不像文本到图像的机器学习,他们说庞大的数据集对最近的进展“做出了重大贡献”。
人工智能音乐生成的另一个挑战,是音乐是“沿着时间维度”构建的,乐曲要延续一段时间。因此,让AI了解文本表达的意图,做出一段符合主题的持续的音乐要困难得多。
MusicLM 是克服这些挑战的重要一步。它其实是一个分层的“序列到序列”(Sequence-to-Sequence)模型。根据人工智能科学家Keunwoo Choi的说法,MusicLM结合了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型,可谓集大成者。
MusicLM结合了MuLan+AudioLM等多个模型
其中,AudioLM模型可视作MusicLM的前身,MusicLM就是利用了AudioLM的多阶段自回归建模作为生成条件,可以通过文本描述,以24kHz的频率生成音乐,并在几分钟内保持这个频率。
相较而言,MusicLM的训练数据更多。研究团队引入了首个专门为文本-音乐生成任务评估数据MusicCaps来解决任务缺乏评估数据的问题。MusicCaps由专业人士共建,涵盖5500个音乐-文本对。
基于此,谷歌用280000小时的音乐数据集训练出了MusicLM。总之,MusicLM可以针对复杂描述生成有意义的音乐。研究人员还声称,他们的模型不但相比之前的系统可以更准确还原文本的意图,音频质量也优于以前的任何产品。
但MusicLM 肯定不是完美无缺的,或者说离完美仍有相当的距离。一些样本还有质量问题,而且虽然 MusicLM 在技术上可以生成人声,包括完成和声,但还有很多地方需要改进。大多数“歌词”也是蹩脚的英语或纯粹的胡言乱语,然后由合成的声音演唱,听起来像是奇怪的“混合物”。
不过,MusicLM 尚未向公众发布,团队承认“与该用例相关的盗用创意内容存在潜在风险”,“我们强调的是,在解决这些与音乐生成相关的风险方面,未来需要更多的工作。”
简单说来,既然要AI学习创作,就需要日常喂给它大量的学习材料。但AI跟人一样,偶尔会偷懒直接抄袭这些素材。在一次实验中,团队发现,该系统生成的音乐中约有 1% 是直接复制自其训练的歌曲,这个问题足以让研究人员不愿意以目前的状态发布 MusicLM。
另外,用搜集来的素材供AI学习,这本身是否就已经涉及到侵犯版权?随着 OpenAI 音乐生成神经网络Jukebox 的发布,批评者也开始质疑在受版权保护的音乐材料上训练 AI 模型是否构成合理使用。围绕图像、代码和文本生成 AI 系统中使用的训练数据也引起了类似的担忧,这些数据通常是在创作者不知情的情况下从网络上收集的。
除此之外,还有另外一层问题。AI生成的音乐虽然是“原创”,但往往像不同音乐人作品的杂糅,也就是说有洗稿甚至是山寨的嫌疑。此前,就有AI模拟知名音乐人的声音演唱歌曲,这种Deepfake式的音乐引起的诉讼也会见于新闻媒体,但仍处于模糊的法律地带。
最根本的质疑,还是AI到底能不能真正代替人类的艺术创作?ChatGPT走红后,不少人用它创作Nick Cave风格的歌词,并把作品发送给音乐人本人。Nick Cave直接表示“这些歌词是胡说八道,是对人性的荒诞嘲弄”。
“自2022年11月以来,很多人都把 ChatGPT创作的‘尼克·凯夫风格’歌词寄给我,其中大部分人都对算法充满敬畏之情,”他在回复中写道。“已经有几十个了。可以说,我对这项技术没有同样的热情。我知道 ChatGPT 还处于起步阶段,但也许这就是AI出现的可怕之处——它将永远处于起步阶段,因为它总是会走得更远,而且方向总是向前的,总是更快的。”
Nick Cave针对ChatGPT作出的部分回应
“ChatGPT 令人忧郁的角色是,它注定要模仿,永远无法拥有真实的人类体验,无论人类体验最终会变得多么贬值和无关紧要。”Nick Cave说。
如今,MusicLM的音乐能力远超ChatGPT。但由AI系统生成的音乐到底算不算原创作品?或者它什么时候能真正有意识地创作音乐,以最终和“人造音乐”同台竞技?我们只能拭目以待了。
本文来自微信公众号 “新音乐产业观察”(ID:takoff),作者:益佰,36氪经授权发布。