从AI孙燕姿到MusicGen,从演唱到创作,AI已经全面入侵音乐领域。
近日,Meta在Github上开源了AI模型MusicGen,引发外界关注。
顾名思义,MusicGen是有一个音乐生成AI模型,可以根据文本和旋律提示创作音乐。
该模型基于谷歌2017年推出的Transformer模型,并采用Meta的EnCodec编译器将音频数据分解为小单元处理。
上周晚些时候,Meta人工智能研究工程师Felix Kreuk在Twitter上展示了MusicGen的功能。
在视频演示中,MusicGen分别将两个古典音乐片段改编成80年代的流行音乐和现代嘻哈音乐,它还根据提示加入了乐器、电子音等元素。
根据Meta的介绍,MusicGen接受了20000小时的音乐训练,相当于人不吃不喝不睡觉训练833天。
该模型还使用了来自媒体内容服务商ShutterStock和Pond5 10000首“高质量”授权音乐和390000首纯音乐。
那么,练习时长两年半的MusicGen,够格出道吗?
Meta自己将MusicGen与市面上已有的音乐创作软件MusicLM(谷歌旗下)、Riffusion以及Mousai进行了比较。
对此,华尔街见闻挑选了其中三个例子:
提示1. 创作一首流行舞曲,要求旋律朗朗上口,加入热带打击乐因素,节奏欢快,适合沙滩场景。
MusicGen
MusicLM
Riffusion
Mousai
提示2. 编一首气势宏伟的管线交响乐曲,加入雷鸣般的打击乐器、有史诗感的铜管乐和高昂的弦乐,创造一个适合英雄战斗的电影背景音乐。
MusicGen
MusicLM
Riffusion
Mousai
提示3. 创作一首经典雷鬼音乐,加入电吉他独奏。
MusicGen
MusicLM
Riffusion
Mousai
不难听出,MusicGen的表现似乎更加惊艳。
据Meta称,无论在与文本的匹配度上,还是在作曲的可信度上,MusicGen在四者之间的表现都更胜一筹。
为了验证MusicGen是不是真有那么好,科技媒体Techcrunch记者Kyle Wiggers亲身试用了MusicGen和MusicLM,对比两位AI音乐家的作品。
先说他的结论:
我得说,(MusicGen )还不至于让人类音乐家丢了工作,但它创作的音乐相当优美,至少对于“环境音乐”这样的基本提示语来说是这样,而且在我听来,它与谷歌的AI音乐生成器MusicLM相比,不分伯仲(如果不是稍微好一点的话)。
Wiggers先是抛出了一个简单的提示语:爵士、电梯音乐。
MusicGen和MusicLM拿出了以下作品:
MusicGen
MusicLM
然后,Wiggers增加考试难度,让AI创作一首低保真、慢节奏的Electro Chill(一种融合了电子音乐和放松氛围的音乐风格)音乐,要求使用自然、真实的声音。
两大模型作品如下:
MusicGen
MusicLM
对于第二个提示,Wiggers发现,MusicGen在音乐连贯性方面出人意料地胜过MusicLM,其作品很容易在YouTube上的一个音乐全天直播频道Lofi Girl上找到来源。
最后,Wiggers尝试让MusicGen和MusicLM创作具有知名作曲家George Gershwin风格的钢琴小曲。
他发现,谷歌在MusicLM的公开版本中嵌入了一个过滤器,阻止用户提示特定艺术家,以保护作者版权。
相比之下,MusicGen就没有这样的过滤器,最终创作出了所谓George Gershwin风格的钢琴曲。
但在Wiggers看来,这首曲子并没有那么好。
值得一提的是,目前市面上存在许多文本、语音、图片甚至是视频生成模型,但优质的音乐生成模型少之又少。
根据在线科学预印本存储库arXiv中找到的研究文件,音乐生成的主要挑战之一是需要运行全频谱,这需要更密集的采样,更不用说复刻音乐的复杂结构和乐器的配合了。
MusicGen能否成为一款优秀的音乐生成模型,还有待更多用户的验证。
用户可以通过Hugging Face的API体验MusicGen,但生成音乐可能需要一些时间,具体取决于同时在线的用户数量。
目前,Meta尚未提供用于训练模型的代码,但提供了预训练模型。