前不久,Meta推出了一款名为MusicGen的开源人工智能模型,可以根据文本提示或旋律生成音乐。
这款模型与谷歌今年1月发布的MusicLM类似,可以基于文本提示或哼唱、演奏的旋律创作音乐。MusicGen在2万小时的音乐数据上进行了训练,其代码已经在Github上公开,用户也可以在Hugging Face上在线测试。
使用MusicGen非常简单,用户只需要输入一段对想要听到的音乐的描述,比如“一种结合了嘻哈和管弦乐元素的动感音乐,有着悠扬的弦乐和铜管乐,唤起了城市的活力气息。”或者更简单的描述:“90年代的摇滚歌曲,有吉他的主旋律。”用户还可以选择上传一首歌曲来帮助生成想要的内容。MusicGen会在几分钟内生成一段12秒的音频片段。
Meta在6月8日发表在arXiv预印本服务器上的论文中称,他们对MusicGen进行了客观和主观的评估,并发现它在音质、旋律和文本适应性方面都优于其他类似的模型,如MusicLM、Diffusion和Noise2Music。
“MusicGen能够产生高质量的样本,它们与给定的和声结构更好地旋律对齐,同时遵循文本描述。”Meta在论文中写道。这款工具被认为是作曲家和表演者的一个宝贵助手。
Meta测试了三个版本的模型,它们在提供音乐细节方面有所不同:300百万、15亿和33亿参数。在评估中,Meta发现人类更喜欢中等范围(15亿参数)模型的结果。这也许反映了法国电子音乐制作人Rone对成功音乐制作的理论:“少即是多。”
然而,参数最多的模型生成的输出最能准确反映文本和音频输入。
与此同时,其他音乐生成模型也在不断地提高。比如,Noise2Music是一款基于扩散模型(Diffusion Model)的文本条件音乐生成模型。它可以从噪声开始逆向生成音乐,并根据文本提示调整风格、情感和节奏。Noise2Music在客观评估中表现出较高的信噪比(SNR)和谱图相似度(SSIM),但在主观评估中得分较低。
另一款基于扩散模型的音乐生成模型是Riffusion,它可以根据文本提示或哼唱生成吉他独奏。Riffusion在主观评估中得到了较高的分数。
业界对MusicGen的反应不一。
有些人认为这是一个创新和有趣的工具,可以激发音乐创作和欣赏。比如,TechCrunch称,“随着AI项目在其他领域的发展,生成音乐也在明显地提高(参见Riffusion、Dance Diffusion和OpenAI的Jukebox)。”
有些人则对这种技术持怀疑或担忧的态度,认为它可能会侵犯版权、损害原创性或降低音乐品质。比如,ummid.com引用了一位不愿透露姓名的音乐家的话说,“我不喜欢这种用AI来模仿已有风格或艺术家的做法。我觉得这样会失去音乐创作中最重要的东西:灵感和情感。”
随着AI项目在其他领域的发展,不可避免地会出现一些问题,最主要的是关于使用版权材料的法律问题。Meta表示,所有用于训练MusicGen的歌曲都已经通过与版权持有者的法律协议进行了清理。但是,用户如果在描述中添加了一首歌曲或艺术家的名字,可能会打开潘多拉盒子,导致版权侵权。
尽管版权问题依旧困扰着AIGC大模型的开发,但并没有阻碍相关技术的进步,也没有成为一些进步人士选择向AI靠拢,并利用AI推动自己或业界的发展的绊脚石。
比如,Spotify的首席执行官Daniel Ek在今年4月的财报电话会议上表示,他们正在与音乐行业合作,解决AI相关的问题,同时也鼓励其平台上的创新。
另一个例子是Grimes,她是前特斯拉首席执行官埃隆·马斯克的前伴侣,也是他两个孩子的母亲。她在今年4月在推特上表示,她愿意与任何使用她的声音生成音乐的AI公司分享版权收入。她说:“我觉得这是一种很酷的艺术形式。”
还有一个例子是OpenAI,这是一个致力于创建和推广友善AI的非营利组织。它在去年发布了一款名为Jukebox的AI模型,可以根据文本提示或歌曲片段生成音乐。它在其网站上声明,它尊重原创音乐家和版权持有者的权利,并提供了一些指导原则和建议,以避免侵犯版权或滥用其技术。OpenAI表示:“我们希望Jukebox能够为音乐产业带来新的机遇和挑战,同时也尊重原创音乐的价值和意义。”
Meta表示,他们希望MusicGen能够为音乐产业带来新的机遇和挑战,同时也尊重原创音乐的价值和意义。
“我们相信,AI可以成为人类创造力的一个强大的伙伴,而不是一个威胁或竞争者。”Meta在论文中写道。“我们希望MusicGen能够激发更多的音乐爱好者和专业人士,探索新的音乐领域和风格,同时也保持对音乐艺术和文化的敬畏和尊重。”
本文来自微信公众号“音乐财经”(ID:musicbusiness),作者:小鹿角编辑部,36氪经授权发布。