本文节选自《2023华语数字音乐年度白皮书》
技术科普:
热闹的百模大战,着急的音频模型
1.1 从大语言到多模态,AI进入「日更」模式
2023年被誉为「生成式AI元年」。2022年11月,OpenAI 发布以GPT-3.5 模型为内核的ChatGPT。ChatGPT涌现出了上下文学习、思维链等高度智能,被认为具有颠覆式的技术突破、跨领域的应用价值,AI Agent等衍生方向也被认为具有平台和入口级意义。以此为节点,大规模参数、大算力、「暴力求解」风格的大语言模型(LLM)开启了历时性进程。短短几月,大量AI创业公司和科技厂商纷纷入场,LLM领域进入百模大战。
自然语言、图像、视频、音频等不同信息形式,在计算机领域被称为不同「模态」。多模态研究一直是人工智能领域的不同分支。大语言模型爆发后,多模态大模型也成为技术热点。计算机视觉领域,文生图模型在两年内有了快速飞跃。Midjourney在2022年2月发布了初版,同年11月的V4版的真实度和艺术感大幅提升;开源模型Stable Diffusion在2022年8月首次出现,2023年7月推出XL1.0版,体现了出色的写实性和提示词理解力。
视频生成向来被认为是大模型的技术高地,Runway、Pika等公司在此深耕已久。2024年2月,OpenAI推出了Sora模型生成的高质量视频范例,给定一段描述或一张静态图片,就能生成1080P的逼真视频,包含丰富的角色、动作和场景。文生视频领域从此被推入全新阶段。
1.2 音频模型:范式持续发展,爆发来得晚了些
在音乐领域,大模型技术突破似乎比想象中来得更晚一些。直到2024年3月Suno V3的发布,才引起了行业与社会的广泛关注。TME天琴实验室的音频技术负责人赵伟峰介绍到,其实2023年以来,音乐生成领域一直在持续深耕,不断有新模型和范式出现。如今技术范式有了一定共识。主要表现为:从符号音乐到音频模型研究、大模型领域Diffusion和Transformer架构引入、逐渐解决人声唱词问题、文本/语音/音乐/音效综合一体等。
业内代表性的音频模型技术范式:
*谁是真正的里程碑?
MusicLM & MusicGen:从噪声生成音乐,技术里程碑
一线技术从业者指出,2023上半年,MusicLM和MusicGen就已解决了音乐生成中的大部分问题。在已公开的技术架构中,Transformer也是效果较好的(如何评价生成音乐效果,详见后文)。从技术层面而言,MusicLM和MusicGen更有里程碑意义。因为它将自然语言模态和音频模态进行了连接,并从噪声中生成了音乐。
Suno & Udio:解决人声唱词,成为一个好产品
Suno和Udio则重点解决了另一个问题:人声唱词。这让生成音乐真正变成了生成歌曲。从业者推测,它可能采用了类似MusicLM的架构生成音乐,或是使用一个现成伴奏,再将歌词(用户手动输入或调用大语言模型生成)用TTS技术演唱出来,产生对位效果。由于未公布技术方案,难以断定其技术突破性,但它很好地整合了相关技术,成为了一个好产品。
TIPS:评价AI生成音乐的主要指标(天琴实验室及合作团队经验总结)
1. 音乐性/乐理性:涉及旋律、和弦、编曲、节奏、乐器组合等,音乐的艺术性也作为考量。
2. 标签匹配度:用户希望生成的音乐和最终生成的音乐是否匹配。
3. 唱词(语义):具有语义能力,包括多语言、语义的可懂度、语义的完整性。
4. 长序列的连贯性和结构性:虽然属于音乐性,但长序列是当前技术瓶颈,所以重点关注。短时的音乐性,不一定具备长序列的音乐性。
5. 音质:音质是否能达到可供用户欣赏的艺术作品水平。
6. 更多功能:比如支持更多输入、可编辑能力等。
1.3 技术路线:音频生成走热,或与符号音乐融合
以上可见,2023至2024年间,音频模型取得了快速的突破发展,这在几年前是不可想象的。在更早的阶段,AI音乐生成的技术热点是另一条技术路线:音乐符号生成。
音乐符号路线:词曲编录混均可控,但整体性不足
技术原理:提取出音频中的音乐知识(如词曲、和弦、乐器),类似MIDI,把它变成类似音乐功能谱的数据形式,拆分成「词曲编录混」各个环节来生成,包含AI作曲、AI编曲、AI歌声合成等技术。
长短版:最大优势是每个环节都可被控制,能更好地嵌入音乐人的工作流,成为辅助创作工具。但由于串联了多种技术,很难做到整体效果好。音乐是词曲编录混的有机融合,有时候词很好、曲很好,组合在一起却比较糟糕。另一个问题是,曲谱的训练数据相对音频要少得多。
音频模型路线:整体效果较好,但编辑/分轨困难
技术原理:端到端直接生成完整音乐。可以理解为,把一段音乐看作一个频谱图,把频谱图当作图片来训练AI,类似图片生成,找到自然语言和音频之间的对位关系。
长短版:生成的作品整体性强,但因为是端到端,想要进一步编辑调整(比如修改单句旋律)比较困难,获取分轨、MIDI这类制作文件也很难实现。另一个问题是,由于音频复杂度高(每秒至少有44100个数据点),提升音质需要投入极高的算力。
*路线之争?路线融合!
两条技术路线的竞赛中,随着MusicLM和Suno等模型产品的发布,让技术热点的天平又转向了音频模型一侧。不得不感叹,大模型的暴力求解风格在音乐领域也在被验证。但是,目前的音频模型依然面临几大技术卡点:可编辑性不足、长序列的音乐性、音质较差。
其中,「可编辑能力」的实用价值和行业呼声都很高,它也正是音频路线的短板,符号路线的长板。端到端模型反向解决编辑问题,则要对音频训练数据做更精细化的标注——回到了符号路线的逻辑。因此,DeepMusic灵动音科技的创始人兼CEO刘晓光认为,未来的音频模型和符号模型一定是协同起来的。我们可以用不同维度的音乐符号,通过音频模型来生成音乐。
应用变革:
放下路线之争,各自投石问路
虽然音乐生成的技术架构、路线尚未完全公开和统一,但大方向已被验证,各方的技术竞赛和应用探索也在加速。以Suno、Udio为代表的端到端产品,在热潮过后需要思考其应用价值;DeepMusic作为符号路线的代表,正在新态势下更新自身能力;TME天琴实验室作为平台的技术引擎,更多探索的是AI音乐生成与音娱平台的深层关联。
2.1 Suno/Udio类产品:低阶替代、创作启发及更多?
Suno类产品引发的反响,除了技术突破,很大程度在于它的大众属性:第一次让普通人体会到了「创作」歌曲的美妙。虽然这种近乎「一键生成」的方式很难等同于传统创作,但这种体验的发生,让我们得以更合理地推演AI音乐的未来。
业内几个比较有代表性的认知:
TIPS:音乐市场人群细分(DeepMusic的市场研究)
根据对音乐的参与度和专业性不同,音乐人群可分为3类:专业音乐人、音乐实践者、泛音乐爱好者。音乐实践是一种介于专业生产和纯粹消费之间的状态。
1.专业音乐人:规模100万级。主要参与方式为创作与表演,约10万有制作能力。
2.音乐实践者:规模1亿级。参与方式包括玩乐器、音乐APP、音乐社团等。可再分为深度、中度实践者,最大的区别在于:中度实践者不一定有创作意愿,不需要精细控制音乐内容。
3.泛音乐爱好者:规模10亿级。绝大部分为听歌,也包含唱K、看音乐演出等行为。
2.2 DeepMusic和弦派:从专业工具扩散到不懂乐理的人
与Suno类端到端产品相比,符号音乐生成天然具有可编辑性,在服务专业音乐人上更具优势。DeepMusic是一家深耕符号路线的国内代表性的AI音乐创业公司。刘晓光对此分析到:音频模型如同「大力出奇迹」,具很高的不确定性,且国内训练成本是国外的10倍。去赌一个不一定花费多高和多久能成功的音频模型,ROI非常低;但符号模型在效果不够好时,有中间产物让用户自行修改,更具有阶段性价值。
随着音频模型的突破,DeepMusic会等到基础音频模型开源后跟进;并且发挥自身积累的优势,用精细化标注的闭源数据对音频模型进行控制。可见,从端到端产品突破可编辑能力,到符号路线公司整合音频模型,两种技术路线正在发生融合回归,且看谁能跑出更理想的成果。
DeepMusic的旗舰产品「和弦派」是一款辅助创作工具。2024年初进行过一次智能化升级,融入AI编曲、AI歌声等功能,能够一站式生成高质量Demo,并且各环节可控。但用户还需面对门槛较高的音乐功能谱。当前用户构成也偏专业化:20%音乐人、30%音乐老师、25%懂乐理的中度实践者、25%不懂乐理的中度实践者。4月底「和弦派」2.0版上线,刘晓光指出,下一步目标用户会泛化,面向不懂乐理和功能谱的人,正式进入中度实践者赛道。
2.3 TME天琴实验室:技术能力先行,寻找B/C端价值场景
大模型技术爆发后,国内不少互联网及硬件厂商均以不同程度加入竞赛。作为音乐娱乐平台的TME,面对语言、视觉、音频模型的技术演进,思考也从未停止。
TME天琴实验室高级总监吴斌认为,大模型有一个重要特点:核心模型数量很少,当结构足够通用时,就要靠堆算力堆数据去实验。与此同时,更优秀的开源模型不断出现,让许多公司的早期投入失去意义。整个行业还处在一个很动荡的状态,盲目投入并不可取。最关键的决策在于「怎么去跟进大模型趋势才最合理」。平台的核心能力是用户与场景,我们可以在开源模型基础上,重新理解场景,做更好的应用服务。
即便没有选择「All IN大模型」,但在技术快速更新期,天琴实验室仍做了这3件事:
由于视觉、语言模型技术成熟较早,早期天琴的音频模型投入占比并不高。赵伟峰介绍到:2023至2024年,天琴的音频模型投入在不断加大,研发重点也从歌声合成模型「琴韵」转向了歌曲生成模型「琴乐」。
AI安全:
应对未知的一道防线
重要的应是多方参与
AI技术与应用昭示着潜在巨大的产业变革和社会影响,如今这些变革已近在眼前。反思技术的社会影响,以科技伦理视角,尽可能干预技术走向,是我们应对不确定性的底线。在大语言模型领域,价值观对齐问题已经成为产学界和政策制定者的关注重点。在AI音乐领域,围绕音乐版权、创作者生存的议题也成为了讨论焦点。
3.1 音乐版权:回到「鼓励创作」的初衷
在语言、视觉、音频模型领域,相关版权争议同时存在。主要涉及两个关键问题:①模型训练阶段,训练数据的版权合规问题;②内容生成阶段,AI生成物的可版权性问题。
在训练阶段,AI模型需要使用海量数据做预训练。如果训练数据中包含受著作权法保护的版权作品,需要符合著作权法中「合理使用」规则,或得到版权方授权。
在这一问题上,ChatGPT、Stable Diffusion等产品及背后公司都面临着来自《纽约时报》等版权方或艺术家的诉讼,案件尚在推进中。一方面,通过版权保护来鼓励创作,是内容行业长远发展的命脉;另一方面,新技术带来的潜在机会、竞争者挑战正在倒逼产业加速。两种诉求需要得到平衡共赢。目前全球范围内,这一问题还没有明确进展。随着技术产品走向成熟,AI公司与版权方也正积极谋求谈判,寻求许可授权并分享收益,这是未来的一个重要推动方向。
在生成阶段,AI生成的内容是否具有版权?版权归属于谁?目前在大部分国家,著作权法都不认可人类以外的主体。但生成式AI发展至今,各国立法、司法都在积极探讨相关保护方式,一个重要原因在于:人类在AI生成中还起着非常重要的作用。以ChatGPT为例,人类在3个环节中体现了干预或创造:①模型训练中的“人工反馈强化学习”环节、②用户使用中的创造性提问、③内容生成后的调整优化。注:参考《2023植德人工智能年刊》
2023年末,国内首个「AI文生图」著作权案件在北京互联网法院审结,做出了开创性探索。了解这一案件的审理思路,有助于我们理解问题的实质和走向。
国内首个「AI文生图」著作权案件:(参考人民法院报)
业内法律专家也指出,这一判决只适用于案件自身,还不能作为类似案件的参照。AI生成内容的「可版权性」依然存在争议。一个较为普遍的操作思路是:并非有人参与的就是创作,需要判断人的参与程度。且在语言、视觉、音频等不同领域,参与程度有不同的认定方法。
这两个问题均有很高的复杂性,找到共赢解法仍需时间。但我们能看到,背后一以贯之的价值逻辑:著作权法的立法目的,是通过保护人类的「独创性智力投入」,来「鼓励创作和传播」。AI技术有着解放生产力、促进内容行业发展的巨大潜力,却不能以牺牲人类创造力为代价。我们期望通过辨析、约束和利用,让它能正向推动创造力的繁荣。
3.2 人机关系:放下竞争,寻求协作
人类创作者会不会被AI替代?是另一个讨论热点。不只AI音乐,大模型技术乃至每一轮技术革命出现时,人们都有类似的不安。但历史结果表明,新技术一定会淘汰一部分低阶工种,但它不替代整体人类。并且随着低阶工种的淘汰,倒逼人们去创造更能体现自身价值的工作。于是就有了这句调侃:淘汰你的不是AI,而是会用AI的人。
具体到AI音乐行业,前文对Suno的几则判断也大致表明:由于音乐内容供过于求,想要获得市场认可,往往需要做到极高水准,或被强大的宣推驱动,这是AI音乐所不具备的。优质作品中蕴含了人类艺术家的独特个性、经验与情感,这也是AI音乐所不具备的。但是,罐头音乐等低阶工种,应该逐渐就被AI接管了。
与此同时,速成的AI音乐能够启发音乐人的灵感,AI工具能够解决音乐人工作流中的非创造力劳动。所以,更好的视角不是与之竞争,而是站在AI的肩膀上。知名音乐人、制作人陈珊妮曾鲜明地表达:创作人该在意的或许不是「我们是否会被取代」,而是「我们还可以做些什么」。回到人类的能动性。对于音乐人发展,技术从业者们也给出了一些友善建议:
技术从业者对音乐人的友善建议:
吴斌:我觉得大家不妨多听一下,多玩一下。因为这个趋势是挡不住的,哪怕你不拥抱,大部分音乐人也会拥抱,最后还是被倒逼,那不如早一点。去了解AI能轻易做到什么,做不到的是什么。有些东西AI就是做不好,这时候音乐人就能发挥自己的优势了。
刘晓光:简化的音乐工作流将一定程度上成为新的音乐生产方式,建议音乐人了解,并和AI配合。也请相信AI会越来越可控,让音乐人实现自己想要的创作。但是非IP化歌曲,应该慢慢就真做不过AI了,音乐人需要越来越注重自己的IP属性,做自己的专属表达。
3.3 多元视角:再强调也不为过
李飞飞(斯坦福大学首任红杉讲席教授、前谷歌云人工智能及机器学习首席科学家)曾指出,训练人工智能的高昂成本,正在将学术界排除在外,成为商业公司的特权。斯坦福大学报告指出,2022年科技行业贡献了32个关键的机器学习模型,而学术界仅有3个。这导致一个问题:商业用途的技术快速发展,公共价值、解决社会风险的技术显著落后。
虽然这一问题难被彻底解决,但当质疑之声变大之后,也会带来更多公共领域的保障行动发生,并能激发商业公司的更多自省和安全部署。
技术、产业、学界、第三方等,拥有不同的价值导向和专业能力,这种多元视角的参与,更可能让新技术朝符合人类价值的方向发展。在音乐领域,艺术家与产业、技术之间也存在多元视角。但由于高昂的技术门槛、艺术门槛,这两类人群之间存在很大的信息差。
赵伟峰指出,在天琴实验室,研发团队8成以上的人员都要具备一定音乐素养,尤其符号路线需要更深的音乐知识。音频模型路线中,还需与专业音乐团队合作,对AI生成内容做评判。这样的互动才能让AI音乐更符合艺术家的标准。
专业评判只是最基础的参与形式,这种多元视角的对话协作,还有助于解决更为重大的问题。例如,陈珊妮曾提出一个锐利的见解,认为如今特异的音乐越来越少。因为数字音乐以来,音乐一直在被分类,让人便于管理和更快聆听。但如果有个人特质的东西不在电子类、嘻哈类,那它是什么?它的流量就会降低。AI音乐也类似,它容易让各种技术指标趋于均值,但美感并不是这样的。
又例如,吴斌从技术原理视角给出了对于AI音乐水准上限的判断:大模型技术路线的实质是,从人类内容中学习,它本质上没有一个抓手去超越人类内容;但如果我们讨论AGI,就涉及另一个技术路线:强化学习。它能让AI在一个环境中自行探索试错,理论上就有可能突破人类已有内容的瓶颈。
我们需要来自艺术家的审美经验、人文关怀及理性的质疑声音,也需要来自技术从业者从底层原理出发的可靠推论,以及产业、学界及更多人......通过多元视角,用理性精神和技术力量去修复技术变革中的偏误,引导人工智能领域的良性发展。
本文节选自《2023华语数字音乐年度白皮书》
如需查看完整报告,可点击“阅读原文”
朱开鑫:《“AI孙燕姿”背后的版权迷宫》
👇 点个“在看”分享洞见