撰文 | 龙 曦
题图 | 腾讯音乐
在这个群“模”乱舞的时代,有人提出,所有的互联网业务,都可以用大模型再做一遍。
话虽如此,但大模型真正落地的要素,却相当难以具备。如果说传统意义上的“算法、算力和数据”是AI的基本要素,那么“高质量数据+高层次人才+高频场景”的“三高要素”,才是催生大模型、特别是行业大模型的关键。
从这个角度去看,腾讯音乐娱乐集团(下称“腾讯音乐”)正在构建和完善自己的“三高要素”,以组建属于音乐产业的大模型。事实上,这家领先的中国在线音乐与音频娱乐平台已经广泛的在业务中使用AI技术,这次财报披露的信息也显示,在较短时间内,这家企业已基于数据和场景方面的优势,在大模型赛道的产业化应用方面探索出了一条有差异化竞争力的新路。
一、音乐拥抱大模型:腾讯音乐的产业AIGC落地探索
生成式大模型ChatGPT引发的全球群“模”乱舞,使得AIGC(人工智能原创内容)备受关注。
事实上,除了强大的文本能力之外,图像、音乐乃至一切可以用数字形式承载的“内容”,都可以用大模型的方式进行生成,所以在当下,多模态大模型也成为一个备受关注的方向。
由于世界上已经有很多开源大模型、开源数据集作为基础,所以,仅仅就做出一个大模型本身而言,只要具有足够的资金和人才资源,想要达到一定的参数量,并不是多么困难的事。这也是很多新创团队在很短的时间内就宣布自己推出生成式大模型的深层原因。
但用钱解决不了的问题是,如果不能具备实际的落地场景和商业价值,大模型本身并不能产生价值,只能成为成本。
所以,要判断大模型能否落地,先要看看这一领域内是否已经有足够的AI实践。
从这个角度看过去,腾讯音乐在AIGC方面,已经有了诸多方面的领先尝试。例如其最新一季财报中,就提到了其正在持续探索大语言模型(LLMs)在AIGC领域落地的多元应用,推出的“TME Studio音乐创作助手”与“音色制作人”不仅协助音乐人在作词、作曲、音乐内容分析与剪辑等制作环节的效率提升,还可将用户原声与不同歌曲无缝融合,促进高质量内容的创作。甚至其财报视频中的音乐,也由腾讯音乐领先的音频大模型协助创作完成。
有实践就更容易用好大模型,本质上,是因为大模型也是AI的一种,也遵循AI落地的基本规律。所以,如果一个企业以前一点使用AI的积累都没有,凭空宣布自己要深度切入大模型领域,大概率是为了讲故事和画饼充饥。
而腾讯音乐,在有诸多AI实践经验和场景、数据积累方面,都有充分的准备,这意味它的大模型之路,已然会平坦许多。
二、腾讯音乐产业大模型:基于行业需求的生产力布局
目前大模型的通用玩法有两种,第一是自建千亿级乃至万亿级的通用大模型,另一个是利用已有通用大模型的能力,做产业级大模型。
但是,无论如何,都有三个痛点不能忽视。
首先,需要有清晰的应用落点,而且要和大模型的能力匹配。
腾讯音乐的业务焦点就是音乐等内容和音效、直播等音视频技术,再加上其在用户侧的应用、互动、参与,这是突出且明确的刚需。所以从这个角度说,需求足够明确,就有清晰的应用落点。
其次,是有足够规模的预训练数据集。
即使有了深度学习技术的加持,但经过人工精标的大规模训练数据集,仍然是生成式模型的关键。
目前比较通行的行业说法是,一个产业级(赛道级,而非通用级)大模型,至少需要500GB以上精标的数据,或者至少2500亿字的高质量内容。
而腾讯音乐的其中一个核心优势在于,其本身就具有大量的数字化内容。
例如,随着多元化音效成为用户音乐消费的“刚需”。第一季度,腾讯音乐将高品质音质进一步覆盖至车载场景,其旗下QQ音乐的银河音效可实现车载音响的最佳效果。酷狗音乐的蝰蛇音效也在满足方便使用、好听好玩的基础功能之上,持续深耕,让音效服务在听感提升的同时,不断更新各类玩法,以开放平台打造UGC音效社区,成为国内首屈一指的音效品牌。
这里的重点是“UGC”。我们可以理解为,12万条以上的音效中有相当部分,是用户参与构建或打磨的,而这种“打磨”某种程度上就可以视为一种“数据标注”,这都是腾讯音乐可以复用的优质数据资源。
而随着智能化辅助创作工具――腾讯音乐旗下TME Studio等全新创作工具的推出,使得大批音乐人加入、使用,驱使这部分数据的质量也在不断提升,使得腾讯音乐的大模型有了充足的数据燃料。
最后,大模型落地还需要企业有足够的垂直领域的数字化能力,这对于数字原生的腾讯音乐来说是一个天然利好,而很多传统产业要迈过这一关,则并不容易。
因此,行业都在大胆猜测,腾讯音乐未来的大模型,将是在腾讯集团的通用大模型的基础上,结合特定需求和专有数据集训练生产的行业多模态大模型。
其中,第一个问题很好解决,真正的超大规模的通用大模型(AGC)需要1万张算力卡以上和近乎黑洞般的数据,能具备这个条件的企业不多,腾讯肯定是其中一个;
其次,腾讯音乐不需要从底座就开始做,而应该是基于前者做私有化部署,并且结合垂直领域的数据和知识“微调”自己的个性化模型。
这其中的道理,就像用电一样,虽然家家都需要,但不需要家家都有发电厂。对于腾讯,通用大模型一个就够了,用各个业务群组自己的数据做私有化部署和做个性化微调是最佳的解决方案。
最后一个推测是,这个过程将很快推进到实用阶段。因为,腾讯音乐的AI落地场景很多,对大模型有切实的需求,所以很快就能用起来并产生商业和社会价值。大模型对于腾讯音乐不是噱头、不是妆点,而是实实在在的生产力。
三、产业未来应用落地:技术即内容生产力
据了解,在ChatGPT出来之前,腾讯音乐就已经在使用百亿参数的大语言模型。
从结果上看,确实落地也很快,这些尝试也让腾讯音乐颇具行业前瞻性地在产业级大模型的训练和部署上积累了丰富的经验。
那么,产业级多模态大模型在腾讯音乐体系内的应用,结合其现有业务来看会如何落地和输出价值呢?
在内容创作方向,腾讯音乐此前已经了推出的面向音乐人的智能化辅助创作工具――TME Studio,除了集合了QQ音乐银河音效、MUSE引擎、TME天琴实验室等各方面的技术外,腾讯AI Lab作为腾讯内部最重要的AI团队,也对其提供了强有力的AI技术支持。
而旗下酷狗的“音色制作人”,其技术本质,是通过深度学习原理,可以通过学习人的声音,经过AI智能化处理后生成专属的音色音效,并以此来制作歌曲。
这些工具都极大的降低了音乐创作的门槛,其中,TME Studio中的可分离提取歌曲中的人声和乐器的“音乐分离”、基于音乐内容理解识别各式歌曲要素的“MIR计算”等功能;以及音色制作人中的全新上线AI封面、AI写真、AI帮唱、AI词曲评估以及AI觅词等五大功能,都实现了以科技来改变过去音乐制作存在的“不可能三角”——质量、速度、成本,令其能够同时实现。
它们的价值体现在,对C端来说,从单纯的音乐欣赏(单向传播)变成了UGC、PUGC参与的可共创、可交互的系统,使得各种体验和玩法得到极大的提升;从B端来说,由于用户的广泛参与,和未来生成能力的增强,将从根本上改变音乐行业的成本机构,而成本结构的改变是一切深层次产业变革的基础。
“目前,中国已跃升成为全球第五大音乐市场。这意味着产业从业者们通过长期更耕耘,正在持续推动着中华文化影响力的持续提升。而技术的进步,则能为音乐产业在数字化时代的发展提供更加夯实的基础和更高的生产效率。“对于AIGC等前沿技术在音乐产业内的应用和发展趋势,腾讯音乐娱乐集团QQ音乐技术副总裁、天琴实验室负责人周文江表示,基于对行业发展痛点和用户体验需求的深度洞察,TME在前几年已率先组建天琴实验室等业内顶尖的技术研究团队,各团队技术人才结构和部分研究成果已达到行业领先水平,目前也正在持续推动文本、图像、音视频等多个维度的AIGC创新成果落地,“在为行业提供更全面的数据支撑的同时,也希望能为音乐产业的数字化升级和高质量发展注入新的活力。”
当音乐遇上AIGC,用技术为文化创造更多价值的未来已经近在眼前。毫无疑问的是,大模型的赋能,将使得腾讯音乐把技术转化为实实在在的生产力,能够为行业提供更多服务、为用户提供革命性体验,最终双向奔赴,进而为行业创造更多增量,推动自身和行业的高质量增长,也为我们的精神生活增添更多的乐趣。