近日,在上海举行的“海上讲堂”活动现场,喜马拉雅珠峰AI智人事业部产品负责人吕睿韬向记者讲述了喜马拉雅在AIGC方面的持续探索。
上证报中国证券网讯(记者 杨翔菲)近日,在上海举行的“海上讲堂”活动现场,喜马拉雅珠峰AI智人事业部产品负责人吕睿韬向记者讲述了喜马拉雅在AIGC方面的持续探索。
今年9月20日,上海网信办公布的上海市生成式大模型备案最新名单中,喜马拉雅音频大模型赫然在列,成为中国首个通过备案的音频生成类大模型。业内人士表示,这不仅标志着我国在人工智能音频生成领域的里程碑式突破,也为音频创作行业带来了深远影响。喜马拉雅音频大模型的技术创新,尤其是在音色克隆与语音生成的多情感表达能力,将推动整个行业的变革。
喜马拉雅是目前国内最大的音频内容平台。喜马拉雅招股书显示,截至2023年,喜马拉雅已拥有高达3亿的平均月活跃用户,其中移动端用户达1.33亿,而通过物联网及其他第三方平台收听的用户更是达到了1.7亿之众。近年成立的喜马拉雅珠峰AI智人事业部着力研发音视频大模型,为广大平台创作者提供超仿生、多情感的AI语音、音色克隆和数字分身等技术服务。
吕睿韬介绍,喜马拉雅音频大模型的推出,源于珠峰AI团队对于音频生成技术的深入探索。该模型融合了文本和音频的联合建模思路,在同一向量空间内进行训练,从而提升了模型跨模态的理解和处理能力。通过将音频数据与文本数据转换为token形式并映射到共享空间,该技术突破了传统音频生成的局限,为实现更高质量的语音生成奠定了基础。
“比如一个角色在特定场景下用什么情感去演绎,为用户还原这种画面感,这是我们在推进的方向。”吕睿韬介绍,喜马拉雅会沿着有声剧、有声小说、故事短视频等内容赛道对大模型进行微调,让大模型能够更充分地进行语音演绎。
“这是整个音频内容生产和语音生成范式升级的成果。”吕睿韬告诉记者,音频大模型进步十分明显,效果增长曲线足够陡峭。招股书显示,2023年,喜马拉雅在技术研发上的投入高达9.3亿元,占总收入的15.1%,技术和研发团队占比更是达到了员工总数的44.3%。
吕睿韬介绍,团队目前正在思考音频大模型如何与音频行业、配音演员、用户需求相结合,让在线音频行业实现共融、共生、共同发展。“我们期待让AI配合配音演员,让演员可以用更高的效率去创作更好的作品,通过好内容服务用户,期待帮助创作者重塑供给端的内容生态。”
凭借音频大模型对语言语音的深度理解和超仿生、多情感演绎的语音生成优势,喜马拉雅也看好数智人技术未来的发展。“通过数智人这一载体,可以在多场景下进行沟通。”吕睿韬认为数智人具有广泛的应用场景,不仅可以让名人、作家的思想更广泛地传播,也将影响短视频场景,丰富AI内容生态。
“未来,也许在线音频行业的UGC(用户生产内容)和PGC(专业生产内容)的边界会变得更加模糊。也许大量的普通创作者是个人,但是通过利用AI可以快速塑造出一个鲜活的生命体,在各个场景下服务用户。”吕睿韬说,喜马拉雅的核心是以内容为载体让消费者和用户联系在一起,实现在平台上共存、共融、共建、共赢。