演讲内容正文
大家好!非常荣幸能够参加今天的AIGC以及元宇宙的论坛。
我是喜马拉雅珠峰智能实验室的负责人卢恒,非常荣幸给大家带来声音AIGC——喜马拉雅音频技术研发以及应用的交流。
ChatGPT其实是大语言模型越来越成熟了,用到了越来越多的参数以及数据。大语言模型现在也有一个非常火的领域,在文本之外的领域,也有很多包括图像、语音等多模态在利用大语言模型做生成式的工作。包括谷歌和Meta也做了一些大语言模型的工作。不仅仅是视频或图像,或是像ChatGPT的文本领域,其实在音频领域最近AIGC的技术发展也很快。今天我主要介绍我们在音频AIGC上的应用以及落地。
1喜马拉雅公司介绍
喜马拉雅是深受用户喜爱的在线音频的平台,主旨是用声音分享人类智慧、用声音服务美好生活。截至目前音频总时长已经超过24亿分钟,如果我们不重复地收听的话,要听大概超过4500年才能听完。喜马拉雅上有各种各样的丰富的内容,涵盖了从负1岁,妈妈做胎教的,到100岁各种年龄段的知识信息、娱乐等内容,可以陪伴每个人每时每刻的终生成长。
喜马拉雅的内容品类也在不断地拓展,包括一些历史、有声书、娱乐、音乐、评书、播客这些内容品类。除此之外,我们的用户覆盖面越来越广,而且内容创作者也越来越多元。我们的内容创作者能够在我们的平台上高质量地创作音频内容,我们高质量的音频内容又能够吸引忠实的粉丝和用户,忠实的粉丝和用户的评论又能激励创作者持续创作。这个循环能够促进喜马拉雅创作生态以及用户正向持续的发展。
其实AIGC是目前整个生产力的提升,喜马拉雅在最早的时候主要以PGC和UGC为主生产内容,现在我们也慢慢的利用越来越多的AIGC生产内容。所谓的AIGC,就是用AI的方式低成本、高效率的生产有声的内容。
我们做AIGC主要有几个目标:第一,能够低成本、高效率生产质量还不错的有声内容。第二,满足用户一些需求的供给,能够快速地提升用户需求内容覆盖,比如说有一些时效性的新闻热点,如果让人去读,可能这个新闻文字出来几个小时之后,我们的真人主播才能把一条条的声音转换成音频,但如果我们用AIGC,可能只要几分钟就能把海量的文字内容转化成音频,大家能够在车上或者随时随地的听到音频化的实时新闻。第三,我们也在用AI技术辅助创作者进行生产。
2语音合成技术
第二块,我会简单介绍我们AIGC的技术。我们整个语音合成技术,就是音频AIGC的技术基于TTS的技术。TTS是一个有很长研究历史的技术,最早的时候它可能采用纯拼接的方式,我们把一段一段语音录下来,每合成一句话的时候,根据音速挑选最合适的语音片段,然后拼起来。最早大家听到的语音合成,比如说霍金也会用语言合成说话,这种语音合成系统是基于比较早的拼接式的语音合成系统,或者是基于比较早的统计建模的语音合成系统进行的生产。最近随着神经网络模型以及注意力机制的发展,包括算力的发展以及海量数据的积累,最近的语音合成技术也有飞速的进展,包括谷歌、Meta也做了,喜马拉雅、腾讯也在做相应的技术。
其实语音合成系统需要解决的问题还是挺多的,包括一些前端的问题,语音的文本处理。在一些文本里面,很多是一些日期或者符号、缩略词,怎么把不同的缩略词都读准确这其实是一个问题。除此之外,语音的前端处理了包括文本正则、多音字消歧,我们怎么对文本进行韵律的分词分段,甚至是语义的一些分析,相当于把文本的层次分析出来,再把这些带有层次的文本信息输入到语音合成的后端。语音合成的后端需要做的是,解构这些带有语音层次或读法分析的前端信息,通过语音后端神经网络模型以及声码器惟妙惟肖还原出语音的风格。这一块的难点也包括各种不同语种、音色以及情感风格的还原。对于我们实际的产品应用来说,它的工程化是非常重要的,怎么保护我们整个语音合成流程工程的稳定或者整个服务的稳定,能够大批量、高效率、低成本地去合成,这也是我们在解决的一个问题。
我们合成的整个层次架构,包括一些篇章级的语义理解以及段落级、句子级、音素级的分析以及编码器的编码解码。
3AIGC项目——“单田芳”原音重现
我们喜马拉雅的AIGC技术主要用于有声书、有声剧、新闻和广告的一些生产。在电子书上面除了生产音频内容之外,我们也会用一些多模态的AIGC技术生产一些视频或者图象,配合语音做到边听边看和听看一体。
除此之外,我们也在尝试做一些类似于头部主播的训练或者AI分身的运营。我简单介绍一下我们的AIGC项目——“单田芳”原音重现。单老先生评书是中国非物质文化遗产,我们想用AI的技术还原他惟妙惟肖的嗓音,我们做出来他的声音之后,补充了很多他之前的一些作品,可能有些作品读了一半还没有读完,我们用AIGC的能力生成了这个作品。另外一部分,我们也用单老的声音生成了一些新的作品,比如说《明朝那些事》畅销书,我们通过AIGC的方式让单老先生能够读《明朝那些事》。有很多媒体报道了我们的工作,包括澎湃新闻、新华网等,产生了比较大的影响。单老先生,我们做他的声音也是拜访了他的家人,征得了他家人的同意,同时也向单老先生家人的公司购买了单老先生的版权。我们还利用了多语言迁移的方式,让单老先生的AIGC能够说英文,用单老的风格合成了一段中英文夹杂的句子。这个工作我们也发表在了去年的一个国际语音学术会议上面。
单田芳“原音重现”
4AIGC音色定制方案
第四块,我们语音技术合成的场景会用到智能语音交互上面,比如说智能硬件,小雅音箱、故事机。
这一块是我们多风格后端声学模型,我们基于类似于神经网络的结构,会分别预测文本的音调信息以及它的能量信息、声音周期以及每个音素的时长,我们能保证每个音速时长是最合理的,最后输入到我们的解码器里面生成。
我们也在用TTS的声音做广告。多情感TTS技术是我们主导的一个方向,也是我们研发更多投入的方向。我们现在在TTS里面,在申请AIGC最早的时候,用户听到我们的声音会觉得非常平淡,没有表现力,跟真人主播相比情感上面差了一大截,后来我们在情感上发力。现在我们整个喜马拉雅AIGC语音合成包括情感的预测以及合成的能力,这一块在我们整个旁白以及对白生产上会有一个比较大幅度的情感提升。
我们整个AIGC的能力或者是音色定制的能力,也在和自媒体以及大的媒体合作,他们可以通过我们生成他们的AIGC内容在喜马拉雅主站上发表,非常实时的触达到用户。如果有音色定制的需求,比如有些大V想用自己的声音朗读,我们也做了很多这方面的工作,我们也会跟他签合同,保护他的版权。包括中国著名的经济学家管清友老师,他也和我们合作,在我们主站上生成了一系列的管清友AIGC的专辑。我放一下我们用管老师的声音做的一个鉴读栏目的AIGC。这一段完全用AIGC生成的,我相信大家如果不仔细听的话,应该听不大出来真人和AIGC的区别。
清友荐读
全景声与音效
我们也做一些音效方面的工作,因为元宇宙除了千人千面的声音之外,元宇宙的人可能在元宇宙里动来动去,音效的方位感或者音效对于声音元宇宙是非常有帮助的。我们在喜马拉雅听书上也做了音效和全景声的工作。这里是我们做的一个剧院回响的声音。我们针对不同的人声做了处理,使得听出来有方位感。
我们也做了全景声的工作,联合国内全景声编解码的联盟,最近也做了一些全景声的作品。
文化元宇宙专委会介绍
中国文化产业协会文化元宇宙专业委员会(以下简称专委会),成立于2022年11月26日,由同济大学、清华大学、北京大学、复旦大学、上海交通大学等全国近30所重点高校知名专家学者联合中国互联网新闻中心(中国网)、中国外文局文化传播中心、国家对外文化贸易基地(上海)、国家版权贸易基地(上海)、全国资产管理标委会文化资产管理标准工作组、中国联通(上海)、浙文互联集团、南京文投集团、风语筑、恺英网络、视觉中国、喜马拉雅城文智能、捷成华视网聚、边界智能、数藏中国等一批领军机构和头部企业共同成立,是文化领域国内首家全国元宇宙社会组织,在文化类元宇宙行业组织中居于领先地位。
专委会核心理念:讲好文化元宇宙的中国故事,铸就社会主义文化新辉煌
专委会工作宗旨:高举中国特色社会主义伟大旗帜,全面学习贯彻新时代中国特色社会主义思想,努力推动中国特色文化元宇宙体系建设与发展
专委会主要目标:整合文化元宇宙相关各界的优势力量与资源,努力推动文化产业数字化、促进文化产业高质量发展、打造具有中国特色的文化元宇宙体系
欢迎加入中国文化产业协会文化元宇宙专业委员会!
责任编辑:
陈欣悦 华东政法大学
龙雨晨 华东政法大学
校对人员:
况希萌、林雨欣、刘馨怡、袁逸馨