导语
老瓜新吃
近日,进入飞速发展阶段的AI可谓是科技行业新晋“当红炸子鸡”,稍微一点风吹雨动,就能轻松登上热搜榜单。但是我们今天要聊的,不是人们热议的ChatGPT和AI绘图,而是早已以更加成熟的姿态进入商业市场的AI配音。
尽管在短视频平台上,影视解说账号开头的吟唱魔音罐耳,深入人心,但AI能说的,早已不止“注意看,这个女孩叫小美……”
尤其是在游戏市场,AI配音已经得到了相当不错的玩家反馈。昨天(3月20日),网易旗下的乙女游戏《时空中的绘旅人》就发布微博表示,游戏角色叶瑄采用的AI新声音模型得到了更多玩家的好评,游戏内问卷调查结果显示,新配音实装后的用户评价均高于早期AI配音(2022年与卿书版本)。
01
声优塌房,AI救场
聊到乙女游戏使用AI配音,我们就不得不提前几天刚上热搜的配音圈大佬姜广涛对此做出的“贡献”。
姜广涛这个名字你可能没听说过,但是他的声音你一定不会陌生。经典影视剧《小鱼儿与花无缺》里面的花无缺、《泰坦尼克号》中的Jack、《宫锁心玉》里的八阿哥,用的都是他的配音。在游戏领域,他配过的角色有《时空中的绘旅人》中的叶瑄、《未定事件簿》中的莫弈、《花亦山心之月》的玉泽、《阴阳师》帝释天(CG)、《仙剑奇侠传五》姜云凡和《奇迹暖暖》钟离梓等等。
去年7月,网上出现爆料称姜广涛被警方带走,随即姜广涛旗下工作室光合积木发表声明,说是因为商业纠纷正在配合调查。在线下活动取消、配音项目停更的同时,有“知情人”出面爆料,姜被带走的真实原因是因为以职务之便骗钱,藏账目,藏公章,藏营业执照,涉及了刑事犯罪。不久后,网友查到反馈回复信息是职务侵占2000万元,再次证实了这一消息。
瓜还没吃完,网易的《时空中的绘旅人》和米哈游《未定事件簿》就前后脚宣布,游戏中姜广涛配音的角色,后续将更换为AI配音。
而这次AI的出场,也着实让人惊艳了一把。
我们从视频下方的评论风向也不难看出,实装的AI配音效果超出了大多数玩家的预期。尽管AI的声音还不“完美”,但是其表现“一点也不AI”,相对自然的声音效果和永远不会塌房的优势让不少玩家直呼“太牛了”!
当然,还是有少部分玩家不太能接受AI,认为某些语句的语调、气息和情感仍能听出瑕疵,也有玩家认为没有人类声音情感支撑的纯纸片人,就等于失去了灵魂。
但整体来看,大多数玩家对于刚进入游戏的AI配音仍抱以相对宽容的态度。
3月17日,吼浪工作室发布通告表示,姜广涛等人因实施重大侵害,涉嫌刑事犯罪被公安和检察机关处理。官方发声后,姜广涛事件的性质终于有了最终定论,而已经上线了半年多的AI配音,也已有了显著的进步。
3月20日,《时空中的绘旅人》官博发文,表示2023年2月游戏内的问卷调查结果显示,叶瑄新声音模型实装后的用户评价均高于早期AI配音,未来游戏官方计划逐渐迭代并替换掉初代技术方案的配音内容。
至此,AI配音在游戏市场的首轮尝试已经取得了喜闻乐见的成果。
02
AI声音背后的技术支持
AI配音效果迭代的背后当然是技术的发展。而站在《未定事件簿》莫弈和《时空中的绘旅人》叶瑄的AI声带背后,提供主要技术支持的,分别是逆熵科技和网易互娱AI Lab。
早在2019年,大伟哥就曾在上海交大的一次演讲中分享过,逆熵AI的目标是通过深度学习某一个声优的音色和情感,做到输入文字自动得到该声优的配音结果。以避免档期不足等情况,还能将该声音塑造成IP,永久保留,甚至出售声音版权。
或是这一想法的推动,组建于2018年的逆熵研究部门,在2020年正式升级为主攻DeepLearning等AI技术的逆熵科技。
在工作室正式成立后,逆熵AI很快就开始了炫技。2021年2月,米哈游旗下的虚拟偶像@yoyo鹿鸣_Lumi(下称鹿鸣)发布了一则名为“想听我讲野猪公主的故事吗?”的视频,简介中明确标注声音由逆熵AI生成。
这次成果展示惊呆了不少观众,原来AI的声音已经发展到了远超“Hi,Siri”的程度。断句流畅自然、语气活泼、难辨AI痕迹的听觉效果,让粉丝们狂喜:老婆终于有声音了!黑科技赛高!
2022年7月,鹿鸣在B站开启首次直播。时长半小时的直播吸引了超66万用户观看,收获了322位舰长(折合收入约6万多元)。在直播结束后,该直播录屏播放量突破了200万次,鹿鸣的B站关注人数也很快超过了150万。而在此次直播内容中,获得粉丝们最多讨论的除了精细的动作与画面外,还有明确标注由“逆熵AI生成”的声音。
在直播结束的两个月后,受姜广涛事件影响,《未定事件簿》正式宣布将为莫弈装上AI声带,积累的数年时间的逆熵AI配音能力,终于正式进入游戏应用阶段的探索。
网易对于AI语音的技术探索也开始得很早。2017年,专攻计算机视觉、自然语言处理、语音信号处理、游戏AI等技术的网易AI Lab成立。
2020年,网易AI Lab在全球最大的语音会议INTERSPEECH上,拿到了与文本相关声纹识别赛道的双料大奖,展示了网易 AI Lab 在在声纹识别技术探索上的领先成果。
但在早期阶段,网易 AI Lab 的声纹识别技术似乎并未进入配音场景,而是主要被应用于身份验证、针对音色对玩家进行分类等场景。
甚至在2021年,与《羊城晚报》合作推出广东媒体首个视频类AI合成主播“羊小晚”和“羊小派”的时候,网易AI Lab的语音识别技术,也仅被用于与实现与语音适配的唇动效果,其中的配音部分,则采用了科大讯飞的语音合成技术。
据《羊城晚报》报道,该AI主播系统只需输入文本或音频,即可在几分钟内快速生成AI合成主播的新闻播报视频。从最终呈现效果来看,科大讯飞的语音合成技术,在当时已基本能够满足吐字清晰、音色自然、蕴含感情等新闻播报等基础需求。
2022年8月,《时空中的绘旅人》游戏官方宣布将与网易互娱AI Lab合作,分析提取叶瑄角色原有配音声纹特征,录制新的语音,网易AI Lab终于开启了为游戏角色配音的新旅程。
03
闷声发大财的AI语音
除了以上两个AI工作室,还有更多人工智能团队在不断探索AI语音的应用可能性。而且,可能出乎你预料的是,AI语音目前已经创造出了十分可观的商业化效益。相对于高调来袭、不断引起广泛讨论的AI绘画,AI语音可以说是“闷声发大财”的典型。
据Market.us统计,2022年全球Ai语音生成市场规模约达12.1亿美元,预计在2032年,该数据将增长至48.89亿美元,复合年增长度达15.4%。
相当能挣钱的AI语音生成技术落地到配音,主要有以下几种应用形式。一是声音克隆,让AI学习已有声纹特征,在用户输入目标文本后,模仿合成相应的声音效果。《时空中的绘旅人》叶瑄的配音就是这一类,再比如2018年,央视九套推出的全球首部AI配音纪录片《创新中国》也属此类。据了解,该纪录片合成模仿的是“配音大师”李易的声音。目前,该纪录片依然在豆瓣上保持着9.0的高分。
二是声音合成,在大量声音数据的基础上,根据输入文本,直接产出AI合成音色的效果。今年年初,科大讯飞发布的雨水节气短片,也是由AI合成声演绎的,该视频呈现出的“以假乱真”的配音效果,引起了大量用户的主动传播。
三是音色转换,利用声纹技术,将输入的音频内容,替换成目标音色。有粉丝猜测,米哈游鹿鸣的声音就是这种情况。这类玩法技术相对更加成熟,门槛更低,因此被网友们普遍应用于视频配音与整活。在视频网站上常见的“拜登教奥巴马玩源氏”、“美国总统给魂系游戏排名”等整活视频,都是通过这种方式产出的。
尽管AI配音的应用方式多样、适用场景广泛,且在游戏市场上已有案例可供参考。但实际上,在目前要将该技术大规模应用于游戏开发依然不太现实。
有尝试过AI配音的开发者告诉茶馆,AI配音和单纯的电子书朗读不同,想要AI呈现出类似声优一样的、贴合角色的表达效果,需要耗费大量的时间对声音模型进行训练,这个时间成本相较于演员配音,高达数十倍不止;而且由于对白文本承载的情感理解量过高,最终呈现出来的效果基本无法达到完美,细节处的切分和语气转换总会与真人有所差异,这些微小差异很有可能会对游戏的沉浸感造成负面影响。
因此,目前真正将AI配音用进游戏中的厂商仍是少数,毕竟不是每个游戏厂商都有网易和米哈游一样的票子和技术。尽管如此,面对迎头打来的新浪潮,茶馆发现身边有越来越多同行开始积极关注和研究AI配音。可见,积极迎接技术变化,正在成为业内常态。
最后,茶馆推荐几款AI语音生成器。
腾讯智影:https://zenvideo.qq.com/
科大讯飞:
https://www.xfyun.cn/services/online_tts
据说微软Azure和ElevenLabs的效果也很好,大家也可以试试。
微软Azure:
https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/
ElevenLabs:
https://beta.elevenlabs.io/sign-up