注意看下面的这张动图,如果不仔细分辨图中人物的表情、动作、脸部微表情等的话,很难相信这是一个虚拟人。
而这正是由 HeyGen 最新版本生成的数字人,相当于视频版的 Midjourney。上面视频所展示的是 HeyGen 即将推出的一款新功能:超逼真化身功能(ultra-realistic avatar feature)。现在,用户只需上传一段2分钟的小视频,就能够达到这种效果,和用户本人几乎没有区别,不仅生成速度快,视频还带有轻微的动态背景。
不过,该功能当前还处于内测阶段,想要试用的用户需要提前点击下方的网址进行申请。有意思的是,当你申请之后,还会收到一封官方的回复邮件,里面的视频是创始人的数字人按照你申请时填写的资料定制的一段内容。
内测地址:https://am8evw00qys.typeform.com/to/wauwjUYP?typeform-source=t.co
HeyGen 的创始人 Joshua Xu 表示:“我们已经大大提高了用户数字人的视频质量,并对我们的语音技术进行了微调,以完美地模仿人类独特的口音和说话模式。”看到这,大家应该也意识到了,视频所展示的“Joshua Avatar 2.0”就是创始人 Joshua Xu 的化身数字人。Joshua Xu 在推特上也证实了这一消息,表示道:“这两个视频片段 100% 是由 AI 生成的,是以我自己的角色和语音克隆为特色。”
30人小团队打造“最强”数字人
当前,HeyGen的团队只有约30人,分布在3个大陆、4个国家和6个城市,以远程办公进行。另外,CEO也表示已经积累了数百万个视频数据,也会考虑做视频垂直领域的大模型(LLM)。今年4月底,HeyGen的创始人Joshua Xu发了篇博客,表示产品从2022年9月上线至今,仅仅7个月便实现了100万美元年度重复收入(ARR),同时已经连续9个月保持稳定的月环比增长率为50%。公司的盈利模式主要是围绕客户付费开展,未来也会开放API接口,提供更多团队协作和企业功能。目前,HeyGen提供了上百款数字人素材和模板,支持 50 多种语言和 300 多种不同音色,用户也可以自己上传照片来自定义形象。对于 HeyGen 生成的数字人来说,人物几乎达到了以假乱真的程度,虽然背景略有抖动,但人物手势非常完美,要知道通常虚拟人的手部建模是最常被诟病的。除此以外,生成的数字人的面部和嘴型也非常逼真。不过,如果想要分辨是否为数字人,其实还是有些小技巧的:细看的话,视频中人物眨眼频率高于真人,不过相信后面这一点瑕疵后续会被修复的。在画质方面,HeyGen 生成的视频画质也不差,1080P基本可以保证。此外,广告、电商、新闻等也一应俱全,用户也可以自己编辑PPT生成,同时,HeyGen 还设有包括文本到视频转换、音频上传、多场景视频、视频共享和背景音乐选项等功能。从目前放出的视频细节和市场同类AIGC工具进行对比,HeyGen最新放出的Joshua Avatar 2.0在逼真性方面确实做的非常不错。根据官网显示,HeyGen效果之所以这么好,主要原因产品是基于Surreal Engine去打造的,而Surreal Engine本身就是专门用于创建VR和AR体验的,专注于生成实时人物视频序列。而D-ID这类产品则是基于GANs,GANs本身就更侧重于修改和转换已有视频,比如面部替换、场景转换等合成处理。
此外,HeyGen 还与其他视频制作工具进行了比较,可以看出左边视频不但背景有很大的缺陷,人物脸部表情也不连贯,而右边视频则表现良好,能够完美地锁定口音和语音模式:
数字人主播成本直降90%?
随着生成式AI的发展,数字人开始频繁出现在短视频、客服等领域,直播带货更是不得不提的一个使用场景。有数据显示,2021年中国直播人才缺口为800万,2025年预计增加至1941.5万。而且由于国内不好招聘成熟的外语主播,在TikTok平台上,早已有不少跨境电商商家都在使用数字人主播。数字人具有专业过硬、情绪稳定、永不疲劳的特点,可以为企业沉淀可复制、可管理、可迭代的数字资产。在昨天举办的2023年光合创作者大会上,快手首次公布了大模型方面的进展。会上,快手AI、用户增长业务负责人王仲远向外界展示了全模态、大模型AIGC解决方案和AIGC数字人产品“快手智播”。据王仲远表示,快手“全模态、大模型AIGC解决方案”基于自研的基座大模型,提供文本生成、图像生成、3D生成、音乐生成、视频生成等技术能力,覆盖从灵感启发到创意生成、从多元素材提供到智能化制作的内容创作全流程。而另一家曾因薇娅被人熟知的公司“谦寻”,也在近期发布了“AI 数字人直播服务”和“一站式AI智能直播综合服务平台”两项数字化技术成果。当前,搭建一个质量中上的直播间,投入不菲。不仅需要寻找专业的运营团队,还要有一个灯光专业、设备完善的实体空间,此外还需要品牌方去外聘形象不错、且了解产品的主播。这些投入中,仅主播的费用就要在200-300元一小时,整体的运营成本一个月至少也要在10万元。即使搭建好直播间,店铺自播往往也会陷入转化率的困境。许多品牌常常无法覆盖店铺自播的成本:每月支出数十万元,但每天只能卖几千元的销售额。而数字人可以让每一个店铺都将拥有专属的虚拟主播,还有虚拟直播间的搭建,原先每个月高昂的人力、房租成本不再需要,不仅能让店铺大幅度降本增效,还可以推动实体经济进一步数字化,挖掘品牌销售潜能。根据百度智能云曦灵平台测试的带货场景显示,一个全新开播的数字人直播间,由首次露面的AI数字人售卖智能手表,首场连续开播33小时销售额就达到1万3千元,平均算下来,这33小时的总成本还不到一百块。而除了真人主播成本高昂之外,数字人能够真正被接受的原因还有形象上的进步。此前,数字人主播有很多是类似卡通的形象,虽然有趣,但带货的说服力不足,而有些虽然外形上很逼真,但并没有实时互动能力。但当今年大模型火了之后,一切都发生了变化。例如,谦寻便与AI技术头部公司南京硅基合作,攻克了数字人主播互动能力差这一难点。据谦寻方面介绍,其打造的AI数字人直播服务可赋能大量食品、服装、日用品等企业进行数字化转型,做优做强产品及供应链。预计平均每个谦寻AI数字人每年的GMV可达100万元,创造税收约15万元。1000个谦寻 AI 数字人即可创造1.5亿税收。此外,中国虚拟人带动的产业市场规模在2025年将达到6402.7亿元,大量企业和制造工厂或在数字人主播的帮助下实现盈利,并带动后端产业链大量新增就业机会,实体经济将被虚拟技术反哺。
500多人因“AI 换脸”被抓,数据安全仍为首位
昨日,公安部召开新闻发布会,通报了公安机关打击侵犯公民个人信息违法犯罪成效情况。据公安部网络安全保卫局副局长李彤表示,犯罪分子用于实施“AI 换脸”的物料主要为照片,特别是身份证照片,同时结合人员姓名、身份证号来突破人脸识别验证系统。公安机关联合国家重点实验室等单位,开展人脸识别与活体检测技术安全测评,及时发现人脸识别验证系统存在的风险隐患,通报运营主体升级安全保护措施和人脸识别算法,并破获“AI 换脸”案件 79 起,抓获犯罪嫌疑人 515 名,有效遏制了该类犯罪势头。前不久,妙鸭相机就曾因为条款中对于用户照片数据的不当使用权进行道歉并修改了条款,而HeyGen新功能这样如此逼真的效果,如不进行严格的监管,势必会被不法分子拿来进行违法使用,或将造成用户财产的更大损失。
不过,在法律和监管的框架下,如果数字人和虚拟人等能得到合理的使用,大量企业和制造工厂或在数字人的帮助下实现盈利,并带动后端产业链大量新增就业机会,实体经济将被虚拟技术反哺。