文/马蹄社课程主理人马克
“任时光匆匆流去,我只在乎你......”当一袭红裙的“邓丽君”,空降在2023年北京春晚,一颦一笑美丽如初,让台下观众听得如痴如醉,在那个“恍若重生”般的场景中,虚拟世界和真实世界间的边界仿佛消失了......
这是基于AIGC和元宇宙之上的数字人技术。2023年初,ChatGPT概念爆发,在短短的几个月时间已经深刻改变了人类的生产、生活和社会文明,在全球掀起了大模型的热潮。
最近,马蹄社和一些企业家朋友走访了首创AIGC数字人模式的科技公司——硅基智能,作为课程主理人,近距离的探访、闭门交流,让我对AIGC数字人有了更多认识,下面把课程主要内容分享给大家,希望对你有启发。
硅基智能是南京人工智能独角兽企业、国家级专精特新“小巨人”企业,同时也是腾讯唯一重点投资的AIGC企业,全球首创了AIGC数字人模式,先后发明电话机器人、数字人直播。成立5年多以来,已获得腾讯投资、招银国际、国新央企、海松资本、红杉资本、奇虎中财等9轮融资,最新估值10亿美元。截至目前,硅基智能已拥有80余项授权专利,占据了全球数字人行业的先发优势。
什么是“数字生命”?《流浪地球2》中有一个具体描述:将人的记忆、意识上传到计算机,从而在数字世界中获得精神形态的“永生。只要软硬件系统不出问题,存在于计算机系统中的数字生命理论上可以永远存活下去,并且能感知到现实世界,借助强大的算力拥有完整的一生。
硅基智能创立之初,有一位合伙人经历了母亲离世。悼念逝者时,这位合伙人告诉硅基智能的创始人司马华鹏,老人不会打字,微信上只留下老人生前的语音消息。“能不能让我再看见我的母亲?”于是司马华鹏用技术先复原了这位母亲的声音,又复原了母亲的照片,硅基智能的第一代数字人就此诞生。
至今,在数字永生的基础上已延展出了更多的应用场景。它重新定义人与人之间的关系,让人们之间的联系不会受到时间、空间的限制或影响。
在过去大半年,国内百余家大模型相继问世,基于大模型的创业已然成为风口。经过几个月的疯狂,ChatGPT、大模型和VC都逐渐冷静下来。市面上基于大模型的落地应用依然比较早期,To B层面上,Open AI算是最早进行商业化合作的案例。在国内,更多也集中在内容生成与直播领域。
而硅基智能的不同之处在于,将实际应用落地的场景作为最终目的,围绕影视、直播产业的场景需求,去倒推技术研发,是国内较早实现大模型产品商业化的企业,相信很多C端用户在短视频平台上,已经对数字人直播不再陌生,这也是硅基智能AIGC数字人主要商业化场景之一。
自从ChatGPT发布后,中国“百模大战”日趋白热化,甚至出现了很多为了拉市值,拉股价等套壳的大模型发布会。硅基智能则有自己的思考,今天传统的通用文本大模型的竞争无序化,已是对算力无意义的浪费,如何跳出这个竞争格局,把眼光转向注重商业场景落地的行业脑,这才是让千行百业智能化转型的重要动力。
“炎帝大模型(硅基智能首个行业LLM大模型)将支持直播、短视频的全自动化生成,极大的提升了内容生产的效率,这才是这轮AIGC革命的本质逻辑”,司马华鹏表示。
司马华鹏 硅基智能创始人
早在2017年,硅基智能创始人司马华鹏就对人工智能行业进行了预判,这些预判可以简称为五个成语:
鸡鸣狗盗
鸡和狗的智能在很早就为人类所用,而CV在安防领域的工作其实就是AI版本的鸡鸣狗盗。
鹦鹉学舌
鹦鹉经过训练可以与人对话,这与ChatGPT所代表的生成式AI相似,AI可以回答问题、写论文、写脚本,但本质上并不知道自己在说什么。
沐猴而冠
猴子穿上人的衣服扮演人类进行表演,其实就是硅基智能的AIGC数字人在各个领域的应用。“我在2017年的人工智能高潮时,提出了悲观的预判,人工智能公司要想活下来并且发展好,离不开这3个赛道”,司马华鹏现场说到,如今基本上都已经得到了验证。
龟兔赛跑
司马华鹏说了他全新的解读,乌龟在陆地上无法跑赢兔子,但是只要回到水中兔子就不是乌龟的对手。今年AIGC赛道如此火爆,就是因为AI回归了诗歌创作、文本创作、视频/直播生成的虚拟领域,所以硅基生命应当回归量子力学领域,而并非在牛顿力学的世界中和人类竞争。
乌鸦喝水
在2017年关于Transformer架构的论文《Attention Is All You Need》发布后,司马华鹏提出,如果有一家人工智能公司能找到这样的“水杯”,并不断向其中投入算力和数据,就能和乌鸦一样最终喝到水。
五个成语故事影响了硅基智能在过去五年多的赛道布局和产品研发。正是通过高比例的投入和战略上的远见,硅基智能得以站在国内AIGC行业的领先位置。
夫唯不争,故天下莫能与之争。
2017年硅基智能做外呼机器人时,被那些想在AI领域改变人类的同行疯狂嘲笑,觉得没有技术难度。2018、2019年,硅基智能做数字人时,依然有同行表示怀疑。对此司马华鹏用道德经里的这句话解释自己的心态,“夫唯不争,故天下莫能与之争”。硅基智能在今年的“百模大战”中推出了自己的炎帝大模型,但它不像ChatGPT那样生成文本,而是生成短视频、直播、电影,甚至生成一个人来陪伴你。
炎帝大模型聚焦于视频、直播生成领域,它不挑战ChatGPT,而是和它们合作,硅基智能更希望用良性发展打造一个能够代表中国特色人工智能领域的创新和崛起。
在这样一个正在依靠创新崛起的中国特色人工智能领域,司马华鹏也清晰地规划了未来的三大趋势:
1)行业脑
ChatGPT是通用的,类似广谱通识教育而非专业教育。比如说,如果我们进入医疗、理财私人或证券等领域,这些领域的知识是沉淀在组织内的,我们可以针对性地将这些知识训练成大模型,开发一个行业脑出来。再利用团队和不断的数据支持持续训练大模型,从而生成一个优秀的数字员工。同理,我们现在正在直播运营领域,用类似的方式训练出一个直播行业脑。
2)多模态
这个行业脑,不仅能得出一些结论并做出一些分析,同时还必须具备调用多模态的功能——如策略选择、策略执行和策略回收——来完成更复杂的任务。比如当处理问题的第一个策略失败了,它可以切换到第二个或第三个策略。这样的大模型就像我们大脑里的系统一样,更重要的是要给大脑配上结合四肢和手脚的协调动作,最终成为一个完整的生命体,所以在硅基智能大模型加持下的数字人多模态,不仅包括大脑系统,还加上了形体、形象、情绪等要素,最终形成一个完整的生命。
3)中交互
很多人与ChatGPT做一对一交互,比如问它一些数学或逻辑问题,或者让他生成图片等,但这样的交互方式并不能充分发挥大模型的价值。如此先进的ChatGPT每个月只能收到20美金,这与它实际能产出的价值严重不相符。如果能把大模型用在短视频、直播或其他领域生成内容,它能产生意想不到的价值。也就是一对N的多交互,即“中交互”,与资源密集型的一对一强交互和短视频的弱交互不同。一对多的中交互生成的内容被越多的用户消费时,总体成本并没有变化,但交互所带来的产出更高,整体效率即大大的被提升。
虚拟数字人的商业价值不断得到开发,也成了企业解决直播电商主播这个老大难的“利器”。吴晓波老师曾说:“2023年,每一家公司都可能需要一个数字人”。在此背景下,各大知名品牌纷纷开发了自己的数字人IP,瞄准虚拟数字人作为直播、短视频、品牌代言等应用场景的“工具”。
“眼下,直播电商日益成为广大商家和品牌方的选择,越来越多的品牌方开始重视店播。不过,想要做好店播并不容易。”谦语智能CEO陶亚冬介绍,“品牌店播存在多个痛点,比如运营成本高昂、优秀主播培养难、相关人才紧缺等,前沿AI数字人技术加上行业领先的直播电商运营方法论,能很好地解决以上痛点。”
陶亚冬 谦语智能CEO
相比达人主播,AI数字人主播具备独特优势。比如,AI数字人主播能被塑造出很强的专业能力,不仅情绪稳定,而且永不疲劳,品牌方还可以以此为基础,打造可复制、可管理、可迭代的数字资产。数字人直播的优势主要集中四点:
运营成本低
与真人直播相比,数字人直播可以大大降低运营的成本,它不再需要直播场地、化妆师、服装等费用支出,减少了人力物力的运营成本。
时空无限制
数字人直播可以实现7*24小时开播,不受时空的限制,可随时随地开播,相较于真人直播,大大减轻了主播因工作强度而带来的身体负担。
形象内容可控
数字人直播可以根据商家和用户的需求,自由切换形象、声音、场景等元素,保持形象稳定、内容新鲜,且不受外部环境和情绪等因素干扰,准确把握直播时长和内容,精准控制直播效果。
互动性强
数字人直播可以实时智能互动,在线回答用户的问题和需求,并据用户的心理和购买意愿进行推荐,提高活动的粘度和参与度。
不要神化数字人直播,真人直播都做不好,数字人直播肯定也做不好。
数字人直播看上去十分简单,效益也十分可观,但事实上,在开播之后,如何设定话术,直播中控如何看好场,做好持续运营才是考验直播主的重头戏。
“抖音从未声明限制数字人直播。但作为内容平台,抖音会限制垃圾内容,会限制没有信息熵的内容。”作为内容平台,抖音的原则必定是维护优秀的内容生态。没有真人操作管理、以及适当的内容编排的直播,被平台的算法最终认定为劣质内容是必然结果。
“有一点需要澄清,我们的产品并非‘无人直播’,而是‘无真人直播”,数字人只能节省直播团队费用、设备费用,不意味着可以对于直播运营撒手不管,它为你省钱,是为了让你可以把钱投入到更好的运营、选品之中,让利给客户。当你有了好内容再运用数字人工具,将会是如虎添翼。”司马华鹏说到。
为了帮助客户创造有价值的内容,硅基智能做了不少工作,如用更加智能化的回复、更加智能化的交互优化产品,以让观众感受到与数字人的双向情感互动。然而,李佳琦是永远不可复制。数字人在可预见的未来,不会真正取代优秀的真人主播。即使能够制作李佳琦的数字分身、让他说话,也不可能复制李佳琦的带货能力。
“你平时或许只会看李佳琦的直播,但市场中占绝大多数的不是顶流主播。行业内95%以上的公司,实际做的是平播和店播,很多主播仅仅只会念念稿子,随便回复一下问题。因为平台的流量推送机制,这些糟糕的主播可能永远不会被你看到。我们只需要做得比这部分主播做得更好,或者更便宜,让一般的商家做得起直播,就是最大的价值。”
“比十”的手势寓意增长 期望同学们都能获得认知业绩双增长!