ChatGPT腾空出世以来,每天都有扑面而来的新进展、新突破。
这恍如隔世的几个月里,它如龙卷风一般卷向了每个人。
国内外大厂纷纷跟进研发,以ChatGPT为代表、AI大模型为基座的AIGC技术很快将遍地开花。普通开发者能借助这场风浪做些什么?
这个问题就像一堵墙,若不破墙,将阻碍我们寻找风口,进而顺势而起。
通用人工智能时代已开启,我们心怀好奇,甚至略带焦虑去拥抱技术。
若要做新时代的开创者,我们还要把自己的智慧注入其中,智慧的体现往往就在于创新。
在思考我们该用AIGC技术做些什么的问题时,已经有这么一群先行者用中国版类ChatGP”源大模型”开创了适合中国大模型的商业模式探索。
近年来,无论技术风向如何变化,依然有一概念屹立不倒,那就是“数字人”。
数字人是多种前沿科技的集大成者,作为AIGC具象化的一种展现形式,也是WEB3.0和元宇宙的超级入口。
更重要的是,它是人类对未来想象中的独立个体,人人都可以拥有数字人,它可以出现在任何角落。
数字人也会成为千行百业塑造竞争优势的新生产力,实现虚实融合,拥有巨大商业价值。
然而“颜值经济”并非当下数字人商业化的主流,如今随着计算机视觉等技术的发展,AI“捏脸”应用随处可见,“捏”出符合自身审美的数字人已不是难题。
美貌的皮囊易得,有趣的灵魂难寻,数字人的有趣灵魂价值一在实用,二在交互。
基于源大模型,一群开发者带着“有趣的灵魂”瞄准了传统社区智慧化转型的商业蓝海。
如今社会层面,街道建设愈发被重视,基层社区工作者也在防疫工作中担当了重要角色,同时面临了更大的工作量。为了给基层社区工作者持续减负增能,临汾路街道推出了街道首个政务基层社工领域AI对话机器人“临小助”。
与最近大火的ChatGPT有三点类似之处,一是“临小助”使用的也是Transformer模型与NLP处理技术(源大模型),二是都能架构在成熟度推广度很高的微信平台,三是都提供24小时在线服务。
街道不少社区工作者戏称“临小助”是自己24小时在线的“数字助理”。
随叫随“到”,记忆力还非常好——临小助”收录了民政、人社、房管等15个部门198项面向居民的服务类政策,工作人员通过微信输入问题或者关键词,马上就能得到“正确答案”。
也就说,198个政策资料,最终变成了统一的“一屏通”。通过AI对话机器人“最强大脑”储存的198个受理事项,为实现居民个人政务办事服务“就近办”提供了能力支撑,帮助居委会用更短时间、以更高质量承担起事务中心延伸办的新任务。
基于强大的源大模型,“临小助”的能力不仅限于问答,更在于情景生成式“对话”。
“临小助”可以随时随地为基层社区工作者提供沉浸式、针对性的一对一群众工作能力培训,换句话说:提前演练,社恐福音。
目前已经开设了加装电梯、业委会换届等8堂社区治理高频情景对话课程,社区工作者通过手机载体与“临小助”进行互动对话形式,提高接待群众服务群众的经验。
而对街道来说,要达到相同的培训覆盖率与效果,传统线下模式可能需要数月时间,而运用AI对话机器人只要短短十分钟,反复练习、多场景练习因此成为常态,培训效率大幅提升。
这项“数字人”产品也已经进行商业化探索,已在上海市静安区临汾路街道、嘉定区安亭镇落地。
这也只是开始,智慧社区商业前景非常广泛:按民政部网站数据,截至2020年底,中国共有38741个街道(镇、乡)级政府。按15%的渗透率计算,基础服务部分市场规模每年就十亿级市场,最寻常的地方可谓遍地黄金。
“一键构建专属你的数字人”:开源生态的力量,降低开发门槛
拥有广阔的落地场景AI大模型+数字人的模式确实能实现高质量创业。
但“捏人”的门槛,会将一些技术基础薄弱的创新者拒之门外吗?
开发者社区的开发者打造了“一键构建专属你的数字人”的数字人生成平台—— Fay。
这个平台包含Python内核及UE数字人模型,开发人员可以利用该项目简单地构建各种类型的数字人或数字助理,可灵活组合出不同的应用场景:虚拟主播、现场推销货、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her。
该项目各模块之间耦合度非常低,包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。
Fay控制器核心逻辑
每个模块都可以轻松地更换。这套架构相当于给只能文字聊天的ChatGPT装上好看的皮囊,并更像真人般能够实时对话,使ChatGPT更像人。
源大模型如同ChatGPT,在整个数字人流程中充当大模型的大脑和灵魂,能输出智能实施的对话。
这套系统最大的价值在于,为数字助理(语音助理)这一类型产品提供了一个新的架构思路,全流程一键式打通从打造“好看的皮囊”到“有趣的灵魂”,同时可以实时语音交互的数字人。
而且Fay并不仅限于智能音箱等特定的语音终端,Fay只需要运行在个人的PC或者移动设备上,就可以时刻与“ta”通讯。
目前,Fay已经实现完整开源,助力更多有意愿打造自身数字人的人们。
例如,实现数字人互动,可以根据Fay控制器进行一系列设置:麦克风输入源开启、展板播放关闭、填写性格Q&A,合成数字人;若是应用在更大平台,例如抖音虚拟主播,可以启动bin/Release_2.85/2.85.exe ,根据Fay控制器进行一系列设置(抖音输入源开启、展板播放关闭),结合抖音伴侣,生成数字人。
GitHub链接:
https://github.com/TheRamU/Fay
数字人的未来远远超出仅作为人类的替代,当通用人工智能充分发展,数字人或被当做虚拟世界独立个体,,甚至把它作为生活中的主体当成独立的人格。
而Fay之所以能“造福”大家,其开源要追溯到“源大模型”的开源。
搞钱新范式,开源大模型生态与商业化的互利互助
源1.0大模型发布时便问鼎全球最大规模的中文AI模型,其参数规模高达2457亿,训练采用的中文数据集达5000GB,相比GPT-3模型1750亿参数量和570GB。
“源”开源开放构建了大模型应用开发新生态,包括高质量中文数据集、开源模型训练代码、推理代码和应用代码等,可以帮助开发者节省各类研发开支。
如此,开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于AI大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。
目前”源”已全面开源开放,开放模型API、开源高质量中文数据集、模型训练代码、推理代码、应用代码、面向AI芯片的模型移植开发代码,开放平台已服务超4000名行业开发者,覆盖互联网、金融、教科研和自动驾驶等行业领域,大大降低了不同行业不同任务的AI应用开发门槛。
正是因为这种算法基础设施的开源,使得这些开发者以极少的团队成员便能开发出成熟商业化的产品,并成功创业。
开源之间的互利与反哺,往往能催生创新的生生不息,创新更是能转换成商业价值。
源开发者社区开发者郭泽斌开发的“一键式构建专属数字人”的开源架构,也已被深圳某公司应用到平板中充当自个人助力,产生商业价值。一些主打情感陪伴的儿童玩具公司也从这套架构中挖掘出巨大商业价值,在儿童玩具中搭载这套开源架构,目前已投入生产,即将上线售卖。
这些开发者用“数字人”开拓了以大模型开源生态为基础的全新商业模式,当然这是一个缩影。
大模型开源,给开发者带去创业和商业机遇。就像安卓生态,未来大模型开源生态也将遍地开花,创新项目也会如同安卓生态里的各类APP般不断涌出,孵化更多商业价值应用,加速AI产业变革。
广阔天地,大有作为。