前有百度、华为,后有阿里,4月10日,商汤科技(下称“商汤”)的大模型的发布会可谓顶着压力硬上。
发布会上董事长兼CEO徐立宣布推出“日日新SenNova””大模型体系,以“超市”组合打包推出。功能上,对话创作、长文本理解、辅助编程等一个不落。但商汤方面表示,目前该技术主要面向B端,商汤日日新大模型体系目前仅面向政企客户开放API接口,客户可登录商汤官网申请。
总的来看,商汤整场发布会的声势比之前百度文心一言的发布会低调了许多,但直播间却颇有“惊喜”的味道。
国产AI模型“组合拳”
“日日新”大模型集合在现场演示中集中展现了自然语言处理、图片生成、自动化数据标注、自定义模型训练的全方位能力,在国产AI界打了一套“组合拳”。
在“日日新SenNova”集合中,作为一个有1800亿参数的中文大语言模型,“商量”率先出场。除了撰写广告词、邀请函等基础的文本创作技能以外,“商量”展现出了与ChatGPT类似的超长文本知识理解能力,可实现多轮对话、逻辑推理、语言纠错、内容创作、情感分析等。
在现场,徐立就长达24页的2020年版《专利法》PDF文档向“商量”提问,并向其咨询今年最新版本的专利法变化,“商量”一一作出回复。
在写代码这一块上,“商量”也在现场交了卷。会上,“商量”被接入VScode程序,根据输入的“计算最大公约数”、“求两个数是否互质”等指令写出了简短的代码。徐立提到,内部实测员工使用平台辅助后,代码效率提升62%。
除自研中文语言大模型“商量”以外,“日日新”大模型体系中包含、文生图大模型“秒画”、数字人大模型“如影”以及空间3D大模型“琼宇”、“格物”在内的多个大模型。
“秒画SenseMirage”文生图创作平台是商汤超10亿参数自研文生图生成模型,用户可输入提示词生成图片,还可根据自身需求训练生成模型,2秒即可生成1张512K分辨率的图片。
在现场演示中,“秒画”通过被“投喂”的提示词生成了效果逼真、光影协调的中国女性写实图片。
除此之外,“如影SenseAvatar”AI数字人视频生成平台,在输入一段5分钟的真人视频素材,就可生成出支持多语言的数字人分身,更为智能直播打开路径想象。
“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,则支持高效低成本生成大规模三维场景和精细化的物件,可应用于家装、影视作品的嵌入等。
“大模型+大装置”的AGI布局
大模型应用背后,是超大规模的算法和算力硬件的支撑。
徐立在交流日介绍称,商汤人工智能计算中心算力达5000+p,当前可支持20个千亿参数超大模型同时训练。
商汤官网显示,2020年7月,商汤科技临港超算中心(简称AIDC)动工,在2022年1月交付使用,总投资约56亿元,其设计峰值算力超过每秒3740 Petaflops,可以提供大规模弹性算力,完成10000亿参数模型的完整训练,是亚洲最大的人工智能计算中心之一。
作为SenseCore商汤AI大装置的组成部分,AIDC的运营进一步提升SenseCore商汤AI大装置的模型生产效率。到2022年,这一装置持续扩展,应对高涨的大模型训练需求。
根据财报,2022年,商汤SenseCore AI大装置持续扩建,完成2.7万块GPU的部署并实现了5.0 exaFLOPS的算力输出能力。
目前,SenseCore商汤AI大装置已经支持超过10个大模型训练项目,包括语言大模型、文生图模型、视觉大模型、多模态模型等自研模型和客户自定义模型。
在逐渐拥挤的大模型赛道中,商汤似乎逐渐找到了自己的站位。会上,徐立也在演示时提到,“我们以商汤AI大装置SenseCore打造AGI时代的基础设施,并基于此将大模型体系命名为‘日日新’,寓意‘苟日新、日日新、又日新’,希望在模型迭代速度及处理问题的能力上可以日日更新,不断解锁AGI的更多可能。”
而在此前,商汤还被陆续被爆出一些负面消息,大模型+大装置的组合能否真正扭转商汤目前的局面,还要看具体应用情况。