(图片来源:钛媒体App编辑拍摄)
商汤正加速升级大模型技术能力。
钛媒体AGI获悉,4月23日下午,人工智能(AI)上市公司商汤科技在上海发布“日日新SenseNova”5.0多模态大模型系列,采用混合专家(MoE)架构,支持多达10T Tokens中英文与训练数据,推理合成数据高达数千亿Token,推理时上下文窗口可以有效到200K左右,拥有端侧扩散和语言模型,知识、推理、数学、代码等综合能力全面对标GPT-4 Turbo。
商汤科技表示,这是行业内首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求。公司技术领跑加速生成式AI向产业落地的全面跃迁,实现大模型按需所取。
商汤科技董事长兼CEO徐立表示,在尺度定律(Scaling Law)的准则下,商汤持续推动自身大模型研发,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。
“我们认为,2024年是端侧大模型爆发的一年。”徐立在会上表示。
商汤科技董事长兼CEO 徐立博士
会前与钛媒体App编辑对话时,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,端侧模型市场潜力巨大,每年有30亿部手机,PC出货量一年也有2-3亿台规模,AI PC 可以成为我们每个人的助手,汽车智能化也成为重要发展机遇期,从而能让大模型普及应用。
“这也是商汤今年的一个战略重点。”王晓刚强调,“今天我们模型的能力还是归功于我们的模型参数量、数据量,以及对算力的需求不断增加下的性能提升。那么在这个基础上,未来大模型对于资源的投入、软硬件基础设施的要求是越来越高,后面必然导致的一个结果就是,不会有那么多家去从事大模型,不会形成‘百模’或‘千模大战’。”
据悉,2023年3月,商汤集团宣布,公司愿景和战略目标转型为“将AGI作为核心战略目标,以期在未来几年内实现AGI技术的重大突破”。
基于此变革,商汤科技建立并执行AI for All的发展目标,并将重点放到以SenseCore Al大装置作为大模型生产的核心平台,以及商汤AIDCAI 计算中心平台作为大算力AI基础设施能力,从而打造通用能力的多模态大模型,以及垂直行业、更具专长的专业大模型,从根本上降低大模型的下游应用成本和门槛。
去年4月10日,商汤首次公布“日日新SenseNova”大模型体系,以及自研的中文语言大模型应用平台“商量”,参数量达千亿,可实现文本生成、图像生成、多模态内容生成等能力与场景应用。
2023年7月、8月以及今年1月,日日新大模型升级到2.0、3.0版本以及日日新V4.0,“商量”2.0和小模型商量S版(SenseChat S)等不同参数量级模型版本页同时发布,可适配移动端等不同终端及场景的应用需求。新的日日新V4.0通过提高训练数据的质量以及实现基础语言能力的显著提升,在代码编写、数据分析、医疗问答等多个场景中达到与GPT-4相匹配的能力,同时还开源对应7B和20B的两种参数基模型。
今年3月,徐立表示,在Scaling Law指引下,大模型正处于技术革命与性能提升的黄金时期。自2023年发布以来,商汤“日日新”大模型的能力每隔三个月都会有显著提升,实现了万卡万参的大模型训练能力,在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。
最新2023年报显示,去年基于商汤生成式AI收入达到12亿元人民币,实现200%的飞速增长;同时,商汤大模型基础设施大装置SenseCore总算力规模突破性增长至12000 petaFLOPS,运营GPU数量达4.5万卡,其中国产算力2000P,已完成58款国产芯片适配和应用;另外,生成式 AI 业务中超过70%的客户在过去12个月内是商汤的新客户,剩下30%的存量客户的客单价也录得约50%的增速,截至3月,订单金额超过千万人民币的客户数已达到数十家,日日新赋能C端的调用量实现近120倍的增长。
4月23日,商汤技术开放日上,公司正式发布日日新大模型V5.0,这也是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。具体来看,基于此次技术开放日活动,钛媒体App梳理了商汤核心的四大技术板块:
1、云端模型
商汤千亿大模型SenseChat(商量)升级到5.0,达到6000亿参数,支持MoE大幅提升创意写作能力、推理能力以及总结能力等,相同的中文知识注入后,可获得更好的理解总结及问答;同时,数理能力、代码能力及推理能力达到业内领先水平;多模态能力上,支持高清长图的解析和理解以及文生图交互式生成,实现复杂的跨文档知识抽取及总结问答展示,以及具备丰富的多模态交互能力,其大模型在基准测试MMBench中综合得分排名首位。
在主流客观评测上,日日新5.0达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本,同时也几乎全方位碾压了近期发布的 Llama 3-70B。
徐立表示,在高阶推理,特别是数学上的提升,相比GPT-4,日日新提升了100%多,Llama 2、3提升了400%多,也就是大部分用来提升数据质量的能力构建在推理能力上,推进合成数据的推理。
2、端边模型
随着大模型技术的快速发展,不同应用场景的需求日益显现,AI 大模型在智能手机、电脑、VR 眼镜等终端设备领域的应用也成为一大趋势,因此推出1.8B(18亿)参数规模的 SenseChat-Lite 版本端侧⼤模型。
在基准测试中,该端侧模型全面超越了MiniCPM-2B、Phi-2等同量级的大模型,并且还越级比肩一些7B、13B大模型。
徐立称,这是同等尺度性能最优,跨级尺度全面领先。“端侧大模型,天下武功,唯快不破。”
同时,商汤还推出端云协同解决方案,可以通过智能化判断协同发挥端云各自优势,部分场景端侧处理占比超过80%,从而显著降低推理成本;目前,商汤日日新·端侧大语言模型的推理速度达到业内最快,可在中端平台实现18.3字/s的平均生成速度,旗舰平台更是达到了78.3字/s;而文生图中,扩散模型端侧LDM-AI扩图技术推理速度小于1.5秒,比友商云端app快10倍,支持输出1200万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。
王晓刚对钛媒体AGI表示,商汤在端侧模型做的比较好。过去一年里,公司在云端给手机、汽车客户做提供服务时,还针对这些终端用户需求进行大量改进和开发,整个效果是跟云端模型是对齐的,体验上会有一个特别大的优势。此次通过稀疏模型的激活,可大大节省运算成本,降低端侧模型功耗。
3、企业一体机
此次活动上,针对于金融、代码、医疗、政务等行业的企业级大模型应用需求,商汤正式推出企业级大模型一体机,可同时支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署,即买即用,降低企业应用大模型的门槛。相比行业同类产品,推理成本节约80%,检索大大加速,CPU工作负载50%。
具体来说,商汤企业级大模型一体机采用“2-42”架构,高密一体机,平台同级性能最强,拥有高速4卡互连,显存可达256GB,互联速度可达448GB/s,算力可达2P FLOPS@半精度。
其中,小浣熊·代码大模型一体机轻量版价格为每台35万元人民币起。徐立提到,这款产品具有性价比、可用性、安全性、低门槛等优势。
4、大模型Agents和应用
整体来说,基于通用 AI 基础设施的SenseCore、“日日新”大模型体系,商汤研发了多个生成式AI产品,如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列,均在5.0版本中有更新。
以小浣熊为例。商汤新的小浣熊系列支持端侧,以及不止有代码小浣熊,还有办公小浣熊等,支持更多的场景应用;秒画则全面更新升级,支持更精细的词语。
徐立表示,现在发布的类似于代码小浣熊机器人,可以端到端,至于用自然语言去写代码目前来看还不能完全自动,原因是人类的自然语言有天然的奇异性。
另外,商汤还公布“文生视频”等领域新的技术突破。
徐立在现场播放了三段完全由商汤大模型生成的视频,并强调“文生视频”平台对于人物、动作和场景的可控性,但并没有正式发布“文生视频”产品;而针对数字人,商汤还发布过商汤·拟人语言大模型,让虚拟人物感受真实。
徐立表示,商汤团队希望持续推动整个 AI 产业的变化,特别是 AI 2.0 时代的转型。
王晓刚对钛媒体App表示,各个模型之间并不是孤立存在的。商汤多模态模型是以语言模型为基础,而文生视频模型在网络的架构、数据生产的管线、研发的流程上是大量地借鉴去年商汤文生图的模型,所以模型之间也是相互关联的。同时,商汤背后积累大量know-how。
“今天大模型发展最重要的不是数量到底是有几个模型存下来,最重要的还是在模型的差异化上。所以今天说大战也好,卷也好,主要体现在我们缺少差异化。所以怎么来带来我们的差异化?要有创新,今天这些研发模式还存在着一些问题,比如当我们看到OpenAI发布一个模型时,知道什么样的模型,什么样的功能是可以做到的时候,大家就蜂拥而上做类似的东西。对于别人没有尝试过,没有做出来东西,它的不确定性高、有投入风险时,又有很少有人在这方面做投入,所以可以看到商汤在大模型发展的思路上,跟其他很多公司是不一样的。”王晓刚表示。
王晓刚还向钛媒体App提到,“绝影”正专注于智能汽车发展,不止有自主权和更大投入,而且会包括商汤基础能力支持。而对于整个商汤来说,未来发展的重点不是做实体的机器人,而是打造机器人的“大脑”。
“这是我们最擅长且应该发挥价值的地方。”王晓刚表示。
王晓刚强调,AI 大模型是一个长期投入、长期竞争的过程。在这条路上,商汤还是非常坚定会往前继续走,而且在这基础之上会与很多合作伙伴、生态一起去支持这些成果和基础能力。
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)