3月23日—24日,2024全球开发者先锋大会(GDC)在上海隆重召开。商汤科技董事长兼CEO徐立受邀出席开幕式,并发表《AI 2.0时代的“新质生产力工具”》主旨演讲,分享了对AI 2.0时代生产力工具“质”变背后的思考和突破路径。
新生产力工具仍需持续进化
ChatGPT、Copilot、Blackwell是AI 2.0时代的热度代名词。搜索数据显示,中国对于这些词的关注热度位居世界榜首。徐立指出,随着AI 2.0时代的来临,GitHub(一个面向开源及私有软件项目的托管平台)上的相关项目数量呈指数级增长。生成式AI项目、大模型项目以及辅助编程、辅助开发的工具项目层出不穷。但反过来看,中国数字人才缺口也在逐年增大,且短缺比例在快速扩大。
他同时也强调,虽然我们已经开始使用AI 2.0时代的生产力工具,但这些工具带来的生产效率提升效果并不明显,所能解决的问题占比不足10%,给生产链路带来的突破相对有限。
众所周知,软件开发全生命周期包括需求分析、设计、开发、测试、部署和维护诸多环节。虽然目前AI能够带来很多革新,或者扩展到很多场景,但目前仅能解决其中非常小众的部分。具体而言,AI目前能解决的是在过往基础上抽象成比较标准化、甚至以知识库的形式固化下来的内容,包括代码补全、代码增写以及部分测试用例等。如果把它分摊到整个软件或者产品设计的全流程当中,占比并不高。
徐立分析,随着扩展能力变强,很多工具会从前端的设计、测试用例再到维护的横向拓展,一步步往前演进。除了横向能力的拓展,从纵向来看,当前新生产力工具的准确率和完成度也普遍较低。根据SWE-bench评估,Claude 2和GPT-4在特定任务上仅有不到5%的任务完成度,即使是最新的Devin完成度也仅13%,虽然整个行业在往前走,但目前还是处于相对雏形。
而他同时也观察到一个有意思的现象是,编程经验越丰富,不代表就越能用好新的生产力工具。统计数据显示是相反的:工作五年以下的程序员使用新生产力工具解决问题时长超过一小时,但五年以上的程序员反而更短。这意味着越是高阶、复杂的任务,对于当前新生产力工具来说还有一定的挑战。
商汤“小浣熊”的“KRE”三层架构实践
徐立总结,大模型能力可分为三层架构,而且这三层之间互有依赖,但又相对独立。第一层知识(Knowledge),世界知识的全面灌注;第二层推理(Reasoning),理性思维的质变提升;第三层执行(Execution),世界内容的互动变革。
商汤结合“KRE”三层架构打造出的办公辅助软件“小浣熊”。在一个已开发完成的基模型的基础上,商汤从需求分析到最终完成产品开发,共需投入100人天(专业计量单位)的工作量。如果去年用“小浣熊”代码补助工具,可节省30%的工作量。它在整个过程中主要解决的还是一些重复性的劳动,在一个很好的代码库基础上,能够做一些代码的完成任务。
现在商汤推出“小浣熊”2.0版本,它真正意义上基于给出的海量数据筛选出需求,制定产品特征,在产品的特征之上完成产品的自主开发。“最终,我们期待它在获得世界知识的基础上,在真实的世界当中应用到更多的机器人场景中。”徐立分享道。
徐立解释,以“KRE”三层来理解“小浣熊”:知识层是代码的补全,补全的代码来自他人写过的代码;推理层则深入到软件开发的全流程;执行层进入切分到垂直场景当中,以场景化的智能为依归。可以总结为,知识层主要解决高频、标准化问题,做别人做过的问题,显然准确率高;推理主要解决长尾、碎片化的问题。
他举了“小浣熊”场景化的例子。首先,管理智能化场景,在交通分析的场景中,大屏上的数据往往是固定化的,比如某个路口的流量、某个时间的流量分析等等,是一个标准化的问题。然而,当要结合天气因素、舆论因素、新闻因素,过去没有此类的分析结果,可以用软件强推理能力来完成一些长尾应用的分析。其次,办公智能化场景,当需要为产品推广制定预算时,把财务报表、账户信息、产品介绍等各类文档资源全部输入到商汤的“办公小浣熊”当中,它能够根据输入的数据和需求,给出一个既合理又科学的预算方案,展现出强大的推理能力。
“生产力工具如果在知识能力、推理能力、执行能力三层能力上都有突破,首先受益的是广大开发者以及场景化的核心应用,最终将真正带来整个社会生产力的跨越式发展。”徐立说。