图片来源@视觉中国
文 | 钛资本研究院
近年来大模型的热潮席卷全球,行业发展从局域向智能方向不断演进。如今,“百模大战”进入下半场,如何快速实现产业落地成了刚需。最近国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《中国AI大模型创新和专利技术分析报告》显示,软件业、制造业或成AI大模型应用的主战场。
关于大模型技术演进情况与未来有哪些投资机会?近期钛资本邀请王昊奋进行分享,主题是:2024大模型技术演进与产业落地趋势展望。他是同济大学百人计划成员,特聘研究员和博士生导师,同时担任中国计算机学会术语工委副主任、SIGKG主席、自然语言处理专委会秘书长、中国中文信息学会理事、语言与知识计算专委会副秘书长、上海市计算机学会自然语言处理专委会副主任等职务。他同时也是全球最大的中文开放知识图谱联盟OpenKG发起人之一,负责参与多项国家级AI相关项目,发表100余篇AI领域高水平论文,构建了全球首个可交互养成的虚拟偶像“琥珀·虚颜”。本次分享主持人是钛资本董事总经理黄倜,他长期关注人工智能领域。以下为分享实录:
新机遇:大模型掀起迈向AGI的浪潮
我们目前正处于人工智能第三个阶段的下半场。从最早的专家系统时期,到后来的浅层机器学习时期,再到2012年以后,深度学习的崛起,在图像、语音、视频等领域取得了显著进展。随着各种需求的出现,尤其是在自动驾驶和安防领域,我们看到了一些变化。
为什么我们现在处于第三次人工智能浪潮的下半场呢?主要原因在于它出现的时间不早不晚,正是在2017年。不知大家是否还记得,2017年由谷歌提出《Attention is All You Need》。其中提到多头注意力机制,模拟了人脑的记忆和理解方式,正式拉开了我们进入预训练模型阶段的序幕。直到GPT的出现,我们正式进入了真正的大模型时代。
在第一次浪潮下,专家系统时代,我们通常在编写规则。从传统的机器学习时代过渡,这时我们需要进行的是特征工程。对于任何任务,都必须将其拆分成几个子任务来处理,这就导致了能够处理的任务有限。同时多个子任务之间的串接容易产生错误传递和放大,因此,在这个阶段,即使一个任务的准确率达到了90%,但如果有四个任务串接,准确率可能只有60%左右。这也是长期以来限制了传统机器学习发展的一个问题。
这时,深度学习出现了,中间是一个端到端的过程,孕育出了表征学习。我们可以定义任务的输入和输出,并通过输入和输出让模型自动学习各个层面的特征,从基本的标准到高层的语义标准,无需人工干预。
对于图像、语音或视频等无法简单定义特征的领域,深度学习允许我们在结构化数据库和非结构化文本之外,处理各种多模态或多媒体的数据。这也带来了一个新问题,即每个定义的问题如果应用在不同领域,或者希望在一个应用场景中完成多个任务时,整体解决方案可能不仅仅是一个特定任务。我们必须用相同的方法训练多个模型,即使是相同的任务,在不同场景下进行迁移时,也可能存在局限性,于是产生了一个更贪心的想法,即既要端到端,又要使一个模型能够解决多个问题。这就是大模型诞生的动力,能够同时支持多个下游任务。而在当前阶段,GPT符合这个任务。
为什么大家对GPT的评价如此高呢?传统对人工智能的研究或工业实践基本上是从不同侧面来看的。比如,我们会将其分为紫色部分,即感知智能,感知智能更多地模拟我们的五官,能够更好地看见、听见和触摸等等能力。而对于我们认知中的红色区域,它对应的是我们大脑部分,包括推理能力、知识能力、学习能力、上下文建模能力、规划能力和创造能力。蓝色部分对应的是我们对外部世界和环境的理解。而绿色和红色部分代表了我们的消化和思考。然后,我们还需要对外展示一些行为,这时绿色部分就称之为决策智能或者交互智能。
大模型作为基础提供接口
为什么GPT如此强大呢?实际上,它孕育出了一种新的职业——提示工程师。因为模型能力很强,不再需要大量标注数据来理解一个单一任务的输出,而是可以通过几个示例就能举一反三。这就使得我们大量的提示可以通过自然语言来进行描述。在企业服务中,我们关注的一些平台,比如低代码或无代码的平台,基本上可以在接口层和任务层通过描述来调用大模型返回结果。
无论是零样本的提示、小样本的提示、上下文情境学习还是指令学习等,基本上都符合这样一种思路。这种思路又推动着我们去思考一个问题,即我们过去从PC时代的GUI或者TUI这样的交互范式,到手机中的多点触控和手势交互,再到现在大模型的时代,我们其实经历了NUI的过程。当然,大家都知道科研现在推进得非常快,有一个叫做预印本的应用,每天都可以看到很多关于大模型的工作,其中也包括很多标题党的工作,比如一些关键词,如通用、零样本、接口学习、规划器、推理器等。这让人们发现大模型在各种任务中展现出了各种潜力。但同时,这个过程中也产生了很多泡沫和为了吸引资金而产生的浮躁现象。
大模型产业落地
1、基本范式
大家开始思考在整个大模型落地的过程中,我们希望它能够完成什么。其实有两种不同的大模型落地范式。一种是为了启发自己,进行更多的探索性、感知性或创造性的任务。在这个过程中,我们不仅仅依赖于语言类大模型,还包括各种多模态的大模型。通过自然的人机交互界面,帮助我们进行多方面的交互。通过提示工程,甚至可以根据特定场景和数据微调适应不同领域或任务的反馈。但另一方面,在OpenAI的开发者日以及之前,国内外各大模型厂商纷纷推出许多插件和机制。这是因为在很多严肃的场景中,我们希望强调数据的可靠性、结果的确定性和计算的精准性。
虽然我们仍然希望使用自然人机交互的界面,但是在非确定性系统中,单独完成上述的人机需求是不可能的。我们需要通过某种方式,无论是插件机制、中间件机制还是各种桥接机制,与我们熟悉但又不够高级的确定性系统进行对接,包括规则引擎、数据库系统以及现在较流行的大数据系统中的数据仓库等。
2、连接与合纵
在互联网时代,我们通常讨论“互联网+”和“+互联网”,“互联网+”是通过互联网技术应用于各行各业,而“+互联网”则站在某个特定领域的基本面上,理性而合理地采用互联网技术。各大模型厂商在这个过程中,采用一种插件联盟的方式攻克各种垂直领域。另一方面,对于某个垂直领域,比如金融行业或医疗领域的辅助诊断等,我们希望在这个过程中提升整个领域的能力。因此,与插件联盟相比,它更像是互联网的模式,根据需求调用适用的大模型,甚至需要对大模型进行私有化部署,并在这个过程中实现各种能力的满足和对接。
在这个过程中产生了微软和其他云厂商强力推进的大模型方式,即针对特定领域和用户的按需调用,形成一种Copilot模式。即在特定领域应用中,按需调用大模型。在提出请求时,需要按需访问相应的数据。在这个过程中,按需调用各种工具的能力,包括API的能力、RPC的能力、各种模型的选择能力和各种命令执行的shell脚本的能力。按需编织所需的数据,编排服务,并调用相关的大模型返回相应的结果。对于这些结果还需要进行额外的引证,包括对数据的额外查询、外部调用的复杂推理和结果的包装。最近,搜索引擎似乎可以被大模型替代,但是新的搜索引擎不断涌现。
大模型落地的限制
在大模型的落地过程中,存在许多问题。首先,大模型通常是在公开的语料数据上进行训练的,因此在行业方面相对较弱。本质上,它是一个在通用知识上非常充裕、能言善辩,但在领域知识和认知方面相对薄弱的选手。对于工程落地的领域问题,它缺乏解决的能力,在知识层面上相对欠缺。
其次,涉及到黑盒可解释性。在许多领域应用中,我们需要大模型是可信、可解释和可追溯的。然而,大模型本身的黑盒效应会导致许多应用在过程中受到阻力,即使它在完成过程中表现良好,但因为它具有张冠李戴和幻觉的问题,一旦出现问题,其危害程度就会非常高。
再次,涉及到数据的合规性。这也是为什么国家成立了数据局,各地成立了数据中心,并在上海、北京、深圳和浙江设立了数据交易所。数据的合规性和数据本身的意识形态,都非常重要,大家都知道大模型与人类的价值观对齐是很重要的。
最后是成本。不仅涉及到高昂的训练成本,许多内部的运行和训练过程都涉及到探索和尝试,因此在这个过程中,我们可能走弯路,增加额外的成本。另外,由于对N卡的限制,很多时候需要使用国产芯片,软硬件协同和一体化也存在问题。
另外,推理成本高。例如,像GPT Turbo的速度就非常慢。在高并发等许多环境中,它对资源的占用和对算力的需求都非常大,这加剧了在生产环境中部署大模型的成本开销。这也是谷歌等搜索引擎,迟迟不愿意全面使用已经训练和验证的大规模大模型的原因。
大模型的改进思路
在讨论大模型的改进思路时,我建议对于这些问题感兴趣的人可以参考图灵奖获得者、卷积神经网络的推崇者之一,也是META公司首席科学家兼研究院院长Yann LeCun的观点。他是推出目前最成功的开源大模型的倡导者之一。
在他看来,现有的大模型在许多方面存在问题。首先,缺乏复杂的推理能力。其次,我们需要学会使用工具的能力。我们提到了Copilot,其重要之处在于能够按需调用外部资源和工具。当我们需要进行数学计算时,是选择计算器还是使用大模型完成,其实并没有固定规定,但显然计算器是非常简单且精准的工具,为什么要通过大模型来完成计算呢?另外,大模型需要与外部世界进行交互,这就涉及到一种行为能力。无论是自动驾驶还是各种人形机器人,大模型的客观发展需要对这些方面进行增强。
过去,大家一直在通往通用大模型的道路上狂奔,但现在,我们正在从通用大模型逐渐转向领域大模型。如前所述,这包括金融行业、司法行业、政务行业、医疗行业以及自动驾驶等多个领域。在这个过程中,出现了各种类型的领域大模型。
比如Bloomberg GPT使用的大约51%的数据,不是来自公开互联网,而是来自Bloomberg多年来经营和积累的数据。拥有充足的领域数据成为其巨大的壁垒。正如GPT时的AI首席科学家Elia所说,“Training data is technology”。在他的GPT-4技术文档中,没有公开任何有关模型细节或数据细节的信息。这也解释了为什么各大模型公司正在疯狂购买各种数据工具和高质量数据,这对于创业团队来说是一个挑战。
因此,最近出现了三种大模型优化的方法。第一种,提示工程,即不对大模型进行修改,是最轻量级的一种手段,就像驯兽师一样,通过各种技巧来引导这个“动物”完成任务。第二种,指令微调,通过不断训练让大模型熟悉和了解需要完成的任务。第三种,检索增强,通过外部库以一种开放的方式与大模型互动。
微调在知识密度不高的情况下非常有价值,比如行为模拟、行为模仿或风格克隆。当我们对知识有很高要求,而且这些知识经常更新、需要复杂处理时,RAG就成为一个很好的选择。当然,最终我们可能需要两者兼具,即既具有一定风格的协调性,又要将领域知识纳入考量。这种情况在问答中尤为重要,需要高复杂度的领域知识和良好的语言表达能力相结合。
大家对于大模型的狂热不再满足于通用大模型的狂奔。在大模型增强的过程中,大模型虽然充满了各种知识,但似乎不具备记忆能力。另外,对于如何调用外部工具也是陌生的。因此,在我们如何让工具调用、内存访问,甚至形成自己的规划方面,大模型需要扩展传统人工智能中智能体的概念。
这样一来,大模型不仅具备知识,还具备了记忆、规划和工具使用等技能,最终形成了一个代理体。在这个过程中,具备自省、自我批评、思维链和子目标分解等高阶规划和推理能力,使其具有人类具备的一些高级智能。
大模型之战刚刚开始。逐渐从能说会道过渡到了突破多模态,再通过人机交互形成各种指令。甚至在此之后,形成了人机混合、智能和自主智能的各种更高级的能力。这个领域已经成为新的竞争之地。
不过,也会有新的设定,最近硅谷有一些新的硬件和硬科技尝试,也代表着这样一种趋势正在逐渐外溢并形成到每个行业、领域和应用,都在思考如何与大模型结合。
问答
Q1:谈谈关于"Agent"的话题。你认为它能够在商业上投入使用吗?需要具备哪些能力呢?
A:我们可以分成两种情况。一是对于本身数字化和信息化建设相对较好的团队,可以在这个时机快速完成换道和智能化升级。最近大家能看到很多AI+BI的工作,比如Bing Chat等,基本上都属于这个范畴。这一领域,如果你的数据积累较好,再加上一定的记忆能力,就是一个快速实现的方向。二是强人工智能需要更强大的能力,例如在机器人或者复杂决策场景中,甚至需要进行推理的过程。在这方面会有一些障碍和机会。
但我认为目前Agent还处于狂奔的状态,尚未明确出适用典型场景以及需要具备的具体能力。当然,这里也有一些新的概念,比如RAG。在RAG中,主要涉及对内存的使用和规划。这方面更侧重于一些具有较高壁垒的点,不是所有的玩家都可以做到,需要有特定的基础和依据。
Q2:现在大模型不断增强。在国内,有些公司选择自研大模型,这样做是否有意义呢?
A:首先,需要视情况而定,是否有必要重新造轮子。其次,各国都有自主的生态系统,你也必须拥有自己的大模型,不能让步。因为大模型不仅是硬件方面,还有很多软件方面的插件和生态系统。例如,GBT产生了GB store,就是为了建立自己的软件生态系统。这与我们的算力和芯片有关。微软有自主设计和制造的芯片,谷歌有TPU,这与很多基础软件有关,包括操作系统、数据库。再次,会影响上游的数据和下游的应用。我认为这是有必要自研的,这是价值的一个最基本源泉。
另外,我是反对在狂奔阶段做大模型技术为驱动的创业,因为这种创业非常危险。首先,你的人力和财力是非常有限的,而且大模型是一个综合技术,这会导致你很难找到非常细分的市场,因为大模型的逻辑是支持各种各样的下游任务,所以它一定是以垄断为主导的经济思维方式来执行其逻辑。
在这个过程中,一个小团队去做,很容易被大公司或者开源的努力直接覆盖掉,淹没在这个浪潮中。
Q3:在AI的基础设施层面,例如工具和公共学科。在这方面是否有足够的空间可以让我们的团队进行实践?
A:首先要围绕大模型本身做适配的和工具链的开发是非常有必要的。其实是to D,就像GitHub,实际是面向大模型的厂商。那么谁需要新的芯片?比如说大模型的MPU芯片。 因为大模型升级和更新之后,有些工具可能就不再需要了。这些工具和努力是否只是一个临时的解决方案,是需要思考的。
为什么大家都更多地去做数据呢?因为不论模型发展到什么阶段,甚至在没有真实数据的情况下,通过给模型提供生成的AIGC数据,模型是否还能够增长呢?因此,模型数据的清洗、生成和增长等自动化的事情是非常有必要的。
Q4:未来几年的人工智能产业链是否会聚焦于记忆、规划、工具等插件的细分供应链机会?其次,目前市场上行业维度的模型是否以行业龙头为主?
A:人工智能产业链肯定会发生供应链和产业链的重塑,但是很难得出最终的结论。毕竟大模型的发展只有短短一年的时间。对于第二个问题,我觉得相对可以回答。像 Bloomberg 这样的企业,本身就具有非常强的信息化和数字化的能力。因为有数据,所以并不需要帮忙,一定是行业龙头自己去做的。但是也有很多行业,其行业龙头在于渠道,有获取原材料或者原始数据的闭环。但是信息部分相对薄弱,那么就有两种策略,一是自建团队,因为本身也有资金;二是给供应商提供机会。
Q5:在垂直领域的创新方向为什么说AI需要很重的服务,或者说要有项目值来定制化一些东西?
A:产品不是规划出来的,产品是做出来的。Agent更像是一种产品,更符合海外分工相对明确的需求。FAE或者是一些实施工程师可以做得更快。永远会存在内部和外部的产品,因为考验你项目的能力在于标准化程度和应对的能力,以及成本等情况。
Q6:关于聚生智能的技术现状,我们需要突破哪些限制因素以及在哪些场景下会率先商业化?
A:我认为聚生智能目前在人形机器人领域进行探索。在工业场景可能更容易实现落地,现在看到的送餐机器人以及酒店机器人等已经相对成熟。在大模型的支持下,这些场景可以做得更好。然而,在开放的场景或完成更复杂的任务,尤其是家庭服务机器人方面,仍然有许多需要解决的问题。
我认为目前做得还不够好。一方面,机器人缺乏规划和任务理解能力。尽管在大模型的支持下,这方面的能力得到了显著提升,但问题在于机械电子、电机控制等方面的精准控制,以及在操控层面上的问题,对设备和传感器等提出了更高的要求。另一方面,大模型的成功在于发现了它具有缩放法则。也就是说,模型指数增长时,模型性能会线性增加,并且在超过一定规模时,模型的大小会导致涌现现象。然而,这在机器人大模型中尚未被普遍发现,这意味着我们仍处于一个发展的阶段。
此外,由于聚生智能依赖于视觉和多模态。现在还没有出现视觉大模型,即具有涌现和真正能解决我们对理解、感知、认知和决策一体化的需求的大模型。因此,在这个过程中,我们之前认为相对领先的东西,因为大模型的出现,变成了一个瓶颈。
所以我认为这两点肯定会螺旋上升,最先会落地的场景一定是相对封闭的、以前可能做得不太好的。在大模型的支持下,这些场景可以更好地完成任务。但一定不要期望家庭服务性的场景,工业场景可能会更加先进。因此,我们先交给工业场景,推动很多灯塔工厂或智能制造等领域进一步催生和落地,然后逐渐延伸到我们的TC行业或其他相关行业。这可能是一条相对切实可行、可能性较大的路径。
钛资本研究院观察
这一轮的AI进入新模式阶段,有望引发产业竞争格局重构。展望未来,人工智能进入大模型时代,其应用性能会发生质的改变,千行万业或将向更多元的方向发展,钛资本将与各投资者共同关注大模型格局下的行业发展,发现投资机会。