虽然 OpenAI 反复强调 Scaling Law 是大模型最重要的原则,但事实上,GPT-4 在过去一年里缩小了 10 倍。
这是面壁智能看到的,Scaling Law 的另一面。
基于对 Scaling Law 的独特理解,在 8B 的面壁小钢炮模型上,他们实现了可以和 GPT-4V 对标的多模态能力,甚至有信心在 2026 年推出一个 GPT-4 水平的端侧模型。
而在 Google 推出开源 Gemma 端侧模型,Apple 推出基于本地端侧模型的「苹果智能」后,端侧模型这个赛道突然也变得炙手可热起来。
为什么聚焦端侧,「一方面因为确实看到了端侧离用户最近,另一方面也是觉得端侧是落地起来更具象化、更现实的途径。」李大海是这么说的。
而如何做到离用户更近,在李大海看来,必须做到两点:
「需要分享尽可能多的上下文,更懂用户。」
「一定要能实现『三位一体』,就是感知、决策、行为。」
关于创业、关于端侧模型不一样的 Scaling Law,以及端侧模型和云端如何协同的未来,在 AGI Playground 2024 上,极客公园创始人 & 总裁张鹏与面壁智能联合创始人&CEO 李大海进行了一场对话。
以下内容由 Founder Park 基于对话进行整理。
请输入图说
01 最懂 Agent 的大模型公司
张鹏:大海你参与到面壁智能的过程还挺有意思的。我记得你在知乎的时候推动和主导了对于面壁的投资。然后去做 CEO,最近是 all in 了,真正变成了创业者的姿态。能不能分享一下走来的心路历程?
李大海:过去一年非常兴奋。
23 年 3、4 月份,我在知乎内部推动了对面壁智能天使轮的独家投资。投资以后我们跟面壁有非常深度的合作,合作过程中我觉得被时代感召了,真的非常兴奋,觉得是时代的馈赠。作为一个资深工程师,还有机会在当打之年有一个非常大的历史性的变革出现。经过一段时间的考虑和挣扎,决定要 all in 到以大语言模型为代表的 AGI 赛道。
有一件很有意思的事,我在正式决定加入之前,跟面壁的核心同学都做了一次沟通,我就问了每个人一句话,你们相不相信 AGI?面壁智能是不是要做 AGI?
张鹏:你上来先做一个信仰考验是吧?
李大海:要对齐一下共识。得到的答案都是肯定的,所以才有更进一步的合作。
张鹏:本质还是因为觉得 AGI 这个浪潮,里面一定蕴含了很多让人兴奋的改变。倒不是因为看到了一个什么样的新产品,或者一个新的商业价值。
李大海:是的,从去年开始,我就有一个非常清晰且固执的认知,我认为到达 AGI 一定是一场马拉松。所以在决定投身到 AGI 大方向的时候,想的是我们怎么做出有价值的工作,能够在通向马拉松终点的时候有自己的一个位置。
张鹏:去年那会儿你已经是面壁的 CEO,我们聊的时候,你跟我一直在聊的是 Agent 这件事。我当时感觉,大海可能要做一个 Agent 的公司。你身边朋友也会问到这个问题,你到底是做 Agent 的公司,还是大模型的公司?今天你肯定会有一个清晰的定义。
李大海:其实一直都是非常清晰的。我们公司的英文名字 ModelBest,名字倒一下顺序其实就是 Best Model。公司成立的第一天,我们目标就是要做最好的大模型。一个朋友对我们的定义我觉得比较恰当,他们认为面壁智能是最懂 Agent 的大模型公司,我们本质是大模型公司,Agent 和在 21、22 年最早做的 Infra,其实都是为了把大模型做好,所建立的能力。
张鹏:为什么会有这么一个定义,最懂 Agent 的大模型公司。为什么最懂 Agent 重要?确实早期咱们聊的时候,你对 Agent 的想法给了我很多启发,为什么会从 Agent 这个视角来去看?
李大海:上周智源大会上,大家问了一个问题,Scaling Law 是不是通向 AGI 的路径。这两个问题是相关的,我们为什么认为 Agent 技术重要呢?在我看来,现在大模型作为知识压缩,主要是处理人的大脑系统一的工作。(来自《思考快与慢》,系统一是一种快速、直觉、自动的思维方式,系统二是一种缓慢、逻辑、努力的思维方式。)系统二的能力是未来大模型通过 Agent 技术外部化或者把它内化为自己的能力。
大语言模型技术代表我们能够去构建最好的系统一。但是 Agent 技术,不管是外化的 Agent 技术,还是 Agent 技术未来内化到大模型里面去,这个技术形成系统二。跟大语言模型结合到一起,能够更好地到达 AGI 最终的目标。我个人认为,Agent 技术本身非常重要。
张鹏:所以模型是它的底层,但是要想 AGI 在通用的更多领域发挥价值,Agent 这一层非常重要,最终要把两个词连一起。
李大海:人之所以为人,除了有负责逻辑的大脑之外,还需要有记忆,有直觉,逻辑之外的东西,所有这些功能结合在一起才是个完整的智能体。
张鹏:就是说模型光有很强的推理能力还不够,还需要有其他的能力才能最终变成一个更通用的智能。
李大海:现在我们在做的大模型训练的工作,本质上都是把各种困难的事情变成系统一的工作,但系统二的工作永远是需要的。
02 端侧模型是无处不在的智能私人管家
张鹏:模型也分很多类,云端的,端侧的,你自己经常聊到端侧有更大的重要性在今天凸显。通向 AGI 的梦想,总要找一个自己的定位,肯定不是一上来就对标 OpenAI。肯定要找一个自己对产业的价值,你怎么定义自己的价值?为什么端侧这件事变得更重要?
李大海:在过去的发展历程中,我们一直都非常注重效率。当我们要贴标签,让大家认识到面壁智能的特点的时候,我们的定义是高效,用更小的参数、更高的效率、更低的成本,实现更好的智能,这是面壁在行业里面的一个价值。回到大模型上,我们一直在讲端侧,其实我们想把大模型放到离用户最近的地方,才是本质。
张鹏:端侧目前是按照云和端这么划分,本质上端离用户更近。
李大海:端离用户更近,我们放到端上。未来也许还会出现云、边、端,我们把它放到边上也有可能。
张鹏:边上就比如说我家里有个私人服务器。所以要做到离用户更近这件事儿,到底难在哪儿?跟云端这种看起来很高智能的,很高推理的模型,有什么区别吗?
李大海:在内部,我们把云上的模型跟端侧——离用户更近的模型,抽象上讲,称为无所不能的智能和无所不在的智能。云上的智能,未来一定是无所不能,在任何一个领域都比人类专家还要厉害。无所不在的智能,需要跟环境有深度的互动,需要对用户隐私有深度的掌握。在隐私和对环境互动的连续性上,无所不在的端侧智能一定比无所不能的云上智能要强。
端侧模型,除了好之外,还需要克服能耗的限制,在足够小的参数下,做到大部分日常工作。挑战其实非常大,甚至从某种角度上来讲,可能比云端的模型的挑战还要大。
张鹏:听起来如果类比成人,云端无所不能,那就是一个我很敬仰的人,端侧是一个我很信任的人。可以这么理解吗?
李大海:对,更像是一个私人管家,你把所有的信息都毫无保留地交给他,因为他是专门为你而生的。
张鹏:有意思的定位,我觉得类比到人类世界就很好理解,我信任你,才可以在一起,不说话我们也很开心。
03 2026 年推出 GPT-4 能力的端侧模型
张鹏:我觉得还是要回到原点,既然要做一个创业公司,当你决心要全身心投入的时候,这个产业里面大模型公司已经很多了,海外有很强力的创业公司,国内也有不少的创业者拿了很多投资,而且没有一家巨头会放弃 AI。你会不会觉得,等你真正投身其中的时候,时间已经比较靠后了。这么大的一个画卷,是不是已经被占的差不多了,你是否会有这种顾虑?
李大海:首先,我自己完全没有这个顾虑,在我看来 AGI 这条赛道才刚刚开始,我会把这个广阔的空间比喻为我们的国画,就像千里江山图那样横轴徐徐展开的状态。它不像是西方的油画,往往会非常具体地给出一个近景画面。我们的 AGI 画幅还在非常早期的状态徐徐展开着,每一个立志于做好 AI 创业的创业者,在这个画卷里面都可以找到自己的一个方向。
对于面壁智能来讲,我们看到的是大语言模型本身。我们在最近提出了「大模型的摩尔定律」,即大模型的知识密度,每 8 个月会翻一番,这句话怎么理解呢?同样水平的模型过 8 个月后,它的参数量可以少一半。这个规律其实是过去几年整个行业里真实发生的事,包括我们自己做的模型、OpenAI 的模型,都在发生这样的变化,我们只是把这个规律提出来。
在我们抓住了这样第一性的变化后,我们才会想怎么把它放到端上。这种第一性原理上的思考,对于我们把工作做好,吸引到更多的资源肯定是有帮助的。
张鹏:你刚才那个国画和油画的比喻还挺形象。之前 Sam Altman 提出了智能摩尔定律,指的是多长时间内,智能的水平往上提,成本往下降。但你刚才选的另一个角度是,在同等参数大小下,智能应该更高,这是理解智能密度的核心,我们为什么要关注智能密度呢?
李大海:智能密度其实很像半导体的发展,半导体里面有大家现在都很熟悉的词叫制程。制程越高,能耗越低,能生产出来的芯片的水平越高,竞争力越强。智能密度某种程度上来讲就是大模型的制程,大模型的制程越高,它就在同等参数的水平下,表现出越高的智能水平,以及在同等智能水平下,用越低的能耗去完成同样的工作。
越低的能耗就代表着,一个原来不能在手机、眼镜这种非常严苛的终端上运行的模型,随着能耗降低就得以运行。我们合理推测,面壁智能在 2026 年年底,就可以做到 GPT-4 水平的端侧模型。
张鹏:这是你已经明确的目标吗?
李大海:这是我们明确的目标,实现这个目标我们也需要端侧芯片的水平不断提高。
我们看到的是两个摩尔定律的影响,第一个就是传统的摩尔定律,每隔 18 个月芯片的算力会翻一番,这个定律现在其实还在加速了,在端侧也在不断的加强。而我们看到的大模型参数的摩尔定律,我们自己现在把它叫做「面壁定律」——,在这个定律里,大模型的智能密度在每 8 个月翻一倍。所以这两个定律结合在一起,我们相信 2026 年年底是能够实现目标的。
04 数据质量和算法比单纯 Scale 更重要
张鹏:最近我好像听到你们在开源社区里有一些进展,发布了一个叫小钢炮的模型,小钢炮实际效果怎么样,你们怎么定义它推出后的目标呢?
李大海:我们在今年 2 月份的时候,开始推出面壁小钢炮系列的端侧模型,在 2 月 1 日发了第一版,4 月发了第二版,5 月发了 2.5 的版本,预期会在 7 月份再发 3.0 的版本也在路上。
我们在 2.5 这个版本上,以 1% 的参数规模,形成了可以跟去年 GPT-4V 和 Gemini Pro 的多模态能力对标的一个模型,这个模型只有 8B 大小,但是它能够放到终端上,并且有非常出色的多模态能力,所以在国际上比较受欢迎,在 5 月底的时候还因为被几个斯坦福本科生做了套壳的事情意外走红。
这个模型之所以这么受欢迎,是因为它填补了一个空白:在很小的模型上去实现强大的多模态能力。这是我们首先做到的,做到以后就很受整个社区的欢迎。我觉得这进一步证明了我的看法,模型跟产品必须是一体的,我们未来要做的就是把大模型放到了离用户更近的地方,模型能力就是产品能力,要做的产品最终也必须要映射到模型能力上。
张鹏:我很好奇,你选择了这个方向和目标,一定看到了可以去持续优化它的方法,就包括你提到的「面壁定律」,背后一定是有一个方法,怎么能够让它在端侧做到越来越高的知识密度、智能密度,这里核心的要点是什么?
李大海:还是要回到我们对于 Scaling Law 的理解,OpenAI 跟 DeepMind 指出 Scaling Law 后,他们把 Scaling Law 的重点放在了模型参数、数据量和对应投入的训练算力这三个维度上。但是我们看到的是,这三个维度之外,还有两个因素非常重要,一个是数据质量,一个是算法。
大家现在强调 Scaling Law 时候,强调往上 Scale 这件事情,是因为往上 Scale 要求的能力维度,是无限的投资源,可以把它简单理解为一个资源游戏。
但是在我们看来,在终端这样的场景下,算力、功耗、能耗是不允许无脑投资源的。所以在这个场景里,我们要考虑怎样去加入更多高质量的训练数据,通过合成数据的方法,以足够多的、教科书级别的数据来做模型训练。
再一个是更加精细的模型训练。它有点像用 AI 来「更精细」教小朋友学习,三年前、五年前,1 个老师配 50 个学生,讲同样的教材但没法因人施教。用 AI 来教学的话,AI 可以更好地去理解每一个学生,他掌握知识好和薄弱的地方,针对薄弱的地方做定向的增强,我们也可以用同样的方法来训练 AI。
所以训练 AI 的时候不应该是一个一成不变的方法,我们在训练小钢炮 1.0 的时候,就提出了一种全新的学习率调度器(WSD),动态地去针对模型的不同阶段,用不同的方法、不同的参数来训练模型。这种方法取得了很好的效果,我们在 1.0 的模型上,用了 1T 的精选数据,早一点的 Mistral AI 的 Mistral-7B 的模型,有传言他们用了 8T 的 Token 做训练,最后我们模型的效果比他们还更好一些,这让我们在训练效率方面,还是挺有自信的。
张鹏:果然是,我觉得创业者如果有目标的创新,就有机会长出方法的创新,和能力的创新。所以我还是非常相信,从创业创新的角度,终极还是在目标上,定义完目标,往往才有机会。
05 离用户更近需要模型实现「三位一体」
张鹏:作为创业公司,今天的资本环境、创业环境,要求公司不能只是对梦想做长期持续的投入,你中间总要有产品、商业循环。你怎么想这个问题?你们的产品未来会是什么样的闭环?
李大海:我们特别关注商业落地这件事。因为,既然是马拉松这么长的一个旅程,我们可能就得考虑自带干粮。你很难通过短跑冲刺的方式去跑整个马拉松。去年的时候,我们就在以积攒 know-how 的方式去广泛、高效地探索大模型落地的各种途径,我们尝试过服务大 B,尝试过 2B2C。
张鹏:这么快?一年时间全摸了一遍?
李大海:是的,非常高效率,而且涉及领域多,金融、营销、法律、内容都有过落地。所以今年我们重点聚焦到端侧,一方面因为确实看到了端侧离用户最近,另一方面也是觉得端侧是落地起来更具象化、更现实的途径。所以这一块上我们有很多动作,后面有进展也会跟大家同步。
张鹏:前面讲到端侧模型离用户更近,我能理解,离用户越近越能创造价值,核心是看产品和商业模式怎么设定。但另一方面,最近苹果也在它的生态里把 AI 当成一个核心重点去推动。如果追求离用户更近,那岂不是像苹果这样的公司更能离用户更近?当既看到这个方向是被认可的,但同时也有巨头在前面,这个事怎么办呢?
李大海:其实整个生态还是一个不断往前发展的状态。我觉得苹果在 WWDC 上的战略,印证了我们在战略上的前瞻看法,我们是今年年初的时候就非常坚定地看到了端侧的机会和重要性。
其实不光苹果,还有 Google 和微软,它们也在今年三四月份发布了端侧的一些产品。大家会发现这些公司都是自带生态的,因为有生态,所以需要端侧能力去给自己的生态拼图做好拼接。我们作为创业公司,首先一定是先服务好国内有类似生态的公司,通过 2B2C 的方式,让他们的用户能感受到价值。同时我们也会寻找自己的场景,这是两条腿走路的过程。
张鹏:其实我很关心,「离用户更近」这件事非常诱人,不管有没有巨头在前面,未来可能还会有新的玩家会出现,我们需要核心思考的是,如何才能离用户更近?
昨天我也在说,未来会有一个「以人为中心」的趋势,不再以机器为中心。那你今天说要离人更近,顺着这个趋势,你在这方面有哪些面向未来的思考?有哪些新的原则,新的可能性,会在「离人更近」的进程中,成为很重要的方法?
李大海:第一,想要离人更近需要分享尽可能多的上下文,就是 shared context。只有在跟用户沟通交流的过程中,建立足够多的共识和上下文,才能更好地为他服务,或者说更懂用户。
我们在 AI 1.0 时代其实就已经看到了它的威力,AI 1.0 时代最成功的应用是推荐,推荐能做好,主要原因就是它做到了千人千面。大模型领域里,今天大家还在卷「怎么把大模型这个统⼀的智能,做到用户可以接受的程度」,但接下来,「怎么把统一的智能跟每个人独特的地方结合在⼀起」,是更重要的方向。
第二个点,未来我们端侧的模型,一定要能实现「三位一体」,即感知、决策、行为的三位体,就像人一样。就像我们在沟通的时候,如果我讲话题,发现大家都在打哈欠,那我感知到的就是大家不感兴趣,我就会做个决策,赶紧切换话题。我的行为就是做调整。一个能放到终端上的「三位一体」的模型能力是非常重要的。
我认为,要给用户创造价值,把模型真正放到离用户最近的地方去,必须要做到这两点。
张鹏:听起来让人兴奋,因为今天还没有任何人真正把它做到。听到你几个明确的目标,包括 26 年要在端侧实现 GPT-4 水平的模型,以及刚才说到的,智能的密度和面壁定律,我希望未来真的可以让我们看到面壁定律,就是每 8 个月会怎么样。
李大海:对,面壁定律其实是我们对于行业规律的一个提取。我们也希望跟行业一起来完成这样一个定律。回想当年,摩尔提出摩尔定律的时候,当时他的描述是每两年翻一番,在行业的共同努力下,变成了 18 个月。当我们看端侧,这个速度现在还在加速。所以我们很期待,能跟所有的从业者一起,完成面壁定律在未来若干年的持续进化。
张鹏:对,而且你刚才也提到了,这件事不光靠面壁自己,芯片其实也在快速发展,这可能都是利好的消息。
李大海:对,现在就像一个千里江山图在徐徐展开,它代表了「生态里不同企业需要紧密合作」的现状。我们最近也刚刚跟华为云达成了一个「端云协同」的合作,就是我们来做端侧模型,华为云提供云端模型,协同合作。同时我们也在跟很多芯片厂商深度合作,让面壁小钢炮在不同芯片上充分利用芯片算力,同时让能耗足够低,这些都是为了推动「把大模型放到离用户最近的地方」,过程中一些必要的工作。
张鹏:在端侧如果有更强的能力,就会有更多创新因它而诞生、展开。
*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO