对话面壁智能李大海：离用户更近的端侧模型，才是 AI 落地更现实的途径

作者：极客公园发布时间：2024-06-25

OpenAI GPT-4

虽然 OpenAI 反复强调 Scaling Law 是大模型最重要的原则，但事实上，GPT-4 在过去一年里缩小了 10 倍。

这是面壁智能看到的，Scaling Law 的另一面。

基于对 Scaling Law 的独特理解，在 8B 的面壁小钢炮模型上，他们实现了可以和 GPT-4V 对标的多模态能力，甚至有信心在 2026 年推出一个 GPT-4 水平的端侧模型。

而在 Google 推出开源 Gemma 端侧模型，Apple 推出基于本地端侧模型的「苹果智能」后，端侧模型这个赛道突然也变得炙手可热起来。

为什么聚焦端侧，「一方面因为确实看到了端侧离用户最近，另一方面也是觉得端侧是落地起来更具象化、更现实的途径。」李大海是这么说的。

而如何做到离用户更近，在李大海看来，必须做到两点：

「需要分享尽可能多的上下文，更懂用户。」

「一定要能实现『三位一体』，就是感知、决策、行为。」

关于创业、关于端侧模型不一样的 Scaling Law，以及端侧模型和云端如何协同的未来，在 AGI Playground 2024 上，极客公园创始人 & 总裁张鹏与面壁智能联合创始人&CEO 李大海进行了一场对话。

以下内容由 Founder Park 基于对话进行整理。

请输入图说

01 最懂 Agent 的大模型公司

张鹏：大海你参与到面壁智能的过程还挺有意思的。我记得你在知乎的时候推动和主导了对于面壁的投资。然后去做 CEO，最近是 all in 了，真正变成了创业者的姿态。能不能分享一下走来的心路历程？

李大海：过去一年非常兴奋。

23 年 3、4 月份，我在知乎内部推动了对面壁智能天使轮的独家投资。投资以后我们跟面壁有非常深度的合作，合作过程中我觉得被时代感召了，真的非常兴奋，觉得是时代的馈赠。作为一个资深工程师，还有机会在当打之年有一个非常大的历史性的变革出现。经过一段时间的考虑和挣扎，决定要 all in 到以大语言模型为代表的 AGI 赛道。

有一件很有意思的事，我在正式决定加入之前，跟面壁的核心同学都做了一次沟通，我就问了每个人一句话，你们相不相信 AGI？面壁智能是不是要做 AGI？

张鹏：你上来先做一个信仰考验是吧？

李大海：要对齐一下共识。得到的答案都是肯定的，所以才有更进一步的合作。

张鹏：本质还是因为觉得 AGI 这个浪潮，里面一定蕴含了很多让人兴奋的改变。倒不是因为看到了一个什么样的新产品，或者一个新的商业价值。

李大海：是的，从去年开始，我就有一个非常清晰且固执的认知，我认为到达 AGI 一定是一场马拉松。所以在决定投身到 AGI 大方向的时候，想的是我们怎么做出有价值的工作，能够在通向马拉松终点的时候有自己的一个位置。

张鹏：去年那会儿你已经是面壁的 CEO，我们聊的时候，你跟我一直在聊的是 Agent 这件事。我当时感觉，大海可能要做一个 Agent 的公司。你身边朋友也会问到这个问题，你到底是做 Agent 的公司，还是大模型的公司？今天你肯定会有一个清晰的定义。

李大海：其实一直都是非常清晰的。我们公司的英文名字 ModelBest，名字倒一下顺序其实就是 Best Model。公司成立的第一天，我们目标就是要做最好的大模型。一个朋友对我们的定义我觉得比较恰当，他们认为面壁智能是最懂 Agent 的大模型公司，我们本质是大模型公司，Agent 和在 21、22 年最早做的 Infra，其实都是为了把大模型做好，所建立的能力。

张鹏：为什么会有这么一个定义，最懂 Agent 的大模型公司。为什么最懂 Agent 重要？确实早期咱们聊的时候，你对 Agent 的想法给了我很多启发，为什么会从 Agent 这个视角来去看？

李大海：上周智源大会上，大家问了一个问题，Scaling Law 是不是通向 AGI 的路径。这两个问题是相关的，我们为什么认为 Agent 技术重要呢？在我看来，现在大模型作为知识压缩，主要是处理人的大脑系统一的工作。（来自《思考快与慢》，系统一是一种快速、直觉、自动的思维方式，系统二是一种缓慢、逻辑、努力的思维方式。）系统二的能力是未来大模型通过 Agent 技术外部化或者把它内化为自己的能力。

大语言模型技术代表我们能够去构建最好的系统一。但是 Agent 技术，不管是外化的 Agent 技术，还是 Agent 技术未来内化到大模型里面去，这个技术形成系统二。跟大语言模型结合到一起，能够更好地到达 AGI 最终的目标。我个人认为，Agent 技术本身非常重要。

张鹏：所以模型是它的底层，但是要想 AGI 在通用的更多领域发挥价值，Agent 这一层非常重要，最终要把两个词连一起。

李大海：人之所以为人，除了有负责逻辑的大脑之外，还需要有记忆，有直觉，逻辑之外的东西，所有这些功能结合在一起才是个完整的智能体。

张鹏：就是说模型光有很强的推理能力还不够，还需要有其他的能力才能最终变成一个更通用的智能。

李大海：现在我们在做的大模型训练的工作，本质上都是把各种困难的事情变成系统一的工作，但系统二的工作永远是需要的。

02 端侧模型是无处不在的智能私人管家

张鹏：模型也分很多类，云端的，端侧的，你自己经常聊到端侧有更大的重要性在今天凸显。通向 AGI 的梦想，总要找一个自己的定位，肯定不是一上来就对标 OpenAI。肯定要找一个自己对产业的价值，你怎么定义自己的价值？为什么端侧这件事变得更重要？

李大海：在过去的发展历程中，我们一直都非常注重效率。当我们要贴标签，让大家认识到面壁智能的特点的时候，我们的定义是高效，用更小的参数、更高的效率、更低的成本，实现更好的智能，这是面壁在行业里面的一个价值。回到大模型上，我们一直在讲端侧，其实我们想把大模型放到离用户最近的地方，才是本质。

张鹏：端侧目前是按照云和端这么划分，本质上端离用户更近。

李大海：端离用户更近，我们放到端上。未来也许还会出现云、边、端，我们把它放到边上也有可能。

张鹏：边上就比如说我家里有个私人服务器。所以要做到离用户更近这件事儿，到底难在哪儿？跟云端这种看起来很高智能的，很高推理的模型，有什么区别吗？

李大海：在内部，我们把云上的模型跟端侧——离用户更近的模型，抽象上讲，称为无所不能的智能和无所不在的智能。云上的智能，未来一定是无所不能，在任何一个领域都比人类专家还要厉害。无所不在的智能，需要跟环境有深度的互动，需要对用户隐私有深度的掌握。在隐私和对环境互动的连续性上，无所不在的端侧智能一定比无所不能的云上智能要强。

端侧模型，除了好之外，还需要克服能耗的限制，在足够小的参数下，做到大部分日常工作。挑战其实非常大，甚至从某种角度上来讲，可能比云端的模型的挑战还要大。

张鹏：听起来如果类比成人，云端无所不能，那就是一个我很敬仰的人，端侧是一个我很信任的人。可以这么理解吗？

李大海：对，更像是一个私人管家，你把所有的信息都毫无保留地交给他，因为他是专门为你而生的。

张鹏：有意思的定位，我觉得类比到人类世界就很好理解，我信任你，才可以在一起，不说话我们也很开心。

03 2026 年推出 GPT-4 能力的端侧模型

张鹏：我觉得还是要回到原点，既然要做一个创业公司，当你决心要全身心投入的时候，这个产业里面大模型公司已经很多了，海外有很强力的创业公司，国内也有不少的创业者拿了很多投资，而且没有一家巨头会放弃 AI。你会不会觉得，等你真正投身其中的时候，时间已经比较靠后了。这么大的一个画卷，是不是已经被占的差不多了，你是否会有这种顾虑？

李大海：首先，我自己完全没有这个顾虑，在我看来 AGI 这条赛道才刚刚开始，我会把这个广阔的空间比喻为我们的国画，就像千里江山图那样横轴徐徐展开的状态。它不像是西方的油画，往往会非常具体地给出一个近景画面。我们的 AGI 画幅还在非常早期的状态徐徐展开着，每一个立志于做好 AI 创业的创业者，在这个画卷里面都可以找到自己的一个方向。

对于面壁智能来讲，我们看到的是大语言模型本身。我们在最近提出了「大模型的摩尔定律」，即大模型的知识密度，每 8 个月会翻一番，这句话怎么理解呢？同样水平的模型过 8 个月后，它的参数量可以少一半。这个规律其实是过去几年整个行业里真实发生的事，包括我们自己做的模型、OpenAI 的模型，都在发生这样的变化，我们只是把这个规律提出来。

在我们抓住了这样第一性的变化后，我们才会想怎么把它放到端上。这种第一性原理上的思考，对于我们把工作做好，吸引到更多的资源肯定是有帮助的。

张鹏：你刚才那个国画和油画的比喻还挺形象。之前 Sam Altman 提出了智能摩尔定律，指的是多长时间内，智能的水平往上提，成本往下降。但你刚才选的另一个角度是，在同等参数大小下，智能应该更高，这是理解智能密度的核心，我们为什么要关注智能密度呢？

李大海：智能密度其实很像半导体的发展，半导体里面有大家现在都很熟悉的词叫制程。制程越高，能耗越低，能生产出来的芯片的水平越高，竞争力越强。智能密度某种程度上来讲就是大模型的制程，大模型的制程越高，它就在同等参数的水平下，表现出越高的智能水平，以及在同等智能水平下，用越低的能耗去完成同样的工作。

越低的能耗就代表着，一个原来不能在手机、眼镜这种非常严苛的终端上运行的模型，随着能耗降低就得以运行。我们合理推测，面壁智能在 2026 年年底，就可以做到 GPT-4 水平的端侧模型。

张鹏：这是你已经明确的目标吗？

李大海：这是我们明确的目标，实现这个目标我们也需要端侧芯片的水平不断提高。

我们看到的是两个摩尔定律的影响，第一个就是传统的摩尔定律，每隔 18 个月芯片的算力会翻一番，这个定律现在其实还在加速了，在端侧也在不断的加强。而我们看到的大模型参数的摩尔定律，我们自己现在把它叫做「面壁定律」——，在这个定律里，大模型的智能密度在每 8 个月翻一倍。所以这两个定律结合在一起，我们相信 2026 年年底是能够实现目标的。

04 数据质量和算法比单纯 Scale 更重要

张鹏：最近我好像听到你们在开源社区里有一些进展，发布了一个叫小钢炮的模型，小钢炮实际效果怎么样，你们怎么定义它推出后的目标呢？

李大海：我们在今年 2 月份的时候，开始推出面壁小钢炮系列的端侧模型，在 2 月 1 日发了第一版，4 月发了第二版，5 月发了 2.5 的版本，预期会在 7 月份再发 3.0 的版本也在路上。

我们在 2.5 这个版本上，以 1% 的参数规模，形成了可以跟去年 GPT-4V 和 Gemini Pro 的多模态能力对标的一个模型，这个模型只有 8B 大小，但是它能够放到终端上，并且有非常出色的多模态能力，所以在国际上比较受欢迎，在 5 月底的时候还因为被几个斯坦福本科生做了套壳的事情意外走红。

这个模型之所以这么受欢迎，是因为它填补了一个空白：在很小的模型上去实现强大的多模态能力。这是我们首先做到的，做到以后就很受整个社区的欢迎。我觉得这进一步证明了我的看法，模型跟产品必须是一体的，我们未来要做的就是把大模型放到了离用户更近的地方，模型能力就是产品能力，要做的产品最终也必须要映射到模型能力上。

张鹏：我很好奇，你选择了这个方向和目标，一定看到了可以去持续优化它的方法，就包括你提到的「面壁定律」，背后一定是有一个方法，怎么能够让它在端侧做到越来越高的知识密度、智能密度，这里核心的要点是什么？

李大海：还是要回到我们对于 Scaling Law 的理解，OpenAI 跟 DeepMind 指出 Scaling Law 后，他们把 Scaling Law 的重点放在了模型参数、数据量和对应投入的训练算力这三个维度上。但是我们看到的是，这三个维度之外，还有两个因素非常重要，一个是数据质量，一个是算法。

大家现在强调 Scaling Law 时候，强调往上 Scale 这件事情，是因为往上 Scale 要求的能力维度，是无限的投资源，可以把它简单理解为一个资源游戏。

但是在我们看来，在终端这样的场景下，算力、功耗、能耗是不允许无脑投资源的。所以在这个场景里，我们要考虑怎样去加入更多高质量的训练数据，通过合成数据的方法，以足够多的、教科书级别的数据来做模型训练。

再一个是更加精细的模型训练。它有点像用 AI 来「更精细」教小朋友学习，三年前、五年前，1 个老师配 50 个学生，讲同样的教材但没法因人施教。用 AI 来教学的话，AI 可以更好地去理解每一个学生，他掌握知识好和薄弱的地方，针对薄弱的地方做定向的增强，我们也可以用同样的方法来训练 AI。

所以训练 AI 的时候不应该是一个一成不变的方法，我们在训练小钢炮 1.0 的时候，就提出了一种全新的学习率调度器（WSD），动态地去针对模型的不同阶段，用不同的方法、不同的参数来训练模型。这种方法取得了很好的效果，我们在 1.0 的模型上，用了 1T 的精选数据，早一点的 Mistral AI 的 Mistral-7B 的模型，有传言他们用了 8T 的 Token 做训练，最后我们模型的效果比他们还更好一些，这让我们在训练效率方面，还是挺有自信的。

张鹏：果然是，我觉得创业者如果有目标的创新，就有机会长出方法的创新，和能力的创新。所以我还是非常相信，从创业创新的角度，终极还是在目标上，定义完目标，往往才有机会。

05 离用户更近需要模型实现「三位一体」

张鹏：作为创业公司，今天的资本环境、创业环境，要求公司不能只是对梦想做长期持续的投入，你中间总要有产品、商业循环。你怎么想这个问题？你们的产品未来会是什么样的闭环？

李大海：我们特别关注商业落地这件事。因为，既然是马拉松这么长的一个旅程，我们可能就得考虑自带干粮。你很难通过短跑冲刺的方式去跑整个马拉松。去年的时候，我们就在以积攒 know-how 的方式去广泛、高效地探索大模型落地的各种途径，我们尝试过服务大 B，尝试过 2B2C。

张鹏：这么快？一年时间全摸了一遍？

李大海：是的，非常高效率，而且涉及领域多，金融、营销、法律、内容都有过落地。所以今年我们重点聚焦到端侧，一方面因为确实看到了端侧离用户最近，另一方面也是觉得端侧是落地起来更具象化、更现实的途径。所以这一块上我们有很多动作，后面有进展也会跟大家同步。

张鹏：前面讲到端侧模型离用户更近，我能理解，离用户越近越能创造价值，核心是看产品和商业模式怎么设定。但另一方面，最近苹果也在它的生态里把 AI 当成一个核心重点去推动。如果追求离用户更近，那岂不是像苹果这样的公司更能离用户更近？当既看到这个方向是被认可的，但同时也有巨头在前面，这个事怎么办呢？

李大海：其实整个生态还是一个不断往前发展的状态。我觉得苹果在 WWDC 上的战略，印证了我们在战略上的前瞻看法，我们是今年年初的时候就非常坚定地看到了端侧的机会和重要性。

其实不光苹果，还有 Google 和微软，它们也在今年三四月份发布了端侧的一些产品。大家会发现这些公司都是自带生态的，因为有生态，所以需要端侧能力去给自己的生态拼图做好拼接。我们作为创业公司，首先一定是先服务好国内有类似生态的公司，通过 2B2C 的方式，让他们的用户能感受到价值。同时我们也会寻找自己的场景，这是两条腿走路的过程。

张鹏：其实我很关心，「离用户更近」这件事非常诱人，不管有没有巨头在前面，未来可能还会有新的玩家会出现，我们需要核心思考的是，如何才能离用户更近？

昨天我也在说，未来会有一个「以人为中心」的趋势，不再以机器为中心。那你今天说要离人更近，顺着这个趋势，你在这方面有哪些面向未来的思考？有哪些新的原则，新的可能性，会在「离人更近」的进程中，成为很重要的方法？

李大海：第一，想要离人更近需要分享尽可能多的上下文，就是 shared context。只有在跟用户沟通交流的过程中，建立足够多的共识和上下文，才能更好地为他服务，或者说更懂用户。

我们在 AI 1.0 时代其实就已经看到了它的威力，AI 1.0 时代最成功的应用是推荐，推荐能做好，主要原因就是它做到了千人千面。大模型领域里，今天大家还在卷「怎么把大模型这个统⼀的智能，做到用户可以接受的程度」，但接下来，「怎么把统一的智能跟每个人独特的地方结合在⼀起」，是更重要的方向。

第二个点，未来我们端侧的模型，一定要能实现「三位一体」，即感知、决策、行为的三位体，就像人一样。就像我们在沟通的时候，如果我讲话题，发现大家都在打哈欠，那我感知到的就是大家不感兴趣，我就会做个决策，赶紧切换话题。我的行为就是做调整。一个能放到终端上的「三位一体」的模型能力是非常重要的。

我认为，要给用户创造价值，把模型真正放到离用户最近的地方去，必须要做到这两点。

张鹏：听起来让人兴奋，因为今天还没有任何人真正把它做到。听到你几个明确的目标，包括 26 年要在端侧实现 GPT-4 水平的模型，以及刚才说到的，智能的密度和面壁定律，我希望未来真的可以让我们看到面壁定律，就是每 8 个月会怎么样。

李大海：对，面壁定律其实是我们对于行业规律的一个提取。我们也希望跟行业一起来完成这样一个定律。回想当年，摩尔提出摩尔定律的时候，当时他的描述是每两年翻一番，在行业的共同努力下，变成了 18 个月。当我们看端侧，这个速度现在还在加速。所以我们很期待，能跟所有的从业者一起，完成面壁定律在未来若干年的持续进化。

张鹏：对，而且你刚才也提到了，这件事不光靠面壁自己，芯片其实也在快速发展，这可能都是利好的消息。

李大海：对，现在就像一个千里江山图在徐徐展开，它代表了「生态里不同企业需要紧密合作」的现状。我们最近也刚刚跟华为云达成了一个「端云协同」的合作，就是我们来做端侧模型，华为云提供云端模型，协同合作。同时我们也在跟很多芯片厂商深度合作，让面壁小钢炮在不同芯片上充分利用芯片算力，同时让能耗足够低，这些都是为了推动「把大模型放到离用户最近的地方」，过程中一些必要的工作。

张鹏：在端侧如果有更强的能力，就会有更多创新因它而诞生、展开。

*头图来源：极客公园

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

对话面壁智能李大海：离用户更近的端侧模型，才是 AI 落地更现实的途径

推荐体验

相关资讯

从云到端：离客户更近的端侧AI「涌现」而至

荣耀、联想大谈智能体，高通有更前瞻的端侧AI玩法

华为哈勃首投国内AI大模型企业：面壁智能获数亿元融资，知乎CTO李大海掌舵

解决AI手机和AI PC落地端侧大模型的三大难题

OpenAI、微软押注，大模型应用的尽头是AI Agent ？｜对话面壁智能

近期资讯

荣耀Magic7 Pro专业影像套装上架：售价299元

轻松找回QQ密码的方法与账号安全注意事项总结

中山爱博机器人有限公司取得电线电缆送料结构专利，实现电线电缆的稳定送料

海门南洋取得具有伸缩调节功能的轴式放线架专利，达到自动调整圆轴间距的目的

轻松制作PE系统U盘的详细步骤与技巧分享

京东京造JZ990 V2三模机械键盘限时优惠 280元入手超值价

浙江飞燕化纤取得一种高效化纤丝叠丝机专利，操作更加方便快速

铭凡发布新款主板：AMD R9 7945HX处理器支持8K显示

“机器人界奥林匹克”2024年世界机器人大赛总决赛将在郑州高新区举办

三星手机录屏功能详解与实用技巧分享

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响