国产大模型，首次在榜单上干翻GPT-4o

作者：蓝媒汇发布时间：2024-10-16

作者|陶然编辑|魏晓

悄悄地，悄悄地。

国产大模型把GPT-4o从榜单上“干翻了”。

10月16日上午，零一万物在线上举办的新品发布会上，亮出了自家全新旗舰大模型“Yi-Lightning”。

Lighting直译为闪电，本来应该是说新模型的推理速度进一步提升。

但零一万物这次，也确实做了个“闪电奇袭”：在国际权威盲测榜单 LMSYS 上，Yi-Lightning 超越了OpenAI 的GPT-4o-2024-05-13、Anthropic的Claude 3.5 Sonnet，总榜排名世界第六（与马斯克xAI的Grok并列），国产大模型细分下暂列第一。

这是在 LMSYS 这一全球大模型必争的公开擂台上，国产大模型首度实现对于OpenAI最新发布的GPT-4o模型的超越。

当然，数据层面的超越并不直接等同于国产大模型已经全球领先，零一万物创始人兼CEO李开复在会上也提到了中美之间技术和算力硬件都仍有差距。

目前的情况是： 差距还在，但也在不断缩小。

第一梯队

类比手机，大模型的“跑分”和用户体验，也是不太能直接画等号。

但LMSYS Org 发布的 Chatbot Arena ，凭借来自真实用户的盲测投票机制以及Elo 评分系统，基本已是全球业界公认“最接近真实用户使用场景、最具用户体感”的榜单，被称为大模型赛道内的奥林匹克。

所以，还是相当有参考价值：

理论层面的能力上，新模型无疑是追近了OpenAI、Anthropic这些头部公司。

在实际使用环节，发布会给出了两组对比来演示Yi-Lightning在生成速度方面的提升，分别是推理和翻译。

前者直接以“哈里斯与特朗普竞选主题分析”为案例，对比GPT-4o：

生成速度对比

从演示中可以明显看出，Yi-Lightning的推理速度是明显快于GPT-4o的。

官方介绍称，单位时间内Yi-Lightning生成的内容大约是GPT-4o的两倍，整个推理速度提高了四成。

而在内容质量上，演示环节用了莎士比亚著作《李尔王》一段比较晦涩的文字做英译中，对比的是国内友商的几款主流模型：

翻译质量对比

Yi-Lightning不仅生成速度最快，而且在翻译讲求的“信达雅”层面，也是四款模型中做得比较好的一位。

李开复在会上简单解释了新模型是如何做到“又快又好”的：

这次混合注意力机制是我们做的一个非常重要的点，混合注意力是计算里面比较大的比例，我们不但把KV cache缩小很多，将部分层的计算复杂度从 L平方降到了L。

简单来说，零一万物做的就是通过引入混合注意力机制和优化KV缓存，显著提高了模型的计算效率。混合注意力机制结合了全注意力和滑动窗口注意力，使得模型在处理长序列数据时既能保持高性能，又能降低计算成本。

通过这种方式，零一万物成功地将计算复杂度降低，并将KV缓存成倍缩小，从而显著提高了模型的推理速度和效率。

以及，分析用户需求的复杂程度，动态调用MoE（混合专家的模型）：专家很多（模型的能力上限很高），但不一定每次都要兴师动众地请出所有专家（全量模型能力）：

我们训练时假设有80个专家，每次都调用12个或15个，在做简单推理的时候少调几个，就可以省掉很多的时间…通俗点说，对简单的问题问两个专家，难的问题问十个专家，就跟人们所碰到的问题一样，当问题简单，想知道天气是什么的时候，不用找一堆专家来浪费他们的时间，但问题很复杂的时候，或许真的需要很多的专家，这样的平衡既不影响表现，又节省计算资源和用户时间。

同时，模型训练中的黑箱问题似乎也有了一定解法，就是将训练拆分成多阶段。李开复称公司研究员“不必把全部的数据跑五遍才看哪个最好，训练中有80%或90%（的内容）都是固定起来，最后再去做高效的对比”，同时也能降低训练成本。

此外，李开复还透露目前公司的数据，标注分类、收集整理、挑选使用、排序等，也都“做到了业界顶尖水平”。

预训练的钱

头部公司还付得起

前段时间，AI六小虎（智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰）中有几家公司放已经弃预训练的消息在圈内传的沸沸扬扬，李开复在会上做了直接的回应。

首先，预训练确实烧钱——训练一次三四百万美金，不是每家公司都可以做这件事情；成本比较高，所以以后有可能会越来越少的大模型公司训练做预训练。

但在目前这个阶段，这六家公司的融资额度都是还是够的，足够支撑训练成本去推动模型迭代。

“我觉得中国的六家大模型公司只要有够好的人才，想做预训练的决心，融资额跟芯片都不会是问题。”

但必须要承认的是，如果将对手设定为硅谷，那么，国内这些大模型厂商在资金和资源方面，长期来看依然会有较大的差距：

“OpenAI内部仍有一些好东西，但他们不急拿出来，因为他们领先行业足够多，到了一定的业务节点才释放出来。”

此前放出的o1模型中，推理环节的思考状态被OpenAI有意隐藏，但由果推因，行业中一些猜想陆续也会被验证，李开复认为大概五个月后，其他公司应该也有不少类似o1 模型的能力出现在各个模型公司，“包括零一万物”。

这种技术上的差距，他认为部分原因却确实可以归咎于训练资源，毕竟人家是用十万张GPU训练出来，而国内团队用的只是两千张GPU训练出来，模型的时间差能达到（缩短）只是因为我们模型、AI infra等团队都热心聪明，去使用和理解对方做出来的东西，再加上每家的研发有特色，比如数据处理、训推优化等等。