作者|陶然 编辑|魏晓
悄悄地,悄悄地。
国产大模型把GPT-4o从榜单上“干翻了”。
10月16日上午,零一万物在线上举办的新品发布会上,亮出了自家全新旗舰大模型“Yi-Lightning”。
Lighting直译为闪电,本来应该是说新模型的推理速度进一步提升。
但零一万物这次,也确实做了个“闪电奇袭”:在国际权威盲测榜单 LMSYS 上,Yi-Lightning 超越了OpenAI 的GPT-4o-2024-05-13、Anthropic的Claude 3.5 Sonnet,总榜排名世界第六(与马斯克xAI的Grok并列),国产大模型细分下暂列第一。
这是在 LMSYS 这一全球大模型必争的公开擂台上,国产大模型首度实现对于OpenAI最新发布的GPT-4o模型的超越。
当然,数据层面的超越并不直接等同于国产大模型已经全球领先,零一万物创始人兼CEO李开复在会上也提到了中美之间技术和算力硬件都仍有差距。
目前的情况是: 差距还在,但也在不断缩小。
第一梯队
类比手机,大模型的“跑分”和用户体验,也是不太能直接画等号。
但LMSYS Org 发布的 Chatbot Arena ,凭借来自真实用户的盲测投票机制以及Elo 评分系统,基本已是全球业界公认“最接近真实用户使用场景、最具用户体感”的榜单,被称为大模型赛道内的奥林匹克。
所以,还是相当有参考价值:
理论层面的能力上,新模型无疑是追近了OpenAI、Anthropic这些头部公司。
在实际使用环节,发布会给出了两组对比来演示Yi-Lightning在生成速度方面的提升,分别是推理和翻译。
前者直接以“哈里斯与特朗普竞选主题分析”为案例,对比GPT-4o:
生成速度对比
从演示中可以明显看出,Yi-Lightning的推理速度是明显快于GPT-4o的。
官方介绍称,单位时间内Yi-Lightning生成的内容大约是GPT-4o的两倍,整个推理速度提高了四成。
而在内容质量上,演示环节用了莎士比亚著作《李尔王》一段比较晦涩的文字做英译中,对比的是国内友商的几款主流模型:
翻译质量对比
Yi-Lightning不仅生成速度最快,而且在翻译讲求的“信达雅”层面,也是四款模型中做得比较好的一位。
李开复在会上简单解释了新模型是如何做到“又快又好”的:
这次混合注意力机制是我们做的一个非常重要的点,混合注意力是计算里面比较大的比例,我们不但把KV cache缩小很多,将部分层的计算复杂度从 L平方降到了L。
简单来说,零一万物做的就是通过引入混合注意力机制和优化KV缓存,显著提高了模型的计算效率。混合注意力机制结合了全注意力和滑动窗口注意力,使得模型在处理长序列数据时既能保持高性能,又能降低计算成本。
通过这种方式,零一万物成功地将计算复杂度降低,并将KV缓存成倍缩小,从而显著提高了模型的推理速度和效率。
以及,分析用户需求的复杂程度,动态调用MoE(混合专家的模型):专家很多(模型的能力上限很高),但不一定每次都要兴师动众地请出所有专家(全量模型能力):
我们训练时假设有80个专家,每次都调用12个或15个,在做简单推理的时候少调几个,就可以省掉很多的时间…通俗点说,对简单的问题问两个专家,难的问题问十个专家,就跟人们所碰到的问题一样,当问题简单,想知道天气是什么的时候,不用找一堆专家来浪费他们的时间,但问题很复杂的时候,或许真的需要很多的专家,这样的平衡既不影响表现,又节省计算资源和用户时间。
同时,模型训练中的黑箱问题似乎也有了一定解法,就是将训练拆分成多阶段。李开复称公司研究员“不必把全部的数据跑五遍才看哪个最好,训练中有80%或90%(的内容)都是固定起来,最后再去做高效的对比”,同时也能降低训练成本。
此外,李开复还透露目前公司的数据,标注分类、收集整理、挑选使用、排序等,也都“做到了业界顶尖水平”。
预训练的钱
头部公司还付得起
前段时间,AI六小虎(智谱、零一万物、MiniMax、百川智能、月之暗面、阶跃星辰)中有几家公司放已经弃预训练的消息在圈内传的沸沸扬扬,李开复在会上做了直接的回应。
首先,预训练确实烧钱——训练一次三四百万美金,不是每家公司都可以做这件事情;成本比较高,所以以后有可能会越来越少的大模型公司训练做预训练。
但在目前这个阶段,这六家公司的融资额度都是还是够的,足够支撑训练成本去推动模型迭代。
“我觉得中国的六家大模型公司只要有够好的人才,想做预训练的决心,融资额跟芯片都不会是问题。”
但必须要承认的是,如果将对手设定为硅谷,那么,国内这些大模型厂商在资金和资源方面,长期来看依然会有较大的差距:
“OpenAI内部仍有一些好东西,但他们不急拿出来,因为他们领先行业足够多,到了一定的业务节点才释放出来。”
此前放出的o1模型中,推理环节的思考状态被OpenAI有意隐藏,但由果推因,行业中一些猜想陆续也会被验证,李开复认为大概五个月后,其他公司应该也有不少类似o1 模型的能力出现在各个模型公司,“包括零一万物”。
这种技术上的差距,他认为部分原因却确实可以归咎于训练资源,毕竟人家是用十万张GPU训练出来,而国内团队用的只是两千张GPU训练出来,模型的时间差能达到(缩短)只是因为我们模型、AI infra等团队都热心聪明,去使用和理解对方做出来的东西,再加上每家的研发有特色,比如数据处理、训推优化等等。
“缩短时间差非常困难,我不预测我们可以缩短这个时间差。如果期待破局,可能需要一个前所未有的算法才有机会。”
高投入仍是一个绕不开的话题,包括在Yi-Lightning模型能力介绍环节,训练等成本也被多次提及。此前官宣不参团价格战的零一万物,这次也终于宣布了API降价方案,价格降至每百万 token 仅收费 0.99 元的极低水平,直逼行业最低价。
研发、市场、利润,哪家公司能最先在三者之间搭起某种正循环,或许才能真正从头部集团中再多拉出一段领先的身位。
目前来看,胜负未分。
Lanmeih/今日话题
国产大模型,你更看好哪家公司?
咱们评论区聊聊~