UC伯克利LLM准中文排行榜来了，GPT-4稳居第一，国人开源RNN模型冲进前六

作者：新智元发布时间：2023-05-16

GPT-4

现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！

前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B（开源）

毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第6——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。

可以看到，不少模型的排位都出现了明显的变化。

比如，用更多中文数据训练的ChatGLM-6B确实表现更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一（另外两位是Lianmin Zheng和Hao Zhang），斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星。

论文地址：https://arxiv.org/abs/2303.06865

项目地址：https://github.com/FMInference/FlexGen

个人主页：https://sites.google.com/view/yingsheng/home

「开源」VS「闭源」

在社区的帮助下，团队共收集了13k条匿名投票，并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且，Claude在与最强大的GPT-4竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，模型A胜利的比例

然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。

特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。

实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢Claude而不是GPT-4的一个例子

在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。

最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。

参考资料：

https://lmsys.org/blog/2023-05-10-leaderboard/

金融界2024年12月30日消息，国家知识产权局信息显示，山东华宇同方电子材料有限公司取得一项名为“一种采用亚沸蒸馏法制备高纯卤化物湿电子化学品的设备”的专利，授权公告号CN222218651U，申请日期为2024年4月。专利摘要显示，本实用新型公开了一种采用亚沸蒸馏法制备高纯卤化物湿电子化学品的设备，属于湿电子化学品技术领域。

金融界 2024-12-30

UC伯克利LLM准中文排行榜来了，GPT-4稳居第一，国人开源RNN模型冲进前六

「开源」VS「闭源」

专有与开源的差距

GPT-4在何时会「翻车」？

Elo分数的变化

参考资料：

推荐体验

相关资讯

UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六

UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

LLM排行榜震撼发布：GPT-4无懈可击，国产开源RNN惊艳冲进前六!

UC伯克利“LLM排位赛”结果出炉！Claude 3追平GPT-4并列第一

UC伯克利发现GPT-4惊人缺陷：儿童从经验中学习因果，LLM却不行

近期资讯

在社交软件中如何更好地了解和接触好友的生活

福建省宝诺医药研发有限公司取得富马酸伏诺拉生片实验室减压蒸发结构专利，可提高提纯精度

在QQ上显示iPhone设备信息的简单步骤与社交体验分享

使用Visio绘制清晰流程图的实用技巧与步骤

寿阳县精达丰新材料有限公司取得电子级碳酸二乙酯精馏塔专利，提高箱体内部热流体热量利用率

广东西江能源取得一种液位控制装置专利，便于对管道主体内部液体高度监测避免检测数据出现较大误差

胜华新能源取得碳酸丙烯酯装置中环氧丙烷回收装置专利，实现了环氧丙烷的回收再利用

山东鲁化森萱取得脱除甲醛的二氧戊环蒸馏塔专利，提高了蒸馏效率

WiFi连接成功却无法上网？教你排查问题的实用技巧与方法

山东华宇同方取得采用亚沸蒸馏法制备高纯卤化物湿电子化学品的设备专利，装置消耗能量少

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响