LLM排行榜震撼发布：GPT-4无懈可击，国产开源RNN惊艳冲进前六!

作者：奥创发布时间：2023-05-17

GPT-4 人工智能大语言模型

引爆全球科技圈的一场人工智能大乱斗正在如火如荼进行！是的，你没听错，LMSYS Org（由UC伯克利主导）的研究团队正在举行一场前所未有的大语言模型排位赛。在这场赛事中，不仅有新的AI英雄登场，还发布了一份令人瞩目的（准）中文排行榜。

前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B（开源）

毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第6——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。

可以看到，不少模型的排位都出现了明显的变化。

比如，用更多中文数据训练的ChatGLM-6B确实表现更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一（另外两位是Lianmin Zheng和Hao Zhang），斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星。

「开源」VS「闭源」

在社区的帮助下，团队共收集了13k条匿名投票，并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且，Claude在与最强大的GPT-4竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，模型A胜利的比例

然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。

特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。

实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢Claude而不是GPT-4的一个例子

在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。

最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。

LLM排行榜震撼发布：GPT-4无懈可击，国产开源RNN惊艳冲进前六!

「开源」VS「闭源」

专有与开源的差距

GPT-4在何时会「翻车」？

Elo分数的变化

推荐体验

相关资讯

UC伯克利LLM准中文排行榜来了，GPT-4稳居第一，国人开源RNN模型冲进前六

斯坦福最新LLM排行榜发布！华人团队WizardLM开源第一，GPT-4第二

Open LLM 排行榜近况

UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

斯坦福最新LLM排行榜发布！自家Alpaca垫底，华人团队WizardLM开源第一，GPT-4、Claude稳居前二

近期资讯

统帅BCD-218LLC3EZS9冰箱：934元，218升风冷无霜，节能新选择

如何高效清理和管理浏览器书签，提升上网效率

阿里云AI独家合作央视春晚，互联网大厂追捧“春晚经济学”

蔚来这十年到底怎么花的钱

美高塑业取得一种PET保护膜用切割装置专利，能保证PET保护模被平整切割

理想祝贺零跑成立九周年：一起为用户带来安全可靠的体验

赵明回应iPhone降价：让行业更加聚焦消费者价值呈现

京东员工提前过年！刘强东自掏腰包送8万盒巧克力

我国首个商用堆在线辐照生产同位素装置投运，打破医用同位素长期依赖进口局面

特斯拉开卖199元摆件：15分钟被抢光，二手交易平台已炒到上千元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响