UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六

作者：新智元发布时间：2023-05-16

GPT-4 大语言模型

新智元报道

编辑：好困

【新智元导读】现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。

OpenAI GPT-4

OpenAI GPT-3.5-turbo

Anthropic Claude-v1

RWKV-4-Raven-14B（开源）

毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第6——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。

可以看到，不少模型的排位都出现了明显的变化。

比如，用更多中文数据训练的ChatGLM-6B确实表现更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一（另外两位是Lianmin Zheng和Hao Zhang），斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星。

论文地址：https://arxiv.org/abs/2303.06865

项目地址：https://github.com/FMInference/FlexGen

个人主页：https://sites.google.com/view/yingsheng/home

「开源」VS「闭源」

在社区的帮助下，团队共收集了13k条匿名投票，并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且，Claude在与最强大的GPT-4竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，模型A胜利的比例

然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。

特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。

实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢Claude而不是GPT-4的一个例子

在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。

最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。

参考资料：

https://lmsys.org/blog/2023-05-10-leaderboard/

近期资讯

福建省晋江质赢建材取得瓷砖表面处理装置专利，提高了装置的清理效率和效果

金融界2024年12月30日消息，国家知识产权局信息显示，福建省晋江质赢建材有限公司取得一项名为“一种瓷砖生产的瓷砖表面处理装置”的专利，授权公告号CN222220568U，申请日期为2024年4月。

金融界 2024-12-30

林琰科技取得机电设备维修用零件清洁装置专利，实现可方便工作人员操作使用清洁装置的效果

金融界2024年12月30日消息，国家知识产权局信息显示，北京林琰科技有限公司取得一项名为“一种机电设备维修用零件清洁装置”的专利，授权公告号CN222220566U，申请日期为2023年12月。

金融界 2024-12-30

金融界 2024-12-30

湖南瓦特曼机器人科技有限公司被认定为高新技术企业

12月30日，高企认定官网披露对湖南省认定机构2024年认定报备的第三批高新技术企业进行备案的公告，湖南瓦特曼机器人科技有限公司在列，证书编号GR202443003791，发证日期为2024年12月30日。天眼查商业履历信息显示，湖南瓦特曼机器人科技有限公司，成立于2022年，位于长沙市，是一家以从事研究和试验发展为主的企业。

金融界 2024-12-30

安凯微：视觉SoC芯片已量产，算力达2T OPS

金融界12月30日消息，安凯微披露投资者关系活动记录表显示，公司目前已量产的具有0.5TOPS和2TOPS算力的视觉SoC芯片，可应用于家用摄像机、安防摄像机、婴儿监视器、智能门锁、云台摄像机等典型摄像机终端以及其他具有视觉处理功能的非典型摄像机终端。

金融界 2024-12-30

万家乐电热水器D40-H111B(S)：339元享40升速热，节能新宠

#年货节好物集市#万家乐电热水器以其高性价比和卓越性能在家电市场占据了一席之地。考虑到其40升的大容量、2200W的速热功率以及专利防电墙等高端配置，这款电热水器的性价比在市场上非常突出。用户普遍反映，万家乐电热水器D40-H111B(S)在外观设计上简约时尚，能够轻松融入各种装修风格，提升浴室的美观度。

小米地瓜 2024-12-30

深圳市艾贝特取得LED工件表面加工装置专利，可提高清理胶水效率

金融界2024年12月30日消息，国家知识产权局信息显示，深圳市艾贝特电子科技有限公司取得一项名为“一种LED工件表面加工装置”的专利，授权公告号CN222220572U，申请日期为2023年11月。

金融界 2024-12-30

UC伯克利LLM准中文排行榜来了！GPT-4稳居第一，国人开源RNN模型冲进前六

推荐体验

相关资讯