UC伯克利LLM准中文排行榜来了，GPT-4稳居第一，国人开源RNN模型冲进前六

作者：新智元发布时间：2023-05-16

GPT-4

现在大语言模型们也要像王者荣耀/LoL/Dota这些游戏里的玩家一样打排位赛了！

前段时间，来自LMSYS Org（UC伯克利主导）的研究人员搞了个大新闻——大语言模型版排位赛！

这次，团队不仅带来了4位新玩家，而且还有一个（准）中文排行榜。

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B（开源）

毫无疑问，只要GPT-4参战，必定是稳居第一。

不过，出乎意料的是，Claude不仅超过了把OpenAI带上神坛的GPT-3.5位列第二，而且只比GPT-4差了50分。

相比之下，排名第三的GPT-3.5只比130亿参数的最强开源模型Vicuna高了72分。

而140亿参数的「纯RNN模型」RWKV-4-Raven-14B凭借着卓越的表现，超越一众Transformer模型排到了第6——除Vicuna模型外，RWKV在与所有其他开源模型的非平局比赛中赢得了超过50%的比赛。

此外，团队还分别制作了「仅英语」和「非英语」（其中大部分是中文）这两个单独的排行榜。

可以看到，不少模型的排位都出现了明显的变化。

比如，用更多中文数据训练的ChatGLM-6B确实表现更好，而GPT-3.5也成功超越Claude排到了第二的位置。

本次更新的主要贡献者是盛颖、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛颖是LMSYS Org的3个创始人之一（另外两位是Lianmin Zheng和Hao Zhang），斯坦福大学计算机科学系的博士生。

她也是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星。

论文地址：https://arxiv.org/abs/2303.06865

项目地址：https://github.com/FMInference/FlexGen

个人主页：https://sites.google.com/view/yingsheng/home

「开源」VS「闭源」

在社区的帮助下，团队共收集了13k条匿名投票，并且有了一些有趣的发现。

专有与开源的差距

在三个专有模型中，Anthropic的Claude模型比GPT-3.5-turbo更受用户欢迎。

而且，Claude在与最强大的GPT-4竞争时，也表现得非常有竞争力。

从下面这个胜率图来看，GPT-4和Claude之间的66场非平局比赛中，Claude赢得了32场（48%）比赛。

所有非平局A vs B对战中，模型A胜利的比例

然而，其他开源模型与这三个专有模型之间，依然存在着很大的差距。

特别是，GPT-4以1274的Elo分数领跑排行榜。这比榜单上最好的开源替代——Vicuna-13B——要高出近200分。

在去掉平局后，GPT-4在与Vicuna-13B对战时赢得了82%的比赛，甚至在与前一代GPT-3.5-turbo对战时赢得了79%的比赛。

然而，值得注意的是，排行榜上的这些开源模型通常具有比专有模型更少的参数，范围在30亿 - 140亿之间。

实际上，最近在LLM和数据策划方面的进展使得使用较小模型取得显著性能改进成为可能。

谷歌的最新PaLM 2就是一个很好的例子：我们知道PaLM 2在使用较小模型大小时，比其前一代实现了更好的性能。

因此，团队对开源语言模型迎头赶上充满乐观。

GPT-4在何时会「翻车」？

在下图中，用户提出了一个需要仔细推理和规划的棘手问题。虽然Claude和GPT-4提供了类似的答案，但Claude的回应稍微好一些。

然而，由于采样的随机性，团队发现这种情况并不能总能复刻。有时GPT-4也能像Claude一样给出相同的顺序，但在这次生成试验中失败了。

另外，团队注意到，当使用OpenAI API和ChatGPT接口时，GPT-4的行为略有不同，这可能是由于不同的提示、采样参数或其他未知因素导致的。

用户更喜欢Claude而不是GPT-4的一个例子

在下图中，尽管Claude和GPT-4都具有惊人的能力，但它们仍在处理这类复杂的推理问题上挣扎。

一个用户认为Claude和GPT-4都错了的例子

除了这些棘手的情况，还有许多并不需要复杂推理或知识的简单问题。

在这种情况下，像Vicuna这样的开源模型可以与GPT-4表现相当，因此我们可能可以使用稍微弱一些（但更小或更便宜）的大型语言模型（LLM）来替代像GPT-4这样更强大的模型。

Elo分数的变化

自从三个强大的专有模型参与以来，聊天机器人竞技场的竞争从未如此激烈。

由于在与专有模型对战时，开源模型输掉了不少比赛，因此它们的Elo分数都有所下降。

最后，团队还计划开放一些API，让用户可以注册自己的聊天机器人来参加排位赛。

参考资料：

https://lmsys.org/blog/2023-05-10-leaderboard/

本文来自微信公众号“新智元”（ID:AI_era），作者：好困，36氪经授权发布。

近期资讯

高中数学：考试常用的55个二级结论，全班选填都满分！

有同学会问为什么要掌握这些结论呢？因为它们解小题很好用！经常有同学说考试答不完卷，很大一部分原因是在选择题与填空题上浪费太多时间。把小题按照大题的方式去算，不仅计算过程复杂，而且也增加了出错的频率！得不偿失！学姐把已经整理好的高中数学55个二级结论分享给大家，高中三年秒杀小题的方法一次搞定！ [图片] [图片] [图片] [图片] [图片] [图片] [图片]

柒君学姐 2024-12-28

【计算机毕业设计选题推荐】基于协同过滤算法的音乐推荐系统设计与实现

计算机毕设编程指导师计算机毕设编程指导师个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。大家都可点赞、收藏、关注、有问题都可留言评论交流实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！获取源码主页-->：计算机毕设编程指导师基于协同过滤算法的音乐推荐系统-研究背景一、课题背景在信息爆炸的时代，数字音乐的种类和数量呈指数级增长，用户在享受丰富资源的同时，也面临着“信息过载”的问题。如何从海量音乐中筛选出符合个人口味的曲目，

计算机毕设编程指导师 2024-12-28

莫妮卡红肉西梅苗，助力打造王者园林

莫妮卡红肉西梅苗：塑造王者园林的瑰宝 [图片] 随着人们对生活品质的追求日益提升，园林艺术已成为一种生活时尚。在王者园林的打造过程中，莫妮卡红肉西梅苗因其独特的品种特点和口感魅力，成为了不可或缺的重要元素。 [图片] 一、品种特点 [图片] 莫妮卡红肉西梅，作为一种新兴的果树品种，拥有令人瞩目的特点。其果实呈深红色，表面光滑，果肉饱满且口感鲜美。此外，莫妮卡红肉西梅富含多种营养成分，如维生素、矿物质和抗氧化物质，具有极高的营养价值。其树形优美，适应性强，是打造王者园林的理想选择。 [图片] 二、果实口感

万林农业 2024-12-28

简说基因 2024-12-28

如何通过在线考核打分系统，提升组织的绩效打分流程？

在当今竞争激烈的商业环境中，如何有效评估和提升员工的绩效成为了组织管理中的重要课题。而绩效管理中，考核互评又是一个非常重要的环节，此时，在线绩效考核打分系统的出现，为管理者提供了强有力的工具。相比于传统的绩效管理系统与方案，它不仅能够显著提高效率，还能提供更为精确的数据支持，从而帮助组织做出更明智的决策。1.实时性与便捷性在线打分系统最大的优势在于其实时性。不再需要手动输入或整理大量的纸质材料，管理者可以随时随地访问和更新考核信息。这种便捷性大大节省了时间，使得管理流程更加流畅。2.数据的准确性

轻舟活动云 2024-12-28

实操指南：塑明星如何通过新实体流量大会打造引流爆款？

在塑明星的新实体流量大会上，“引流爆款”的打造成为门店主们关注的焦点。短视频成为线下引流的绝佳工具，但要玩转短视频、打造爆款，还需要一些“实操指南”。以下为大家解密几个核心操作步骤，助力门店主从短视频平台吸引更多客流到店，实现引流转化。第一步：清晰定位——抓住门店特色，精准出击打造引流爆款的第一步，就是要清晰展示门店的独特之处。塑明星建议，门店主在拍摄视频时，首先要思考：门店的核心吸引点是什么？例如，一家咖啡店的卖点可能是自制冷萃咖啡，一家美容院则是高科技的护肤设备。将这些核心特色在短视频中生动呈现出来，

塑星相遇 2024-12-28

上市6周交付突破5000台！豹8不愧“华系998”国货旗舰新首选

金鹰汽车 2024-12-28