UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

作者：新智元发布时间：2023-06-23

GPT-4

UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

备受关注的UC伯克利LLM排位赛又更新了！GPT-4依然岿然不动稳居榜首，GPT-3.5紧随其后，团队自家新发布的330亿参数Vicuna则冲至第五，代表了一众开源模型的最好成绩。

编辑：好困 Aeneas

就在刚刚，UC伯克利主导的「LLM排位赛」迎来了首次重磅更新！

这次，团队不仅在排行榜中加入了更多模型（目前已达到28个），而且还增加了2个全新的评价标准。

与此同时，团队还发布了更新的Vicuna-v1.3系列模型，参数量为70亿、130亿和330亿，且权重已公开。

项目地址：https://github.com/lm-sys/FastChat/tree/main#vicuna-weights

在全新的评价系统下，GPT-4依然稳居第一，而GPT-3.5则成功夺回了第二的宝座。

Anthropic的两款Claude模型紧随其后，排在了第三和第四的位置上。

UC伯克利最新发布的330亿参数Vicuna进军第五，小幅领先微软华人团队开源的300亿参数WizardLM模型。

增强版LLM排行榜

不难看出，GPT-3.5、Claude-v1和Claude-instant-v1这三个模型之间实际难分伯仲。不仅在MT-bench得分上咬得很紧，而且在诸如Elo和MMLU得分上还有后者还有反超。

和这些专有模型相比，开源模型们则有着明显的差距，即便是作为开源第一的Vicuna-33B也是如此。

当然，事情总有例外。比如谷歌的PaLM2，就落后于一众开源模型。

全新评价机制：MT-bench

虽然，现在已经有了不少用来评估大语言模型（LLM）性能的基准测试，比如MMLU、HellaSwag和HumanEval等。

但是，在评估LLM的人类偏好时，这些基准测试存在着明显的不足。

举个例子，传统的基准测试通常是在封闭式问题（例如，多项选择题）上对LLM进行测试，并提供一些简洁的输出作为评价。

用户与LLaMA-13B和Vicuna-13B之间的多轮对话，开始是MMLU基准中的问题和后续指令，然后将GPT-4与上下文一起呈现，比较谁的答案更好

显然，大部分人在实践中并不是这么用聊天机器人的……

为了填补这一空白，来自UC伯克利的团队在这次排行榜更新中，除了Chatbot Arena Elo系统之外，还增加了一个新的基准测试：MT-bench。

MT-Bench可以作为对聊天机器人竞技场的质量控制补充。

论文地址：https://arxiv.org/pdf/2306.05685.pdf

目前，竞技场的具体评价机制如下：

1. Chatbot Arena Elo，基于Chatbot Arena收到的42,000个匿名投票，并使用Elo评级系统进行评分。

2. MT-Bench得分，基于一个具有挑战性的多轮基准测试和GPT-4评分，其方法在「Judging LLM-as-a-judge」论文中提出，并已经过验证。

3. MMLU，一项广泛采用的基准测试。

为什么选择MT-Bench？

具体来说，MT-Bench是一个经过精心设计的基准测试，包含80个高质量的多轮问题。

这些问题可以评估模型在多轮对话中的对话流程和指令遵循能力，其中包含了常见的使用情景，以及富有挑战性的指令。

通过对过去2个月运营聊天机器人竞技场以及对收集的一部分用户数据的分析，团队确定了8个主要的类别：写作、角色扮演、提取、推理、数学、编程、知识I（科学技术工程数学）和知识II（人文社科）。

其中，每个类别有10个多轮问题，总共160个问题。

MT-Bench中的问题示例

用LLM评判LLM

那么问题来了，我们应该如何对聊天机器人的答案进行评分呢？

尽管在针对LLM的评估中，人类的偏好可以说是「黄金标准」，但收集人类偏好的这一过程，却非常耗时，而且成本极高。

相比之下，UC伯克利主导的团队在一开始便探索出了一种基于GPT-4的自动化评估管线。而这种方法也随后在几个工作中，得到了广泛的采用。

此外，团队还在最新的论文「Judging LLM-as-a-judge」中进行了一项系统研究——揭示了LLM评判者的可靠性问题。

结果显示，像GPT-4这样强大的LLM评判者，可以与专家组和众包组的人类裁判的偏好非常好地对齐，一致性均超过了80%。

这种一致性水平，已经可以和两个人类评判者之间的一致性相媲美。

而基于GPT-4的单个答案评分，也可以有效地对模型进行排名，并与人类偏好很好地匹配。

因此，如果使用得当，LLM评判者完全可以作为人类偏好的可扩展、可解释的近似值。

不过，当LLM作为评判者时，依然会存在一些潜在限制：

1. 位置偏差，即LLM评判者可能偏向于在成对比较中选择第一个答案。

2. 冗长偏差，即LLM评判者可能偏向于更长的回答，而不考虑其质量。

3. 自我增强偏差，即LLM评判者可能偏向于自己的回答。

4. 推理能力有限，即LLM评判者在给数学和推理问题打分时，会存在一些缺陷。

不同LLM评判者的立场偏见

其中，所谓的「一致性」是指评判者在LLM顺序交换时，给出一致性结果的案例百分比

对于这些限制，团队探讨了如何利用少样本评判、思维链评判、基于参考的评判和微调评判来进行缓解。

结果分析

MT-Bench有效地区分了LLM之间的性能差异

在这次的「排位赛」中，团队针对28个模型进行了全面评估。

结果显示，不同能力的LLM之间存在明显的区别，而它们的得分与Chatbot Arena Elo评分呈高度的相关性。

特别是MT-Bench的引入，非常鲜明地显示出：GPT-4与GPT-3.5/Claude之间，以及开源和专有模型之间，有着明显的性能差距。

为了更深入地了解LLM之间的差距，团队选择了几个有代表性的LLM，并分析了它们在每个类别下的表现。

结果显示，与GPT-3.5/Claude相比，GPT-4在编码和推理方面表现出更高的性能，而Vicuna-13B在几个特定的类别中（包括提取、编码和数学）明显落后。

这表明，开源模型仍有很大的改进空间。

比较6个模型的8种能力：写作、角色扮演、推理、数学、编码、信息提取、自然科学、人文科学

多轮对话能力的评估

团队接下来分析了所选模型在多轮对话中的得分。

开源模型在第一轮和第二轮之间的性能显著下降（如Vicuna-7B，WizardLM-13B），而强大的专有模型却始终保持着一致性。

另外，基于LLaMA的模型和更宽松的模型之间（如MPT-7B、Falcon-40B和调整后的Open-LLaMA），也存在明显的性能差距。

模型在第一轮和第二轮对话中的MT-bench得分，满分为10分

LLM评判者的可解释性

用LLM进行评判的另一个优势在于，它们能够提供可解释的评估结果。

下图展示了GPT-4对一个MT-bench问题的判断，其中包括了来自alpaca-13b和gpt-3.5-turbo的回答。

可以看到，对于自己给出的判断，GPT-4提供了详细全面、逻辑清晰的反馈。

而UC伯克利的研究也认为，这种评价有利于指导人类做出更明智的决策。

MT-bench在评估LLM的人类偏好方面提供了更多的可解释性

总之，MT-Bench可以有效地区分不同的聊天机器人。

不过在使用时，仍然应该谨慎。因为它还是有出错的可能，尤其是在数学/推理问题打分时。

下一步计划

发布对话数据

团队计划发布Chatbot Arena的对话数据，以供更广泛的研究社区使用，敬请期待。

MT-bench-1K

目前，团队正在积极扩展问题集，将Chatbot Arena的高质量提示集成进来，并利用LLM自动生成新的问题，进而建立更丰富的MT-Bench-1K数据集。

参考资料：

https://lmsys.org/blog/2023-06-22-leaderboard/

近期资讯

大厂发力AI，曾经的小龙们该何去何从？

“现代人工智能的表现就像玩游戏的天才，可以熟练应对孤立的任务，应对‘错误率’等狭隘指标，却无法注意落在棋盘上的余烬正在燃烧。”但不管怎么评判AI在“人性”层面的得与失，其早就蔚然成风、大行其道，并在市场层面迅速迎来与过往截然不同的格局。毕竟所有入局AI的玩家，彼时都是在摸着石头过河，欲在迷雾中摸索出一条新路径。

蓝鲸新闻 2024-12-30

最强小屏机预定！曝小米16评估潜望长焦镜头：补齐最后短板

快科技12月30日消息，虽然今年多家安卓厂商都开始进军小屏机市场，但小米15依然凭借独一无二的手感，以及十分全面水桶的配置，成为目前小屏机的冠军机型。甚至连以往续航的痛点，都通过金沙江电池来补足，目前唯一相对短板就是影像了。博主“智慧皮卡丘”最新爆料，小米16已经在评估潜望式长焦镜头了，将极大的补齐数字系列短板，成为一款极为全面的小屏机。

驱动之家 2024-12-30

易车大模型“蓝图”入选人民网“数造新实体2024”年度报告

12月28日，“2024年人民财经论坛”在人民日报社举行，2024数字经济大会同步举办。论坛上，《数造新实体——数字技术赋能实体经济案例研究（2024年）》报告正式发布。易车大模型“蓝图”作为2024年度优秀案例代表入选了本次的研究报告。2024年，大模型应用不断下沉到各个行业领域，推动千行百业转型升级，打造数实融合繁荣生态。

和讯网 2024-12-30

手机影像追上单反了？华为尼康真机实测后，我们的结论让人意外

前段时间，赶着双十一的尾巴，我购入了一台尼康Z5+24-50mmf4-6.3，虽然原价接近7000元，但是在各种优惠叠加下，最终是6500元左右到手，刚好和一台超大杯的旗舰手机价格差不多。

雷科技 2024-12-30

央广网 2024-12-30

消息称台积电2025年进一步调涨先进制程、CoWoS代工价格

钛媒体App12月30日消息，在AI领域需求致先进制程与封装产能抢手的背景下，台积电将从2025年1月起针对3nm、5nm和CoWoS工艺进一步提升定价。具体而言，3nm、5nm的价格涨幅将在5%~10%不等，而最供不应求的CoWoS的涨幅则将来到更高的15%~20%。

钛媒体快报 2024-12-30

华为麒麟8000A芯片手机配置曝光！支持北斗卫星消息功能

据爆料，这款手机搭载了麒麟8000A处理器，采用3颗大核和3颗小核设计，主频分别为2.19GHz和1.84GHz，GPU为Mali-G610，频率为864MHz。在屏幕方面，华为畅享70X配备了6.78英寸的1.5K分辨率双曲面双孔屏，屏幕分辨率高达2700×1224。

中关村在线 2024-12-30

UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

UC伯克利LLM排行榜：GPT-4稳居榜首，30亿参数位列开源第一

推荐体验

相关资讯

UC伯克利LLM准中文排行榜来了，GPT-4稳居第一，国人开源RNN模型冲进前六

UC伯克利“LLM排位赛”结果出炉！Claude 3追平GPT-4并列第一

UC伯克利发现GPT-4惊人缺陷：儿童从经验中学习因果，LLM却不行

斯坦福最新LLM排行榜发布！自家Alpaca垫底，华人团队WizardLM开源第一，GPT-4、Claude稳居前二

OpenAI估值近300亿美元；UC伯克利发布大模型排行榜；AI淘汰7800个打工人丨AIGC大事周报

近期资讯

大厂发力AI，曾经的小龙们该何去何从？

最强小屏机预定！曝小米16评估潜望长焦镜头：补齐最后短板

易车大模型“蓝图”入选人民网“数造新实体2024”年度报告

手机影像追上单反了？华为尼康真机实测后，我们的结论让人意外

马斯克点赞！宇树科技B2-W机器狗火遍全网

业内首创功能大揭秘，Tec-Creative 2.0 “爆款力”全升级

数字化焕新制造业老家底

扬子租赁扬子保理：乘“绿”而上向“新”而行延“链”发力

消息称台积电2025年进一步调涨先进制程、CoWoS代工价格

华为麒麟8000A芯片手机配置曝光！支持北斗卫星消息功能

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响