当前位置：首页|资讯|GPT-4|Claude

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

作者：IT之家发布时间：2024-03-28

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

IT之家 3 月 28 日消息，根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。

IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。

评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些，整体而言相对公正。

Chatbot Arena 自去年上线以来，GPT-4 一直稳居头把交椅，甚至成为了评估大模型的黄金标准。

不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱优势击败了 GPT-4，OpenAI 的 LLM 被挤下了榜首位置。由于比分过于接近，出于误差率方面的考量，该机构让 Claude 3 和 GPT-4 并列第一，GPT-4 的另一个预览版也并列第一。

更令人印象深刻的是 Claude 3 Haiku 进入前十名。Haiku 是 Anthropic 的 local size 模型，相当于谷歌的 Gemini Nano。

它比拥有数万亿参数的 Opus 要小得多，因此相比之下速度要快得多。根据 LMSYS 的数据，Haiku 在排行榜上名列第七，有媲美 GPT-4 的表现。

推荐体验

相关资讯

和GPT-4并列第一，LMSYS基准测试显示Claude-3模型表现优异

根据 LMSYS Org 公布的最新基准测试报告，Claude-3得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校

GPT-4 Claude 大语言模型

金融界 2024-03-28

UC伯克利“LLM排位赛”结果出炉！Claude 3追平GPT-4并列第一

UC伯克利“LLM排位赛”结果出炉！Claude 3追平GPT-4并列第一新智元报道编辑：润【新智元导读】Claude 3不但数据集跑分领先，用户体验上也将成为最强大的L

新智元 2024-03-24

小红书迎来新社区内容负责人；文心一言与Claude-3并列第一……

文/编辑部整理编辑/大风美国或卖或禁压力激增，TikTok誓言打一场法律大战据国外媒体报道，TikTok已向其员工发出通知，若美国一项旨在强制封禁或剥离这款热门应用的法案正式成为法律，它将在法庭上奋力抗争。作为全球估值最高的科技企业之一，TikTok正在其至关重要的市场中抵御一场关乎生存的危机。

文心一言 Claude 法律

锌财经 2024-04-24

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1-mini并列第一

OpenAI o1模型在lmsys排行榜领先，展现出色。

OpenAI 谷歌 Claude

新智元 2024-09-19

GPT-4最强对手出现！Claude-3 AI模型发布

就当我们还在为OpenAI的Sora实际效果感到震撼，惊叹未来已来的时候。短短一个月，OpenAI的

GPT-4 Claude Sora OpenAI

太平洋电脑网 2024-03-06

近期资讯

性能新旗舰，一加Ace5Pro正式发布：骁龙8至尊版极致电竞体验

它搭载了高通骁龙8至尊版处理器，配备了高达16GB的LPDDR5T内存和UFS4.0闪存，这样的配置在同档位中极为罕见。此外，一加Ace5Pro还配备了6100mAh的大电池和支持100W超级闪充技术，能够在35分钟内快速补满电量。

小米地瓜 2024-12-26

8项农业科创新成果亮相，拼多多加速推动科研成果转化为新质供给

12月23日，在中央广播电视总台央视新闻与农业农村中心推出的《“智领农业慧未来”——农业科创荣耀时刻》特别节目中，8项取得重大突破的农业科创成果亮相。

新京报 2024-12-26

比人眼视觉更好！小鹏汽车将于明年提供类无人驾驶能力

快科技12月26日消息，小鹏汽车智能驾驶负责人李力耘透露，公司正处于无人驾驶技术突破的前夜，并预计在明年将为Max车型提供类似无人驾驶的能力。他强调，小鹏汽车基于AI鹰眼的纯视觉方案，能在

王略 2024-12-26

手机指纹解锁设置指南：提升安全与便利的完美选择

在现代社会，手机已经成为我们生活中不可或缺的一部分。无论是用来联系朋友，还是浏览社交媒体，抑或是进行网上购物，手机都扮演着重要的角色。

新报观察 2024-12-26

年龄越大喝完酒越累！我终于找到了喝酒的正确方式

快科技12月26日消息，随着年龄增大，很多人发现自己喝酒之后开始力不从心，喝完身体感觉很累，且第二天难以恢复。对此，营养学家解释，是因为老化的身体代谢减慢，体内水分降低，导致酒精的负

朝晖 2024-12-26

我国首个商用堆在线辐照生产同位素装置成功投运

12月26日，记者从国家原子能机构获悉，我国首个商用堆在线辐照生产同位素装置在中核集团秦山核电基地正式投运，在此生产的首批镥-177医用同位素也同步出堆，标志着我国成功掌握批量化在线辐照生产短半衰期同位素的关键技术，一举打破我国关键医用同位素长期依赖进口的局面。

观察者网 2024-12-26

用Rust重构Win11内核！微软已开始行动

快科技12月26日消息，在2023的时候，微软就曾透露正在尝试使用Rust重构WindowsNT内核中的部分模块。如今在Windows1124H2版本中，终于可以初见微软的工作成果，在更新日志中，微软提到了一个使用Rust开发的新GDI区域。

驱动之家 2024-12-26

上了高铁突然发现8号、9号车厢不通！怎么办

不知道你坐高铁的时候有没有遇到这种情况：上了车，发现走错了，8号车厢的票上了9号车厢，但两节车厢之间竟然不通！这是怎么回事？这种情况学名叫“重（chóng）联”，就是两

上方文Q 2024-12-26

不只有Intel基辛格：美国今年超1990位CEO离职创新高！

快科技12月26日消息，美国人力资源顾问公司Challenger Gray的最新报告显示，今年美国企业CEO离职人数创下历史新高，企业越来越偏好任命临时领导者。数据显示，截至11月美国企业共有1991名CEO离

黑白 2024-12-26

法国一高铁司机在行驶中跳车：车辆启动自动刹停系统

快科技12月26日消息，不怎么靠谱的法国人又搞出了令人震惊的大新闻。媒体报道，当地时间本月24日平安夜，400名乘客登上了巴黎开往圣艾蒂安的TGVInoui 6689次高速列车，按计划，列车于19点发车

落木 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1