和GPT-4并列第一，LMSYS基准测试显示Claude-3模型表现优异

作者：金融界发布时间：2024-03-28

根据 LMSYS Org 公布的最新基准测试报告，Claude-3得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。

IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。

评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些，整体而言相对公正。

Chatbot Arena 自去年上线以来，GPT-4 一直稳居头把交椅，甚至成为了评估大模型的黄金标准。

不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱优势击败了 GPT-4，OpenAI 的 LLM 被挤下了榜首位置。由于比分过于接近，出于误差率方面的考量，该机构让 Claude 3 和 GPT-4 并列第一，GPT-4 的另一个预览版也并列第一。

更令人印象深刻的是 Claude 3 Haiku 进入前十名。Haiku 是 Anthropic 的 local size 模型，相当于谷歌的 Gemini Nano。

它比拥有数万亿参数的 Opus 要小得多，因此相比之下速度要快得多。根据 LMSYS 的数据，Haiku 在排行榜上名列第七，有媲美 GPT-4 的表现。

来源：IT之家

近期资讯

业界|电竞手机门槛再提升一加推出行业首个电竞Wi-Fi芯片

随着电竞产业的蓬勃发展，电竞手机市场也迎来了前所未有的机遇。而消费者对游戏体验的要求不断提高，也促使手机厂商在硬件性能、散热技术、游戏优化等方面持续创新。不仅能让手机长时间打游戏不卡顿、不发烫，还突破帧率和画质限制，为玩家带来更清晰、流畅的体验。

封面新闻 2024-12-27

15大机构十年研究理论证明：无约束AI必然超越人类，创造能力也更强！

最近，一篇研究文章从数学理论上证实了AI模型可以完全模拟神经元和突触的信号，在更强算法、更大算力的加持下，可以精确模拟大脑及其功能系统，在无约束的情况下未来AI百分之一百会超越人类智能，甚至发明创造能力也是如此。

21世纪经济报道 2024-12-27

“宠己”成支付宝年度关键词：百万人花式攒钱、千万人提前备老、超1亿人用AI办事

12月27日上午消息，支付宝26日发布2024年度关键词“宠己”，相关数据显示，百万00后边看爽文边攒钱、千万人看视频提前“备老”、超1亿人使唤AI办事。《黑神话》发售后，带动支付宝上的PS5租赁量环比上涨50%；延迟退休办法发布后，3000万人涌入支付宝看养老金攻略。

和讯网 2024-12-27

新型电力系统构网型智能装备行业市场现状及发展前景分析

新型电力系统构网型智能装备行业发展情况1、新型电力系统智能装备定义新型电力系统智能装备指的是基于人工智能、物联网、大数据等技术的电力设备，可以实现智能化监控、预测、诊断、维护等功能，提高电力系统的可靠性、安全性和效率。

智研瞻 2024-12-27

安徽合肥杀出超级独角兽：年入5.56亿全国第一

它的主攻方向是：人工智能+医疗解决方案，涵盖基层医疗服务、医院服务、患者服务等多。具体来看，按收入计算，其核心产品智医助理在中国基层医疗机构临床决策支持系统（CDSS）市场中名列第一（2023年），市场份额高达61.5%。飞的子公司。飞医疗带来竞争压力。

铅笔道pencilnews 2024-12-27

Mate 70 Pro+评测：全国产产业链的开山之作，微信、企业微信上线

另外日常办公协同需要的钉钉、飞书主要功能也适配完毕，12月23日，企业微信鸿蒙版也已上架，企业微信、钉钉和飞书等企业沟通协同系统都已上线，纯血鸿蒙HarmonyOSMEXT已经可以满足大多数人工作和生活需要。

IT观察 2024-12-27

ASML CEO：美国禁售EUV光刻机后，中国芯片技术落后10-15年

众所周知，目前全球大规模制造芯片的技术，还是光刻技术。而中国的芯片厂，一直想买EUV光刻机，但美国一直不准ASML卖给中国，中国能够买到的，只有浸润式DUV，后来更是连先进的浸润式DUV销售，都需要许可证了……这对于中国芯片产业的发展，特别是进入先进工艺，造成了巨大影响。

科技plus 2024-12-27

腾讯与迈瑞医疗发布全球首个重症医疗大模型

发布全球首个重症医疗大模型“启元重症大模型”。作为一款具有“重症思维”的“AI队友”，启元能高效处理病情数据，接管文书工作，让医生专注于治病救人。

华尔街见闻 2024-12-27

曝三星S24 Ultra/Z Fold6将支持卫星消息正beta测试中

【CNMO科技消息】据外媒报道，美国T-Mobile付费用户中的一些GalaxyS24+、S24Ultra和ZFold6用户发现，他们的手机上出现了“卫星网络”选项。该服务利用Starlink技术和低地球轨道卫星，旨在让手机信号覆盖全球每个角落。

手机中国 2024-12-27

首发369元酷凛霜界360 ARGB粉色限定版上市：无限镜灯效外环

快科技12月27日消息，酷凛霜界360ARGB粉色限定版水冷目前已经上市，首发369元。自COMPUTEX2019首次推出粉色限定版水冷散热产品以来，霜界360ARGB粉色限定版属于第四代设计。这次ID-Cooling在冷头侧面、冷头顶部无限镜灯效外环、风扇扇叶、以及风扇侧框位置加入了粉色，为用户装机提供了新的选择。

驱动之家 2024-12-27

和GPT-4并列第一，LMSYS基准测试显示Claude-3模型表现优异

推荐体验

相关资讯