开源模型首胜GPT-4！大模型竞技场最新战报引热议

作者：量子位发布时间：2024-04-10

GPT-4

开源模型首胜GPT-4！大模型竞技场最新战报引热议

量子位

2024-04-10 14:11发布于北京量子位官方账号

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

能打得过GPT-4的开源模型出现了！

大模型竞技场最新战报：

1040亿参数开源模型Command R+攀升至第6位，与GPT-4-0314打成平手，超过了GPT-4-0613。

这也是第一个在大模型竞技场上击败GPT-4的开放权重模型。

大模型竞技场，可是大神Karpathy口中唯二信任的测试基准之一。

Command R+来自AI独角兽Cohere。这家大模型创业公司的联合创始人兼CEO，正是Transformer最年轻作者Aidan Gomez（简称割麦子）。

这份战报一出，又掀起了一波大模型社区的热烈讨论。

大家伙儿兴奋的理由很简单：基础大模型卷了一整年，没想到在2024年格局还在不断地发展变化。

HuggingFace联合创始人Thomas Wolf就说：

最近大模型竞技场上的情况发生了巨大的变化：

Anthropic的Claude 3 opus在闭源模型中独占鳌头。

Cohere的Command R+则成为了开源模型中的最强者。

没想到，2024年在开源和闭源两条路线上，人工智能团队的发展都如此之快。

另外，Cohere机器学习总监Nils Reimers还指出了值得关注的一点：

Command R+最大的特色是对内置RAG（检索增强生成）进行了全面优化，而在大模型竞技场中，RAG这样的外挂能力并未纳入测试。

RAG优化模型登上开源王座

在Cohere官方定位中，Command R+是一个“RAG优化模型”。

就是说，这个1040亿参数的大模型主要针对检索增强生成技术进行了深度优化，以减少幻觉的产生，更适配于企业级工作负载。

和此前推出的Command R一样，Command R+的上下文窗口长度是128k。

此外，Command R+还具备以下特点：

覆盖10+种语言，包括英语、中文、法语、德语等；

能使用工具完成复杂业务流程的自动化

从测试结果来看，在多语种、RAG和工具使用这三个维度上，Command R+都达到了GPT-4 turbo的水平。

但在输入成本方面，Command R+的价格仅为GPT-4 turbo的1/3。

输出成本方面，Command R+则是GPT-4 turbo的1/2。

正是这点引发了不少网友的关注：

不过，尽管在大模型竞技场这种人类主观评测上表现抢眼，还是有网友甩出了一些不同观点。

在HumanEval上，Command R+的代码能力就连GPT-3.5都没打过，在两组测试中分别排在32位和33位。

最新版GPT-4 turbo则没有悬念地拿下了第一。

另外，我们也在最近刚登上正经论文的弱智吧benchmark上简单测试了一下Command R+的中文能力。

你给打个分？

需要说明的是，Command R+的开源只面向学术研究，并不能免费商用。

One More Thing

最后的最后，还是多聊一嘴割麦子小哥。

Aidan Gomez，Transformer圆桌骑士中最年轻的一位，加入研究团队时只是个本科生——

不过，是在多伦多大学读大三时就加入了Hinton实验室的那种。

2018年，割麦子被牛津大学录取，开始像他的论文搭子们那样攻读CS博士学位。

但在2019年，随着Cohere的创立，他最终选择退学加入AI创业的浪潮。

Cohere主要是为企业提供大模型解决方案，目前估值达到了22亿美元。

参考链接：

[1]https://twitter.com/lmsysorg/status/1777630133798772766

[2]https://txt.cohere.com/command-r-plus-microsoft-azure/

— 完 —

近期资讯

威刚预告全球最小 USB4 pSSD 和首款带磁吸充电宝 pSSD 亮相 CES

IT之家12月27日消息，威刚宣布将出席明年1月上旬举行的CES2025消费电子展。在本次盛会上威刚将带来全球最小的USB4移动固态硬盘和首款配备磁吸移动电源的移动固态硬盘，进一步丰富消费者的移动存储选择。

IT之家 2024-12-27

抖音发布2024直播治理报告主播精细化管理机制效果显著

12月27日，抖音发布2024年直播治理报告，全面阐释抖音直播过去一年的治理理念、技术及最新成果。报告称，抖音在过去一年持续迭代主播“健康分”，通过加减分定级定档的长效管理机制引导主播“向善”，获得显著成效。抖音直播还配合相关部门打击黄赌毒诈黑色产业链，捣毁百余个犯罪窝点，从源头消除违法犯罪分子对直播行业的污染，全力维护行业的健康发展。

DoNews 2024-12-27

甘肃公航旅路业取得公路桥梁施工用路面铺平装置专利，该装置适用于大量混凝土的排料，效率高

金融界2024年12月27日消息，国家知识产权局信息显示，甘肃公航旅路业有限公司取得一项名为“一种公路桥梁施工用路面铺平装置”的专利，授权公告号CN222205940U，申请日期为2024年5月。

金融界 2024-12-27

规划3款教育硬件产品，豆神教育多元化硬件布局提升AI产品渗透率

钛媒体App12月27日消息，豆神教育董事长窦昕近日表示，公司已规划包括人形机器人在内的3款教育硬件产品，以覆盖不同需求的目标人群，用软硬件结合的方式，构建AI教育新生态。分析人士指出，通过多元化硬件破局，是豆神教育扩大AI产品影响力，提升AI产品渗透率，构建企业AI教育生态护城河的关键举措。人工智能+是教育产业未来明确发展方向。

钛媒体快报 2024-12-27

双路96核心！俄罗斯AI服务用上自研CPU：偷偷配八块NVIDIA GPU

快科技12月27日消息，俄罗斯服务器厂商Graviton宣布，已经开始供货首批AI/HPC服务器，基于俄罗斯自研的CPU处理器，可搭配最多八块GPU计算卡。该处理器型号为S2124B，配备两颗48核心处理器，共计96核心，主频2.0GHz，内存搭配DDR4-3200，硬盘支持12块SATA或12块NVMeU.3。

驱动之家 2024-12-27

临近空间发展蓄力：国产超音速飞机迈上新台阶

2017年，埃隆·马斯克在一次演讲中分享了一则视频，其中展示，乘坐SpaceX旗下“星舰（Starship）”，以27000公里的最高时速飞行，乘客在纽约时间早上7点出发，39分钟后就可以实现在上海的一个海上平台落地。

21世纪经济报道 2024-12-27

风语筑：《梦回圆明园》VR大空间体验将于新春首发

风语筑与圆明园达成官方合作，风语筑开发的VR大空间体验《梦回圆明园》将于2025年新春期间在北京圆明园遗址公园首发。风语筑在圆明园授权指导下，结合中央美术学院圆明园研究中心提供的3D建筑数据，通过运用空间计算、虚拟现实和AI交互等多项技术，实现圆明园的虚拟化数字复原，让观众亲临其境感受全盛时期的圆明园。

证券时报 2024-12-27

重庆市气象局发布 “天资·12h”人工智能气象预报大模型

重庆市气象局正式发布了“天资·12h”人工智能气象预报大模型。暴雨是重庆每年防汛关键期的关注重点。计算效率方面，传统区域数值预报模式需用时1小时，大模型仅需10分钟。

动点科技 2024-12-27

首届“工业强国·新型工业化”短视频创作与传播活动在衢州举办

央广网北京12月27日消息（记者宋雪）记者从工业和信息化部工业文化发展中心获悉，首届“工业强国·新型工业化”短视频创作与传播活动12月25日在浙江衢州举办。旨在通过短视频形式展示新型工业化最新成果，弘扬新时代中国工业精神，提升工业文化影响力与感召力，凝聚推进新型工业化的社会共识，推动工业文化“软”实力更好转化为新型工业化“硬”支撑。

央广网 2024-12-27

国家级海上风电研究与试验检测基地传动链平台建成投运

12月26日，建设中的国家级海上风电研究与试验检测基地(无人机照片)。12月26日，工作人员在海上风电研究与试验检测基地传动链平台控制中心监测平台运行情况。12月26日，技术人员在海上风电研究与试验检测基地传动链平台上检测压力。

金台资讯 2024-12-27

开源模型首胜GPT-4！大模型竞技场最新战报引热议

开源模型首胜GPT-4！大模型竞技场最新战报引热议

推荐体验

相关资讯

开源模型首胜GPT-4，竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

奥特曼晒“草莓”引热议神秘新模型现身竞技场

奥特曼晒“草莓”引热议，神秘新模型现身竞技场，网友第一波实测来了

赶超GPT-4，中文能力“地表最强”，通义千问2.5来了！国产大模型迈入核心竞技场？

近期资讯

威刚预告全球最小 USB4 pSSD 和首款带磁吸充电宝 pSSD 亮相 CES

抖音发布2024直播治理报告主播精细化管理机制效果显著

甘肃公航旅路业取得公路桥梁施工用路面铺平装置专利，该装置适用于大量混凝土的排料，效率高

规划3款教育硬件产品，豆神教育多元化硬件布局提升AI产品渗透率

双路96核心！俄罗斯AI服务用上自研CPU：偷偷配八块NVIDIA GPU

临近空间发展蓄力：国产超音速飞机迈上新台阶

风语筑：《梦回圆明园》VR大空间体验将于新春首发

重庆市气象局发布 “天资·12h”人工智能气象预报大模型

首届“工业强国·新型工业化”短视频创作与传播活动在衢州举办

国家级海上风电研究与试验检测基地传动链平台建成投运

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响