开源模型首胜GPT-4，竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单

作者：量子位发布时间：2024-04-10

GPT-4

能打得过GPT-4的开源模型出现了！

大模型竞技场最新战报：

1040亿参数开源模型Command R+攀升至第6位，与GPT-4-0314打成平手，超过了GPT-4-0613。

这也是第一个在大模型竞技场上击败GPT-4的开放权重模型。

大模型竞技场，可是大神Karpathy口中唯二信任的测试基准之一。

Command R+来自AI独角兽Cohere。这家大模型创业公司的联合创始人兼CEO，正是Transformer最年轻作者Aidan Gomez（简称割麦子）。

这份战报一出，又掀起了一波大模型社区的热烈讨论。

大家伙儿兴奋的理由很简单：基础大模型卷了一整年，没想到在2024年格局还在不断地发展变化。

HuggingFace联合创始人Thomas Wolf就说：

最近大模型竞技场上的情况发生了巨大的变化：
Anthropic的Claude 3 opus在闭源模型中独占鳌头。
Cohere的Command R+则成为了开源模型中的最强者。
没想到，2024年在开源和闭源两条路线上，人工智能团队的发展都如此之快。

另外，Cohere机器学习总监Nils Reimers还指出了值得关注的一点：

Command R+最大的特色是对内置RAG（检索增强生成）进行了全面优化，而在大模型竞技场中，RAG这样的外挂能力并未纳入测试。

RAG优化模型登上开源王座

在Cohere官方定位中，Command R+是一个“RAG优化模型”。

就是说，这个1040亿参数的大模型主要针对检索增强生成技术进行了深度优化，以减少幻觉的产生，更适配于企业级工作负载。

和此前推出的Command R一样，Command R+的上下文窗口长度是128k。

此外，Command R+还具备以下特点：

覆盖10+种语言，包括英语、中文、法语、德语等；

能使用工具完成复杂业务流程的自动化

从测试结果来看，在多语种、RAG和工具使用这三个维度上，Command R+都达到了GPT-4 turbo的水平。

但在输入成本方面，Command R+的价格仅为GPT-4 turbo的1/3。

输出成本方面，Command R+则是GPT-4 turbo的1/2。

正是这点引发了不少网友的关注：

不过，尽管在大模型竞技场这种人类主观评测上表现抢眼，还是有网友甩出了一些不同观点。

在HumanEval上，Command R+的代码能力就连GPT-3.5都没打过，在两组测试中分别排在32位和33位。

最新版GPT-4 turbo则没有悬念地拿下了第一。

另外，我们也在最近刚登上正经论文的弱智吧benchmark上简单测试了一下Command R+的中文能力。

你给打个分？

需要说明的是，Command R+的开源只面向学术研究，并不能免费商用。

One More Thing

最后的最后，还是多聊一嘴割麦子小哥。

Aidan Gomez，Transformer圆桌骑士中最年轻的一位，加入研究团队时只是个本科生——

不过，是在多伦多大学读大三时就加入了Hinton实验室的那种。

2018年，割麦子被牛津大学录取，开始像他的论文搭子们那样攻读CS博士学位。

但在2019年，随着Cohere的创立，他最终选择退学加入AI创业的浪潮。

Cohere主要是为企业提供大模型解决方案，目前估值达到了22亿美元。

参考链接：

[1]https://twitter.com/lmsysorg/status/1777630133798772766

[2]https://txt.cohere.com/command-r-plus-microsoft-azure/

本文来自微信公众号“量子位”（ID:QbitAI），作者：鱼羊，36氪经授权发布。

近期资讯

大宁县治诚科技取得一种半导体芯片加工用贴片装置专利，提高工作效率

金融界2024年12月28日消息，国家知识产权局信息显示，大宁县治诚科技有限公司取得一项名为“一种半导体芯片加工用贴片装置”的专利，授权公告号CN222214133U，申请日期为2024年5月。

金融界 2024-12-28

常州维普半导体设备取得掩模安全交互传输结构专利，能够提高掩模传输的安全性

金融界2024年12月28日消息，国家知识产权局信息显示，常州维普半导体设备有限公司取得一项名为“一种掩模安全交互传输结构”的专利，授权公告号CN222214145U，申请日期为2024年5月。

金融界 2024-12-28

深圳市百昌鑫科技取得一种新型碳化硅镜像浆专利，能够避免夹持机构与镜像浆体直接接触从而降低磨损提高使用寿命

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市百昌鑫科技有限公司取得一项名为“一种新型碳化硅镜像浆”的专利，授权公告号CN222214138U，申请日期为2024年3月。

金融界 2024-12-28

常州银河世纪取得灯带产品进料机构及焊线压板热座系统专利，使蓝宝石基板在轨道中平稳行进

金融界2024年12月28日消息，国家知识产权局信息显示，常州银河世纪微电子股份有限公司取得一项名为“一种灯带产品的进料机构及焊线压板热座系统”的专利，授权公告号CN222214141U，申请日期为2023年12月。

金融界 2024-12-28

甬矽半导体取得基板运输组件及倒装芯片生产设备专利，提高基板运输效率

金融界2024年12月28日消息，国家知识产权局信息显示，甬矽半导体（宁波）有限公司取得一项名为“一种基板的运输组件及倒装芯片的生产设备”的专利，授权公告号CN222214140U，申请日期为2023年12月。

金融界 2024-12-28

张家港意发取得晶圆旋转搬运装置专利，提升晶圆旋转搬运过程中的稳定性

金融界2024年12月28日消息，国家知识产权局信息显示，张家港意发功率半导体有限公司取得一项名为“种晶圆旋转搬运装置”的专利，授权公告号CN222214143U，申请日期为2024年4月。

金融界 2024-12-28

今京泰取得一种晶圆容纳装置专利，提高晶圆的性能

金融界2024年12月28日消息，国家知识产权局信息显示，北京今京泰科技有限公司取得一项名为“一种晶圆容纳装置”的专利，授权公告号CN222214139U，申请日期为2024年5月。专利摘要显示，本实用新型涉及晶圆容纳或运输技术领域，具体涉及一种晶圆容纳装置。

金融界 2024-12-28

深圳天睿取得半导体自动固晶机入口新型送料辅助装置专利，降低了送料过程中顺畅度

金融界2024年12月28日消息，国家知识产权局信息显示，深圳天睿半导体科技有限公司取得一项名为“一种半导体自动固晶机入口新型送料辅助装置”的专利，授权公告号CN222214142U，申请日期为2024年2月。

金融界 2024-12-28

苏州中搏成机电设备有限公司取得用于半导体芯片的防误操作的检测装置专利，提高检测效率

金融界2024年12月28日消息，国家知识产权局信息显示，苏州中搏成机电设备有限公司取得一项名为“用于半导体芯片的防误操作的检测装置”的专利，授权公告号CN222214135U，申请日期为2024年5月。

金融界 2024-12-28

堃联技术取得集成电路芯片的叠层封装设备专利，有效将存储芯片传输至指定位置

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市堃联技术有限公司取得一项名为“一种集成电路芯片的叠层封装设备”的专利，授权公告号CN222214144U，申请日期为2024年5月。

金融界 2024-12-28

开源模型首胜GPT-4，竞技场最新战报引热议，Karpathy：这是我唯二信任的榜单

RAG优化模型登上开源王座

One More Thing

推荐体验

相关资讯