开源大模型超越GPT-3.5！爆火MoE实测结果出炉，网友：OpenAI越来越没护城河了

作者：量子位发布时间：2023-12-12

OpenAI

克雷西鱼羊发自凹非寺

量子位 | 公众号 QbitAI

一条神秘磁力链接引爆整个AI圈，现在，正式测评结果终于来了：

首个开源MoE大模型Mixtral 8x7B，已经达到甚至超越了Llama 2 70B和GPT-3.5的水平。

（对，就是传闻中GPT-4的同款方案。）

并且由于是稀疏模型，处理每个token仅用了12.9B参数就做到了这般成绩，其推理速度和成本也与12.9B的密集模型相当。

消息一出，再次在社交媒体上掀起讨论热潮。

OpenAI创始成员Andrej Karpathy第一时间赶到现场整理起了笔记，还高亮出了重点：这家“欧版OpenAI”透露出的最强模型，还只是“中杯”。

p.s. Mixtral 8×7B甚至只是小杯……

英伟达AI科学家Jim Fan则赞说：

每个月都会有十几个新的模型冒出来，但真正能经得住检验的却寥寥无几，能引发大家伙热烈关注的就更少了。

并且这波啊，不仅是模型背后公司Mistral AI大受关注，也带动MoE（Mixture of Experts）再次成为开源AI社区的最火议题。

HuggingFace官方就趁热发布了一篇MoE的解析博文，同样打出了“转发如潮”的效果。

值得关注的是，Mistral AI的最新估值已经冲破20亿美元，在短短6个月中增长了7倍多……

基本超越Llama 2 70B

说起来，Mistral AI这家公司也是不走寻常路。隔壁大厂前脚刚轰轰烈烈搞发布会，慢慢悠悠发模型，他们可倒好，直接来了个程序颠倒：

先甩链接开放下载，又给vLLM项目（一个大模型推理加速工具）提了PR，最后才想起来发布技术博客给自家模型整了个正经官宣。

△模型一开始是酱婶发布的

那么还是先来看看，官方给出了哪些信息，与这两天吃瓜群众自己扒出来的细节有何不同。

首先，官方自信地表示：

Mixtral 8×7B在大多数基准测试中都优于Llama 2 70B，推理速度快了6倍。

它是最强大的、具有宽松许可的开放权重模型，也是最佳性价比之选。

具体来说，Mixtral采用了稀疏混合专家网络，是一个decoder-only的模型。在其中，前馈块会从8组不同的参数组中进行选择——

也就是说，实际上，Mixtral 8×7B并不是8个7B参数模型的集合，仅仅是Transformer中的前馈块有不同的8份。

这也就是为什么Mixtral的参数量并不是56B，而是46.7B。

其特点包括以下几个方面：

在大多数基准测试中表现优于Llama 2 70B，甚至足以击败GPT-3.5
上下文窗口为32k
可以处理英语、法语、意大利语、德语和西班牙语
在代码生成方面表现优异
遵循Apache 2.0许可（免费商用）

具体测试结果如下：

另外，在幻觉问题方面，Mixtral的表现也由于Llama 2 70B：

在TruthfulQA基准上的成绩是73.9% vs 50.2%；在BBQ基准上呈现更少的偏见；在BOLD上，Mixtral显示出比Llama 2更积极的情绪。

此次与Mixtral 8×7B基础版本一起发布的，还有Mixtral 8x7B Instruct版本。后者经过SFT和DPO优化，在MT-Bench上拿到了8.3的分数，跟GPT-3.5差不多，优于其他开源大模型。

目前，Mistral官方已经宣布上线API服务，不过还是邀请制，未受邀用户需要排队等待。

值得关注的是，API分为三个版本：

小小杯（Mistral-tiny），对应模型是Mistral 7B Instruct；
小杯（Mistral-small），对应模型是这次发布的Mixtral 8×7B；
中杯（Mistral-medium），对应的模型尚未公布，但官方透露其在MT-Bench上的得分为8.6分。

有网友直接把GPT-4拉过来对比了一下。可以看到，中杯模型在WinoGrande（常识推理基准）上的得分超过了GPT-4。

价格方面，小小杯到中杯的输入和输出价格分别是每一百万token0.14~2.5欧元和0.42~7.5欧元不等，嵌入模型则是0.1欧元每百万token（1欧元约合7.7人民币）。

而在线版本，目前还只能到第三方平台（Poe、HuggingFace等）体验。

能看懂中文，但不太愿意说

虽然官方通告中并没有说支持中文，但我们实测（HuggingFace Chat中的在线版，模型为Instruct版本）发现，Mixtral至少在理解层面上已经具备一定中文能力了。

生成层面上，Mixtral不太倾向于用中文来回答，但如果指明的话也能得到中文回复，不过还是有些中英混杂的情况。

面对更多的“弱智吧”问题，Mixtral的回答虽中规中矩，但看上去至少已经理解了字面含义。

数学方面，面对经典的鸡兔同笼问题，Mixtral的回答从过程到结果都完全正确。

即使是高等数学问题，比如复杂的函数求导，Mixtral也能给出正确答案，更难能可贵的是过程没什么问题。

而此次的官方通告中专门强调了Mixtral的代码能力很强，所以也受到了我们的重点考察。

一道困难难度的LeetCode下来，Mixtral给出的代码一次就通过了测试。

给你一个未排序的整数数组nums，请你找出其中没有出现的最小的正整数。

请你实现时间复杂度为O(n)并且只使用常数级别额外空间的解决方案。

但随着我们继续提问，Mixtral的回答一不小心暴露了自己可能专门针对LeetCode做过训练，而且还是中文版LC。

为了更加真实地展示Mixtral的代码能力，我们转而让它编写实用程序——用JS写一个Web版计算器。

经过几轮调整之后，虽然按钮的布局有些奇怪，但基本的四则运算已经可以完成了。

此外我们会发现，如果在同一个对话窗口中不断补充新的要求，Mixtral的表现可能会有所下降，出现代码格式混乱等问题，开启新一轮对话后则会恢复正常。

除了API和在线版本，Mistral AI还提供了模型下载服务，可以用𝕏上的磁力链接或通过Hugging Face下载之后在本地部署。

在𝕏上，已经有不少网友在自己的设备上跑起了Mixtral，还给出了性能数据。

在128GB内存的苹果M3 Max设备上，使用16位浮点精度运行Mixtral时消耗了87GB显存，每秒可以跑13个token。

同时也有网友在M2 Ultra上通过llama.cpp跑出了每秒52token的速度。

看到这里，你会给Mistral AI的模型实力打几分？

不少网友是已经兴奋起来了：

“OpenAI没有护城河”，看起来肯定会成为现实……

要知道，Mistral AI今年5月才刚刚成立。

短短半年，已是一手20亿美元估值，一手惊艳整个AI社区的模型。

更关键的是，普林斯顿博士生Tianle Cai分析了Mistral-7B与Mixtral-8x7B模型的权重相关性做了分析，证明了模型的成功复用。

随后网友发现，Mistral AI创始人也亲自证实，MoE模型确实就是把7B基础模型复制8次，再进一步训练来的。

随着此类模型的免费商用，整个开源社区、新的创业公司都可以在此基础之上推动MoE大模型的发展，就像Llama已然带动的风暴那样。

作为吃瓜群众，只能说：

参考链接：

[1]https://mistral.ai/news/mixtral-of-experts/

[2]https://mistral.ai/news/la-plateforme/

[3]https://huggingface.co/blog/mixtral#about-the-name

— 完—

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

华为官宣悬赏300万元

日前，华为宣布面向全球启动2024奥林帕斯奖悬红难题征集，这是华为公司第五年举办该全球赛事。2024奥林帕斯悬红难题为：一、每bit极致性价比的存储技术；二、面向AI时代的新型数据底座。2024年的奖项设置了2个奥林帕斯奖，5个奥林帕斯先锋奖，获奖人/团队将与华为建立技术交流渠道并获得科研助力。

金融界 2024-12-29

AOC新款27寸显示器首发7599元：2K 360Hz屏、支持ULMB2

快科技12月29日消息，AOC推出了新款27寸显示器——AG276QSG，首发7599元。据悉，新款显示器配备了一块FastIPS面板，分辨率为2560x1440，最高支持360Hz刷新率，响应时间为1msGTG，支持HDR600。

驱动之家 2024-12-29

上海又玩“新花头”了：当AI作曲从实验室走向市场国乐+AI燃情年末

东方网记者熊芳雨12月29日报道：随着科技的发展进步，AI作曲系统正在全面参与音乐的制作流程，近日上海民族乐团在凯迪拉克·上海音乐厅举办的《零•壹|中国色》中国首台AI创作的国乐音乐会，将AI作曲的音乐作品从实验室走向市场，成功转型成观众们触手可及的艺术享受。

东方网 2024-12-29

为低空经济提供人才智力支持：盐城温州等地高校成立低空经济产业学院

11月8日，在深圳市宝安区无人机系统应用测试基地，深圳市安特狗航天航空科技有限公司的载人飞行器在进行飞行测试。在国家发改委层面，国家发改委低空经济发展司已经公开亮相，并连续与自然资源部、生态环境部等部委、有关中央企业以及通信、导航方面有关专家进行座谈。

澎湃新闻 2024-12-29

消息称小米SU7最新一周锁单破9000台根本交不完！

【CNMO科技消息】在12月16日至22日这一周，小米SU7的上险量达到了6000台，同时新增订单也超过了7000台，这一成绩已经相当出色。然而，最新消息显示，小米SU7最新一周锁单量更是突破了9000台，这一数字让不少网友感到震惊。日前，雷军在社交媒体上宣布，小米SU7全年交付量已超过13万辆，提前完成了全年所有目标。

手机中国 2024-12-29

好冷！是时候围炉煮茶了！

冬天的仪式感，就是把时间过得很慢，没有什么比在家围炉煮茶更加治愈的事了，有茶香、暖炉、烤物，感受由身及心的温暖。假期不想出门，在家围炉煮茶超city的，不用出门，也不用一次花大几百的价格！

新京报 2024-12-29

国际观察｜美国“芯片战”的枉费心机与一错再错

雷蒙多近日接受美国媒体采访时表示，拜登政府提出的《芯片与科学法案》(芯片法案)通过联邦政府给予芯片企业巨额补贴，鼓励国内创新，有助于“打败中国”。中国海关总署数据显示，2024年前11个月，中国集成电路出口首次突破万亿元人民币，同比增长20.3%。

金台资讯 2024-12-29

河北唐山：智能餐厅让百姓在家门口吃上“科技饭”

AI智慧引导机器人领位，智能餐饮机器人炒菜，云轨系统送菜到桌……2024年12月27日，由唐山投资控股集团、唐山文旅集团筹划的文旅潮盒商业街焕新开街，文旅·云餐智能餐厅潮盒店也一同开业。文旅·云餐智能餐厅潮盒店占地面积325平方米，配备8台智能餐饮机器人，可提供主食、热菜、凉菜等60余种中式菜品，同时容纳70余人用餐。

极目新闻 2024-12-29

华为畅想70X手机海报曝光：支持北斗卫星双向通信、鸿蒙系统麒麟芯片

这款手机的价格定位应该在2000元左右，搭载了麒麟8000降频版处理器，预装HarmonyOS4.3系统。值得一提的是，华为畅想70Pro在今年1月开售，配备6.7英寸FHD+（1080x2388分辨率）LCD屏幕；使用一亿像素主摄，支持暗光拍摄、疾速抓拍、美颜自拍等拍照模式。

中关村在线 2024-12-29

越疆：协作机器人龙头多项数据亮眼

【12月23日登陆港交所的次新股越疆股价异动，12月27日单日大涨23.18%】越疆是国家级专精特新“小巨人”企业，港股上市后获“协作机器人第一股”称号，主要从事协作机器人的设计等工作。其产品广泛应用于多场景，按2023年出货量计，在全球协作机器人行业中排名前二，在中国排名第一，全球市场份额为13.0%。

和讯网 2024-12-29

开源大模型超越GPT-3.5！爆火MoE实测结果出炉，网友：OpenAI越来越没护城河了

推荐体验

相关资讯