当前位置：首页|资讯|GPT-4|微软

为什么基于 MoE 的大模型更值得关注？

作者：机器之能发布时间：2023-12-16

机器之心PRO · 会员通讯 Week 50

---- 本周为您解读 ④个值得细品的 AI & Robotics 业内要事 ----

1. 为什么基于 MoE 的大模型更值得关注？

MoE架构很特别吗？Mistral的新模型比GPT-3.5还强？为什么大家突然开始关注MoE？GPT-4也用了MoE架构？MoE未来有哪些应用方向？...

2. SLM 是微软「弯道超车」的秘诀吗？

微软在 SLM 上有哪些工作？微软最新的 Phi-2 有多强？微软如何教模型「随机应变」的？微软要通过 SLM 保持可持续发展吗？...

3. OpenAI 内讧过后，还有哪些瓜在酝酿？

OpenAI 内讧事件过后：Altman 离职内幕、Ilya Sutskever 去留问题、GPT-4 为什么越来越「懒」了、OpenAI 的财务情况...大家都在关注什么？...

4. 两张图能证明开源模型逆袭有望？

LeCun 转发的趋势图都说了什么？隔两天就更新的趋势图新增了哪些内容？开源模型的能力真的要追上来了吗？4 个月前的模型差距有多大？...

...本期完整版通讯含 4 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 5 项，国外方面 15 项...

本期通讯总计 25380 字，可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①为什么基于 MoE 的大模型更值得关注？

日期：12 月 12 日

事件：近期，Mistral AI 开源了基于 MoE（Mixture-of-Experts，专家混合）架构的模型 Mixtral 8x7B，其性能达到 Llama 2 70B 和 GPT-3.5 的水平。此前，GPT-4 同样被爆出采用了 MoE 架构，MoE 架构再次引发广泛关注。

首先：弄清楚 MoE 是什么及其来龙去脉[1] [2]

1、概念：

MoE（Mixture of Experts）是一种混合模型，由多个子模型（即专家）组成，每个子模型都是一个局部模型，专门处理输入空间的一个子集。MoE 的核心思想是使用一个门控网络来决定每个数据应该被哪个模型去训练，从而减轻不同类型样本之间的干扰。

2、主要构成：

混合专家模型技术（MoE）是由专家模型和门控模型组成稀疏门控制的深度学习技术。MoE 通过门控网络实现任务/训练数据在不同专家模型间的分配，让每个模型专注处理其最擅长的任务，进而实现模型的稀疏性。

① 在门控网络的训练中，每个样本都会被分配到一个或多个专家中；

② 在专家网络的训练中，每个专家都会被训练以最小化其分配给它的样本的误差。

3、MoE 的「前身」：

MoE 的「前身」是集成学习（Ensemble Learning）。集成学习是通过训练练多个模型（基学习器）未解决同一问题，并且将它们的预测结果简单组合（例如投票或平均）。集成学习的主要目标是通过减少过拟合，提高泛化能力，以提高预测性能。常见的集成学习方法包括 Bagging，Boosting 和 Stacking。

4、MoE 历史来源：

① MoE 的根源可以追溯到 1991 年的论文《 Adaptive Mixture of Local Experts》。这个想法与集成方法类似，目的是为由不同子网络组成的系统提供一种监督过程，每个单独的网络或专家都专门处理输入空间的不同区域。通过门控网络确定每个专家的权重。在训练过程中，专家和门控都会被训练。

② 在 2010 年至 2015 年期间，两个不同的研究领域对 MoE 的进一步发展做出了贡献：

一是专家作为组件：在传统的 MoE 设置中，整个系统包括一个门控网络和多个专家。MoEs 作为整个模型已经在支持向量机、高斯过程和其他方法中进行了探索。《Learning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作为更深层网络组件的可能性。这使得模型可以同时变得庞大和高效。
另一个是条件计算：传统的网络通过每一层处理所有输入数据。在这个时期，Yoshua Bengio 研究了根据输入 token 动态激活或停用组件的方法。

③ 由此，人们开始在自然语言处理的背景下探索专家混合模型。在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通过引入稀疏性，将其扩展到了一个 137B LSTM，从而实现了高规模下的快速推理。

为什么基于混合专家网络 MoE 的大模型值得关注？

1、通常来讲，模型规模的扩展会导致训练成本显著增加，计算资源的限制成为了大规模密集模型训练的瓶颈。为了解决这个问题，基于稀疏 MoE 层的深度学习模型架构被提出。

2、稀疏混合专家模型（MoE）是一种特殊的神经网络架构，可以在不增加推理成本的情况下，为大型语言模型（LLM）增加可学习的参数，而指令调优（instruction tuning）则是一种训练 LLM 遵循指令的技术。

3、MoE+指令微调技术的结合，可大幅度提升语言模型的性能。2023 年 7 月，谷歌、UC 伯克利和 MIT 等机构的研究者发表了论文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》，证明了混合专家模型（MoE）与指令调优的结合能够让大型语言模型（LLM）的性能大幅提升。

① 具体来说，研究者在一组经过指令微调的稀疏混合专家模型 FLAN-MOE 中，使用稀疏激活 MoE，并用 MoE 层替换 Transformer 层的前馈组件，以提供更优的模型容量与计算灵活性；其次，在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。

② 研究者基于上述方法研究在没有指令调优的情况下在单个下游任务进行直接微调，在指令调优后对下游任务进行 in-context 少样本或零样本泛化，以及在指令调优后对单个下游任务进行进一步微调等三种实验设置下 LLM 的性能区别。

③ 实验结果表明，如果不使用指令调优，MoE 模型的性能通常不如与之计算能能力相当的密集模型。但当结合指令调优时，情况发生了变化。指令调优后的 MoE 模型（Flan-MoE）在多个任务上的表现超越了更大的密集模型，即使 MoE 模型的计算成本只是密集模型的三分之一。与密集模型相比。MoE 模型从指令调优中获得的性能提升更为显著，因此当考虑计算效率与性能时，MoE 将成为大型语言模型训练的有力工具。

4、此次，发布的 Mixtral 8x7B 模型同样采用了稀疏混合专家网络。

① Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层网络中，对于每个 token，路由器网络选择 8 组中的两组（专家），来处理 token 并将其输出累加组合。

② Mixtral 8x7B 模型在大多数基准测试中均匹配或优于 Llama 2 70B 以及 GPT3.5，推理速度快了 6 倍。

MoE 的重要优势：稀疏性是什么？[3]

1、在传统的密集模型中，对于每一个输入都需要在完整的模型中进行计算。在稀疏混合专家模型中，处理输入数据时只有少数专家模型被激活成者使用，而大部分专家模型处于未被激活状态，这种状态便是「稀疏「。而稀疏性是混合专家模型的重要优点，也是提升模型训练和推理过程的效率的关键。

推荐体验

相关资讯

与元宇宙相比，为什么ChatGPT更值得投资？

预判前景与终局

元宇宙融资 ChatGPT

中欧国际工商学院 2023-06-01

大模型值得关注的三个新能力

基于大语言模型技术的ChatGPT推出已经有4个月了，更多同类产品还在快速出现。比如，前天谷歌更新的Bard，将辅助编程能力支持的语言数量扩展到20种。然而，对大模型技术的重要性也出现了质疑，前段时间，吴军老师就评价“ChatGPT不算新技术革命，带不来什么新机会”，他认为大模型仍然存在很多限制，不像大家追捧的那样有吸引力。这篇文章发布后，网上也出现了多篇反驳文章。我当然也认为吴军老师说的是错的。那就是大模型带来的新能力中，哪些是最为关键的，最有可能带来长期影响的。我认为，与之前众多的自然语言处理技

大语言模型 ChatGPT Bard 谷歌编程

数字化技术专家 2023-04-30

为什么联网后的 ChatGPT 更容易疯掉？

新必应口无遮拦。

爱范儿 2023-02-21

为什么联网后的 ChatGPT 更容易“疯掉”？

AI技术正在广泛地应用于我们的生活当中，比如近段时间引发热烈讨论的ChatGPT，就已经被许多互联网公司应用，如微软就将ChatGPT嵌入了必应搜索引擎中。只是，嵌入了ChatGPT的新Bing，有时在聊天中会出现一些不恰当的言论。为什么联网后的ChatGPT，会出现这样的表现呢？

爱范儿 2023-02-22

大模型的中场战事：CoE or MoE？

随着人工智能技术的飞速发展，大模型产业已逐渐成为科技领域的焦点。自OpenAI于2022年推出ChatGPT以来，全球科技界掀起了一场“AI海啸”，大模型赛道上群雄逐鹿，竞争日益激烈。在这场激烈的角逐中，技术路径的选择成为了决定胜负的关键因素。目前，CoE（专家协同模型）和MoE（混合专家模型）两种技术思路正引领着大模型产业的中场战事。 ## CoE：协同合作的新范式 CoE（Collaboration-of-Experts）即专家协同模型，其核心理念是通过多个专家模型的协同工作来实现任务

人工智能 OpenAI ChatGPT

OK啦324 2024-08-04

近期资讯

四川旭阳顺取得纸制品加工烘干装置专利，减少纸板摩擦

金融界2024年12月28日消息，国家知识产权局信息显示，四川旭阳顺纸制品有限公司取得一项名为“一种纸制品加工的烘干装置”的专利，授权公告号CN222211129U，申请日期为2024年4月。

金融界 2024-12-28

德阳威旭锂电取得粉料盘式快速干燥器专利，解决物料干燥问题

金融界2024年12月28日消息，国家知识产权局信息显示，德阳威旭锂电科技有限责任公司取得一项名为“种粉料盘式快速干燥器”的专利，授权公告号CN222211116U，申请日期为2024年5月。

金融界 2024-12-28

如何轻松解除微信绑定：手机号、QQ及其他社交账号的详细步骤解析

解除微信绑定其实并没有想象中那么复杂，很多人可能在使用微信的过程中，遇到了一些需要解除绑定的情况，比如换了手机、换了号码，或者是想要重新绑定其他账号等等。如果你想解除微信与当前手机号的绑定，首先要确保你有一个新的手机号可以绑定。

新报观察 2024-12-28

塔兰卡取得一种键合金丝生产用热风吹干装置专利，避免人工擦拭工作，工作效率更高

金融界2024年12月28日消息，国家知识产权局信息显示，江西省塔兰卡金属材料有限公司取得一项名为“一种键合金丝生产用热风吹干装置”的专利，授权公告号CN222211119U，申请日期为2024年5月。

金融界 2024-12-28

如何在QQ中绑定手机号码及常见问题解决技巧

软件，QQ的功能可谓是非常丰富。那么，具体该怎么绑定手机号码呢？如果你还没有登录，那就输入你的账号和密码，先进入QQ主界面。

新报观察 2024-12-28

如何顺利更换QQ号码：步骤、注意事项与社交重启指南

换QQ号这件事，对于很多人来说，可能听上去有点复杂，但其实只要掌握了步骤，还是挺简单的。换号的原因可能有很多，比如想要重新开始、隐私问题，或者是账号被盗等。总之，换QQ号是一项必要的操作，今天就来聊聊怎么进行这个过程。

新报观察 2024-12-28

江苏高泓取得高强度衬布加工用烘干装置专利，避免布料发生缠绕

金融界2024年12月28日消息，国家知识产权局信息显示，江苏高泓新材料有限公司取得一项名为“一种高强度衬布加工用烘干装置”的专利，授权公告号CN222211125U，申请日期为2023年12月。专利摘要显示，本实用新型公开了一种高强度衬布加工用烘干装置，涉及高强度防水有纺衬布加工技术领域。

金融界 2024-12-28

鼎鑫腾达取得一种烘干箱用翻动装置专利，提高烘干箱翻动装置适用性和可调节性

金融界2024年12月28日消息，国家知识产权局信息显示，鼎鑫腾达金属表面处理（天津）有限公司取得一项名为“一种烘干箱用翻动装置”的专利，授权公告号CN222211114U，申请日期为2024年5月。

金融界 2024-12-28

如何轻松将苹果耳机连接到蓝牙设备，享受高品质音频体验

在现代生活中，蓝牙耳机已经成为了我们日常生活中不可或缺的一部分。尤其是苹果耳机，以其出色的音质和便捷的使用体验，受到了很多人的喜爱。今天，我们就来聊聊如何将苹果耳机连接到蓝牙设备上，确保你能轻松享受音乐和通话的乐趣。如果你使用的是AirPodsPro，取出耳机后，长按充电盒背面的设置按钮，直到指示灯开始闪烁白色光。

新报观察 2024-12-28

如何有效进行设备恢复出厂设置，清理数据与隐私保护的步骤解析

无论是手机、平板还是电脑，遇到一些问题或者想要卖掉设备时，很多人都会选择把设备恢复到出厂的状态。那么，具体该怎么操作呢？举个例子，你的手机可能在使用过程中变得越来越慢，应用程序频繁崩溃，或者你想把手机卖给别人，但又不想把自己的隐私留给下一个使用者。那么，怎么进行恢复出厂设置呢？

新报观察 2024-12-28

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1