用MoE技术和开源模型建立差异化，Mistral AI获4.15亿美元融资

作者：阿尔法公社发布时间：2023-12-15

12月8日，Mistral AI在X（原Twitter）上发布了一条磁力链接，直接开源了自己最新的MoE（Mixture of Experts）大模型Mixtral 8x7B，这个模型不仅在测试成绩上追平甚至超越了Llama 2 70B和GPT-3.5，也带动MoE（Mixture of Experts）成为开源AI社区的最火议题。

伴随着这个模型的开源，Mistral AI完成了自己的最新一轮融资，这轮融资由a16z和Lightspeed Venture Partners领投，根据彭博社报道，英伟达和Salesforce也承诺以可转换票据的形式投资1.2亿欧元，这使得本轮的融资总金额约合4.15亿美元，也让Mistral AI的估值达到约20亿美元，自6月份首次亮相以来，其估值已增长超过七倍，成为欧洲最成功的大模型公司。

在今年6月，Mistral AI获得1.05亿欧元（约合1.13亿美元）的种子融资，由Lightspeed Venture Partners领投，众多欧洲投资机构及前谷歌首席执行官Eric Schmidt、法国亿万富翁Xavier Niel和法国广告巨头JCDecaux参投。

为什么这家22人的创业公司可以短时间内连获两轮大额融资？一方面，它由来自DeepMind和MetaAI的技术专家组建了“世界级团队”，并用高性能和高效率的开源AI模型证明了自己的实力和潜力。另一方面，它为法国和欧洲提供了自主可控AI的机会，其开源路线也让企业开发者有了更多的选择。

DeepMind与llama核心技术专家联手建立欧洲自己的OpenAI

Mistral AI的三位联合创始人是来自DeepMind的Arthur Mensch（CEO）及MetaAI的两位资深技术专家Timothée Lacroix（CTO）和Guillaume Lample（首席科学家）。

Arthur Mensch参与了Deepmind的多个经典的模型：Flamingo（重要的多模态模型）、Chinchilla、Gopher，他是Flamingo和Chinchilla的核心贡献者，对多模态、RAG等技术有深刻的理解。

Timothée Lacroix和Guillaume Lample是MetaAI的llama系列开源大模型的核心研究人员。其中Timothée Lacroix 在Meta有8年工作经历，对于AI模型推理和嵌入模型有深入研究，Guillaume Lample则对模型的推理能力和预训练有丰富经验。

Mensch介绍，三位创始人联合创立Mistral AI，其使命是让生成式AI为所有企业所用。“目前我们已经证明了AI的能力，但是它仍然不够普及，我们需要解决这个问题，为更多人提供易于使用的AI和工具，以创造自己的产品。”Mensch表示。

Mistral AI在其博客文章中表述了做开源AI模型的初衷：“我们相信对于生成式AI，采取开放方式是必要的。

我们坚信，通过训练我们自己的模型，公开发布它们，并促进社区贡献，我们可以构建一个可信的替代方案，对抗正在形成的人工智能寡头垄断。开放权重的生成式AI模型将在人工智能革命中发挥关键作用。”

而OpenAI和谷歌等走闭源路线的大公司则认为，将大模型开源是有危险的，这可能导致底层大模型被“坏人”掌握，并被做成恶意工具。

OpenAI和谷歌也以身作则，花费数月时间为大模型开发安全防护措施，以确保它们不能被用来传播虚假信息和仇恨言论，或生成有偏见的问题回答。

a16z的合伙人Anjney Midha在接受《纽约时报》采访时表示：“我们相信人工智能应该是开放的，开源方法已成为除计算机操作系统、编程语言、数据库等几乎所有其他技术领域的常态。”

Lightspeed的合伙人Antoine Moyroud在接受TechCrunch采访时则说：“支持Mistral AI的一个原因是其创始人对生成式AI的愿景，以及知道何时何地应用这一技术。这是一个非常有才华的团队，我们认为，目前全球只有大约70-100人拥有他们在语言模型及其优化方面的专业知识。”

用开源的MoE模型以小博大

翻开Mistral AI的X（原Twitter）页面，最上方的两条内容都是磁力链接，这代表了他们对两个模型的开源。

Mistral 7B初试啼声

今年9月，Mistral AI发布了其首个语言模型Mistral 7B，拥有73亿参数，它在基准测试中成绩超过了Meta的Llama 2等参数更大的先进开源模型。

据Mistral AI的CEO Mensch表示，他们为其LLM设计了一种更高效、更具成本效益的训练方法，其模型的运营成本不到OpenAI或谷歌最佳大模型的一半。

Mistral 7B在所有基准测试中超越了Llama 2 13B ，在许多基准测试中超越了Llama 1 34B ，在代码性能上接近CodeLlama 7B，同时在英语任务上表现良好。

Mistral 7B分组查询注意力（GQA）以实现更快的推理使用滑动窗口注意力（SWA）以较小的成本处理更长的序列。

最重要的是，该模型是在Apache 2.0许可下发布的，这是一种高度宽松的方案，除了归属之外没有使用或复制的限制。这意味着，无论是业余爱好者、数十亿美元的大公司，只要他们有能力在本地运行该系统，或愿意支付所需的云资源费用，都可以使用该模型。还可以在HuggingFace上使用 Mistral 7B针对任何任务进行微调。

Mistral团队表示，他们在训练Mistral 7B的同时，重建了顶级性能的MLops堆栈，并从零开始设计了最复杂的数据处理管道。

Mixtral 8x7B展现实力

12月，Mistral AI再次发布一条磁力链接，开源了他们的MoE（Mixture of Experts）大模型Mixtral 8x7B。Mixtral 8x7B是一款具有开放权重的尖端稀疏专家混合模型（SMoE），它具有32k Tokens的上下文能力以及对包括英语、法语、意大利语、德语和西班牙语在内的多种语言的支持，它同样采用Apache 2.0许可证进行开源。

MoE（Mixture of Experts）在Transformer模型中的应用主要是为了提高模型的处理能力和效率。MoE通过将大型模型分解为多个“专家”子模块来实现这一点。每个专家负责处理输入数据的一个特定方面或子集。

在MoE架构中，每个专家可能是一个小型的Transformer模型，专门处理特定类型的输入数据。例如，一个专家可能专注于处理自然语言的语法结构，而另一个专家可能专注于理解语义内容。

MoE架构中的一个关键组成部分是门控机制，它决定了哪些专家应该被用于处理特定的输入数据。这种机制可以基于输入数据的特性来动态选择最合适的专家组合。

通过使用MoE，Transformer模型可以更有效地扩展到大规模数据集和复杂任务。这是因为它允许模型仅激活和使用处理特定输入最相关的专家部分，而不是整个模型。

具体到Mixtral 8x7B，它是一个仅限解码器的模型，其中前馈块从8组不同的参数集中选择。在每一层，对于每个标记，一个路由网络选择这些组中的两组（“专家”）来处理标记，并将它们的输出以加法方式结合。

它拥有46.7B的总参数量，但每个token只使用其中12.9B参数。因此，Mixtral的实际执行速度和所需的成本，都只相当于一个12.9B的模型。

在性能上，它在大多数基准测试中超越了目前开源大模型的标杆Llama 2 70B，并且与GPT3.5不相上下，在总共7项对比测试中，它获得4项测试的最高分数。

在另一项包含Mistral 7B的测试中，可以看出，Mistral 7B的分数几乎总是高于Llama 2 7B甚至Llama 2 13B，而Mixtral 8x7B相对Llama 2 70B也有非常明显的优势，再考虑到Mixtral 8x7B在推理成本上的优势（比Llama 2 70B快6倍），这个对比的结果更加明显。

大模型的幻觉和偏见内容是评判其可用性的重要指标，Mixtral 8x7B在TruthfulQA、BBQ、BOLD等相关基础测试上获得了比Llama 2 70B明显更优的结果。Mixtral在TruthfulQA基准测试中更为真实（73.9%对比50.2%），并且在BBQ基准测试中表现出更少的偏见，Mixtral在BOLD上展现出比Llama 2更多的积极情绪。

Mixtral还推出了 8x7B Instruct，这个模型通过监督式微调和直接偏好优化（DPO）进行了优化，以便精确地遵循指令。在MT-Bench上，它达到了8.30的分数，使其成为最好的开源模型，其性能可与GPT3.5媲美。

可用性和商业模式

目前，Mistral AI开放了首个平台服务的测试版—la plateforme。平台提供了三个基于指令生成文本的聊天模型，以及一个嵌入模型。

Mistral-tiny和Mistral-small已经正式发布，而性能更强的mistral-medium还处在测试阶段。这些模型在开放网络抽取的数据上进行预训练，随后通过标注进行指令微调。

Mistral-tiny基于Mistral 7B Instruct v0.2，Mistral-small基于Mixtral 8x7B，Mistral-medium还在测试中，不过其性能非常值得期待。

除此之外，MistralAI还开放了API，其模型也能在 Hugging Face、Poe、Replicate等平台上直接使用。

那么做开源的Mistral AI商业模式是什么呢，很有可能是现阶段开源模型可以免费使用，但是在后期可能推出更大性能更强的模型，并以API的方式收费。

鉴于Mistral AI对于底层技术的理解深度和创新，他们也可能搭建AI定制化平台，为企业用户提供微调，RAG，定制化等服务。

Mistral AI在一篇博客中写道：“我们的商业产品将作为白盒解决方案分发，使权重和代码源都可用。我们正在积极开发托管解决方案和专门针对企业的部署。”

创业公司做开源大模型的意义在哪里？

创始人的基因决定了企业的基因，Mistral AI的创始人们来自llama团队和DeepMind，本身就具有开源的基因，这一定程度上促使他们采用开源的战略。而且因为创始团队和技术团队能力的强大，它们的小模型和MoE模型不仅拥有超强的性能/参数比，而且在推理成本上有明显的优势。

并且这种“小模型”的策略，是有意为之，Mistral AI的创始人Mensch认为，小模型有助于Agents的开发和应用，因为如果在GPT-4上运行 Agents，推理成本会很高，很容易很快就耗光资金。但如果能通过小模型将Agents运行的计算成本降低100倍，那么就有机会构建很多有意思的应用了。

除了开源、小模型、MoE技术外，Mistral AI的另一个差异化是它面向的欧洲市场。

一方面，欧洲拥有超过100家的500强公司，多集中在传统行业如汽车、石油和天然气、制药、电信、银行等。它们拥有足够的付费能力，且对先进技术解决方案有强烈的需求。

另一方面，欧洲有特殊的经营环境，主要表现在更严格的监管和技术透明度要求，例如GDPR和欧盟AI法案等。身处欧洲的AI独角兽，更有可能适应这些法规，并有可能获得更多支持。

llama2的开源本身对于生成式AI的应用生态就是利好，帮助AI应用公司节省了巨量的模型预训练成本。现在有Mistral AI这样既开源，又能让小模型有超强性能，还能用MoE模型去媲美更大尺寸模型的先进AI技术公司，这对于AI应用的发展将起到更大的推动作用。

本文来自微信公众号“阿尔法公社”（ID：alphastartups），作者：阿尔法公社，36氪经授权发布。

用MoE技术和开源模型建立差异化，Mistral AI获4.15亿美元融资

DeepMind与llama核心技术专家联手建立欧洲自己的OpenAI

用开源的MoE模型以小博大

创业公司做开源大模型的意义在哪里？

推荐体验

相关资讯

中国AI大模型的差异化发展之路

realme全面布局AI 聚焦四赛道打造差异化AI功能

Sam Altman最新采访：模型性能不是长期差异化的关键

打通谷歌办公软件，Bard与ChatGPT走差异化道路

ChatGPT当道之日，差异化才是你的生存之道

近期资讯

快时尚行至岔路口：涨高价，开大店，差异化

胖东来，靠电商冲出河南？

宗馥莉改革又一“刀”？娃哈哈运行逾30年企业班车停运

从自律到焦虑，智能手表如何精准拿捏中产的心理？

从特斯拉、X到DOGE，马斯克的疯狂效率实验

谁是11月最有影响力的老板IP？雷军蝉联冠军，于东来跻身前三

腾讯“飞行汽车梦”复燃：破产2个月等来收购，手中仍握108家订单

从不搞促销的1600平折扣超市，凭什么日销超50万？

工会硬控70小时，强如大众也妥协了

日赚超1400万，谁是中国最赚钱的高速公路？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响