最好的7B模型易主，免费开源可商用，来自“欧洲的OpenAI”

作者：量子位发布时间：2023-10-09

OpenAI

最好的7B模型易主，免费开源可商用，来自“欧洲的OpenAI”

梦晨发自凹非寺

量子位 | 公众号 QbitAI

一个神秘磁力链接，成了开源大模型社区的新宠。

里面是来自法国的开源大模型Mistral-7B，大家试用下来，觉得Llama 2都不香了。

有开发者建议，代码之外的数据微调，34B以下规模先试试它就对了。

也有公司开始把它用在简历自动解析和评估业务上。

想基于Mistral创业的更是大有人在。

发布不到2周，配套生态也迅速发展起来，如何在单卡上微调的教程有了。

各种基础设施和工具链也添加了对Mistral-7B的支持。

专用于代码补全的微调版本也有人搞出来了。

甚至有人基于它微调了一个神秘学玄学大模型，也很受欢迎。

与Meta刚刚发布Llama的时候，迅速出现各种其他驼和神兽，发展成大模型动物园的场景太像了。

Mistral这个单词在法语里代表冬季的一种强风。

羊驼们，准备好过冬了吗？

Mistral为什么火了？

先上总结，综合官方公告和社区反馈，主要有5个方面：

性能更强，硬件需求更少，有2023年的知识，安全对齐没那么离谱，开源协议更宽松，

目前最好的7B模型

根据官方发布公告，Mistral 7B在所有尝试过的评测基准中超过Llama 2 13B。

并在代码、数学和推理评测中超过Llama 1 34B。

另外代码任务上的表现接近专门的CodeLlama 7B，同时保留了自然语言能力。

上下文窗口也达到了8k。

更详细的测评数据如下。

笔记本轻松跑

以小胜大，意味着取得相似的效果硬件需求更少。

官方也特别说明用了各种优化手段，FlashAttention，Grouped-Query Attention，Sliding Window Attention一起上。

现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。

量化后只需要6G显存。

训练数据更新

官方没有具体说明训练数据截止日期。

但经网友测试，2023年3月OpenAI发布GPT-4的事它也知道。

相比之下Llama 2的预训练数据截止到2022年9月，只有部分微调数据最多到2023年6月。

实用性更强

Llama 2的安全对齐措施非常充分严格，甚至损失了一部分实用性。

比如拒绝回答如何“杀死”一个Linux线程，只能说过于礼貌也是一种不礼貌了。

还有创业者根据自己经历总结了3点是Mistral-7B能做但Llama 2做不好的。

他做的是检索复杂SQL语句，对比测试发现Llama 2 13B有几个缺点：

即使提供少样本示例，也会在结构化输出中插入评论

会在时间字段上出错

在数据结构定义DDL中如果有多个表，总是漏掉至少一个表

而Mistral-7B具体效果还在测试中，至少这些问题都不存在。

另外Mistral-7B还非常适合用来微调，官方也出了经过指令微调的聊天版本作为补充。

开源协议更宽松

Mistral基于非常宽松的Apache2.0协议开源，免费，允许商业使用、修改和分发。

相比之下Meta为Llama 2准备的协议，甚至被开源界批评为严格来讲不算真正的开源。

比如有附加商业条款，月活超过7亿的产品或服务需要单独申请许可，这条主要针对大公司。

针对个人和小公司的也有不能使用Llama生成的结果来改进其他模型等。

欧洲的OpenAI

Mistral AI成立于今年5月，总部法国巴黎，3位创始人是DeepMind和Meta前员工，

外界将这家公司看成是欧洲的OpenAI。

当初刚成立4周还没有产品时，就靠6个员工7页PPT拿到超过1亿美元融资，当时还引起一番争议，被当成是AI泡沫的代表。

Mistral AI最初计划在2024年发布首个大模型，没想到刚到9月底就已拿出成果，团队也扩大了不少。

三位联合创始人中，CEO Arthur Mensch此前在DeepMind巴黎工作。

CTO Timothée Lacroix和首席科学家Guillaume Lample则在Meta共同参与过Llama系列的研发，Lample是通讯作者之一。

事实上Llama初始团队中已有过半离职，其中Marie-Anne Lachaux后来也加入了Mistral AI。

有点子当年OpenAI部分员工出走成立Anthropic的意思了，历史总是惊人的相似。

Mistral AI接下来也会继续推出规模更大的模型，增强推理能力以及多语言能力。

如果你对Mistral-7B感兴趣，可以在Perplexity或HuggingChat试玩。

labs.perplexity.ai

https://huggingface.co/chat

还有一个与Llama 2同台竞技的小游戏可玩。

https://llmboxing.com

下载模型也可以去Hugging Face。

https://huggingface.co/mistralai

参考链接：

[1]https://mistral.ai/news/announcing-mistral-7b

[2]https://predibase.com/blog/fine-tuning-mistral-7b-on-a-single-gpu-with-ludwig

[3]https://x.com/hrishioa/status/1710702855491879027

[4]https://twitter.com/Teknium1/status/1710505270043189523

近期资讯

jinzunqinjiu 2024-12-29

从 Elastic 迁移到 Easysearch 指引

从 Elasticsearch 迁移到 Easysearch 需要考虑多个方面，这取决于当前使用的 Elasticsearch 版本、能容忍的停机时间、应用需求等。在此背景下，我们梳理了一下通用的升级

极限实验室 2024-12-29

看完前端各种风骚操作，我眼睛被亮瞎了！

一、实现一个快速评分组件这个都不用多解释了，简直写的太妙了！二、巧用位运算用位运算可以实现很多功能，比如乘2、除2（或者2的倍数），向下取整这些计算操作，而且性能很高！并且，利用~符,即按位取

程序员小寒 2024-12-28

一文带你全面了解 RAG 组件

检索增强生成 (RAG) 流程正在彻底改变我们与大型语言模型 (LLM) 的交互方式。RAG 不再仅仅依赖这些模型中预先训练的知识，而是让 LLM 能够实时访问和利用外部知识源，从而产生更准确、更相关

致Great 2024-12-28

25高考政治主观题预测，就考这几种，高中生们还不背啊！！

25高考仅剩170多天，高中生们，不要摆烂，要抓住这仅剩的最后时间提分！学姐给你们整理好了高考政治主观题预测，赶紧背起来吧，命中率98%，提分妥妥滴！ [图片] [图片] [图片] [图片] [图片] [图片]

UU学姐带你上岸 2024-12-13

005：安装 python 和 OpenCV

> 本文为合集收录，欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请参考[这里](https://mp.weixin.qq.com/s?__biz=MzAwOTc2NDU3OQ==&m

董董灿是个攻城狮 2024-12-28

最好的7B模型易主，免费开源可商用，来自“欧洲的OpenAI”

最好的7B模型易主，免费开源可商用，来自“欧洲的OpenAI”

推荐体验

相关资讯

最好的7B模型易主，笔记本轻松跑，免费开源可商用，来自“欧洲的OpenAI”

阿里大模型又开源！能读图会识物，基于通义千问7B打造，可商用

全球最强开源大模型一夜易主，谷歌Gemma 7B碾压Llama 2 13B，今夜重燃开源之战

科学家打造多模态模型，7B和1.3B小模型均开源，可部署手机等终端

OpenAI掀小模型血战！苹果DCLM强势登场，碾压Mistral 7B全开源

近期资讯

69天探索操作系统-第24天：动态内存管理技术

高中生物考了全班第一，全靠这份提分秘籍！

React错误边界

直播带货预测：数据与模型的幽默碰撞

为什么要用webpack等打包工具。webpack怎么配置？

从 Elastic 迁移到 Easysearch 指引

看完前端各种风骚操作，我眼睛被亮瞎了！

一文带你全面了解 RAG 组件

25高考政治主观题预测，就考这几种，高中生们还不背啊！！

005：安装 python 和 OpenCV

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响