英伟达Mistral炼出新模型：12B小杯、128k上下文，性能超过Llama 3 8B

作者：智东西发布时间：2024-07-25

智东西

编译 | 陈骏达

编辑 | Panken

智东西7月19日消息，昨日晚间，就在OpenAI推出GPT-4o mini模型不久后，英伟达和法国明星AI独角兽Mistral也联合发布了名为Mistral NeMo的小杯模型，旨在提供性能优越、部署便捷、安全性高的企业级AI功能。

Mistral NeMo的参数大小为120亿，具备128k的超大上下文窗口，具备同量级开源模型中最先进的推理、世界知识和代码能力。这一模型对包括中文在内的多种语言进行了优化，为全球企业应用这一模型提供了便利。

英伟达深度参与了这一模型的开发工作。Mistral NeMo的训练算力由英伟达提供，被纳入了英伟达的推理微服务NIM。因此，Mistral NeMo在部署于英伟达设备上时能获得性能优化，只需1块英伟达RTX 4500 GPU就可全本地运行。NIM也让Mistral NeMo模型具有较高的安全性，这对企业应用来说是不可或缺的。

一、同量级开源模型中表现最佳，还擅长11门语言

此先，谷歌和Facebook母公司Meta都曾发布过类似的小杯模型，但这些模型的上下文窗口仅有8k，这意味着它们在进行较复杂任务时有一定难度。而Mistral NeMo的上下文窗口大小达到了128k，这与昨天晚间OpenAI发布的GPT-4o mini是一样的。

根据Mistral提供的测试结果，Mistral NeMo在7个基准测试中都领先于谷歌和Meta的小杯模型。Mistral NeMo在开卷考测试OpenBookQA和常识测试CommonSense这2个基准测试上有较大的优势，这与Mistral NeMo较大的上下文窗口和120亿的参数有直接的关系。

▲Mistral NeMo 12B与Gemma 2 9B和Llama 3 8B在基准测试中的表现（图源：Mistral）

此外，Mistral NeMo从设计之初就瞄准了全球市场。这一模型在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面的表现较为突出，共支持100多门语言。

根据Mistral AI提供的测试结果，Mistral NeMo在多门语言上的表现都比Llama 3 8B高出10%左右。

▲Mistral NeMo与Llama3 8B在多语言基准测试中的表现

在处理非英语文本时，Mistral NeMo的效益有显著提升。这一模型使用了一个新的分词器Tekken，经过训练后能处理超过100种语言，相比之前Mistral模型使用的分词器，Tekken在压缩源代码和中文、法语、德语时的效率提高了约30%。在压缩韩语和阿拉伯语时，效率分别提高了2倍和3倍。与Llama 3的分词器相比，Tekken在大约85%的语言中都表现出更高的文本压缩能力。

Mistral NeMo经历了高级微调和优化，相比Mistral 7B，它在以下4个方面表现更好：指令执行、逻辑推理、连续对话处理及代码生成。

二、与英伟达深度合作开发，专为企业客户优化

英伟达深度参与了Mistral NeMo模型的开发。NeMo这一名字其实就来自于英伟达为企业AI平台NVIDIA NeMo，这一模型也是在英伟达的NeMo平台上云训练的。英伟达称Mistral AI在训练数据方面具有很多专业技能，而英伟达在软硬件优化方面经验丰富，二者的结合让这一模型能在各种丰富的应用场景中提供不错的表现。

▲英伟达面向企业的AI平台NeMo（图源：英伟达）

Mistral NeMo经过量化意识训练，能在处理低精度（如8位浮点数，FP8）表示的数据时仍然能保持高性能。这种方法确保模型在训练过程中就适应了低精度计算，从而在实际使用时可以直接使用低精度进行推理。

FP8是英伟达近期主推的一种新技术，对FP8的支持带来了更大的数据吞吐量和更高的计算性能。虽然数据精度有所降低，但是结合其它技术和工程手段，模型仍然可以提供和更高精度数据类型相媲美的结果，而且在性能和能效上有较大的改善。这对有意部署AI模型的中小型企业来说十分友好。

Mistral NeMo被纳入了英伟达的推理微服务NIM中，能在诸多使用英伟达设备的计算设备上提供性能优化的推理，支持成本极低的本地化部署，只需要1块英伟达Geforce RTX 4090或者英伟达RTX 4500 GPU就可全本地运行。NIM还提供了严格的验证流程与企业级的安全与支持，这也回应了不少企业对安全性的需求。

具备这些特性的Mistral NeMo可以在云端、数据中心或者本地工作站上运行。不过，根据英伟达应用深度学习研究副总裁布莱恩·卡坦扎罗（Bryan Catanzaro）接受美国媒体VentureBeat采访时的表述，这一模型虽然对计算性能的要求有显著降低，但尚未降低到能在智能手机上运行的程度。英伟达对这一模型的预期用例是笔记本电脑或台式电脑。

此外，Mistral NeMo经过了专门的函数调用训练，这一特点与128K大型上下文窗口结合后，提升了模型在代码开发上的实用性。而开源发布则对企业商用这一模型提供了很大的便利。

结语：小杯模型战火愈演愈烈，英伟达联手Mistral开辟更大市场

经历昨晚的两个重大发布后，海外几乎所有AI领域的主要玩家都发布了他们的小杯模型。英伟达和Mistral在训练本次的Mistral NeMo模型时，专门面向企业应用，尤其是中小企业的应用进行了针对性的优化，这也显示出这一市场的巨大潜力。

英伟达作为当今AI浪潮中最大受益者之一，过去的主要收益来源都仰仗云端业务。本次他们通过推出面向企业的高能效低成本AI解决方案，或许能给企业环境中的AI应用带来新的可能性。让AI更接近最终用户的竞赛，正在不断升温。

来源：Mistral AI、英伟达、VentureBeat

相关资讯

Mistral联合英伟达开源12B小模型：碾压Llama 3，单张4090可跑

小模型，成为本周的AI爆点。与动辄上千亿参数的大模型相比，小模型的优势是显而易见的:它们不仅计算成本更低，训练和部署也更为便捷，可以满足计算资源受限、数据安全级别较高的各类场景。因此，在大笔投入大模型训练之余，像 OpenAI、谷歌等科技巨头也在积极训练好用的小模型。先是HuggingFace推出了小模型SmoLLM；OpenAI直接杀入小模型战场，发布了GPT-4o mini。GPT-4o mini发布同天，欧洲最强AI初创公司Mistral立马发布旗下最新最强小模型——Mistral NeM

英伟达 OpenAI 谷歌 LLaMA

AI研习所 2024-07-22

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

Llama 3.1 发布了！今天我们迎来了 Llama 家族的新成员 Llama 3.1 进入 Hugging Face 平台。我们很高兴与 Meta 合作，确保在 Hugging Face 生态系统中实现最佳集成。Hub 上现有八个开源权重模型 (3 个基础模型和 5 个微调模型)。Llama 3.1 有三种规格: 8B 适合在消费者级 GPU 上进行高效部署和开发，70B 适合大规模 AI 原生应用，而 405B 则适用于合成数据、大语言模型 (LLM) 作为评判者或蒸馏。这三个规格都提供基础版和指令

LLaMA 大语言模型 Hugging Face

HuggingFace 2024-07-26

智东西 2023-11-07

英伟达Mistral炼出新模型：12B小杯、128k上下文，性能超过Llama 3 8B

推荐体验

相关资讯

Mistral联合英伟达开源12B小模型：碾压Llama 3，单张4090可跑

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

OpenAI史诗级更新！128K上下文、价格暴降2/3

OpenAI史诗级更新！最强大模型炸场，128K上下文、价格暴降2/3

OpenAI史诗级更新，最强大模型炸场，128K上下文、价格暴降2/3，还能定制专属GPT

近期资讯

联通好服务用心为客户————用口碑，一路闪耀引客户奔赴

REDMI Turbo 4手机搭载6550mAh最大小米金沙江电池

深圳市盛世美行科技有限公司取得车载360全景影像装置专利，降低检修成本

如何高效打开和处理CSV文件的多种方法与技巧

如何顺利安装和使用打印机驱动程序的实用技巧与注意事项

重庆冀繁取得车载GPS定位仪专利，提高定位仪装卸效率

联想推出 Y910 磁吸移动固态硬盘，1TB 售 559 元

机械革命预告 CES 2025 展出 Mini LED、OLED 屏幕笔记本

谷歌升级安卓 15 跨 Pixel 设备通知，支持蜂窝网络同步

如何高效使用笔记本提升学习和工作效率的技巧与建议

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响