最强开源大模型来了，Meta推出开源大模型Llama 3，追赶GPT-4

作者：钛媒体APP发布时间：2024-04-19

文 | 乌鸦智能说

4月18日，Meta公司推出其开源大语言模型“Llama”（直译是“羊驼”）系列的最新产品——Llama 3。此次发布共发布乐两款开源Llama 3 8B与Llama 3 70B模型，供外部开发者免费使用。Llama 3的这两个版本，也将很快登陆主要的云供应商。

根据Meta的说法，Llama 3 8B和Llama 3 70B是目前同体量下，性能最好的开源模型。强大的性能离不开庞大的训练数据。据Meta透露，Llama 3是在由24000块GPU组成的定制集群上，使用15万亿个token训练的，数据规模几乎是Llama 2的七倍。

Llama 3的推出，对开发者社区意义重大。Hugging Face联创兼CEO Clément Delangue表示：“Llama 1和Llama 2现在已经衍生出了30,000个新模型。我迫不及待地想看到Llama 3将会给AI生态带来怎样的冲击了。”

具体来说，Llama 3的主要亮点有：

• 在大量重要基准测试中均具有最先进性能；

• 基于超过15T token训练，大小相当于Llama 2数据集的7倍还多；

• 训练效率比Llama 2高3倍；

• 安全性有明显进步，配备了Llama Guard 2、Code Shield等新一代的安全工具。

性能全面领先的Llama 3

从发布的信息看，Llama 3公布了10项标准测试基准的表现，其中在与70亿参数级的Mistral 7B模型和Google Gemma 7B模型对比中，Llama 3在9项标准测试基准上都有着更好的表现。

其中，包括MMLU（测试知识水平）、ARC（测试技能获取）、DROP（测试对文本块的推理能力）、GPQA（涉及生物、物理和化学的问题）、HumanEval（代码生成测试）、GSM-8K（数学应用问题）、MATH（数学基准）、AGIEval（问题解决测试集）和BIG-Bench Hard（常识推理评估）。

从上图不难看出，Llama 3 8B的成绩在九项测试中领先同行，其中Gemma-7B模型于今年2月发布，一度被称为全球最强开源大模型。Llama 3 70B则在MMLU、HumanEval和GSM-8K上战胜了Gemini 1.5 Pro，同时在五项测试上全面优于Claude 3系列的中杯模型Sonnet。

值得一提的是，Meta还组织了一个贴近用户实际使用体验的测试。根据Meta的说法，该测试集包含 1,800 个提示，涵盖 12 个关键场景：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。

测试数据显示，70B 版本的 Llama 3 在指令调优后，在对比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比赛中，其胜率分别达到了 52.9%、59.3%、63.2%、63.7%

Llama 3一经发布便引发了热议。埃隆·马斯克在杨立昆的X下面评论：“还不错。”英伟达高级研究经理、具身智能负责人Jim Fan认为，即将推出的Llama 3-400B+模型将成为社区获得GPT-4级别模型的重要里程碑。它将改变许多研究工作和草根初创公司的计算方式。

据Meta披露，Llama 3即将在亚马逊云（AWS）、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微软云Azure、NVIDIA NIM和Snowflake等多个平台上推出。这一过程得到了AMD、AWS、戴尔、英特尔和英伟达等公司的硬件支持。

近期，Meta也将计划推出Llama 3的新功能，包括更长的上下文窗口和更强大的性能，并将推出新的模型尺寸版本和公开Llama 3的研究论文。

最强开源模型怎样炼成？

Llama 3优越的性能，离不开Meta在训练数据上的投入。根据Meta透露，Llama 3训练数据规模高达15 万亿token，几乎是Llama 2的七倍。

不仅如此，为了满足多语种的需求，Llama 3超过 5%的预训练数据集，由涵盖 30 多种语言的高质量非英语数据组成。

为了确保 Llama 3 接受最高质量数据的训练，Meta还开发、使用了启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来保证数据质量。

相比数据规模，数据来源更加令人关注。毕竟，此前Meta因训练数据不足而产生焦虑，甚至一度爆出消息，在最近的一次高层管理会议中，Meta高管甚至还建议收购出版社 Simon & Schuster以采购包括史蒂芬金等知名作家作品在内的长篇小说为其AI模型提供训练数据。

在此次发布Llama 3中，对于数据来源，Meta只说了“收集于公开来源”。不过根据外媒的说法，Llama 3使用的训练数据，有很大一部分是AI合成的数据。有趣的是，两个版本的数据库日期还略微有点不同，8B版本截止日期为2023年3月，70B版本为2023年12月。

除了提高数据规模和质量外，Meta花了很多精力在优化训练效率上，比如数据并行化、模型并行化和管道并行化。当16000个GPU集群上进行训练时，Meta最高可实现每个GPU超过 400 TFLOPS的计算利用率。

同时，为了延长 GPU 的正常运行时间，Meta开发了一种先进的新训练堆栈，可以自动执行错误检测、处理和维护。

此外，Meta还极大地改进了硬件可靠性和静默数据损坏检测机制，并且开发了新的可扩展存储系统，以减少检查点和回滚的开销。这些改进使总体有效培训时间超过 95%。综合起来，这些改进使Llama 3的训练效率比Llama 2提高了约三倍。

为了优化Llama 3的聊天和编码等使用场景，Meta 创新了其指令微调方法，结合了监督微调、拒绝采样、近似策略优化和直接策略优化等技术。这些技术不仅提升了模型在复杂任务中的表现，还帮助模型在面对难解的推理问题时能生成正确的解答路径。

在外界关注的安全性上，Meta采用了一种新的系统级方法来负责任地开发和部署Llama 3。他们将Llama 3视为更广泛系统的一部分，让开发人员能够完全掌握模型的主导权。

指令微调在确保模型的安全性方面也发挥着重要作用。Meta的指令微调模型已经通过内部和外部的努力进行了安全红队（测试）。Meta的红队方法利用人类专家和自动化方法来生成对抗性提示，试图引发有问题的响应。比如，他们进行了全面的测试，来评估与化学、生物、网络安全和其他风险领域相关的滥用风险。

通过以上的种种努力，才最终打造了最强开源大模型Llama 3。据国外媒体道理，Meta希望Llama3能赶上OpenAI的GPT-4。

由此可见，开源和闭源的争论远远没有到停下的时候。如今，Meta用Llama 3给出自己的回应，接下来就看OpenAI如何应对了？

最强开源大模型来了，Meta推出开源大模型Llama 3，追赶GPT-4

推荐体验

相关资讯

Meta Llama 3强势来袭：迄今最强开源大模型，性能媲美GPT-4

超越GPT-4的最强开源模型？最强开源模型llama 3如何才能体验

Meta发布最强开源大模型追赶GPT-4，小扎：明年反超

重磅！Meta推出开源大模型Llama 3，性能直逼GPT-4

再与ChatGPT正面交锋？Meta推出Llama 3，号称“最强开源大模型”

近期资讯

解决键盘锁定问题的常见方法与技巧分享

高度集成的铭凡 UN1250 迷你主机全新上市 1599元起

HarmonyOS Next 5.0.0.102 发布，华为 nova 系列今日开始推送！

轻松掌握视频截取技巧，提升创作与分享的乐趣与质量

AMD即将发布RX 9070显卡公版功耗超300W

苹果恢复模式怎么进入

解决软件安装失败问题的有效步骤与建议分享

PS6有望在周期内推出续作硬件受技术价格和时机影响

联想笔记本截图技巧全攻略：快捷键、工具及处理方法

我国成功研发8.6代oled玻璃全面拥有自主知识产权

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响