阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

作者：华尔街见闻发布时间：2024-09-19

今天凌晨，阿里巴巴官宣了史上最大规模的开源发布，推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本，包括0.5B、1.5B、3B、7B、14B、32B和72B，适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署，阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API，帮助你快速开发或集成生成式AI功能。

下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数，但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型；全面超过了Mistral最新开源的Large-V2指令微调模型，成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础模型，其性能同样超过Llama-3-405B。

阿里开放API的旗舰模型Qwen-Plus，其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

此外，Qwen2.5系列首次引入了140 亿和320亿两种新参数模型，Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct，与闭源模型GPT-4o mini相比，只有三项测试略低其他基准测试全部超过。

自阿里发布CodeQwen1.5 以来，吸引了大量用户通过该模型完成各种编程任务，包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本，在众多测试基准中，击败了那些知名且有较大参数的模型。

前不久阿里首次发布了数学模型Qwen2-Math，本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练，包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持，并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中，Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

其实从上面这些测试数据不难看出，即便是参数很小的模型，在质量数据和架构的帮助下，同样可以击败高参数模型，这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似，Qwen2.5语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。

与Qwen-2相比，Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens，超过了Meta最新开源Llama-3.1的15万亿，成为目前训练数据最多的开源模型。

知识能力显著增强，Qwen2.5在 MMLU 基准测试中，与 Qwen2-7/72B 相比从70.3提高到74.2，从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

Qwen2.5能够生成更符合人类偏好的响应，与Qwen2-72B-Instruct相比，Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ，MT-Bench分数从9.12提高到9.35 。

数学能力获得增强，在融合了Qwen2-math的技术后，Qwen2.5的数学能力也得到了快速提升。在MATH基准上，Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外，Qwen2.5在指令跟踪、生成长文本（从1k增加到超过8K标记）、理解结构化数据（例如表格）以及生成结构化输出（尤其是JSON）方面实现了显着改进。同时对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实施和条件设置。

本文来源：，原文标题：《阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

近期资讯

松兰书社 2024-09-16

一些零零碎碎的小技术（一）- 判断当前Windows操作系统是否为WinPE

介绍本文将介绍一些笔者在开发“AZPEP SysRi Tool v2”中所使用到的一些小型技术，其大多与“Windows NT”内核打交道，希望本专栏对您的开发工作有所帮助。判断当前Windows操作系统是否为WinPE根据“https://learn.microsoft.com/zh-cn/windows-hardware/manufacture/desktop/whats-new-in-windows-pe-s14”中的介绍，我们注意到，在WinPE的注册表内存在一个项：“https://learn.

零分的考卷 2024-09-16

高低温机器人防护服的重要性及其益处

[图片] 低温机器人防护服的重要性及其益处随着科技的发展，机器人在各行各业中的应用越来越广泛。然而，在一些极端环境下，如高温、低温等，普通的机器人可能无法正常工作，这就需要特殊的保护措施。高低温机器人防护服便是其中之一，它可以为机器人提供必要的保护，使其能够在不同环境中有效地工作。首先，高低温机器人防护服对于保护机器人的内部元件至关重要。我们知道，电子设备的工作状态容易受到温度的影响，过高或过低的温度都可能导致设备的性能降低，甚至损坏。因此，为了避免这种情况，机器人需要有适当的防护措施。高低温机器人

七盾科技 2024-09-16

# iPhone 16系列：创新不足的高价产品

## 引言随着科技巨头苹果公司推出iPhone 16系列，消费者期待已久的新机型终于亮相。然而，在光鲜亮丽的外表之下，这款最新旗舰机型似乎难以摆脱"换汤不换药"的窘境。让我们一起来深入剖析iPhone 16系列的主要缺点。 ## 1. 价格高昂，性价比低作为高端智能手机的代表，iPhone 16系列的价格虽然没有变化，然而，其实际性能提升却难以与价格增长成正比，让不少消费者直呼"肉疼"。 ## 2. 创新乏力，差异化不足与前代产品相比，除了遥遥无期的Apple Intelligence，iPhone

Fartisan 2024-09-16

2024年墨尔本大学数据结构课程作业1——作业要求、数据集和代码下载

下载地址：https://github.com/Fan-Yi/Assignment-1-Data-Structures-Comp20003-MelbourneU-2024 [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片] [图片]

范懿的线上学堂 2024-09-16

新闻|齐车公司高端铁路货车再次出口澳大利亚

轨交装备观察室 2024-09-16

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

推荐体验

相关资讯

数智早参｜OpenAI上线GPT-4o mini；微软Windows系统出现“史上最大规模IT故障”

突然！阿里云重大宣布：史上最大规模降价！

阿里云宣布史上最大规模降价，核心产品折扣最高达50%

Meta Llama 3.1-405B AI模型多项跑分超越 OpenAI GPT-4o

GPT-4o发布，聊聊使用GPT-4o感受

近期资讯

8K双高速、有颜有料-雷柏VT1PRO MAX无线鼠标体验分享

历史上的今天：诺曼征服英格兰

衡水老师：高中英语常考就这688高频词，尖子生都在偷偷背，收藏

自动驾驶之星知识星球中秋福利！

慈禧痴迷“追剧”，一部中秋承应戏竟看了八小时！

一些零零碎碎的小技术（一）- 判断当前Windows操作系统是否为WinPE

高低温机器人防护服的重要性及其益处

# iPhone 16系列：创新不足的高价产品

2024年墨尔本大学数据结构课程作业1——作业要求、数据集和代码下载

新闻|齐车公司高端铁路货车再次出口澳大利亚

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响