阿里云通义千问2.0发布！综合性能超过GPT-3.5，APP正式上线

作者：智东西发布时间：2023-10-31

阿里云通义千问2.0发布！综合性能超过GPT-3.5，APP正式上线

智东西（公众号：zhidxcom）

作者 | ZeR0

编辑 | 漠影

智东西10月31日报道，在今日举行的2023云栖大会上，阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中，通义千问2.0综合性能超过GPT-3.5和Llama 2，正在加速追赶GPT-4。当天，通义千问APP在各大手机应用市场正式上线，所有人都可通过APP直接体验最新模型能力。

阿里云CTO周靖人谈道，面向智能时代，阿里云将通过从底层算力到人工智能（AI）平台再到模型服务的全栈技术创新，升级云计算体系，打造一朵AI时代最开放的云。除了发布通义千问2.0外，周靖人还公布了云计算基础能力的最新进展，升级了AI平台，并发布一站式模型应用开发平台阿里云百炼。

“目前，中国有一半大模型企业跑在阿里云上，280万AI开发者活跃在阿里云魔搭社区上，未来，阿里云将携手千行百业推动AI创新，共享技术红利。”周靖人透露说，阿里云计划近期开源通义千问72B版本，这将将成为中国参数最大的开源模型，此前阿里云已先后开源7B和14B版本模型，模型累计下载量超过100万。

一、通义千问2.0得分超过GPT-3.5，8个行业大模型组团上线

过去6个月，通义千问2.0在性能上取得巨大飞跃，相比4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前，通义千问的综合性能已经超过GPT-3.5，加速追赶GPT-4。

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上，通义千问2.0的得分整体超越Meta的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，通过大幅增加参数量，通义千问2.0能更好地理解和处理复杂的语言结构和概念；中文任务方面，通义千问2.0以明显优势在C-Eval基准获得最高得分，这是由于模型在训练中学习了更多中文语料，进一步强化了中文理解和表达能力。

在数学推理、代码理解等领域，通义千问2.0进步明显。在推理基准测试GSM8K中，通义千问排名第二，展示了强大的计算和逻辑推理能力；在HumanEval测试中，通义千问得分紧跟GPT-4和GPT-3.5，该测试主要衡量大模型理解和执行代码片段的能力，这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。

通义千问2.0还变得更加好用，在指令遵循、工具使用、精细化创作等方面作了技术优化，能够更好地被下游应用场景集成。通义大模型官网上线了多模态和插件功能，支持图片输入、文档解析等细分任务。

同时，基于通义大模型训练的8大行业大模型组团上线，分别是通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。

其中，智能编码助手通义灵码已在阿里云内部大规模采用，广受好评；工作学习AI助手通义听悟每天处理5万余个音视频，累积用户超100万。

8大行业模型面向当下最受欢迎的多个垂直场景，使用领域数据进行专门训练。用户可以在官网直接体验模型功能，开发者可以通过网页嵌入、API/SDK调用等方式，将模型能力集成到自己的大模型应用和服务中。

截至10月，阿里云已与60多个行业头部伙伴进行深度合作，推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

二、“中国一半大模型公司跑在阿里云上”

阿里云通义大模型系列基于人工智能平台PAI训练而成。

据介绍，除了通义大模型，中国一半大模型公司跑在阿里云上，百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等大批头部企业及机构均在阿里云上训练大模型。

通义系列、Baichuan系列、智谱AI ChatGLM系列、姜子牙通用大模型等国内众多头部主流大模型，都已通过阿里云对外提供API服务。

“百川成立仅半年便发布了7款大模型，快速迭代背后离不开云计算的支持。”百川智能创始人兼CEO王小川说。

百川智能和阿里云进行了深入合作，在双方的共同努力下，百川很好地完成了千卡大模型训练任务，有效降低了模型推理成本，提升了模型部署效率。

基础模型的质量很大程度决定了AI产业化的前景。训练大模型是囊括了算力底座、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程，只有强大的云计算体系才能训练出高质量的大模型。

周靖人谈道，2009年阿里云就提出“数据中心是一台计算机”的理念，今天AI时代更加需要这样的技术体系。作为一台超级计算机的云计算，可高效连接异构计算资源，突破单一性能芯片瓶颈，协同完成大规模智能计算任务。

为了保证大模型训练的稳定互联和高效并行计算，阿里云全新升级了人工智能平台PAI。

PAI底层采用HPN 7.0新一代AI集群网络架构，支持高达10万卡量级的集群可扩展规模，超大规模分布式训练加速比高达96%，远超业界水平；在大模型训练任务中，可节省超过50%算力资源，性能全球领先。

应对大规模智能算力需求，阿里云已在全球30个地域建设了89个云计算数据中心，提供3000余个边缘计算节点，发挥云计算的低延时、高弹性优点。今年，阿里云成功支撑火爆全网的妙鸭相机短时间高强度的流量爆发。

三、超30款云产品接入大模型能力，发布一站式大模型应用开发平台

周靖人谈道：“随着大模型技术与云计算本身的融合，我们希望未来的云可以像车一样也能够自动驾驶，大幅提升开发者使用云的体验。”

据悉，阿里云上有超过30款云产品接入了大模型能力，例如阿里云大数据治理平台DataWorks新增了全新的交互形态Copilot，用户只需用自然语言输入即可生成SQL，并自动执行相应的数据ETL操作，整体开发与分析可提效30%以上，堪比“自动驾驶”。

阿里云容器、数据库等产品上也提供了类似的开发体验，可实现NL2SQL、SQL注释生成/纠错/优化等功能，未来这些能力还将集成到阿里云其他产品上。

现场，周靖人还发布了一站式大模型应用开发平台——阿里云百炼。

该平台集成了国内外主流优质大模型，提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具，为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。

开发者可在5分钟内开发一款大模型应用，几小时即可“炼”出一个企业专属模型，可将更多精力专注于应用创新。

大模型正引发千行百业的新一轮创新，央视网、朗新科技、亚信科技等企业已率先在阿里云百炼上开发专属模型和应用，朗新科技在云上训练出电力专属大模型，开发“电力账单解读智能助手”“电力行业政策解析/数据分析助手”，为客户接待提效50%、降低投诉70%。

“促进中国AI生态繁荣，是阿里云的首要目标。阿里云将坚定打造AI时代最开放的大模型平台，我们欢迎所有大模型接入阿里云百炼，共同向开发者提供AI服务。”周靖人说。

结语：向开发者提供免费GPU算力，已构建中国最大AI社区

除了与开发者共享自研新技术，阿里云还大力支持三方大模型发展。在阿里云魔搭社区上，百川智能、智谱AI、上海人工智能实验室、IDEA研究院等业界顶级玩家，都开源首发他们的核心大模型，阿里云则为开发者们“尝鲜”大模型提供免费GPU算力，截至目前已超3000万小时。

据周靖人透露，魔搭社区现已聚集2300多款AI模型，吸引280万名AI开发者，AI模型下载量突破1亿，成为中国规模最大、开发者最活跃的AI社区。

在2023云栖大会上，阿里云公布了一项重磅计划：“云工开物计划”，给中国所有大学生每人送一台云服务器。

此外，阿里云还将为签约高校提供更大规模的算力资源支持，助力中国青年学者和学子攀登科研高峰。目前，清华大学、北京大学、浙江大学、上海交通大学、中国科学技术大学、华南理工大学等高校已首批达成合作。

阿里云通义千问2.0发布！综合性能超过GPT-3.5，APP正式上线

阿里云通义千问2.0发布！综合性能超过GPT-3.5，APP正式上线

推荐体验

相关资讯

阿里云正式发布通义千问2.0！性能超过GPT-3.5

阿里云重磅官宣！通义千问2.0发布通义千问App正式上线

阿里：通义千问App上线超越GPT-3.5

阿里云发布通义千问2.0，性能超GPT-3.5，加速追赶GPT-4

文心、讯飞星火之后，通义千问也公布大版本迭代综合性能超GPT-3.5

近期资讯

李继刚：当我们说「提示词」时，到底在说什么？

2024年大模型融资全景：最高800亿，独角兽洗牌，地方国资猛扑

《中国餐饮供应链指南2024》（设备用品及数字化篇）

大红看命，网红孵化“流水线”上的概率游戏

5毛钱帮过关，年轻人的小游戏代打又肝又穷

TikTok的最后一搏

清华梁正教授：为什么AI替代不了人类？

没那么简单，就能找到，辞退的理由

24年的独立游戏，被什么绑架了？

2025 年的十个营销趋势

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响