最强中文大模型，通义千问2.5追上GPT-4了？

作者：雷科技发布时间：2024-05-10

从 ChatGPT（GPT-3.5）发布至今的一年多，大语言模型的迭代速度之快、进步幅度之大，时刻刷新着我们的认知。最近一段时间，各家更是密集发布了新版的大模型，都在追赶和超越最新领先的大模型，甚至逼得 OpenAI 进一步取消了 GPT-4 的限制。

现在阿里云最新的通义千问 2.5 版本也来了，不仅在中文语境下追上了 GPT-4 Turbo，更让人期待的是：在开源和免费的发展策略下，通义千问 2.5 会不会成为大模型落地的分水岭，加速 AI 应用的全面爆发？

这一点还需要我们拭目以待，但至少，通义千问的这一轮升级中再次证明自己的能力和潜力。

通义千问全面升级，中文性能追平 GPT-4 Turbo

5 月 9 日，阿里云正式发布通义千问 2.5，这是其旗下的通义大模型系列的最新版本。与此同时，阿里云还开源通义千问 1100 亿参数模型。

按照阿里云方面的说法，得益于全方位的能力提升，在中文语境下，通义千问 2.5 的文本理解、文本生成、知识问答及生活建议、闲聊及对话、安全风险等多项能力赶超 GPT-4。

图/阿里

而据权威基准测评 OpenCompass 的结果显示，通义千问 2.5 的得分也追平了 GPT-4 Turbo，是第一个做到的国产大模型。

在 LMSYS 最新的大模型对战排行榜中，通义千问（Qwen-Max）暂时位居总榜第 10，中文场景下与 GPT-4 Turbo 并列第 2，仅仅略逊于排在第一的 Claude 3 Opus 和 GPT-4（1106）。

图/ LMSYS

当然，跑分和排行榜很难完全说明大模型的实际性能表现，更遑论最终落到实处的用户体验。

根据介绍，通义千问 2.5 采用了阿里云自研的「问天」架构，并通过大量数据和算法的训练，使得模型的核心性能得到了大幅提升。相比 2.1 版本，2.5 版本通义千问的理解能力、逻辑推理、指令遵循、代码能力分别提升 9%、16%、19%、10%。

简单来说，你可以认为通义千问 2.5 能够更准确地理解自然语言的语义，并识别出其中的细微差别；也能进行更复杂的逻辑推理，并解决更具挑战性的问题等。此外，通义千问版本升级后还新增了文档处理、音视频理解、智能编码等多种能力。

在文档处理上，通义千问 2.5 支持单次最长 1000 万字、100 个文档，覆盖 PDF、Word、Excel，甚至 Markdown 和 EPUB 等多种文件格式。同时不只是正文内容，还可以解析标题、段落、图表等多种数据格式。

图/通义千问

另外在音视频理解上，通义千问 2.5 也支持了实时语音识别、说话人分离等能力，能够提取全文摘要、总结发言、提取关键词等，且支持最多同时上传处理 50 个音视频文件。

这些升级或许看上去没有核心性能的提升来得「性感」，但从实际使用的角度，不管是能一次塞给大模型更大、更多、更多格式的文档，还是音视频的多种能力，其实都在大幅扩展大模型的真实使用场景。

从这个角度来看，通义千问 2.5 的意义就远不只是在性能上追平 GPT-4 Turbo。

另一方面，AI 算力成本的高昂已经广为人知，不管是海外的 ChatGPT Plus（GPT-4）、Gemini Advanced、Claude Pro，还是国内的文心一言会员（文心一言 4.0）、WPS AI 等服务，都有不低的收费。

而面向 C 端用户，通义千问主打一个全功能「免费」。同时通义千问 APP 还升级为「通义 APP」，集成文生图、智能编码、文档解析、音视频理解、视觉生成等全栈能力，想成为用户的「全能 AI 助手」。

不难理解，阿里还是通过免费迅速扩大 C 端用户规模。但在现阶段，B 端用户可能更为关键。

大模型生态落地，开源路线加速

「从 2022 年 9 月发布通义系列模型以来，如今我们的 API 日调用量已经过亿。」5 月 9 日，阿里云 CTO 周靖人在总结通义千问过去一年时指出。

不仅如此，阿里云还透露通义系列大模型已经服务包括新浪微博、小米、中国一汽在内的 9 万家企业用户。发布活动上，阿里云还邀请微博和小米分享了他们对于通义千问的落地应用。

其中微博作为最早的用户，就基于通义千问打造了出圈的官方评论机器人「评论罗伯特」。小米的小爱同学同样也是基于通义千问，强化了在图片生成、图片理解等方面的多模态 AI 生成能力，包括在小米汽车、手机、音箱等硬件上。

事实上，上个月联想发布了内嵌个人智能体的「真 AI PC」，其背后也是通义系列大模型。

图/联想

开源，毋庸置疑是阿里在大模型生态上发展迅猛的关键因素之一。「大到整个产业落地 AI，小到每个企业开发应用，开源技术都至关重要，这一点在全球范围内已经被多次证明，」周靖人在财新的采访中说道。

去年 8 月，阿里宣布通义千问加入开源生态，随着沿着「全模态、全尺寸」的开源路线陆续推出十多款模型，参数规模横跨 5 亿到 1100 亿，并且迅速成为开源大模型社区最受欢迎的开源大模型之一。

图/阿里

其中，1.8B、4B、7B、14B 等小尺寸的通义千问，可以直接在手机、PC 等设备端侧部署运行；72B、110B 等大尺寸模型则更多运行在服务器和数据中心，支持更大规模、更专业的 AI 应用。

而随着通义千问 2.5 的发布，其落地应用还有望得到进一步加速。在开源大模型中，通义千问拥有全尺寸的参数规模，还有目前最强的性能，开发者自然会更倾向基于通义千问的大模型生态进行开发。

更何况，即使相比最领先的闭源大模型，通义千问的差异也拉得很小了。

写在最后

「我们仍处于 AI 发展的初期阶段」，谷歌 CEO 桑达尔·皮查伊在最近一次采访中说道。

过去一年多，AI 世界几乎是一天一变，头部厂商的大模型之争也愈演愈烈，实质也带动了整个生态的前进。事实上，今天打开手机，不提系统自带的 AI 功能，已经有大量的应用都引入了生成式 AI，还在涌现大量的生成式 AI 原生应用。

不过还是不够。所有人都明白，面向普通用户的 AI 应用还没真正迎来爆发时刻，通义千问当然也不可能直接做到，但作为开源大模型，通义千问确实是最有希望推动 AI 应用真正爆发起来的大模型之一。

2024年，AI大模型加速落地，汽车成为黄金场景，“下半场是智能化”成为业界共识。

4月25日，北京车展成为新能源车走向下半场的分水岭，智能化成绝对主角、国产品牌强势崛起、企业家“新车模”成风景线，燃油车、合资车、洋品牌、功能车彻底落寞。

车展期间，雷科技旗下“关注电动车，更懂智能化”的新媒体电车通派出豪华报道团前往北京，进行了系统的一线专业深度报道，一共输出8条视频、8篇深度解析以及海量短内容，全网收获百万+阅读，斩获多篇微信10万+爆款（真实流量），在行业专业媒体引发较大关注。

最强中文大模型，通义千问2.5追上GPT-4了？

推荐体验

相关资讯

赶超GPT-4，中文能力“地表最强”，通义千问2.5来了！国产大模型迈入核心竞技场？

阿里云发布通义千问2.5，全面赶超GPT-4 Turbo，中文能力地表最强

通义千问2.5版本发布，超越GPT-4-Turbo或成全球最强中文大模型

阿里云发布通义千问2.5，赶超GPT-4，千问110B成为全球最强开源大模型

阿里云发布通义千问2.5，中文性能赶超GPT-4 Turbo

近期资讯

振宏线缆取得高压电缆纵切装置专利，可方便调节切刀位置

迈进精密部件取得端子成型剪裁下料机专利，能使用超声波裁剪端子，减少人工成本

南通紫琅生物医药科技申请一种高浓度L-脯氨酸制备脱色处理方法专利，多重过滤方式对L-脯氨酸溶液吸附脱色的效果更佳明显

宁商众联取得一种绝缘导线等长切割机构专利，可同时对多根导线进行精确尺寸的等长切割

浙江锦华申请高选择性生产丁酮肟专利，转化率选择性较高

广元华博精铝取得电容器引脚成型装置专利，适用于规模小的工厂使用

皓元医药申请一种β-内酰胺酶抑制剂中间体及其制备方法专利，具有选择性高，成本低，且简化了后处理的优点

济南康和与鲁盛制药申请维生素A棕榈酸酯3种顺式异构体杂质对照品的制备方法专利，可实现对维生素A棕榈酸酯的顺式异构体的质量控制检测

如何在Mac上有效删除不需要的应用程序，提升使用体验和系统整洁度

盐城海望申请N-烷基咔唑的合成方法专利，实现N‑烷基咔唑的连续化生产

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响