通义千问2.0来了！实测编程打败8成Python用户，阿里云大模型「全家桶」炸场

作者：智东西发布时间：2023-11-14

通义千问编程

作者 | 三北

编辑 | 漠影

时隔六个月，阿里云对标GPT-4的大模型终于来了！

今日，在2023云栖大会上，阿里云推出千亿级参数大模型通义千问2.0，它在多个测评中综合性能超越GPT-3.5，加速追赶GPT-4。

能力升级体现在实测体感上。比如，当智东西用基于通义千问2.0的智能代码助手解决一个Python问题：“返回所给字符串中最后一个单词的长度”的需求，输出结果在权威测试平台力扣上验得正确，直接击败了83.17%的Python3用户。

▲智东西用通义灵码通过权威代码测试平台的测试

同时，阿里云扔出一个AI「全家桶」，从IaaS（基础设施即服务）、PaaS（平台即服务）和MaaS（模型即服务）全方位秀出“肌肉”：

1、加速追赶GPT-4，千亿级参数的通义千问2.0发布，通义千问APP和官网全新上线。

2、基于通义大模型训练的8大行业模型组团上线。

▲基于通义大模型训练的8大行业模型

3、发布一站式大模型应用开发平台「阿里云百炼」，开发者可在5分钟内开发一款大模型应用，几小时即可“炼”出一个企业专属模型。

4、一年时间，魔搭社区模型下载量已突破1亿，累计为开发者贡献了3000万小时的免费GPU算力。

5、作为中国最早开源大模型的科技巨头，阿里云坚定开源开放，预告将开源通义千问720亿参数版本。

6、阿里云宣布给中国所有大学生每人送一台云服务器。

7、阿里云人工智能平台PAI全新升级，中国大模型公司有一半跑在阿里云上。

阿里云CTO周靖人对智东西等媒体说，全球AI浪潮才刚刚开始，我们笃定这次的转型是深远的。本次AI技术变革的本质，是背后整个计算机技术体系的全面升级。

那么面向AI浪潮，阿里云的大模型产品及服务实力如何？作为全球第三、国内第一大云服务厂商，阿里云又在AI基础设施方面有哪些布局准备？

通过对话周靖人，并实测通义千问2.0等新品，智东西对此进行了深入探讨。

一、加速追赶GPT-4，千亿级参数通义千问2.0来了

“相比于GPT-3.5有很大的胜利，相比GPT-4.0各有胜负。”这是阿里云官方对其今日正式发布的通义千问2.0的评价。

在MMLU、AGIEval、C-Eval等10大主流测评集上，通义千问2.0综合性能超过GPT-3.5，加速追赶GPT-4。自今年4月通义千问大模型发布以来，二代版本已经迭代至千亿参数规模级别，在复杂执行理解、创作、数学、逻辑等能力上实现进化。

通用测评集很重要，实际使用的体感也很重要。

今日，阿里云通义千问APP正式发布，支持通义千问2.0所有人可用，智东西第一时间对其进行了体验。

当智东西体验通义千问2.0时，首先感到惊喜的是图片理解能力。当我输入一张照片及“请描述图片”的提示词，通义千问言简意赅地描述了图中有海水、青山、蓝天、船、年轻人等要素。

▲基于通义千问2.0的图片理解功能体验

当我一步追问照片中涉及的海域，通义千问通过图中的长尾船，推测出正确答案——泰国的海域，这令我十分震撼，因为一般人都很难分辨出来。这一图像识别能力和推理能力结合，正是通义千问2.0新增的多模态交互技术升级。

▲基于通义千问2.0的图片理解功能体验

同样值得一提的是对逻辑要求更高的编程，当智东西输入一个SQL编程需求，要求其解答“计算表t中b字段的count distinct值，按照a字段分组，有哪几种实现方法？”，通义千问立马给出了答案，同样是一个正确答案。

▲基于通义千问2.0的SQL编程

然后我找了一个程序员朋友给它上了个难度。

将代码在本地运行以后就出现了这个小游戏：

而在文本的输入和生成上，我感觉通义千问2.0的学习能力和生成效果更好了。

比如，当让通义千问2.0帮我写一份直播剧本，给它一个机械键盘的直播剧本给其参考，将直播的商品定为现代汉语词典，通义千问2.0可以输出一份直接可用的直播剧本，不仅符合直播要求，还结合词典产品本身特点。据悉，背后是理解、记忆、逻辑等能力的综合应用。

▲通义千问2.0生成的直播带货剧本

通义千问2.0可以用于日常的文本扩写，比如将“构建未来智能网络，是推动AI发展的重大需求。”扩写，其输出结果提及了“设备、系统、数据及用户”几个重要对象，整体逻辑也没有太大问题，不过仍有一些“废话文学”。

▲通义千问2.0文本扩写功能

不仅能扩写，通义千问2.0也能玩梗，比如一些比较新的网红用语“栓Q”、“早F晚E”，都能够解释地清楚明白。

▲通义千问2.0“玩梗”

用通义千问2.0助力写社交媒体文案，比如我让它用小红书风格，写一篇“青岛爬崂山”的文案，只要参考提供的提示词模板说清楚了需求，就能够获得非常贴合需求的内容。

▲用通义千问2.0撰写小红书稿件

实测发现，通义千问2.0在体验中“智商”和“情商”都提高了。阿里云相关人士称，背后通义千问2.0基于更大的参数规模和更先进的对齐技术，在复杂指令理解、文学创作能力、通用数学能力、知识记忆、幻觉抵御等能力维度上表现优异。

二、8大行业模型组团上线：百行代码AI数秒生成，对话机器人具备人格

大模型要在应用体感中检验效果，阿里云本次推出了八大行业模型，圈定了金融、医疗、法律、软件、个性化创作等八个领域，为行业带来降本增效或体验升级。

▲通义大模型家族全面升级

以大模型竞赛中的“上甘岭”、工作难度大的代码编程场景为例，智能代码助手「通义灵码」支持“不到1分钟居然生成了贪吃蛇的小程序”、“几秒钟生成100多行代码”，“不懂编程的运营员也能写前端页面”，有望大大解放软件业开发效率。

▲智能编程助手「通义灵码」

在智东西的体验中，我亲身感受到了「通义灵码」在代码上的“天赋”。比如我提出“返回所给字符串中最后一个单词的长度”的需求，通义灵码写出了正确答案。在权威测试平台力扣验证，灵码写的代码被判定正确，并击败了83.17%的Python3用户。

▲智东西用通义灵码通过权威代码测试平台的测试

个性化角色创作平台「通义星尘」也独具特色。用户通过「通义星尘」能够生成的定制化机器人对话，就像在和一个个性鲜明的真人在对话。同时通义星尘支持定义第三方角色，用户将人之前的对话素材给到大模型，就能够快速生成个性化角色。

工作学习AI助手通义听悟累积用户已超100万，每天处理音视频达5万余个。

周靖人告诉智东西，阿里云的真正目不是为了做C（消费者）端应用，而是为了把大模型能力释放给广大开发者及客户。阿里云将提供网页嵌入、API与SDK调用等集成方式，加速应用落地。

三、掀起大模型技术平权革命：5分钟就能开发一个大模型应用

本次大会上，阿里云还发布了一站式大模型应用开发平台「阿里云百炼」，不仅支持阿里云通义千问系列大模型，还支持更多第三方大模型，是一个助开发者降低大模型开发门槛的工具链。

▲阿里云百炼平台

通过阿里云百炼，开发者可在5分钟内开发一款大模型应用，几小时“炼”出一个专属模型。通过一键选用、二次训练，或通过“拖拉拽”的方式，用户就能进行应用开发，大大提高了开发效率，并能保障安全。

目前，央视网、朗新科技、亚信科技等企业已率先在阿里云百炼上开发专属模型和应用。

朗新科技是一家电力能源消费领域的头部企业，基于阿里云百炼平台成功训练出了一款电力行业专属大模型，开发“电力账单解读智能助手”“电力行业政策解析/数据分析助手”，为客户接待提效50%、降低投诉70%。

除了阿里云百炼外，本次云栖大会上，阿里云还亮出了全新升级的人工智能平台PAI，可以极大提升企业训练和推理大模型的效率。据了解，PAI底层采用HPN 7.0新一代AI集群网络架构，支持10万卡量级的集群可扩展规模，大规模训练线性拓展效率高达96%，远超业界水平；大模型训练中，可节省超50%算力资源。

值得一提的是，基于人工智能平台PAI，目前国内已有一半大模型企业跑在阿里云上。据悉，百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等大批头部企业和机构都在阿里云上训练大模型。

百川智能CEO王小川分享了“半年发7款大模型”背后不为人知的成功原因。其中就离不开云计算设施的支持。王小川说，百川和阿里云进行了深入合作，在双方的共同努力下，百川很好地完成了千卡大模型训练任务，有效降低了模型推理成本。

AI产业化逐步深入，得算力者得天下。随着推理需求未来爆发，阿里云有望为AI大模型产业化落地提供更好的底座支持。

结语：阿里云AI「全宇宙」爆发，AI基础设施全面进化

随着「百模大战」进入深水区，互联网巨头、AI创企及行业龙头纷纷交出了最新答卷。本次阿里云不仅推出最新通义千问大模型版本，还推出了八大行业大模型、大模型应用开发平台，并从AI基础设施层面全方位布局，本次发布可谓阿里云的AI「全宇宙」爆发。

AI技术变革的本质，是背后整个计算机技术体系的全面升级。大模型研发与落地是一个系统工程，只有强大的云计算体系才能炼出高质量的大模型，促进国产AI的进一步发展。

根据工作需要，经中国一汽研究决定，自2024年12月25日起：潘占福同志不再担任一汽-大众董事、党委书记、总经理，调回中国一汽工作，中国第一汽车集团有限公司党委常委、副总经理陈彬同志兼任一汽-大众党委书记、总经理；聂强同志任一汽-大众党委副书记、工会负责人，不再担任一汽-大众副总经理（商务）及销售公司总经理、党委书记，吴迎凯同志接替聂强同志担任一汽-大众副总经理（商务）及销售公司总经理、党委书记。潘占福同志任职期间，汽车产业正值加速变革、乘势而上的新发展阶段。面对芯片严重短缺、新冠疫情反复、多轮价格战等

有事郝说 2024-12-25

来了！BWOS元响 2024MECA中国真实全景声品鉴会

由BWOS元响独家冠名的2024年MECA中国真实全景声品鉴会将于12月28-29日在广州白云国际会展中心举行。本次品鉴会聚焦“全景声”这一前沿音频技术，将在现场全面展现全景声技术在车载与家庭影音领域的极致魅力。 [图片] 亮点一、体验全球首款真实全景声音响改装车 28日，品鉴会将展出由元响设计的全球首款真实全景声音响改装车，其通过先进的音频解析技术与精心设计的音响布局，实现了远超原装车的空间穿越感。亮点二、元响车载主机首次亮相 28日，元响车载全景声主机将在品鉴会上首次曝光。这款主机具备全车型真全景声

元响 2024-12-25

nssm 工具入门

程序员bee 2024-12-25

“阴离子在胶体”中高可逆锌金属阳极的深共晶电解质

[图片] 研究内容作为水系电池有前景的阳极材料，锌金属由于严重的锌枝晶、阴离子相关副反应、析氢反应（HER）以及狭窄的电化学稳定窗口（ESW）而受到限制。为此，设计了一种“胶体中阴离子”的水合深共晶电解质，该电解质由Zn(ClO ) · 6H O、β4 2 2环糊精（β-CD）和H O组成，质量比为7:4.5:3（ACDE-3），以提高锌阳极的稳定性。ACDE-3重新配置了氢键（HB）网络并调节了溶剂化壳。更重要的是，ACDE-3中的羟基丰富的β-环糊精（β-CDs）自组装成胶束，在这些胶束中，相邻β

知行剑侠 2024-12-25

中国专利答审 | 审查背后的逻辑 - 审查员为什么大量使用公知常识

熟悉中国专利答审的读者都知道，针对公知常识的审查意见，申请人有权利要求审查员提供证据。既然如此，为什么审查员还是会大量使用公知常识作为评述理由，而不是直接给出证据呢？想要弄清楚这一问题，就需要剖析公知常识背后的审查逻辑。 01为什么大量使用公知常识？根据《审查指南》第二部分第四章3.2.1.1节，中国审查员在判断创造性时，是需要遵循“三步法”的：步骤1、确定最接近的现有技术；步骤2、确定发明的区别特征和发明实际解决的技术问题；步骤3、判断要求保护的发明对本领域的技术人员来说是否显而易见。其中，针对步骤3，

知产观察力 2024-12-25

vivo S20系列——美的见证者，自拍与摄影的双重盛宴

在手机影像技术日新月异的今天，vivo S20的推出无疑为摄影爱好者带来了新的惊喜。作为S系列的最新成员，它在影像方面进行了全方位升级，通过旗舰级影像系统和先进算法优化带来旗舰级的拍摄体验。不仅拥有旗舰级性能，影像实力也很强。下面来看看详细情况。vivo S系列创新了多巴胺live动态照片功能，不仅能够记录笑容形成的全过程，捕捉更多情境细节，还能自动为Live内容生成精美的照片边框。可以在抖音、微博、小红书、美图秀秀、美颜相机等平台分享，方便快捷地展现自己的精彩瞬间。另外还有一拍得胶片功能，四套

黑米评测 2024-12-25

通义千问2.0来了！实测编程打败8成Python用户，阿里云大模型「全家桶」炸场

推荐体验

相关资讯