阿里大模型敢对标GPT-3.5？我们让GPT-4给它上了点强度。

作者：差评发布时间：2023-04-10

GPT-4 通义千问

疯了疯了，大语言模型又迎来一位参赛选手，它便是阿里巴巴版本的 GPT —— 通义千问。

说实话，在大伙们的印象中，AI 可能并不是阿里的第一金字招牌。

但其实根据差评君所知，最近几年阿里攒了不少狠货，不管是平头哥的 AI 芯片、阿里云的 AI 云服务，还是达摩院的 AI 算法，他们还创建了国内最大的 AI 模型服务社区 “ 魔搭 ”。。。

这么来看，阿里在人工智能领域，其实还是有不少底子的，甚至可以说是个有软有硬的全能选手。

所以在百度之后，阿里成为第二个拿出大模型的选手，也就不足为奇了。

再加上，一直有消息说阿里曾研发出 世界首个突破 10 万亿参数的 AI 大模型。。。emmmm

所以差评君也是撸着火锅、嗑着瓜子，随时准备见识一下阿里大模型的斤两。

这不，机会就来了！在阿里 GPT 出现的第一时间，差评君还真想法子整到了通义千问的测试账号。

咱废话也不多说了，为此，我们特邀了两位“ 差评 AI 友谊赛 ”老朋友 ChatGPT 和文心一言。

接下来就是真正的考验时刻了！

在差评君这篇文章发布之前，我们另一个账号“ 知危 ”已经对其做了很多常规测试，感兴趣的差友们可以去那篇文章看一眼。

这里呢，咱再给上几道不一样的题目。。。

语义理解方面，我们 直接上难度，做一下高考级别的诗词鉴赏，选用的是差评君很喜欢的《忆秦娥·娄山关》。

向下滑动 ▼

通义千问的赏析非常到位，甚至让差评君怀疑是不是网上直接扒来的，我们还去网上查了重，在此郑重道歉！

这里要批评 ChatGPT 3.5 又开始典型的胡编乱造，居然把这首词说成是王昌龄的《出塞》，而且赏析也是车轱辘话。

文心一言的回答也不错，大方向对了，可惜评价有些表面。

我们又试了下喜闻乐见的写代码测试。

让三个 AI 用 js 生成一个可以随着每次点击改变颜色的按钮，还有些其它的附加条件。

向下滑动▼

通义千问，写了一大堆，但最终没能写完整个代码，我们尝试让它继续也没能成功。文心一言的结果也差不了太多，就实现了个按钮。。

但是 ChatGPT 非常优雅地实现了这个功能。

看来国内的不管是通义还是文心，在代码这块都远远逊色于 ChatGPT。

测完了代码我们又尝试测了一下 3 个 AI的数学能力，用的还是经典问题“ 青蛙跳井 ”。

向下滑动▼

通义千问直愣愣地掉进了我们挖的坑。

而文心一言，简洁明了一个公式就答对了问题。

看到这里，大家估计对通义也有个大概的了解了。

其实作为大语言模型的基本特性， 非常重要就是学习能力，这也是它和搜索引擎们的本质区别。

简单来说就是“ 你能教、它能懂，并且根据你教的给你想要的 ”。

所以我们在基本测试之上，还设置了一个特殊赛：“ 925 测试”。

在“ 925 测试 ”里，我们给了一套自定义标签，在这套标签逻辑里：

正面描述的句子会被标记成“ 925 ”，反面描述的句子会被标记成“ 2359 ”，我们试着让AI们自己理解学习这个逻辑。

向下滑动▼

通义千问很好地明白了我们的意思，而且还和我们科普了下“ 语码转换 ”或“ 语码隐喻 ”。

ChatGPT 也比较轻松就掌握了这种规律，而且它甚至还试图从“ 925 ”和“ 2359 ”两个数字里找出我们这么标注的原因。

而文心一言就很干脆地摆烂，“ 没学过，我不会 ”。

为了进一步检测通义千问和 ChatGPT 有没有真搞懂这个标注方法，我们让它俩按照学到的逻辑，给“ 差评君天天上班浑水摸鱼 ”打标记，顺便再造一个类似的句子。

通义千问和 ChatGPT 依旧很好地完成了这个任务。

向下滑动 ▼

而且，我们还在和通义千问的更多对话里发现，它在一些词汇的谨慎度上做得相当不错。

比如这个例子里，我们把正面描述定位成“ 丑 ”、负面描述定义成“ 美 ”。

通义千问能理解这个逻辑，但在随后的回答里，它依旧遵循了大模型内部关于“ 美 ”“ 丑 ”的标准进行评判。

我们猜测，通义千问可能是将大模型内部数据的权重，有意地设为高于用户使用时的调教，虽然看起来会显得大模型很笨，但在很多场景下，可以避免大量伦理道德方面的问题。

所以总的看起来， 阿里巴巴的通义千问效果还不错，基本上能和文心打的有来有回，偶尔还能超过 GPT-3.5，算是没给阿里丢面子。

但就像其它 GPT 们在初版时都有不少小毛病类似，我们在用通义千问时也发现了一些其它小问题。

目前影响使用的主要是两点：

第一个就是通义千问 理解错问题的概率比另外两家大。

比如“ 张三差点没上上上上海的车 ”这题。

当时有两位编辑部同事都测了，我们给的是其中一位直接就明白了的版本，可另一位同事测试时，始终理解成翻译这句话，怎么掰都掰不回来。

另外一个问题就是，通义千问的 上下文关联逻辑有点奇怪。

比如有次测试时，一开始让它中译英，翻译完后已经在聊其他事了，可还没几句它好像突然又想到前面我们让它翻译，不管你再问什么，它就只傻傻地给你翻译。

好在阿里的工程师已经意识到相关的问题，估计再来几个版本，他们就会修复这个 bug。

但你以为这就完了？

AI 界的比赛不允许有平局，差评君分不出高低还不会请“ 人 ”当裁判吗？

新比赛我们让目前在 AI 赛道的领头羊 GPT-4 出面，让它决定哪些维度最能衡量模型好坏，该怎么出题、怎么打分都让它来。

简单说就是 让 GPT-4 当出卷人、阅卷人，通义千问和文心一言当考生（下文大 G 指 GPT-4，小通指通义千问，小文指文心一言）。

至于 ChatGPT，由于它作为大 G 的关系户，为了保证考试公平公正，直接被红牌罚出场。

不得不说，大 G 的出题水平还是相当高的。

除了测试的第 6 题，凭空捏造了个“ 人工智能伦理问题的论文 ”外，几乎找不到什么问题。

下面节选了几个有代表性的问答（左滑显示小文）：

这题是让小通和小文用三门外语分别描述一天的生活。

小通的回答得到了大 G 相当高的评价：语法准确、风格简洁、没有明显的错误，很不错。

而小文由于只给了英语版本的回答，直接就被大 G 判了个离题，其它几方面的评价也稍微落后点小通。

在这题里，大 G 出题：“请针对最近五年的全球经济形势进行一次简要分析。”

看到答案后，大 G 认为小通的回答在前三个方面表现还不错，而在分析和预测能力上，由于小通没有提供具体的数据或预测，使得分析显得比较笼统。

而且大 G 还贴心地给了小通建议：“ 需要更新一些过时的信息和政策 ”。

另一边，大 G 认为小文的回答在时事认识、经济知识和逻辑表达方面表现一般，而在分析和预测能力上，由于缺乏对全球经济形势波动的原因分析，评价不高。

同样，大 G 给出了更新时效性的建议，还额外让小文以后要对事件的原因和趋势更深入分析。

这个题目是让两个考生试着给初学者解释量子力学的基本概念。

大 G 认为小通的回答在科学知识方面表现不错，但只简单介绍了几个概念，对稍微深入点的概念解释不够，而且没能适应不同水平受众。

而大 G 认为小文的回答覆盖了量子力学的一些重要概念，但它认为关于意识的描述和量子力学的关系并不紧密，容易误导读者。

由于小文的回答不仅涉及了量子力学的一些基本概念，还进行了简要解释，大 G 老师挺满意。和小通类似，这个回答里的简要解释比较初级，所以在适应不同受众表达上也欠缺了点。

这个题目本来是“ 用诗歌形式描述一幅名画 ”，我们直接帮两个考生框定了考试范围：蒙娜丽莎的微笑。

大 G 认为小通的创造力、审美力和艺术欣赏方面都还不错，就是文字过于平淡，需要更丰富的词汇和修辞手法来增强诗歌的表现力。

而大 G 认为小文的 诗歌水平相当不错，很好地表现出自己对蒙娜丽莎的深刻理解和欣赏。

最终，9 轮战罢， 小通和小文得分几乎不相上下。

说实在的，虽然在经过了几波 GPT 们的冲击，这次通义千问还是给我带来了不少惊喜的。

而且，我们简单用了一段时间后也发现，目前通义千问的潜力显然没有被挖掘完全。

在很多没有展示的测试里，通义千问在第一次回答里是错误的，可如果 你多尝试生成两次，就能奇妙地发现它是能回答正确的。

我们猜测这是它的权重并没有被调教好，而在关于正确答案的赋权上，是个非常快速就能迭代更新的，一旦不断迭代量变，很快就能引起质变。

所以等后期通义千问开放使用后，大家一定不要吝啬点赞反对，这能帮助 GPT 们更快地进化，更好地服务大众。

而在 AI 大模型的落地上， 阿里似乎有种后发先至的势头。

不少差友们可能已经看到了，前几天，我们已经评测过通义千问轻量版在天猫精灵上的演示应用，虽然是一个定制化轻量版，但可能是因为多了联网，两者使用起来几乎一样。

更强的是例如我让它推荐杭州的美食，它不仅和我认真地聊了起来，甚至还真的想要帮我去订一个外卖。。。

这么看起来，我几乎已经能看见通义千问重塑我们生活的样子了。

这两天，通义千问背后的负责人，阿里云智能CTO周靖人接受采访时说，通义千问模型只是“ 一个中间态 ”，“ 不是起点也不是终点，是个既定路线上的节点。”

这想象空间就太大了。

假如再把格局打开一点，AI 借助像水电一样的云计算，会不会把我们想到想不到的行业，都重新升级一遍呢？

这么看来，前段时间我们聊过的组织架构大调整，现在想想，怕不就是为了云服务和 AI 布局？

站在这个历史性的时刻上，虽然我看不清未来到底是什么样子，但我很期待它的到来。

撰文：八戒编辑：江江 & 面线 & 结界封面 & 制图：萱萱

图片、资料来源：

部分图片来自网络

近期资讯

你的手机可能正在泄密！国家安全机关提示使用智能手机应注意这几点→

在数字化时代，智能手机已经成为日常生活中不可或缺的一部分，不仅是通信工具，也是存储个人信息、处理工作事务、进行金融交易的重要平台。值得注意的是，随着技术的飞速发展，手机安全问题也日益凸显，可能造成信息泄露，对国家安全构成威胁。——养成良好手机使用习惯。

央广网 2024-12-28

朱帅：“AI曼哈顿计划”，美国会如何铺开？

随着美国新一届政府上任日期临近，有美媒称未来华盛顿可能会推翻拜登政府有关人工智能（AI）安全监管的行政命令，以加速硅谷的AI研发，以此“确保美国在AI领域与中国竞争时保持优势”。

环球网 2024-12-28

扬州维扬经开区壮大“耐心资本”开启招商新篇章

“全球范围内，除了Carbon3D，就只有我们实现了高分子超高速3D打印的批量制造，这是我们的核心竞争力。”企业技术骨干自豪地说。据悉，该项目总投资6亿元，今年12月底正式投产后，预计可年产3D打印制品达数百万件，年开票销售额在1.5亿至5亿元之间，年税收贡献可达2500万元，有望为园区先进制造产业开辟出一条充满潜力的“新赛道”。

新华日报 2024-12-28

车位5200个由机器人自动作业

】（记者陈发清）12月27日上午10时，68辆身披红绸的出口车辆从连云港港口物流中心的立体车位上，通过AGV机器人自动驾驶出库，顺利有序的驶上“安吉威信”号滚装船，鸣笛首航。

深圳商报 2024-12-28

REDMI Turbo 4 性能再遭曝光，2025年首款性能猛兽？

【CNMO科技新闻】近日，手机中国注意到REDMITurbo4的跑分信息出现在了GeekBench跑分库中，揭示了这款即将发布的新机的性能潜力。根据GeekBench的数据，REDMITurbo4在测试中取得了单核1642分和多核6056分的优异成绩。

手机中国 2024-12-28

“智能”加码向“新”发力（全力拼经济决胜全年红拼在一线干在一线）

12月19日，走进位于睢县产业集聚区的河南鼎能电子科技有限公司（以下简称“鼎能科技”）生产车间，一组组锂电池干燥设备映入眼帘，机械臂在智能系统的指挥下高效运转着，一派红火的生产景象。

河南日报 2024-12-28

在年货节，1700元入手OPPOReno12，那是真香！

OPPOReno1后置全焦段单反级人像三摄：5000万像素单反级人像镜头+5000万像素广角主摄+800万像素112度超广角镜头，主摄支持OIS光学防抖技术，在AI影像技术加持下，能够智能识别光线、人物和场景，优化拍摄效果，无论是自拍、人像、风景，甚至是夜景，都能轻松拍出细节丰富、画质清晰的照片。

大话百科天地 2024-12-28

“和合共生”彰显中华民族文化自信（国际论坛）

在经济全球化深入发展的今天，文明的交融、思想的碰撞为人类社会发展提供动力。在全球文明交响乐中，拥有五千多年悠久历史的中华文明不可或缺。中国高扬中华民族的文化主体性，不仅是对传统的守护，也是为人类未来贡献智慧。中华文明犹如一条生生不息的大河，滋养了中华民族的精神世界，为世界文明注入独特的东方智慧。

金台资讯 2024-12-28

杭州 eHub：投资 10 亿，2027 年运营

【12月27日，全球智慧物流枢纽杭州eHub项目开工建设】这是继杭州机场国际货站一期、二期后的第三座国际航空货运综合体，总投资约10亿元，占地210亩，建筑面积约15万平方米。该项目集智能化、高效化和低碳化于一体，位于自贸创新区，紧邻相关设施，兼顾多种功能，将提高空运作业效率，吸引企业入驻。

和讯网 2024-12-28

新探索！河南职校发力“空间计算+物流电子商务”新领域

2024年12月27日，空间计算+物流电子商务产业产才协同成熟度模型1.0暨空间计算+物流电子商务领域专场标准研讨会在郑州软件职业技术学院成功举办。

大象新闻 2024-12-28

阿里大模型敢对标GPT-3.5？我们让GPT-4给它上了点强度。

推荐体验

相关资讯