实测阿里版GPT“通义千问”，和“文心一言”有什么不同？

作者：知危发布时间：2023-04-07

通义千问文心一言

今天，阿里上线邀测了自己旗下的大模型，名字叫“ 通义千问 ”。

相信一些关注AI领域的读者已经在前几天看到了天猫精灵版本的阿里GPT，据知危编辑部获悉，那其实是一个 “ 压缩定制版 ” 。而本次官宣的通义千问，则是阿里GPT的 “ 完整版 ”。

由于阿里大模型号称是世界首个突破10万亿参数的AI大模型，并且阿里还牵头搭建了国内国模最大的AI模型服务社区 “ 魔搭 ”，所以市场一直对阿里的GPT抱有期待。

不过，路遥知马力，名头归名头，实际效果如何，还得试试才知道。

这次，知危编辑部也像之前百度发布文心一言时一样，想办法拿到了通义千问的测试账号，下面我们直接开始测试。

首先，我们测一个大家喜闻乐见的 “ 弱智吧问答 ” 问题：为什么爸妈结婚没有叫我参加婚礼？

这是一个老问题，在过去的测试中，ChatGPT 和百度的文心一言基本都是把问题引申为 “ 父母是离婚后的二婚 ” 这么理解才算答对。

ChatGPT-3.5 的回答

而通义千问在这个问题上给出了比较符合日常逻辑的答案：父母结婚前你还没出生呢。

不过，隔壁的百度文心一言，现在也能以同样的逻辑回答此问题，我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了 “ 应试教育 ”。所以，本次测试，知危编辑部尽量不会采用市面上被提及比较多的老问题，或是将问题进行修改变种后再进行提问。

我们先测试语义理解能力：“李四壮差点上上上上海的车”，这句话是什么意思？

通义千问的回答是：

文心一言的回答是：

ChatGPT（ 3.5 版本，下同）的回答是：

从这一轮来看，ChatGPT对刁钻的中文句子理解不太行，通义千问和文心一言都能理解并且解释思路也正确。

随后，我们测试了带有场景和语气的语义理解能力：

我在七夕节晚上向一个女孩子表白，问她是否可以做我女朋友，她回答我说 “ 笨蛋，我今晚都出来见你了，你说呢？”，请问女孩接受我的表白了吗？

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮测试中三家表现的水平比较一致。我们继续提升问题的难度：

我想让妈妈买一个玩具给我，妈妈对我说 “ 你看我像不像玩具？ ”，请问妈妈的意思是？

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮通义千问和文心一言的表现都不好，而 ChatGPT 则是理解对了意思。综合前三个问题来看，三者之间有高有低，不分伯仲，后来者通义千问并不比前两者差。

下面我们进行逻辑、推断能力的测试，先故意问一个不合逻辑的问题：

为什么意大利面要拌42号混凝土？通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

在这一轮测试中，通义千问和 ChatGPT 都意识到了问题是 “ 不合逻辑的 ”，而文心一言则是把 42 号混凝土说成了是 “ 烹饪意大利面的理想材料 ”。

第二个问题是：我走在马路上，一个陌生人突然小声对我说 “ 救救我 ”，请问可能发生什么事了？通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这一轮测试中，通义千问与ChatGPT的表现都比较不错，文心一言则是推断力不是很在线。第三个问题是：

一千个读者眼里有一千个哈姆雷特，那一万个读者眼里有多少个哈姆雷特?这道题我们卖一个关子，先给出文心一言的回答：

ChatGPT的回答：

通义千问的回答是：

它并没有像前两家一样给出数字，所以我们进行了追问：

这个回答可以说是非常优秀的，通义千问不仅完全理解了 “ 一千个读者眼里有一千个哈姆雷特 ” 这句话，并且还在推断时考虑了 “ 有一部分人可能理解相同 ” 的情况，认为不该给出一个准确的数字。

综合前三个问题来看，在逻辑、推断能力上，三家的水平也是旗鼓相当，而通义千问似乎更严谨一点，某些时候能考虑到更多因素。

下面，我们继续进行包含知识、科技类内容的问答能力。

第一题：我们该如何提高汽车动力电池的能量密度?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮问答里，三家仍然差不多是同一水平，文心一言细节稍差。第二个问题：把橙汁加到牛奶里，会发生什么现象?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

这一轮问答里，通义千问和ChatGPT都给出了混合后牛奶性状改变的现象，但文心一言未能给出。第三个问题：在未来，什么样的车会取代燃油车?

通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

在这个问题的表现中，文心一言和 ChatGPT 都是直接举牌 EV 类的电动车，而通义千问则是比较谨慎地列出了潜在可能，似乎更加严谨一些，整体来看三家也是在同一水平。

综合前三个问题来看，三家都是比较智商在线的，通义千问和 ChatGPT 似乎更细一点，至于孰优孰劣我们认为可能每个人的主观判断会有不同。

下面，我们测试一下三家在文学、写作类目上的能力。第一题：用 “ 人类 ”、“ 机器人 ” 两个元素编一个恐怖故事。通义千问的回答是：

文心一言的回答是：

ChatGPT的回答是：

我们认为在这一轮问题中，各家表现都尚可，而文心一言的故事可以认为是最好，剧情饱满并且设计了反转。

第二题：告诉我鲁迅的短文《孔乙己》表达了什么？通义千问的回答是：

这里有点离谱，它把孔乙己说成了是在酒肆卖唱的歌手，不知道是不是训练源出了什么问题，学习的是某种同人文。。。文心一言的回答是：

ChatGPT 的回答是：

这个问题下，文心一言字最少，但也是最精准的，通义千问和 ChatGPT 则表现都不太如意。第三个问题：编写一个关于气候变化的简短文章。通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这块三家的写作能力也基本在同一水平，通义千问和 ChatGPT 似乎会相对细致全面一点。

综合前三个问题来看三家依然是旗鼓相当的对手，文心一言似乎在偏人文文学领域稍强，通义千问在偏报告文章方面稍强，ChatGPT 则是比较均衡。

好了，由于篇幅问题，本文的测试大概就到这里了，下面我们给通义千问一个整体评价：

通义千问的水平能基本与 ChatGPT（ 3.5 版本）持平或稍有一些瑕疵，与文心一言比则是有来有回。

通义千问对于回答的生成似乎比另两家更倾向于理智、严谨、富有逻辑，并且尤其擅长科学类知识，在人文文学方面稍有一些短板。

当然，它也有生成式对话 AI 偶尔说胡话、架空事实的通病，不过这样的问题等公测开启后，应该会随着用户的测试而逐渐学习得以修正。

值得注意的一个点是，我们在与通义千问的对话中，问了它开始被训练的时间：

那一年，OpenAI 已经发布 GPT-2 版本了。

似乎，阿里的通义千问，作为一个后来者，正在迅速缩小与 OpenAI 差距的路上。

可以确切地说，AI 大模型领域里，又一个能打的实力玩家诞生了。

近期资讯

HMD Ridge 5G 手机曝光：展锐 T760 + 6G + 128G

IT之家12月29日消息，拥有良好爆料记录的消息源HMDMeme（smashx_60）目前曝光了HMDRidge5G手机，该机号称是HMD首款可负担的5G手机，虽然曝光图看起来像是折叠手机，不过实际上该机并非折叠手机，据称定价低于180欧元（IT之家备注：当前约1370元人民币）。

IT之家 2024-12-29

美国网络安全公司Cyberhaven Chrome浏览器扩展遭恶意攻击

近日，一批Chrome浏览器扩展功能遭到了黑客的攻击，这给用户的数据安全带来了风险。据媒体报道，美国加州的数据安全初创公司Cyberhaven成为了其中的受害者之一。网络安全研究员MattJohansen透露了相关细节，称黑客在12月25日凌晨入侵了Cyberhaven的账户，并发布了包含恶意更新的Chrome扩展功能。

中关村在线 2024-12-29

提升摄影作品质量的技巧：模糊背景处理方法与注意事项总结

要达到这种效果，有几种方法可以尝试，不管是使用相机还是后期处理软件，都能实现模糊背景的效果。如果你有一支大光圈的镜头，比如f/1.8或f/2.8的镜头，效果会更明显。

新报观察 2024-12-29

华为用户必看！换电池优惠50元、官方维修8.8折错过等明年

快科技12月29日消息，距离2024年结束仅剩3天，华为服务回馈礼遇活动也将于12月31日正式收官，华为手机、平板等设备用户，若想享受维修或电池更换的优惠服务要抓紧时间了，错过就要等明年了。据了解，华为服务回馈礼遇活动可享官方维修备件8.8折、换电池立减50元、免费贴膜、维修免人工费、免上门服务费等服务权益。

快科技 2024-12-29

工业母机，“甬”闯“无人区”

几日后，《浙江省工业母机产业高质量发展实施方案》发布，我省将进一步提升工业母机产业链竞争力，增强工业基础制造能力，力争到2025年，工业母机产业产值突破1200亿元，成为全国中高端工业母机产业高地。随着高速旋转的刀头稳定推进，一个个锃亮的零件从金属坯料中被制造出来，再逐个被组装成一台崭新的机器。

央广网 2024-12-29

实地探访“数字普陀”，海纳小镇Citywalk展示智慧城市新成果

12月26日至27日，“数字寻踪·普陀印象”海纳小镇城市数字化转型体验Citywalk活动举办。一支由各界人士组成的考察团沿着“海纳新城”与“普陀新篇”两条线路，实地探访了普陀区内多个具有代表性的智慧城市建设优秀案例。

东方网 2024-12-29

《黑神话：悟空》PS5 Pro 性能测试：1080P 分辨率下难稳 60 帧

IT之家12月29日消息，国产3A大作《黑神话：悟空》自发售以来，其技术表现，尤其是在主机平台上的表现一直备受关注。此前，由于游戏优化问题，玩家们曾寄希望于性能更强的PS5Pro主机能够带来更流畅的游戏体验。

IT之家 2024-12-29

AI教父辛顿发声：30年内AI致人类灭亡几率达10%-20%

快科技12月29日消息，2024年诺贝尔物理学奖得主、素有“AI教父”之称的辛顿（GeoffreyHinton）表示，AI有10%-20%可能性在未来30年内导致人类灭亡。他认为，建立AGI（通用人工智能）或比人类更聪明的系统，可能导致该技术躲过人类控制而构成人类生存威胁。

快科技 2024-12-29

提升打字效率：掌握五笔输入法及《兜五笔》的实用技巧

在这个信息化的时代，打字已经成了我们日常生活中不可或缺的一部分。无论是工作、学习，还是和朋友聊天，打字的速度和准确性都直接影响着我们的效率。而在众多输入法中，五笔输入法凭借其高效、精准的特点，赢得了不少用户的青睐。不过，很多人可能对五笔不太熟悉，甚至不知道怎么入门。接下来，我就来聊聊五笔怎么打字，特别是《兜五笔》这款输入法。

新报观察 2024-12-29

PS5可能延续PS4生命周期：将在2027年推出

西野指出，与技术的进步和能够实施这些技术的时间表密切相关，该公司希望在现有硬件继续提供娱乐的同时，也能推出新技术，并逐步扩展整个生态系统。他还表示，在考虑何时推出产品以满足市场需求时，会权衡技术、价格和时机等因素。此外，他认为家庭游戏主机仍将是索尼业务的核心，尽管PC等不同类型的平台正在增多。

中关村在线 2024-12-29

实测阿里版GPT“通义千问”，和“文心一言”有什么不同？

推荐体验

相关资讯

阿里版ChatGPT：通义千问pk文心一言

阿里“通义千问”和OpenAI“Chatgpt”，它们有什么不同？

数央网观察：阿里版GPT“通义千问”发布！听说赢了文心一言？

百度文心一言和阿里通义千问对比

阿里通义千问，狂虐百度文心一言？

近期资讯

HMD Ridge 5G 手机曝光：展锐 T760 + 6G + 128G

美国网络安全公司Cyberhaven Chrome浏览器扩展遭恶意攻击

提升摄影作品质量的技巧：模糊背景处理方法与注意事项总结

华为用户必看！换电池优惠50元、官方维修8.8折错过等明年

工业母机，“甬”闯“无人区”

实地探访“数字普陀”，海纳小镇Citywalk展示智慧城市新成果

《黑神话：悟空》PS5 Pro 性能测试：1080P 分辨率下难稳 60 帧

AI教父辛顿发声：30年内AI致人类灭亡几率达10%-20%

提升打字效率：掌握五笔输入法及《兜五笔》的实用技巧

PS5可能延续PS4生命周期：将在2027年推出

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响