实测阿里版ChatGPT：回答问题注重逻辑，比想象中更聪明

作者：蓝鲸财经发布时间：2023-04-10

ChatGPT

文|另镜刘雨婷

编辑|陈彦旭

科技技术在改变人与工具的交互方式。PC时代的Apple Lisa电脑，是首次采用图形用户界面和鼠标的个人电脑；到智能手机时代，iPhone定义了触控交互。下一步，ChatGPT类的多模态大模型又将影响未来AI的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年，新时代属于造梦者、勇闯者，甚至是孤独者。在外界看来，新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙，敢为者先。

新浪潮下，另镜推出「Tech潮向」专题系列报道，洞察当下前沿科技新变革和发展趋势，报道前沿科技企业新战略、新思维，提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇，聚焦新一轮新科技ChatGPT开启。

4月7日，阿里版GPT官宣内测，自研大模型“通义千问”开始邀请用户测试体验，现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来，ChatGPT成了互联网领域最大的风口，国内受追捧热度同样高涨，百度文心一言率先发布，美团联合创始人王慧文早已宣布入场，360集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT的出现引领新一轮技术创新，各行各业将会如何被颠覆是2023年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型，可以回答问题、创作文字，以及表达观点、撰写代码。

另镜拿到“通义千问”首批邀测资格，在登陆“通义千问”后，其主页页面主要突出了四个功能：职场助理、撰写短文、写封邮件和电影脚本。

在二级入口“百宝袋”中，通义千问举例了更多应用场景，包括提升工作效率的写提纲、SWOT分析、商品描述生成；生活类的菜谱、小学生作文、接文续写；以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验，从问题回答、观点表达、逻辑计算等多个方面对“通义千问”进行测试，并与文心一言、ChatGPT（GPT-4）的回答进行对比。

能写英文推荐信

首先，另镜测试了几个大模型对于最新热点的了解，提问其是否了解最近刚刚成为网络热点的熊猫“花花”。

通义千问给出了回答，识别出提问者是想了解具体熊猫个体“花花”，但可惜或受限于语料资料，并未能给出正确介绍。

通义千问答案

正确信息：花花，本名和花，雌性大熊猫，2020年7月4日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT则是未能理解提问者的具体意图，均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型，ChatGPT在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后，另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑“陷阱”的问题进行测试：眼镜没发明出来之前，眼镜蛇叫什么？

在首次测试中，通义千问未能正确解答问题，但在第二次重新回答后，其回答眼镜蛇有另一个名字——眼镜王蛇，以及该名称来源，但这也并未能避开“眼镜”这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称，避开了“眼镜”字眼。

文心一言答案

ChatGPT则是成功理解了问题逻辑，解开了文字矛盾，并介绍了眼镜蛇的命名方式。

ChatGPT答案

在接下来的提问中，另镜特意测试了“通义千问”对于中文诗句的理解：“云渺渺，水茫茫。征人归路许多长。相思本是无凭语，莫向花笺费泪行”是什么意思？

通义千问答案

与百度文心一言、ChatGPT相比，通义千问的回答要更简洁一些，文心一言、ChatGPT详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT答案

接下来，另镜测试了通义千问对中文诗句的更深层理解，细化到具体诗句词语：“凄凄惨惨戚戚中”的戚戚是什么意思？

在这个问题上，通义千问并未能识别诗句出处，在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文，但并没能对具体词语进行解释。

文心一言答案

ChatGPT虽然回答出了具体词语意思，但也并未回答诗句出处，并将“凄凄惨惨戚戚”错误理解成了四个形容词。

ChatGPT答案

除中文语料测试外，另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信，推荐学生申请硕士，通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面，通义千问、文心一言、ChatGPT体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划：

通义千问从技术才华、商业才华、人品道德三方面，分条展现了评价马斯克的角度，这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏“理科生”的逻辑性回答不同，文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT则是回答了大众对于马斯克的看法，直接介绍了马斯克的身上的标签，更加有针对性。

ChatGPT答案

在评价马斯克后，另镜要求三者分析其太空移民计划能否成功。与上个问题相似，通义千问分条回答了该问题，文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT则是深入分析了太空移民计划目前面对的困难，有针对性的分析了能否成功的具体因素，回答也更实际。

ChatGPT答案

还不能替小学生写作业

在数学逻辑方面，通义千问、文心一言、ChatGPT都遇到了困难。另镜挑选了两道小学六年级奥数题，在回答第一道逻辑判断题问题时，通义千问和ChatGPT回答正确，文心一言则出现判断错误。

通义千问和ChatGPT通过语言逻辑解答了问题，但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时，通义千问、文心一言、ChatGPT都出现错误。三者给出了解答公式，进行推算，但是都未能给出正确答案。

正确答案是：20小时。

写在最后

目前，各个大模型的表现都不算完美。但正如通义千问所介绍的，语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及，语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如，语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时，语言大模型也将促进人工智能技术在其他领域的应用，例如智能驾驶、医疗健康、金融服务等。未来，语言大模型将会持续发展和创新，为人类社会带来更多的便利和效益。

无论现在OpenAI、百度、阿里旗下的聊天机器人表现如何，这也只是AI技术迭代的最开始，未来的路还有很长。

实测阿里版ChatGPT：回答问题注重逻辑，比想象中更聪明

推荐体验

相关资讯

ChatGPT发布新功能，回答问题时更"接地气"

ChatGPT回答问题1

解密，ChatGPT为什么能回答问题

ChatGPT又一重磅更新，回答问题时更“接地气”

聊天 AI 大火，Stack Overflow 宣布临时禁止用 ChatGPT 回答问题

近期资讯

张家港力尔威取得一种高效桶盖烘干立式烘房专利，自动化程度高

广东纽恩泰取得物料烘干设备专利，提高物料烘干效果节能且降低能耗

维意美嘉取得阻燃纸干燥设备专利，有效提高对阻燃纸的干燥效率

上海沃莘取得高温热泵除湿干燥装置专利，节省整体占空面积

常州达圣干燥取得真空单锥干燥机搅拌机构专利，提高对物料搅拌的效率

浙江三禾精密机械取得轴承合金浇铸用的烘干保温装置专利，方便对轴承进行取放

台州市天豪轴承取得深沟球轴承清洗后在线甩干脱油机构专利，降低了工作量

贵州铭肽生物科技取得真空干燥箱专利，能对物品湿度进行监测控制干燥

广州北辰取得真空干燥机专利，提升干燥效率和效果

阿拉山口蓝普胶业取得内置紧凑型冷冻式干燥机专利，保证物品的干燥效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响