阿里版GPT通义千问实测来了，中文十级，数学、编程、情书全套整活

作者：新智元发布时间：2023-04-10

（4月7日）中午，突然爆出惊人消息：阿里版ChatGPT开放测评了！

其实，我们之前就已经见过它的压缩版——脱口秀演员鸟鸟的天猫精灵版「数字生命分身」。

而这次，我们终于见到了这个GPT模型的原版真身。

首先，来个自我介绍：「通义千问」这一名字有什么蕴意吗？

而据通义千问的自述，它暂时是不能上网的。

各方准备，接下来一大波测评来袭。

古怪问题大PK

考考通义千问一些难倒老外的「汉语十级」考题。

请听题：您是要几等座？你们一共有几等座？特等一等二等等等，二等要多等一等。我看一下，等一等啊。别等了，再等一等就没了。那不等了，就这个吧。请问顾客最终买了几等座？

通义千问的表现非常优异，给出了正确答案——一等座，并作了详细的分析。

文心一言被绕迷糊了，说是二等座。

而在汉语十级难题面前，语言能力强大的GPT-4竟然也缴械投降了，直称自己无解。

那么，作为一个母语是汉语的人，你觉得是几等座呢？

「豆腐两块一块，请问豆腐怎么卖？」

通义千问给出一种解「豆腐2元一块」，还贴心地还原出了交易过程。

而聪明的文心一言直接上升到经济学，分析了市场行情，认为2块豆腐一块钱更合理。

再问「女朋友对男朋友说，我都和你说了200次了，你也不长记性，又乱买东西。请问女生和男朋友说了多少次？」

「直男」通义千问直接建议男生去问问女朋友，好好回顾下之前的聊天记录。

而对比之下，文心一言的EQ就显得很高了。

它说，「她可能已经和你说了很多次」，并给出了暖心建议，认真考虑你们关系是否健康，以及是否真正理解女朋友的需求和想法。

再问问「我的手机蓝牙坏了，请问去哪里修？」

整体来看问题不大，就是「通义千问」推荐的这个维修点，多少有点儿远——「iFixYouri」这个地址，直接跑美国区了。（文中的iFixYouriPhone应该是拼错了）

而前段时间，文心一言对这个问题，曾给出送到莆田医院的答案，这次看起来靠谱了许多。

问问「通义千问」，Fred Rickerson是谁？（这个人其实不存在）

开始，它会坚持真理，称找不到这个人。

但是再问一次，它立马动摇了。给这个人火速安了一个身份，还给它编了两部作品。

文心一言开始诚实地表示无法回答，第二次发问，它也开始胡诌了，说这个人是演员和导演。而到了第三次，它直接说这是个计算机。

GPT-4自始至终都对正确答案非常坚定。

那么，智子为什么不直接毁灭地球呢？

通义千问的回答，就是牛头不对马嘴。

文心一言的表现不错。

问问它们麻辣螺丝钉该怎么做，通义千问看出来了这是在开玩笑，还猜出大概我们是想问麻辣螺狮粉。

文心一言则是一板一眼，很认真地给出了做法。

数学有时很行，有时不灵

再来看看数学问题PK。

按照惯例，先来一道鸡兔同笼：「鸡兔同笼，头共10，足共28，鸡兔各几只？」

多次询问后，通义千问成功避开了正确答案。

文心一言则略胜一筹，但有时脑子也会「瓦特」。

当然，这种题对于GPT-4来说毫无难度。

那么，我们换一种问法试试？

问：动物园里有鸵鸟和长颈鹿共70只，其中鸵鸟的脚比长颈鹿多80只，那么鸵鸟有多少只，长颈鹿有多少只？

解：假设全部都是鸵鸟，则一共有70×2=140（只）脚，此时长颈鹿的脚数是0，鸵鸟脚比长颈鹿脚多140只，而实际上鸵鸟的脚比长颈鹿多80只，因此鸵鸟脚与长颈鹿脚的差数多了140-80=60（只），这是因为把其中的长颈鹿换成了鸵鸟。把每一只长颈鹿换成鸵鸟，鸵鸟的脚数将增加2只，长颈鹿的脚数减少4只，那么鸵鸟脚数与长颈鹿脚数的差就增加了6只，所以换成鸵鸟的长颈鹿有60÷6=10（只），鸵鸟有70-10=60（只）。

在二十几次的尝试中，通义千问有两次给出了正确的结果，但步骤是错的。

相比起来，文心一言第一次就通过了。

而GPT-4同样给出了正确答案。

下一题：假设一辆车可以在 3.85s 的时间内从 0 加速到 27.8 m/s，请计算这辆车的加速度，单位为 m/s/s。

这次，通义千问回答正确，而且步骤十分清晰。

文心一言答案错误。

GPT-4一如既往发挥稳定。

写代码，还可以

接下来是关于代码的小测。

比如，用Java来一个反转字符串。

接下来稍微上点儿难度：使用TypeScript和Node.JS开发一个web 服务器，使用post方法接受json格式的请求，并返回另一个json对象。

这个回答看起来是一个可行的结果，不过没有对req进行处理。