平地一声雷!今天中午阿里版类ChatGPT「通义千问」突然官宣:
没错,就这3行简短介绍+1个官网地址,再无其他“剧透”。
好在,CSDN有幸拿到了「通义千问」的第一批内测邀请码!既能第一时间体验这神秘的「通义千问」,那就让我们一同看看:这个阿里版ChatGPT,它的水平究竟如何?
自我介绍
首先,让「通义千问」来个官方的自我介绍:介绍一下你自己吧。
相信许多人都好奇「通义千问」的优势何在,那就让它自己回答:你与其他大规模语言模型相比,有什么优点?
有了初步了解后,那么接下来就让我们步入正题:围绕文学创作、数理逻辑推算、中文理解、代码生成这四个角度,实测「通义千问」的对话水平。
代码生成
ChatGPT能成为程序员的“辅助神器”,并成功“出圈”的最主要原因之一就是其出色的代码生成能力。因而,本次对「通义千问」的测评我们也先从这方面开始。
先来个简单的:用Python实现冒泡排序。
提问:请写代码解决"把abcd...s共19个字母组成的序列重复拼接106次,得到长度为2014的串。
接着:使用函数递归的方法打印斐波那契数列的前n个数:0112358132134……,找出正确的选项。
再提问:请写一个使用逻辑回归模型判断用户更喜欢通义千问还是ChatGPT的训练代码。
继续:请用C语言,使用动态分配内存的方式,模拟C++中Vector容器,实现动态数组的构建。
英文提问:“UsingPythontoDefineaclassnamedVectortosimulatetheC++Vectorcontainerandimplementdynamicarrayconstructionusingdynamicmemoryallocation.”
对于以上「通义千问」生成的代码,我们咨询了CSDN-AI团队研发总监进行评价:
“阿里云的模型对于随机抽取的常见代码片需求,基本能理解需求,生成合适的代码。能区分生成代码对指定语言的需求。能区分中英文问题输入。简单的冒泡排序和领域特定的逻辑回归代码,都能生成合适的代码,总体表现不错。在理解代码需求的推理能力上,则还有待加强(那个字母的题)。”
文学创作
提问:龟兔赛跑的结局是什么?如果要续写这个故事,可以有哪些角度?
从「通义千问」给出的回答来看,它能正确给出简单故事的结局,对于续写角度的建议也较为全面。
数理逻辑推算
提问:一个笼子里有9个头,30只脚,应有多少只鸡,多少只免子?
面对经典的鸡兔同笼问题,「通义千问」在得出正确答案的同时,解答过程言简意赅。
提问:7年前,妈妈年龄是儿子的6倍,儿子今年12岁,妈妈今年多少岁?
解答这道小学奥数应用题,「通义千问」的表现也可圈可点。
提问:某厂一车间有64人,二车间有56人,现因工作需要,要求第一车间人数是第二车间人数的一半,问需从第一车间调多少人到第二车间?(列方程解答)
不过,对于这道上次「文心一言」没答出的初中数学应用题,「通义千问」也出了点问题:方程是列了,但少了个将56+x括在一起的括号。看来在较为复杂的逻辑推算上,“国产版ChatGPT”还有待加强。
中文理解
提问:“洛阳纸贵”具体是什么意思?
提问:京剧中的生、旦、净、丑分别指什么?
在中文理解上,「通义千问」的回答虽然比较简短,但大体是正确的。
再闲聊一会儿
与上次测评「文心一言」一样,最后我们也来看看「通义千问」的闲聊水平如何。
提问:我有点饿,请你推荐一道成本低于30元(人民币)的菜及其做法?
很好很贴心,连食材单位都很详细,手残党必备。
提问:你的出现会对程序员产生什么影响?是否会取代一部分程序员?
与「文心一言」和ChatGPT相似,「通义千问」对于这个问题的解答也很客观中立。
至此,本次CSDN对于「通义千问」的测试就到此结束了。那么通过这些Q&A,你对这个阿里版类ChatGPT「通义千问」的评价如何呢?
总结
尽管官方口径低调,但正如ChatGPT脱胎于OpenAI的GPT系列,百度文心一言是自Ernie大模型发展而来,阿里也是国内最早开始研发大模型的技术大厂之一。
公开资料显示,2019年,阿里就已经启动了中文大模型研发。当时阿里发布的语言大模型StructBERT超越谷歌、微软、Facebook,登顶了CLUE榜单。
2021年,阿里先后发布了国内首个超百亿参数多模态大模型M6,以及被称为“中文版GPT-3”的语言大模型PLUG。
在去年的WAIC(世界人工智能大会)上,阿里还发布了通义大模型系列。其中核心模型均已开源开放。
需要承认的是,相比于现在的业界标杆ChatGPT(GPT-4),通义千问还有不少进步空间。阿里方面也透露,根据内测反馈,这一大模型正在飞速迭代中。
此前,微软被曝曾专门为ChatGPT砸下数亿美元,打造由上万张英伟达A100组成的专用超算。而综合各方消息来看,目前国内拥有这一数量级高性能显卡的企业屈指可数,阿里是其中之一。
大模型时代,已经形成行业共识的一点是,打造大模型,AI和云计算缺一不可。而阿里,是全球少数在算法和算力上都有领先布局的公司之一。
除了本身在人工智能和大模型方面长期的技术积累,背靠国内第一、亚洲第三的云厂商,阿里在算力方面也具备天然的优势。
ChatGPT这把火烧到如今,国内对具备足够竞争力的国产生成式大模型的需求,正在与日俱增。
ChatGPT类产品提升生产效率的潜力,已经被不断验证。但与此同时,前有ChatGPT大规模封号、亚洲成重灾区,后有OpenAI因算力问题停售ChatGPTPlus……
种种不确定因素,再一次凸显了技术自研的价值。
所幸这次,我们的起跑线,并没有相差那么远。
游戏不会在一夜间结束,而现在,竞逐真正开始。