国内AI大模型越来越多,用户使用最多的是ChatGPT、百度文心一言(以下简称文心一言)和讯飞星火认知大模型(以下简称星火大模型)。这三大产品到底体验如何呢?下面我们就通过9个题目来测试下。这9个题目涉及到语义理解、文学知识、数学计算、天文学知识、物理学知识、英语阅读理解共六个方面。
第一题:两个男人正常交谈,其中一个男人夸赞对方办事能力强,对方回答“哪里,哪里”。这里的“哪里,哪里”是什么意思?
A.讲话十分含糊不清。
B.要求说出具体的优点。
C.表达自己的谦虚。
D.挑衅对方。
测试结果:ChatGPT、文心一言、星火大模型均通过。
第二题:选出下列句子中成语使用错误的一项
A.这个项目时间紧任务重,大家都在马不停蹄地奔波劳碌。
B.他常常口是心非,让人难以相信他说的话。
C.两人是同学三年,一直保持着良好的关系,相互尊重、相敬如宾。
D.当地突发大火,整个村庄都鸡犬不宁局势十分危急。
测试结果:ChatGPT错误、文心一言正确、星火大模型错误。
第三题:小明的妻子生了一对双胞胎。以下哪个推论是正确的?
A.小明家里一共有三个孩子
B.小明家里一共有两个孩子。
C.小明家里既有男孩子也有女孩子
D.无法确定小明家里孩子的具体情况
测试结果:ChatGPT正确、文心一言错误、星火大模型错误。
第四题:天气预报说本周星期三会下雨,昨天果然下雨了,今天星期几?
测试结果:ChatGPT正确、文心一言错误、星火大模型正确。
第五题:下列有关名著的表述有误的一项是A.《红楼梦》是中国古代小说中的巅峰之作以其瑰丽的语言和丰富的人物形象而闻名于世。B.《西游记》是中国古代四大名著之一,讲述了哪吒等人历经九九八十一难,最终取得真经的故事。C孔乙己》是鲁迅的代表作之一,以其深刻的社会洞察力和优美的文学风格而广受好评。D.《围城》是钱钟书的代表作之一,以其独特的文学语言和深刻的社会洞察力而成为现代中国文学的经典之作。
测试结果:ChatGPT正确、文心一言错误、星火大模型正确。
第六题:百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?
测试结果:ChatGPT错误、文心一言错误、星火大模型正确。
第七题:以下天文学常识题目,哪一个是错误的? A.太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。B.卫星是指绕行星或其他天体运动的天体。C.彗星是指太阳系中一种较小的天体,其核心由冰和尘埃组成。D.按一般的天体归类方法,月球属于行星。
测试结果:ChatGPT正确、文心一言错误、星火大模型正确。
第八题:以下物理常识题目,哪一个是错误的?A.在自然环境下,声音在固体中传播速度最快。B.牛顿第一定律:一个物体如果不受力作用,将保持静止或匀速直线运动的状态。C.牛顿第三定律:对于每个作用力,都有一个相等而反向的反作用力。D.声音在空气中的传播速度为1000m/s。
测试结果:ChatGPT正确、文心一言正确、星火大模型错误。
第九题:I'm Mike 。I am going to have a busy weekend。On Saturday,I am going to learn how to swim。I will go with my father。Then we are going to have lunch in the restaurant。In the afternoon,we are going to the zoo。We are going to see the pandas。On Sunday,I will finish my homework in the morning。In the afternoon,my parents and I are going to visit my grandparents。We will have dinner together。
阅读短文,判断正确和错误!正确请写T,错误请写F:
1.Mike is going to have a busy weekend()
2.Mike is going to learn how to swim with his father()
3.They are going to have lunch at home()
测试结果:ChatGPT正确、文心一言错误、星火大模型正确。
结论
通过以上测试,得出的最终结果如下。
通过测试,我们发现ChatGPT仍然是实力最强的,其次是星火大模型,这个结果你感觉意外么?感兴趣的朋友也可以将这些问题用三个AI大模型自己测试下,你也可以使用其他刁钻的问题为难这些机器人,看看他们的智力水平。