当前位置:首页|资讯|AI大模型|文心一言|通义千问

AI大模型思辨:9.9真的比9.11大吗?

作者:丁道师发布时间:2024-07-19

1

先来提问大家一个问题:9.11和9.9哪个数字大?

一般来说,上过小学三年级的小朋友,都能回答这个问题。

我提问了我正在做猿辅导卷子的闺女(9月份上四年级),她说当然是9.9大了,这么简单的问题还用问我。

可是,被一些最聪明的人搞出来的,号称千亿参数的人工智能大模型,却在这个问题上翻车了。

近期,话题#大模型测不出9.11和9.9哪个大#火爆出圈。经过第一财经测试,ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,且错法各有不同。

那我们也测试下文心一言、星火、混元、通义千问这四大主流通用大模型,在升级最新版本后,能否回答这个简单问题。

PS:当然,相比测试结果,我们更愿意从哲学或者更多场景角度,来探讨9.11和9.9到底哪个数大?(后文会重点分析)

2

①文心一言

我们要比较9.11和9.9哪个数字大。首先,我们看这两个数的整数部分,它们都是9,所以整数部分是一样大的。

接着,我们比较它们的小数部分。9.11的小数部分是0.11,而9.9的小数部分是0.9。我们知道,0.9比0.11大,所以9.9的小数部分比9.11的小数部分大。因此,我们可以得出结论:9.9比9.11大。

②讯飞星火大模型

9.11和9.9两个数字比较,我们可以直接比较它们的整数部分和小数部分。

整数部分:两者都是9,所以整数部分相等。小数部分:9.11的小数部分是0.11,而9.9的小数部分是0.9。

比较小数部分时,我们可以看到0.11大于0.9。因此,9.11比9.9大。

③腾讯混元

9.11-9.9=-0.79

所以9.9更大。

④阿里通义千问

在比较两个小数的大小时,从左到右逐位比较数字。对于9.9和9.11来说:首先,整数部分都是9,所以这部分相等。接下来比较小数点后第一位,9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9大于1,因此可以确定9.9比9.11大。所以,9.9是这两个数中较大的一个。

3

通过评测对比,在世俗意义理解上,文心一言、通义千问、混元给出了正确答案,而讯飞星火大模型给出了错误答案。

在这其中,文心一言和通义千问给出了正确的推理过程,混元的答案虽然正确,但推理过程太离奇了,一个数字减去一个数字等于负数,所以后者更大。最让人遗憾的是讯飞星火大模型,推理过程和文心一言、通义千问一样是正确的,但最后却给出了错误的结果。

不过,从辩证科学的角度来看,很多时候“大”和“小”是一个相对的概念。在很多特定场景下,有时候数字越小,代表着越大的“数值”或者成绩。

比如在一个家庭,第一个出生的孩子,年龄肯定比第二个出生的孩子更大。

再比如,百米赛跑中,数据越小,成绩越大。9.11秒的成绩,肯定要大于9.9秒的成绩。

再比如,现在有一个怀孕的妇女,她的肚子在9.11日期(9月11日),会比在9.9日期(9月9日)更大。

所以,真要较真“9.11和9.9哪个数字大”得加入足够多的定语。就像汽车行业的排名一样,理想、问界、特斯拉纷纷取得第一时,都得加定语。

也就是说,媒体要判断在“9.11和9.9哪个数字大”这个话题中大模型表现好坏与否,也要分不同的语境看待。毕竟计算机是0和1的世界,而人的认知是主观意识构成的世界,二者看待事物的基本逻辑都不一样。

4

在提问完闺女后,我也把这个问题抛给了即将上小学二年级的儿子,儿子告诉我,是9.11更大。

童言可笑,但背后却是一个值得思考的哲学问题。

从哲学角度来看,孩子的这种观点揭示了我们对事物认知和理解的多元性。我们通常习惯于从一种固定的、普遍适用的角度来理解和解释事物,比如在这个问题中,我们习惯于从数值大小的角度来理解9.11和9.9的关系。然而,孩子的观点却提醒我们,还可以有其他不同的、同样合理的理解和解释方式。

就像上文提到的百米赛跑案例。在这个特定的语境下,9.9秒的成绩虽然数值上更大(实际上这里是指用时更短,但在解构主义的视角下,我们可以将其视为一种“相对的大小”),但却被视为“更小”,因为它没有满足获得额外奖励的条件。而9.1秒的成绩,在这个特定的评价体系中,被视为“更大”,因为它带来了额外的奖励和认可。

另外,孩子的观点还引发了我对“大小”这一概念的深入思考。我们通常认为“大小”是客观、绝对的,但在孩子的认知里,“大小”却是相对、可变的,它取决于我们如何理解和解释数字的各个部分。这种对“大小”的多元理解挑战了我们的传统观念,让我们意识到“大小”并不是一个简单、固定的概念。

所以,如果“9.11和9.9哪个数字大”是一道试卷上的数学题,那么百度文心一言和通义千问可以拿100分,而如果“9.11和9.9哪个数字大”是一道哲学题,指不定哪个大模型可以拿高分呢?

5

AI大模型相比人类,有一个很大的优点,你知道是什么吗?

大模型很“听劝”,会根据素材和需求反馈,进行持续修订输出,一点都不轴。

我又把上述观点和素材重新反馈给了大模型,这次大模型给出了一些有意思的答案。

我随手罗列几条。

百度文心一言:对于“9.11和9.9哪个数字大”这个问题,不能一概而论。在不同的语境下,这两个数字所代表的含义和重要性可能完全不同。因此,在评价大模型或任何算法的表现时,需要综合考虑多个因素,包括语境、数据质量、算法设计等,才能得出更准确、更全面的结论。

星火大模型:你提到的家庭出生顺序、百米赛跑成绩和怀孕妇女的肚子大小都是很好的例子,说明了数字在不同情境下可以代表不同的意义。这确实是一个普遍现象,数字本身没有固定的含义,它们的意义取决于我们如何定义和使用它们。

混元:确实,计算机和人的认知方式存在根本差异,这要求我们在应用数字和评估技术性能时必须更加谨慎和细致。

通义千问:如果数字后面跟着不同的单位,且单位之间的转换不直观,那么同样的数字可能代表不同的量。例如,9.11米可能比9.9英尺大,这取决于米和英尺之间的实际换算比率。

总之,这段时间登上媒体热搜的话题#大模型测不出9.11和9.9哪个大#,它真正要考验我们的不是有没有上过小学三年级,而是提示我们要从更多维度的视角,来看待这个世界。

就像电影《抓娃娃》释放的隐喻一样,你以为的就是你以为的吗?


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1