9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车

作者：红星新闻发布时间：2024-07-17

红星资本局7月17日消息，今日，AI大模型在数学上的翻车话题引发不小关注。

一道“9.11和9.9哪个大”的简单数学题，竟困住了海内外一众AI大模型平台。

数学偏科

8个大模型全答错

9.11和9.9哪个更大？据第一财经报道，就这一问题，12个大模型中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。追问ChatGPT有没有其他比较方法后，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。

再看国内的大模型，例如询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第一位小数是1，而9.9的第一位小数是0，错误地给出了小数，得出结论9.11更大。当质疑并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。

询问字节豆包，它不仅给出了答案，还举了生活中的例子方便理解，单看似有理有据实则胡说八道。豆包举例认为，假设有两笔钱，“9.11元比9.9元多0.21元”，并且测量长度时“9.11米要比9.9米长”。

商汤商量大模型首先给出了错误答案，当追问具体是如何比较的后，它在推演过程中成功得出小数0.11小于0.9，但话锋一转称“所以9.11大于9.9”。当指出了这个前后逻辑问题，商量随后承认“解释有误”。

值得注意的是，就在上月，AI大模型也因为数学翻车话题火上了热搜。

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排名二三位。但引发关注的是，从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格。

业内人士：

一段时间内不会得到明显改善

此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

针对大模型答数学题普遍“吃瘪”的问题，国内某头部大模型负责人就曾表示，大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来，但数学题既包含规则性，又包含对各种思维的考察，解题逻辑和正常用大模型时的推理逻辑不一定完全一样。

同时该负责人还提到，从更广泛的大模型应用角度来看，AI能不能精准遵循指令是近一段时间内比较重要的事情，真正的商业价值也比较大可能来自于此，而解数学题对目前的AI来说还是一件比较“炫技”的事情。

另有业内人士向南方都市报表示，目前来看大模型的数理能力相对较差的情况在中外都是一样的，“打个比方可以这样讲，大模型就是偏科，文科强理科弱，这个情况在一段时间内也不会得到明显的改善”。

编辑杨程综合自第一财经、南方都市报、科创板日报等

9.11和9.9哪个大？简单数学题8家AI大模型平台都翻了车

推荐体验

相关资讯

9.11和9.9哪个大，看AI大模型算错，我就放心了！#ai人工智能 #9.11和9.9哪个大12个模型8个错 #夜航评论 @楚希

9.11和9.9哪个大? 大模型的复杂推理能力待提升

9.11和9.9哪个大？AI大模型集体失智几乎全翻车了

博士生水准无语！9.11和9.9哪个大最新、强AI模型又翻车

9.11和9.9哪个大？AI翻车！好多网友竟也争论不休……

近期资讯

直播电商卷到头了？有人找到打开2025的“新钥匙”

铭凡UN1250迷你主机首发1599元起：酷睿i5-1250P

美国四大厂出手核电：亚马逊将投5亿美元，Meta已发核电征集令

雷军：小米汽车顺利完成所有全年目标 SU7交付量超过13万台

【前沿】曝iQOO神秘新机测试苹果同款压感按键

轻松将纸质文件转换为PDF格式的实用技巧与步骤指南

【汽车】小米SU7官宣交付量已超过13万台车主可免费领新年礼物

韩国济州航空失事机型全球占15%

30年虔行迎来工业机器人的伟大时代

Intel新一代纯小核Twin Lake挤牙膏：频率+100MHz、8核仅仅7W

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响