大模型的高考数学成绩单：及格已经非常好了

作者：机器之心Pro发布时间：2024-06-11

机器之心发布

机器之心编辑部

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！

和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」：

令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格的情况，只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说，高考语文作文可以直接测试它们的创造性写作技巧，包括构思、组织和表达观点的能力。

而在数学考试测试中，除了基本的计算能力、对数学知识的掌握，更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理，这要求它具备深厚的数学知识基础。同时，逻辑推理能力是解答数学题目的关键，大模型需要通过严密的逻辑推导来解决问题。

具体测试环节：

我们将评测的重点放在了高考数学的前 14 个客观题上，这些题目覆盖了基础的数学知识和计算能力，满分为 73 分。在测试时，我们将题目直接输入产品，不做 System Prompt 引导，直接输出结果；同时也没有触发搜索，没有来自外界的干扰。

分数计算方法依照高考真实判分原则：

单选题 8 道，每道 5 分，选项正确计分，错误不得分；
多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，如答案为 ABCD，漏选其一扣 1.5 分，错选不得分；
填空题，3 道，每道 5 分，填空正确计分，错误不得分。

图｜8 个模型对 14 道数学题的回答结果，绿色为正确、红色为错误、黄色为部分正确

具体而言，在满分 73 分、及格线为 43.8 分（60%）的情况下，六家大模型产品的分数结果分别为：GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

多说一句，每年的第 8 道单选题往往是高考数学卷中最难的一道题，被测试的大模型都 “全军覆灭” 了。

完整测试结果如下：

单选题一

（6个模型回答正确，1个回答错误）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：错误

百川 4：正确

单选题二

（3个模型回答正确，4个回答错误）

GPT-4o：错误

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：错误

文心 4：错误

百川 4：错误

单选题三

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题四

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题五

（6个模型回答正确，一个无响应）

GPT-4o：正确

通义千问 2.5：无响应，最终提示系统超时

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题六

（6个模型回答正确，一个回答错误）

GPT-4o：错误

通义千问：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题七

（6个模型回答正确，一个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题八

（7个模型无一得出正确答案）

GPT-4o：错误

通义千问2.5：错误

GLM-4-0520：错误

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

多选题一

（3个回答正确，2个部分正确，2个错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：部分正确

豆包：正确

文心 4：部分正确

百川 4：错误

多选题二

（2个模型回答部分正确，5个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：错误

文心 4：错误

百川 4：错误

多选题三

（5个模型回答部分正确，2个回答错误）

GPT-4o：错误

通义千问 2.5：部分正确

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：部分正确

文心 4：部分正确

百川 4：错误

填空题一

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题二

（1个模型回答正确，6个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题三

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

大模型的高考数学成绩单：及格已经非常好了

推荐体验

相关资讯

CICC科普栏目｜大模型的高考数学成绩单：及格已经非常好了

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

AI大模型也高考？成绩单出来了，星火综合第一

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

近期资讯

美的集团获得发明专利授权：“空调柜机”

美的集团获得发明专利授权：“一种数据迁移方法、设备及存储介质”

手机画画：便捷创作与灵感记录的完美结合，提升技能与享受乐趣！

掌握苹果设备中文输入法切换技巧提升输入体验的实用指南

掌握绝对引用符号：提升Excel数据处理效率的实用技巧

六盘水中联工贸申请一种低含铟次氧化锌粉提铟方法专利，提高后续铟的浸出率

美的集团获得发明专利授权：“一种机房散热降温设备、机房”

卓创精材申请减少阳极氧化黑线的挤压用铸锭的中频熔炼方法专利，减少阳极氧化黑线

如何选择适合家庭的全自动洗衣机：从类型到预算的全面指南

戴杰磨床取得不等螺旋四刃平头铣刀专利，便于对铣刀杆进行安装固定

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响