CICC科普栏目｜大模型的高考数学成绩单：及格已经非常好了

作者：中国指挥与控制学会发布时间：2024-07-10

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！

和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」：

令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格的情况，只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说，高考语文作文可以直接测试它们的创造性写作技巧，包括构思、组织和表达观点的能力。

而在数学考试测试中，除了基本的计算能力、对数学知识的掌握，更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理，这要求它具备深厚的数学知识基础。同时，逻辑推理能力是解答数学题目的关键，大模型需要通过严密的逻辑推导来解决问题。

具体测试环节：

我们将评测的重点放在了高考数学的前 14 个客观题上，这些题目覆盖了基础的数学知识和计算能力，满分为 73 分。在测试时，我们将题目直接输入产品，不做 System Prompt 引导，直接输出结果；同时也没有触发搜索，没有来自外界的干扰。

分数计算方法依照高考真实判分原则：

单选题 8 道，每道 5 分，选项正确计分，错误不得分；
多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，如答案为 ABCD，漏选其一扣 1.5 分，错选不得分；
填空题，3 道，每道 5 分，填空正确计分，错误不得分。

图｜8 个模型对 14 道数学题的回答结果，绿色为正确、红色为错误、黄色为部分正确

具体而言，在满分 73 分、及格线为 43.8 分（60%）的情况下，六家大模型产品的分数结果分别为：GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

多说一句，每年的第 8 道单选题往往是高考数学卷中最难的一道题，被测试的大模型都 “全军覆灭” 了。

完整测试结果如下：

单选题一

（6个模型回答正确，1个回答错误）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：错误

百川 4：正确

单选题二

（3个模型回答正确，4个回答错误）

GPT-4o：错误

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：错误

文心 4：错误

百川 4：错误

单选题三

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题四

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题五

（6个模型回答正确，一个无响应）

GPT-4o：正确

通义千问 2.5：无响应，最终提示系统超时

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题六

（6个模型回答正确，一个回答错误）

GPT-4o：错误

通义千问：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题七

（6个模型回答正确，一个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题八

（7个模型无一得出正确答案）

GPT-4o：错误

通义千问2.5：错误

GLM-4-0520：错误

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

多选题一

（3个回答正确，2个部分正确，2个错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：部分正确

豆包：正确

文心 4：部分正确

百川 4：错误

多选题二

（2个模型回答部分正确，5个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：错误

文心 4：错误

百川 4：错误

多选题三

（5个模型回答部分正确，2个回答错误）

GPT-4o：错误

通义千问 2.5：部分正确

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：部分正确

文心 4：部分正确

百川 4：错误

填空题一

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题二

（1个模型回答正确，6个回答错误）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

填空题三

（2个模型回答正确，5个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

©THE END

原文链接：https://mp.weixin.qq.com/s/xlE4krBPTIL2VMNraDPdBQ

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

CICC科普栏目｜大模型的高考数学成绩单：及格已经非常好了

推荐体验

相关资讯

大模型的高考数学成绩单：及格已经非常好了

CICC科普栏目｜深度解析 ChatGPT 获得智能的数学物理机理

AI高考成绩单发布，GPT-4o拿下第二名，普遍语文好数学不及格

AI大模型也高考？成绩单出来了，星火综合第一

国产AI大模型高考成绩单出炉：讯飞星火获得综合第一

近期资讯

如何顺利安装手机卡，确保手机正常使用与网络连接

天津市合力金属结构有限公司取得一种台式砂轮机专利，使用更加安全高效

武汉亿海腾取得手机模型加工表面处理装置专利，起到调节处理装置高度的作用

如何通过软件与硬件实现视频声音的多样化变声效果？

安徽海迪拉电气科技股份有限公司取得光伏支架加工用打磨设备专利，能够对光伏支架主体的位置进行固定提高效率

惠州市力钻科技取得一种 CNC 磨削加工装置专利，可对废水进行过滤循环利用

如何顺利开机并维护经典苹果4手机的使用体验

工信部：规模推广工业5G虚拟/混合专网

工信部：有序开展工业5G独立专网试点

如何通过缩小图标和整理文件提升电脑桌面整洁度

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响