搞不定高考的ChatGPT，原来只有小学4年级水平

作者：数据汪发布时间：2023-07-12

搞不定高考的ChatGPT，原来只有小学4年级水平

大数据文摘授权转载自夕小瑶科技说

作者 | Python

之前，复旦大学的研究者让ChatGPT参加了中国高考，发现成绩惨不忍睹（参见推送），其中理科数学竟只有20多分。这次，小米AI lab的研究者们给模型降低一下难度，找了1700道中国小学数学题，测试了10个大语言模型。实验表明，ChatGPT只能通过小学4年级水平，而GPT-4可以小学毕业。同时，国产大模型如Baichuan、MOSS、ChatGLM2等表现较差。让我们来看看吧。

论文题目:

CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

论文链接:

https://arxiv.org/pdf/2306.16636.pdf

数据集

本实验使用的小学数学题数据集CMATH获取自开源的小学练习册和考卷。如下图所示，每道题标注了年级（Grade），推理步数（#Steps）与最大有效数字位数（#Digits）来标示难度。

▲数据集的统计信息

实验结果

实验设置上，作者只采用了零监督设置，没有使用CoT等技巧。作者表示这样才能最原生态地评价大模型。但这样可能也会让模型表现偏低。

各个年级的题目上，实验结果如下图所示。可以看到，GPT-4可以在所有年级的题目中拿到60分以上的成绩，而ChatGPT只能达到4年级及格的水平。国产大模型中，只有ChatGLM2与Ziya-LLaMA-13B能达到2年级及格的水平，其它模型在一年级的问题中也都难以得到50分以上的成绩。

不过，即使GPT-4成绩相对最好，大家回想一下自己小学时的成绩，可能还是要比GPT-4强不少的。

接下来观看不同模型对需要不同推理步骤的问题，与不同计算位数的问题的表现，也可以看出，当推理步数较多或数字位数较大时，国产大模型表现下滑明显。

▲不同推理步骤模型表现

▲不同数据位数模型表现

作者还尝试在问题中增加干扰条件（Distractors）来检测大模型的鲁棒性。

▲增加干扰条件的问题样例

实验结果表明，GPT-4具有较强的抗干扰能力，而其他大模型在抗干扰上表现不佳。

▲增加干扰条件的实验结果

总结

该文用中国小学数学题测试了GPT-4、ChatGPT与国产大模型。实验结果表明，GPT-4可以较好地解答中文小学数学题，但和人类相比还有差距；即使是面对中文试题，国产大模型与OpenAI的产品之间还有很大距离，我们还需要进一步加强国产大模型的研究。

搞不定高考的ChatGPT，原来只有小学4年级水平

搞不定高考的ChatGPT，原来只有小学4年级水平

推荐体验

相关资讯

假装小学6年级的学生

竟然有ChatGPT搞不定的？！？

硅谷正发生｜连小学数学都搞不定，为什么ChatGPT数学这么差？

ChatGPT：连小学三年级数学题都会错

ChatGPT竟然搞不定小学数学题网友：它永远做不到万能

近期资讯

如何删除搜索记录保护隐私：实用方法与技巧汇总

在OPPO手机上轻松截取长图的详细步骤与注意事项指南

解决电脑数字键盘锁定问题的简单方法与技巧

如何安全有效地保存和管理各种类型的文档：实用技巧与建议

华为手机截屏功能详解：多样化操作与实用技巧分享

曼恩斯特取得单段烘干单元 NMP 回收装置及烘干系统专利，适配性更高

常州吉邦药化机械取得卧式圆盘连续干燥冷却机专利，在机内完成干燥后即可冷却无需额外设备，提高效率节省场地空间

神州心辰取得一种可再生能源恒温干燥炉专利，在利用气流驱动时可减少其他能源消耗

广州天幸机电取得用于PCB板水平电镀循环节水专利，降低水资源损耗

茂名重力取得流化床加热器密封结构专利，降低制造成本

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响