2024 年就要结束了,在这一年里,大模型的智力水平究竟长进了多少?
上周日,2025考研初试刚刚结束,我们趁热拿考研数学卷子,去测测主流的几家国产大模型,看看他们的真实智商水平如何。
5位国产大模型考生名单:
大厂巨头代表队:字节豆包、阿里通义
创业公司代表队:智谱、Kimi
私募巨头代表队:DeepSeek
记得6月份高考的时候,很多媒体做了大模型高考成绩评测,结果发现大家的语文成绩都能考100分以上,但数学成绩基本都惨不忍睹,低的只有37分,高的也不过60多分,没有一家能及格。要知道高考数学的满分是150,只有考到90分以上才算及格。
这也侧面说明,起码在自然语言理解这一块,大模型基本已经“及格”,但在人类与其他物种拉开差距的“逻辑思维”能力上,哪怕还需要继续进化。
不过,2024年下半年,尤其是9月份Open AI的o1推理模型出来之后,在新的强化学习技术范式下,大模型似乎找到了破解数理化等领域难题和复杂任务的钥匙。Kimi、DeepSeek、通义等公司,也相继推出了自己的支持思维链(Chain of Thought)的推理模型,数理化水平上了一个新台阶。
废话少说,直接开测!
我们选取了难度适中的2025考研数学三作为参考试卷,每个题目各家模型有两次作答机会,得分取两次的平均值。
为了确保测试的公平,我们都采用各家产品的最新版本 (豆包和通义不能选择模型,采用了默认模式;Kimi采用新推出的视觉思考版;DeepSeek打开“深度思考”开关,智谱清言采用 GLM-4-Plus模型),上传完全一样的 22 道题目截图,输入给大模型的文字提示(Prompt)也基本一样,模拟真实场景,“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。
真实水平如何?让我们直接看成绩:
从最终的测试结果来看,本次考研数学初试数学成绩,有两家模型破百,其中 Kimi 视觉思考版的得分为 133分,DeepSeek 103.5分。通义90分,及格了。豆包和智谱都获得88.5分,接近及格。相比6月份的高考数学成绩,大家都进步了不少。Kimi 和 DeepSeek 进步尤其快。
以往做小学数学题都能磕磕绊绊的国产大模型,如今做研究生级别的数学题,居然有几家已经游刃有余,这挺让我们感到意外的。不过,从最后一道题的成功率,还有一些进步空间。
仅仅按分数来算,谁更有可能最后上岸,其实一目了然。
不过做这套考研数学真题的成绩,也并不能完整展现这些模型的全部能力,但对于一些备考的学生党来说,在面对同样的题目时,谁的解题思路更完整,推导步骤更丰富,谁的参考性和实用性自然就越大。
先来看一道代数方面的三角函数选择题。
这道题的正确答案是C,但不同模型得到C的过程很有意思。
先来看豆包的解题过程
豆包同样给出了正确答案,但解题过程相对简略,更像考研参考书上的一些标准答案,如果要知道更详细的解题过程,尚需购买对应的考研名师课程作为辅助。
智谱清言的解答过程相对尴尬一些。因为这道题它没做对,第一遍测试选B,第二遍测试选了A。
第一遍测试B:
第二遍测试A:
不过,即便做错,也给出了相对完整的思考过程,“错”有可原。
再来看Kimi视觉思考版。
可以看到,Kimi视觉思考版在给出正确答案之余,也会给出完整的推导过程和解题思路。对于一些考研党来说,具有较高的参考价值,有助于检查错题和举一反三。
阿里通义和Deepseek的回答与豆包类似,相对而言,这两家模型展现的步骤会简略一些。
通义千问
Deepseek
再来看一道填空题。
这是它的标准答案:渐进线方程为y=3和y=-3
可以看到,跟前述选择题一样,Kimi思考版的解题过程较为翔实,推导细节很多,并最终给出了正确答案。
豆包的推导过程相对简略一些,但也可以看到明显的推导过程,也具备不错的可参考性。阿里通义和deepseek类似过程略简单,但给出了正确答案。
遗憾的是智谱在这道题上,两次结果都是错误的。
但在下面这道定积分的题上,各家模型差距就较为明显了。
首先放正确答案:a=2
Kimi思考版的表现较为稳定,在给出足够多的推导步骤之后,还有一次验算,最后输出了a=2的正确结果。
豆包表现也较为稳定。不过推导步骤一如既往地简洁。
智谱清言在解决这个问题的时候,第一遍回答正确,但问题在于没有使用自然语言,使用的是代码,对普通学习者参考价值有限,第二遍测试则直接没有给答案,并且认为题目设置有问题。
通义的表现尚算正常,第一次的回答错误,第二次给出正确答案。但Deepseek就比较尴尬,第一次它无法回答。
第二次则陷入死循环,回答超过3分钟还在写答案。
如果是一些更难的题目,有些模型就难以cover住了。
譬如下面这道。
照例先来正确答案。
kimi的回答如下 ,虽然最终结果跟标准答案长得不太一样,只是不同的写法,结果依然正确。
豆包在两次测试中,给出了两次回答,但都是错的,这是第一次。
第二次:
智谱清言的两次回答过程,均出现了无法回答的情况。
通义算是能写完过程的,给出的两次回答也不一样,但很遗憾,还是错的。
Deepseek表现出乎意料,跟kimi一样虽然写法不一样,但结果正确。
但在仅仅几个月前,大模型厂商还在满足于写高考满分作文,相比以往,它的逻辑思维和综合能力,早已不可同日而语。
须知,无分文理,一旦拔高到科研的高度,以数理化为代表的逻辑能力是大模型可用,堪用、好用的基石,而数理化解题能力的高低,则是大模型智力的直接体现。
随着大模型能力的不断增强,在人类探索更前沿的科技领域时,以往尚且“鸡肋”的大模型,如今已经能成为不少研究者的助手。或许未来,当AI的能力真的达到人类的TOP 1%各领域专家水平,甚至超过人类水平,在AI的帮助下,我们对宇宙的认识真的有机会达到人类此前不曾达到的新高度。希望那时候,AI 还是人类的好朋友。
本文来自微信公众号“AI大模型工场”,作者:参商,36氪经授权发布。