6月最重要的一件事就是高考,全国人民不管是学生还是家长。都被这场考试牵动着心弦,多少人十年寒窗苦读,为的就是这一天。如果让 AI 参加高考,他们能考多少分呢?
先介绍一下参加本次考试的6位AI考生:阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及OpenAI的闭源模型GPT-4o。
今年的高考后,司南评测体系OpenCompass选取了6款AI大模型,进行了语文、数学和英语的全卷能力测试。
为了确保评测的公正性,评测团队特别选择了开源模型,并且仅以GPT-4o作为商用闭源模型的参考。这种选择不仅保证了评测过程的透明度,也避免了利用高考试题训练模型的可能性,有效防止了“作弊”行为的发生。此外,为了保证结果的真实性和可信度。这次评测采用了全国新课标1卷,确保考试的“闭卷”性,成绩则由经验丰富的高考评卷教师进行人工评分。
现在公布考试成绩,我们一起来看看各位AI考生到底考了多少分?
语数外三科加起来的满分为 420 分,在本测试中,阿里巴巴的Qwen2-72B以303分稳居榜首,紧随其后的是OpenAI的GPT-4o,取得了296分。以0.5分微弱差距位列第三的是上海人工智能实验室的书生浦语2.0,总分295.5。评测结果显示,大模型在语文和英语方面普遍表现优异,尤其是阿里巴巴的Qwen2-72B和OpenAI的GPT-4o在这两科目上有着显著的成绩。然而,让人略感意外的是,这些大模型在数学推理能力上普遍显得力不从心。最高分仅为75分,由书生浦语2.0文曲星获得,GPT-4o的数学成绩也仅为73分。
阅卷老师点评指出,大模型在语文科目上对于一些语言中的“潜台词”还难以完全理解。而在数学科目上,大模型在回答主观题时表现得相对凌乱,其解题过程也往往令人困惑。
这场“AI高考”不仅让我们看到了AI技术的进步与潜力,也揭示了其在复杂推理能力上的短板。未来的挑战与机遇并存,让我们拭目以待,期待这些“AI学霸”们能在下次考试中取得更好的成绩。