七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

作者：IT之家发布时间：2024-07-18

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

IT之家

2024-07-18 15:01发布于北京IT之家官方账号

IT之家 7 月 18 日消息，上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果，据大模型开源开放评测体系“司南”相关负责人介绍，“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’，目的是评测当前大模型的真实水平，找准问题，持续推进技术进步。”

测试结果显示，书生・浦语 2.0 系列文曲星大模型（浦语文曲星）、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲；前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。

从官方提供的图片来看，此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的 GLM-4-9B 和法国 AI 初创公司 Mistral 旗下的 Mixtral 8×22B。

据介绍，此次评测具备如下特征：

全卷考试：进行全卷评分，而不只针对单一题型，且包括带图的高考题

考前开源：评测覆盖的开源模型均为今年高考前开源的模型，排除泄题的可能性

老师打分：邀请有高考阅卷经验的老师打分，确保评分和高考尽量一致

完全公开：生成答案的代码、模型答卷、评分结果完全开源

在增加综合科目的基础上，Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型 Qwen2-72B 以 546 分的成绩荣获 AI 高考“文科状元”，浦语文曲星则以 468.5 分成为理科第一名，分别超过了“非开源国际插班生”GPT-4o（文科 531 分，理科 467 分）。同为国外机构发布的 Mixtral 8x22B 平均得分最少，弱于国内大模型的高考表现。

阅卷老师们一致认为，大模型与真人考生仍存在差距，虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，大模型仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果导致答非所问；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断；对物理、化学实验理解肤浅，无法准确识别并运用实验器材。

此外，大模型也会伪造虚构内容，编造看似合理但实际不存在的诗句，或在存在明显计算错误的情况下之后不反思，“硬着头皮蒙”一个答案，均给阅卷老师带来了困扰。

据IT之家此前报道，根据上海人工智能实验室上个月公布的 AI 高考全卷结果，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

公开评测细节：点此前往

查看原图 43K

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

推荐体验

相关资讯

七大模型全部高考分数出炉：文科能上一本、理科最好二本

豆包文科成绩超了一本线，为什么理科不行？

大模型2024高考发榜，豆包等三款国产AI考上文科一本线

大模型高考成绩公布，理科最多上「二本」/传娃哈哈总经理宗馥莉请辞/OpenAI 推出 GPT-4o mini 新模型

当大模型开始「考上」一本

近期资讯

陕西迈入万兆时代：首位全光万兆园区用户诞生

火到国外，马斯克也忍不住转发！空翻、倒立旋转、复杂地形穿越……国产机器人高难度动作看呆观众，厂家订单已遍及全球

小米 REDMI Book 16 2025 笔记本真机公布

千亿潜力市场风口如何把握？参展通道再延迟5天微短剧产业主题展1月7日亮相成都东郊记忆

AI 正在“吸干”全球电力？更可怕的事还在后面

岁末年终好礼指南：华为智能手表，送礼送“健康”的最优解

平原实验室助力生物医药创新产业集群发展

德鑫机械取得气动式合金蝶阀锁止结构专利，可防止阀瓣被介质持续推力自转导致阀门泄露

年轻人反杀大数据，真的奏效了！！

“云幼萌娃”当家“趣”摆摊，探寻集市里的年味儿

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

七款AI大模型“高考成绩”公布 ：前三名文科过一本，理科过二本

七款AI大模型“高考成绩”公布 ：前三名文科过一本，理科过二本

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本

七款AI大模型“高考成绩”公布：前三名文科过一本，理科过二本