如果让大模型参加高考能上哪所大学？7款大模型高考总分公布

作者：驱动中国发布时间：2024-07-20

日前，上海人工智能实验室以模拟中国高考环境来精确衡量大模型的实际能力，发布了针对七款先进AI大模型的高考模拟测试评估。本次评估依据“司南”评测体系，测试涉及今年高考全科目考核，涵盖了图文并茂的复杂试题，以实现对模型综合能力的全面检验。

参与此次“高考”的大模型阵容强大，除了书生·浦语2.0系列文曲星大模型、阿里通义千问大模型Qwen2-72B与GPT-4o之外，还有来自零一万物的Yi-1.5-34B、Qwen2-57B、智谱的GLM-4-9B以及法国初创企业Mistral的Mixtral 8×22B。所有模型均在高考前公开发布，有效避免了潜在的信息泄露。

在评测过程中，特别邀请了具有丰富高考阅卷经验的教师进行评分，确保评分标准与真实高考尽可能一致。此外，整个测试流程及其结果，包括模型生成的答案代码与最终评分，均对外公开，以确保透明度与公正性。

评估结果显示，综合科目考量下，阿里通义千问Qwen2-72B、GPT-4o与浦语文曲星位列文、理科成绩前三，其中Qwen2-72B以546分摘得文科桂冠，浦语文曲星则以468.5分在理科中领先，二者成绩均超越了非开源的国际模型GPT-4o，而国外的Mixtral 8×22B在平均得分上垫底。

从分数上来看，以今年高考人数最多的河南省的分数线为参考，前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线。

然而，尽管AI大模型在基础知识点掌握上表现优秀，但在逻辑推理和知识灵活运用上的不足依旧明显。阅卷教师指出，大模型在处理主观题时，常因未能精准理解题意而导致答非所问；在解决数学问题时，缺乏逻辑连贯性，尤其在几何领域，常作出违背空间逻辑的判断；对物理、化学实验的理解浅薄，难以正确辨识和应用实验设备。

此外，大模型还暴露出伪造虚构内容的倾向，如编造不存在的诗词，即使出现明显的计算失误也不进行自我修正，直接给出猜测答案，这些问题给阅卷工作带来了一定的挑战。

如果让大模型参加高考能上哪所大学？7款大模型高考总分公布

推荐体验

相关资讯

未经训练的ChatGPT参加高考能上211？

记者实测：如果ChatGPT参加高考，它能得几分？

如果ChatGPT参加高考，它能得几分？记者实测

如果人工智能参加高考，能考多少分？

大模型扎堆参加高考作文，百度、讯飞、ChatGPT哪家强？

近期资讯

38 位科学家在《科学》期刊联合发文，“镜像细菌”研究引发隐忧

广西强强碳素股份有限公司深耕预焙阳极产业——绿色智造降碳减污

全国首创“科漂驿站” 合肥加快打造“科漂乐园”

如何轻松查看电脑网速，提升网络体验的实用技巧与方法

长沙模拟重大交通事故陆空医疗转运

超值补贴，松下Xtra蔓越莓电冰箱：超薄嵌入、风冷无霜，品质生活

“探索三号”交付启航

人形机器人爆火巨头涌入千亿赛道

年轻人“反向驯化”应对大数据“杀熟” 专家建议：让算法有标准、更透明

要买就买最好的这四款骁龙8至尊版新机不仅仅是性能强

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响