首个AI高考全卷评测结果发布大模型“赶考” 国产大模型总分超GPT-4o

作者：IT时报发布时间：2024-06-27

IT时报记者郝俊慧

今年的高考，怎么能少了大模型“考生”。

2024年全国高考甫一结束，司南评测体系OpenCompass选取Mixtral 8x22B、Yi-1.5-34B（零一万物）、GLM-4-9B（智谱）、InternLM2-20B-WQX（书生·浦语）、Qwen2-57B（通义千问）、Qwen2-72B6（通义千问）六个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标Ⅰ卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

结果显示，Qwen2-72B、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过70%。大部分模型“考生”语文、英语科目表现良好，语文平均得分率为67%，英语更是达到了81%。不过多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。部分模型由于不适应题型，在英语七选五、完形填空等题型得分率较低。

数学则是所有大模型的短板，平均得分率仅为36%。大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。

得益于研究团队在数学推理上的投入，InternLM2-20B-WQX取得了75分的数学单科最高分，超越包括GPT-4o在内的所有模型，然而仍未达到及格水平，这表明大模型的数学能力存在较大提升空间。

为贴近高考评卷模式，联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分，每份考卷至少由3位教师分别打分。对于统一回答但教师评分悬殊的情况，则会再次进行复核，尽量避免“争议判卷”的出现。

本次阅卷采用与高考一致的完全匿名形式，所有大模型答卷均进行了匿名处理，避免阅卷教师产生“先入为主”的观念。在阅卷开始前，阅卷教师未被告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。

相关资讯

首个AI大模型高考全卷评测结果发布

据上海人工智能实验室官微，近日，司南评测体系OpenCompass选取6个开源模型及OpenAI的GPT-4o开展首个大模型高考“语数外”全卷能力测试。评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

AI大模型人工智能 OpenAI

界面新闻 2024-06-19

AI完败？首个AI高考全卷评测结果发布：数学全不及格，总分都上不了大专

上海人工智能实验室选取了7个大模型进行高考“语数外”全卷能力测试，结果表明，阿里通义千问2-72B排名第一，GPT-4o排名第二，书生·浦语2.0排名第三。此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

人工智能通义千问

教育台 2024-07-04

鹿角 2024-06-12

首个AI高考全卷评测结果发布大模型“赶考” 国产大模型总分超GPT-4o

推荐体验

相关资讯

首个AI大模型高考全卷评测结果发布

AI完败？首个AI高考全卷评测结果发布：数学全不及格，总分都上不了大专

复旦测评13家大模型高考数学成绩，字节豆包II卷超GPT-4o夺冠

国内首个官方大模型评测结果出炉四款国产大模型通过

复旦高考数学大模型评测：阿里千问、讯飞星火力压GPT-4o

近期资讯

数据要素市场前景广阔

UniApp 实战：集成手机号、第三方微信与QQ登录功能及退出登录功能

TypeScript 数据类型 - 数组

“教你用代码撸出一个性感的3D地球 🌍——附带抖音爆款WebGL指南”

React 悬浮按钮组件 FloatingActionButton

5分钟搞懂 Golang noCopy策略

NestJS - 静态文件

Vue：让前端开发变得更有趣，少一些"刀耕火种"，多一些"数据思维" ✨

await 等什么(笔记)

Vue组件二次封装做个安静的透传仔

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响