当前位置:首页|资讯

首个AI高考全卷评测结果发布大模型“赶考” 国产大模型总分超GPT-4o

作者:IT时报发布时间:2024-06-27

IT时报记者 郝俊慧

今年的高考,怎么能少了大模型“考生”。

2024年全国高考甫一结束,司南评测体系OpenCompass选取Mixtral 8x22B、Yi-1.5-34B(零一万物)、GLM-4-9B(智谱)、InternLM2-20B-WQX(书生·浦语)、Qwen2-57B(通义千问)、Qwen2-72B6(通义千问)六个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标Ⅰ卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,语文平均得分率为67%,英语更是达到了81%。不过多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。部分模型由于不适应题型,在英语七选五、完形填空等题型得分率较低。

数学则是所有大模型的短板,平均得分率仅为36%。大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。

得益于研究团队在数学推理上的投入,InternLM2-20B-WQX取得了75分的数学单科最高分,超越包括GPT-4o在内的所有模型,然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。

为贴近高考评卷模式,联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分,每份考卷至少由3位教师分别打分。对于统一回答但教师评分悬殊的情况,则会再次进行复核,尽量避免“争议判卷”的出现。

本次阅卷采用与高考一致的完全匿名形式,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。在阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1