IT时报记者 郝俊慧
今年的高考,怎么能少了大模型“考生”。
2024年全国高考甫一结束,司南评测体系OpenCompass选取Mixtral 8x22B、Yi-1.5-34B(零一万物)、GLM-4-9B(智谱)、InternLM2-20B-WQX(书生·浦语)、Qwen2-57B(通义千问)、Qwen2-72B6(通义千问)六个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标Ⅰ卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,语文平均得分率为67%,英语更是达到了81%。不过多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。部分模型由于不适应题型,在英语七选五、完形填空等题型得分率较低。
数学则是所有大模型的短板,平均得分率仅为36%。大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
得益于研究团队在数学推理上的投入,InternLM2-20B-WQX取得了75分的数学单科最高分,超越包括GPT-4o在内的所有模型,然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。
为贴近高考评卷模式,联合团队邀请多位具有阅卷经验的高中教师对模型主观题答案评分,每份考卷至少由3位教师分别打分。对于统一回答但教师评分悬殊的情况,则会再次进行复核,尽量避免“争议判卷”的出现。
本次阅卷采用与高考一致的完全匿名形式,所有大模型答卷均进行了匿名处理,避免阅卷教师产生“先入为主”的观念。在阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。