随着人工智能大语言模型表现出接近人类的智能,高难度、综合性考试被越来越多地引入语言模型评测。OpenAI在GPT-4技术报告中,就通过各领域的考试对模型能力进行检验。今天是高考第一天,上海人工智能实验室、商汤科技联合香港中文大学、复旦大学及上海交通大学发布了千亿级参数大语言模型“书生·浦语”(InternLM),它在中国高考等多项中文考试中取得的成绩超过ChatGPT。
“书生·浦语”有1040亿参数,在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测显示,这个大模型不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,所以在综合性考试中表现突出,包括中国高考各科目的数据集(GaoKao)。相关技术报告已在网上公开(https://github.com/InternLM/InternLM-techreport),对模型的技术特点和测试结果进行了详细阐述。
联合研发团队选取20余项评测对“书生·浦语”进行检验,其中有全球最具影响力的4个综合性考试评测集:由加州大学伯克利分校等高校构建的多任务考试评测集MMLU;微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和 GMAT等);由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;由复旦大学研究团队构建的中国高考题目评测集Gaokao,包含各个科目以及选择、填空、问答等多种题型。
大模型在4个评测集的成绩对比(满分100分)
考试成绩显示,“书生·浦语”不仅大幅超越GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval和Gaokao等多个综合性考试中高于ChatGPT,在以美国考试为主的MMLU上与ChatGPT 持平。其中,“书生·浦语”在超过75%的Gaokao测评项目中均领先ChatGPT。
大模型在Gaokao测评项目中的成绩对比
为了避免“偏科”,研究人员还通过多个学术评测集,对多个语言模型的分项能力进行了评测对比。结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,而且在数学推理、编程能力等评测中取得较好的成绩。研究人员还对大模型的安全性做了评测,在 TruthfulQA(主要评价回答的事实准确性) 以及 CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
大模型在分项能力上的评测对比
虽然在考试评测中取得优秀成绩,但大语言模型仍然存在不少能力局限性。据介绍,“书生·浦语”受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码和数理逻辑演绎等方面还存在明显局限。此外,在对话过程中,大语言模型普遍存在幻觉、概念混淆等问题。这些局限意味着,大语言模型在开放场景中的使用还有很多问题有待突破。