今天分享的是大模型系列深度研究报告:《SuperCLUE中文大模型基准测评报告:ChatGPT发布一周年特别报告》。
(报告出品方:SuperCLUE)
报告共计:37页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。 大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。
中 文 语 言 理 解 测 评 基 准 C L U E ( T h e C h i n e s e L a n g u a g e Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。
SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的 综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题, SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。
为更真实反应大模型能力,本次测评采用多维度、多视角的综合性测评方案,由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分 测评结果组成。评测集共4265题,其中1052道多轮简答题(OPEN),3213道客观选择题(OPT),以下为评测集与测评方法简述。
国内外差距依然明显。GPT4-Turbo总分89.79分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分,距离GPT4-Turbo有15.77分。
必须看到的是,过去1年国内大模型已经有了长足的进步,综合能力超过GPT3.5的模型有8个,分别为百度的文心一言4.0、零一万物的Yi-34B- Chat、月之暗面的Moonshot、vivo的BlueLM、腾讯的混元阿里云的通义千问2.0、清华&智谱AI的ChatGLM3、字节跳动的云雀。
另外国内开源模型在中文上表现要好于国外开源模型,如百川智能的Baichuan2-13B-Chat、元象科技的XVERSE-13B-Chat-2、阿里云的Qwen-14、ChatGLM3-6B的成绩均大幅优于Llama2-13B-Chat。
• 在SuperCLUE测评中,国外代表性模型的平均成绩为71 .23分,国内代 表性模型平均成绩为60.48分,差距在10分左右。
• 可以看出,国内外的平均水平差距不是特别明显,要弱于头部模型的差距。
通过SuperCLUE测评结果发现,国内大模型的第一梯队有了更多新的模型加入。如零 一万物的Yi-34B-Chat、腾讯的混元、阿里云的通义千问2.0。你方唱罢我登场,已有模型的新版本或出现的新模型,可能会进一步加剧第一梯队大模型的竞争。
在新的大模型竞争中,创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势,可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。
• 从国内TOP15大模型的数量来看,创业公司和大厂的占比几乎持平。
• 从大厂和创业公司的平均成绩来看,大厂与创业 公司差值约1分,几乎持平。这说明大模型研发不 会仅仅因为公司规模的大小而受到影响。
多轮开放式问题基准SuperCLUE-OPEN,是使用超级模型作为评判官用一个待评估模型与一个基准模型(GPT3.5) 进行对比,从而得出胜平负的得分。
从胜率来看,全球领跑者GPT4-Turbo胜率为49.34%,和率为48.19%大幅领先于其他模型,而败率仅为2.4%,足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。
而国内模型中,零一万物的Yi-34B-Chat和百度的文心一言4.0不相上下,胜率的趋势基本相同,并且表现均好于GPT4.胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0和云雀大模型。
在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位展现出不俗的对战能力。排在2至3位的是Qwen-14B-Chat和XVERSE-13B-Chat-2,同样表现可圈可点。
语言理解与生成主要考察模型在生成与创作、语言理解与抽取、上下文对话、角色扮演方面的能力。
在语言理解与生成维度的测评中,GPT-4 Turbo依然领先,是唯一超过90分的大模型。国内大模型也表现相对较好,有3个模型的得分高于GPT4,其中清华&智谱Al的ChatGLM3-Turbo表现出色排名国内第一零一万物的Yi-34B-Chat、月之暗面的Moonshot分列2-3位,均超过了GPT4。
在开源模型中,百川智能的Baichuan2-13B-Chat和元象科技的XVERSE-13B-Chat-2也取得了不错的成绩,均超过了50分,较为接近GPT3.5。
总体来看,在中文语言理解与生成的能力上,国内大模型已基本追赶上国外头部大模型,在未来也最可能成为率先形成超越的维度之一。
专业技能与知识主要考察模型在计算、逻辑与推理、代码、知识百科方面的能力。
在专业技能与知识的测评中,GPT-4 Turbo领先幅度较大,是唯一过90分的大模型。国内大模型中文心一言4.0表现不俗,取得81.74的高分。较GPT4高出1.72分,是国内模型中唯一超过80分的大模型。仅随其后的是通义千问2.0、Moonshot、Yi-34B-Chat等模型。均有超过GPT3.5的表现。
在开源模型中,阿里云的Qwen-14B-Chat表现可圈可点,是200亿参数以内的模型中唯一超过50分的模型。
总体来看,在专业技能与知识能力上,国内第一梯队大模型与国外最好模型依然有较大距离,是国内大模型可以重点优化的方向。
报告共计:37页
海量/完整电子版/报告下载方式:公众号《人工智能学派》