SuperCLUE中文大模型基准测评报告：ChatGPT发布一周年特别报告（附下载）

作者：超爱跑步发布时间：2023-11-30

今天分享的是大模型系列深度研究报告：《SuperCLUE中文大模型基准测评报告：ChatGPT发布一周年特别报告》。

（报告出品方：SuperCLUE）

报告共计：37页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

2023大模型关键进展

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。

SuperCLUE介绍

中文语言理解测评基准 C L U E （ T h e C h i n e s e L a n g u a g e Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、 DataCLUE等广为引用的测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题， SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。

测评方法

为更真实反应大模型能力，本次测评采用多维度、多视角的综合性测评方案，由多轮开放问题SuperCLUE-OPEN和三大能力客观题SuperCLUE-OPT两部分测评结果组成。评测集共4265题，其中1052道多轮简答题（OPEN），3213道客观选择题（OPT），以下为评测集与测评方法简述。

国内外大模型差距

国内外差距依然明显。GPT4-Turbo总分89.79分遥遥领先。高于国内所有大模型及国外代表性大模型。其中国内最好模型文心一言4.0总分74.02分，距离GPT4-Turbo有15.77分。

必须看到的是，过去1年国内大模型已经有了长足的进步，综合能力超过GPT3.5的模型有8个，分别为百度的文心一言4.0、零一万物的Yi-34B- Chat、月之暗面的Moonshot、vivo的BlueLM、腾讯的混元阿里云的通义千问2.0、清华&智谱AI的ChatGLM3、字节跳动的云雀。

另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、元象科技的XVERSE-13B-Chat-2、阿里云的Qwen-14、ChatGLM3-6B的成绩均大幅优于Llama2-13B-Chat。

• 在SuperCLUE测评中，国外代表性模型的平均成绩为71 .23分，国内代表性模型平均成绩为60.48分，差距在10分左右。

• 可以看出，国内外的平均水平差距不是特别明显，要弱于头部模型的差距。

国内大模型竞争格局

通过SuperCLUE测评结果发现，国内大模型的第一梯队有了更多新的模型加入。如零一万物的Yi-34B-Chat、腾讯的混元、阿里云的通义千问2.0。你方唱罢我登场，已有模型的新版本或出现的新模型，可能会进一步加剧第一梯队大模型的竞争。

在新的大模型竞争中，创业公司和大厂都有一定的优势。大厂有多年积累和大量用户的优势，可以大量获得用户数据和反馈。但一线创业公司同样存在快速技术迭代的优势。

• 从国内TOP15大模型的数量来看，创业公司和大厂的占比几乎持平。

• 从大厂和创业公司的平均成绩来看，大厂与创业公司差值约1分，几乎持平。这说明大模型研发不会仅仅因为公司规模的大小而受到影响。

大模型对战胜率结果分析

多轮开放式问题基准SuperCLUE-OPEN，是使用超级模型作为评判官用一个待评估模型与一个基准模型(GPT3.5) 进行对比，从而得出胜平负的得分。

从胜率来看，全球领跑者GPT4-Turbo胜率为49.34%，和率为48.19%大幅领先于其他模型，而败率仅为2.4%，足以说明GPT4-Turbo对GPT3.5在各项能力上的全面压倒性优势。

而国内模型中，零一万物的Yi-34B-Chat和百度的文心一言4.0不相上下，胜率的趋势基本相同，并且表现均好于GPT4.胜率超过20%的还有Moonshot、BlueLM、ChatGLM3-Turbo、腾讯混元、通义千问2.0和云雀大模型。

在200亿参数量级的开源模型中Baichuan2-13B-Chat的胜率排在首位展现出不俗的对战能力。排在2至3位的是Qwen-14B-Chat和XVERSE-13B-Chat-2，同样表现可圈可点。

SuperCLUE基准-语言理解与生成能力测评分析

语言理解与生成主要考察模型在生成与创作、语言理解与抽取、上下文对话、角色扮演方面的能力。

在语言理解与生成维度的测评中，GPT-4 Turbo依然领先，是唯一超过90分的大模型。国内大模型也表现相对较好，有3个模型的得分高于GPT4，其中清华&智谱Al的ChatGLM3-Turbo表现出色排名国内第一零一万物的Yi-34B-Chat、月之暗面的Moonshot分列2-3位，均超过了GPT4。

在开源模型中，百川智能的Baichuan2-13B-Chat和元象科技的XVERSE-13B-Chat-2也取得了不错的成绩，均超过了50分，较为接近GPT3.5。

总体来看，在中文语言理解与生成的能力上，国内大模型已基本追赶上国外头部大模型，在未来也最可能成为率先形成超越的维度之一。

SuperCLUE基准-专业技能与知识能力测评分析

专业技能与知识主要考察模型在计算、逻辑与推理、代码、知识百科方面的能力。

在专业技能与知识的测评中，GPT-4 Turbo领先幅度较大，是唯一过90分的大模型。国内大模型中文心一言4.0表现不俗，取得81.74的高分。较GPT4高出1.72分，是国内模型中唯一超过80分的大模型。仅随其后的是通义千问2.0、Moonshot、Yi-34B-Chat等模型。均有超过GPT3.5的表现。

在开源模型中，阿里云的Qwen-14B-Chat表现可圈可点，是200亿参数以内的模型中唯一超过50分的模型。

总体来看，在专业技能与知识能力上，国内第一梯队大模型与国外最好模型依然有较大距离，是国内大模型可以重点优化的方向。

报告共计：37页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

SuperCLUE中文大模型基准测评报告：ChatGPT发布一周年特别报告（附下载）

2023大模型关键进展

SuperCLUE介绍

测评方法

国内外大模型差距

国内大模型竞争格局

大模型对战胜率结果分析

SuperCLUE基准-语言理解与生成能力测评分析

SuperCLUE基准-专业技能与知识能力测评分析

推荐体验

相关资讯

中文大模型基准测评报告2023-ChatGPT发布一周年特别报告（附下载）

中文大模型基准测评报告2023暨ChatGPT发布一周年特别报告

ChatGPT 发布一周年

中文大模型基准测评2024上半年报告（附下载）

ChatGPT一周年

近期资讯

轻松连接华为手表与手机，开启智能生活的便利体验

选购相机指南：如何根据需求和预算选择合适的摄影设备

海象新材获得实用新型专利授权：“一种地板倒角成型装置”

中铁工业获得实用新型专利授权：“一种开口肋组装可调角度定位装置”

烽火电子获得实用新型专利授权：“一种多功能网关设备”

顿号在汉字书写中的重要性与正确使用方法探讨

轻松连接电脑与投影仪的实用指南，提升你的视觉体验与工作效率

风神股份获得实用新型专利授权：“一种压延机压力辊监测限位装置”

风扇拆卸与清洗指南：轻松维护电器延长使用寿命

中天科技获得实用新型专利授权：“管材切割装置”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响