未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！

作者：科技说说发布时间：2023-07-25

7月25日消息，中文通用大模型综合性基准SuperClue发布了最新中文大语言模型排行榜。榜单结果显示，百度文心一言总分超GPT-3.5-Turbo，领跑国内大模型。

SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一，每期有3700+道客观题（选择题），由基础能力（10个子任务）、中文特性能力（10个子任务）、学术专业能力（50+子任务）组成，用于考察大模型在70余个任务上的综合表现。

此次SuperCLUE从基础能力、专业能力、中文特性能力三个维度70余项子能力，选取国内外20个有代表性的可用大模型进行测评，兼具综合能力考量与中文特定任务理解积累的考察，并通过自动化测评以相对客观形式进行效果测评。在总分榜中，文心一言紧随GPT-4，总分超GPT-3.5及国内其他大模型，模型效果最佳。

从榜单结果可以看出，虽然国外GPT-4效果较领先，但国内GPT模型也有不俗表现。在中文领域，国内研发的大模型在部分维度表现突出，整体在逐步缩小与国际先进模型的差距。整体来看，国内大模型中百度文心一言表现最优。文心一言v2.2.0版背后搭载的是文心大模型3.5，文心大模型自2019年3月发布1.0版后，现已升级到3.5版。新版本模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

据了解，这次评榜的SuperClue是一个由国内发起的大模型榜单，是中文领域权威测评社区。相较于国外的UC伯克利LLM排行榜和斯坦福排行榜AlpacaEval两个流行榜单，多了一些国内大模型，更加适合国内用户来横向比较。作为针对中文可用的通用大模型测评标准，SuperCLUE使用多个维度能力对一系列国内外代表性模型进行测试，因其为封闭式问题，对大模型来说是“闭卷考试”，测评更难。

评测基准中，基础能力包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色扮演、代码、生成与创作等10项能力；专业能力包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力；中文特性能力包括了中文成语、诗歌、文学、字形等10项多种能力。

值得一提的是，全球领先的IT市场研究和咨询公司IDC最新发布《AI大模型技术能力评估报告，2023》显示，百度文心大模型3.5拿下12项指标的7个满分，综合评分第一，算法模型第一，行业覆盖第一，其中也是算法模型维度的唯一一个满分。

另据近期多个公开测评显示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4的表现；综合能力在评测中超过ChatGPT，遥遥领先于其他大模型，稳居国内第一。

未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！

推荐体验

相关资讯

未来能打过GPT-4的中文大模型是谁？看完这个榜单我震撼了！

最强中文大模型，通义千问2.5追上GPT-4了？

GPT-4大模型硬核解读，看完成半个专家

大模型跑分家家碾压GPT-4，评测榜单是时候升级了？

你好，我是免费的GPT-4

近期资讯

广州裕富联申请种POS机业务巡检系统专利，能快速实现外勤人员巡检的风险排查

重庆市凯钢机械制造有限公司取得飞轮加工用喷码设备专利，提高飞轮加工效率

中特生命健康科技取得具有定位功能的线段短停静态打码装置专利，保证码位置统一

朝阳闽龙陶瓷取得精准定位喷墨印花装置专利，提高印花效果

通号通信申请铁路线路智能巡检专利，提高故障发现及时性和处理故障效率

中科制造（深圳）集团取得锂电池加工用喷码机专利，降低喷码机喷码到其他位置的概率

广东中南钢铁申请高炉本体巡检系统及巡检方法专利，能够实现对高炉本体巡检作业的自动化

宇文星光电取得电子元件加工用打标设备专利，能够稳定夹持并反转电子元件实现多方位喷印打标

广州圣彩取得一种喷绘打印机辅助烘干装置专利，提高喷绘布干燥效率

融众易达取得微型打印机专利，增加打印纸进入走纸间隙中的张力

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响