超越GPT-4 Turbo，国产大模型首次排名榜首！最新SuperCLUE测评出炉

作者：新民晚报发布时间：2024-05-22

OpenAI长期霸榜的SuperCLUE（中文大模型测评基准），有了新“头雁”。

自SuperCLUE问世以来，GPT-4、GPT-4 Turbo先后六次占据榜首位置。最近，商汤日日新5.0（SenseChat V5）“申请出战”，以总分80.03分的优异成绩刷新国内最好成绩，并且在中文综合成绩上超越GPT-4-Turbo-0125——这也是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

采访对象供图（下同）

SuperCLUE综合性测评基准4月评测集，含2194道多轮简答题，覆盖理科与文科两大能力，包括计算、逻辑推理、代码、长文本在内的基础十大任务。在本次测评中，SenseChat V5在各项能力上表现较为均衡，尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置——

SenseChat V5在文科任务上表现出色，取得82.20的高分，国内外模型中排名第一，较GPT-4-Turbo-0125高4.40分。其中，知识百科（82.4）、长文本（79.2）、角色扮演（80.4）、语义理解（81.6）、生成创作（79.4）、传统安全（90.2）均刷新国内最好成绩。

SenseChat V5在理科任务上表现不俗，取得76.78分，国内模型中排名第一，较GPT-4-Turbo-0125低4.35分，还有一定提升空间。其中，计算（80.6）、逻辑推理（73.8）、工具使用（80.8）均刷新国内最好成绩；在代码能力上还有一定优化空间。

SuperCLUE工作组发现：将SenseChat V5与国内大模型平均得分对比，SenseChat V5在所有能力上均高于平均线，展现出较均衡的综合能力，尤其在计算（+16.15）、逻辑推理（+18.89）、代码（+19.06）、长文本（+21.16）能力上远高出平均线15分以上。

在与国外代表大模型对比时SuperCLUE的工作组发现，SenseChat V5在文科类中文任务上好于国外大模型，尤其在长文本、生成创作能力较为领先。

4月23日，商汤科技正式发布全新大模型日日新5.0（SenseChat V5），采用混合专家架构（MoE），参数量高达6000亿，支持200K的上下文窗口。此次SenseChat V5模型能力显著提升，其背后是训练数据的全面升级与训练方法的有效提升，以及商汤AI大装置算力设施与算法设计的联合调优。

新民晚报记者郜阳

超越GPT-4 Turbo，国产大模型首次排名榜首！最新SuperCLUE测评出炉

推荐体验

相关资讯

Llama 2第一、GPT-4第三！斯坦福大模型最新测评出炉

最新SuperCLUE测评出炉，商汤「日日新5.0」中文综合能力位列第一

国产大模型“逆袭”，首次击败GPT-4 Turbo，拿下第一！SuperCLUE：刷新了国内大模型最好成绩

GPT-4 Turbo首次被击败！国产大模型拿下总分第一

整体超越GPT-4 Turbo，科大讯飞带来最强国产大模型

近期资讯

联想电脑关机方法与注意事项总结

轻松制作苹果手机拼图，记录生活美好瞬间的方法与技巧

轻松安装新电视的步骤与注意事项指南，助你尽享观影乐趣！

选购电视的关键因素：尺寸、类型、分辨率与预算指南

共享充电宝使用与归还指南：轻松应对日常需求

解除手机锁屏密码的多种方法与注意事项总结

轻松上手WPS制作PPT的技巧与步骤，助你高效表达信息

轻松开启定位功能的实用指南与隐私保护建议

如何准确使用卷尺：技巧与注意事项分享

如何在iPhone上批量删除联系人，轻松管理通讯录

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响