商汤科技：“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

作者：中国证券报发布时间：2023-06-22

中证网讯（记者王可）中国证券报记者6月22日从商汤科技获悉，公司近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果，“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT4的水平。

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中，“商量SenseChat 2.0”测出49.91的分数，遥遥领先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中的AGIEval（GK）评测子集中，“商量SenseChat 2.0”以58.5分全面领先，仅微弱差距落后GPT-4（58.8分）。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。目前“商量SenseChat 2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。例如在需要大量文案工作的场景中，“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量SenseChat 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

此外，“商量SenseChat 2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的二八定律，即80%的代码由AI生成，20%则由人工生成。

商汤科技表示，截至目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

商汤科技：“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

推荐体验

相关资讯

模型“日日新”，商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

模型“日日新”！中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

商汤大模型多个评测表现超ChatGPT

商量SenseChat 2.0发布：语言大模型研究取得重要突破

近期资讯

六大新质生产力最热赛道，解锁万亿产业投资密码

消息称苹果正加紧研发AI芯片以减少对第三方的依赖

祥鑫科技等多公司剧透人形机器人业务布局情况

首席气候官｜专访曼恩能源方案高级副总裁、亚太区负责人沙柏能：人工智能+人类智能是脱碳关键，2050年后海运业燃料格局将迎巨变

蓝皮书：科技化是餐饮业发展的创新动力

大模型·大未来｜金证优智科技副总裁林勇：持续关注大模型的四个技术方向

邮储银行北京分行：立足五河交汇之畔，服务京津冀协同发展之图

“水利一号”遥感卫星凌情监测首图成功传回

全球单机功率最大的纯氢发电机组首次点火成功

刚刚确认：可达中度污染！上海突发空气重污染黄色预警，减少户外活动

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响