商汤大模型“商量”评测表现超ChatGPT，用户可申请试用

作者：上观新闻发布时间：2023-06-22

商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatGPT，实现了我国语言大模型研究的突破。

今年4月，商汤发布了“商汤日日新SenseNova”大模型体系以及中文语言大模型“商量SenseChat”。目前，“商量”已在众多行业和场景中发挥作用。例如在需要大量文案工作的场景中，它可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A（问答）等，有效提高员工的生产效率。在客户服务场景中，它还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等，并进行顺畅的交流互动，提升客户体验。

据悉，已有近千家企业客户通过申请，应用和体验“商量”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。想申请试用“商量SenseChat 2.0”的用户，可登录该网站：https://lm_experience.sensetime.com/document/authentication。

各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中的得分

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，测试知识和解决问题的能力。

在该评测中，“商量”综合得分为68.6，远超GLM-130B的得分（45.7分），也超过了ChatGPT（67.3分）、LLaMA-65B（63.5分），仅落后于GPT-4（86.4分），位居第二。

图中粗体表示结果最佳，下划线表示结果第二。

AGIEval由微软研究院发布，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向人类考生的考试，包括大学入学考试（中国高考和美国SAT考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。

在该评测中，“商量”得分为49.91，遥遥领先于GLM-130B（34.2分）、LLaMMA-65B（34.0分），也超过ChatGPT（42.9分），仅次于GPT-4（56.4分）。在其中的AGIEval（GK）评测子集中，“商量”以58.5分排名第二，仅以微弱差距落后于GPT-4（58.8分）。

图中粗体表示结果最佳，下划线表示结果第二。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含13948道多项选择题，涵盖52个不同的学科和四个难度级别。

在该评测中，“商量”获得66.1分，在参评的18个大模型中仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等大模型。其中，C-Eval（Hard）子评测集选择了8个具有挑战性的数学、物理和化学科目，考核大语言模型的推理能力，“商量”的表现也居于前列。

最新C-Eval 排行榜

商汤研发团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型在增强推理能力的同时，减轻了传统大模型的幻觉问题。

据介绍，“商量”还拥有广泛的知识储备，能结合企业自身所在行业的专有数据，打造满足企业需要的高阶知识库。它还是AI代码助手，可以实现新的“二八定律”，即80%的代码由AI生成，20%由人工生成。

相关资讯

商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

商汤科技近日公布的自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示，“商量”在这三个测试集中的表现均领先ChatG

商汤 ChatGPT 大语言模型

文汇报 2023-06-22

新民晚报 2023-06-22

商汤大模型“商量”评测表现超ChatGPT，用户可申请试用

推荐体验

相关资讯

商汤大模型“商量”多个评测表现超ChatGPT，用户可申请试用

模型“日日新”，商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

商汤科技：“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

商汤大模型多个评测表现超ChatGPT

模型“日日新”！中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT

近期资讯

“内耗者”的修炼手册

张运院士：适度饥饿感、寒冷感，能够增加长寿基因

电动汽车给电网送电？想法太疯狂！却是中国电能的下一形态

在蔚来盈利目标上多次食言的李斌，和小米汽车打通充电网络后，是不是可以高枕无忧了？

追觅前高管扎堆做机器人，要与老东家狭路相逢？

海外仓计费项-出库操作费-产品设计方案

2024年汽车行业网络营销监测报告

分不清品牌价值主张和品牌口号？

佰泽医疗IPO：半年亏734万元，民营医院何以走出“坦途”?

可灵试衣又升级！求求了别再卷穿搭副业了，试试这种！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响