模型“日日新”，商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

作者：经济早知道发布时间：2023-06-21

近日，商汤科技公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果，“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，实现了我国语言大模型研究的重要突破。

截至目前，已有近千家企业客户通过申请，应用和体验“商量SenseChat 2.0”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力，并且“商量SenseChat 2.0”还在服务客户过程中，持续实现着快速迭代和提升，以及知识的实时更新。

三个权威大语言模型评测基准结果：“商量SenseChat 2.0”综合能力超ChatGPT

商汤科技公布的评测结果中，选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval，结果显示“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT，部分已十分接近GPT4的水平。

l 由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU；

l 微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等）；

l 由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval；

表：各大语言模型在MMLU、AGIEval、C-Eval三个评测基准中得分情况

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准，涵盖了科学、技术、工程、数据，人文、社会科学等领域的57个科目，难度从初级水平到高级专业水平，考验世界知识和解决问题的能力。（参考论文：https://arxiv.org/abs/2009.03300）

在该评测中，“商量SenseChat 2.0”综合得分为68.6，远超GLM-130B（45.7分）的得分，同时还超过了ChatGPT（67.3分）、LLaMA-65B（63.5分）仅落后GPT-4（86.4分），位居第二。在各主要子评测集中的表现如下：

（图中粗体表示结果最佳，下划线表示结果第二）

AGIEval是由微软研究院发布的，专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力，从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试，包括普通大学入学考试（中国高考和美国SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。（参考论文：https://arxiv.org/abs/2304.06364）

在该评测中，“商量SenseChat 2.0”测出49.91的分数，遥遥领先GLM-130B（34.2分）、LLaMMA-65B（34.0分），并再次超越ChatGPT（42.9分），仅次于GPT-4的56.4分。在其中的AGIEval（GK）评测子集中，“商量SenseChat 2.0”以58.5分全面领先，仅微弱差距落后GPT-4（58.8分）。细分科目评测结果如下，其中带GK的是中国高考科目：

（图中粗体表示结果最佳，下划线表示结果第二）

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别。（参考论文：https://arxiv.org/abs/2305.08322）

面对C-Eval评测基准，“商量SenseChat 2.0”拿到了66.1的分数，在参评的18个大模型中，仅次于GPT-4（68.7分），全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中，C-Eval（Hard）子评测集，是选择了8个具有挑战性的数据、物理和化学科目，进一步考核大语言模型的推理能力，“商量SenseChat 2.0”也表现居于前列。

图：最新C-Eval 排行榜（来源：https://cevalbenchmark.com/static/leaderbo

技术创新+客户落地，推动“商量SenseChat 2.0”能力快速持续提升

今年4月，商汤正式发布“商汤日日新SenseNova”大模型体系，以及自研中文语言大模型“商量SenseChat”。截至6月，全球范围内正式发布的大语言模型已超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

在“百花齐放”的市场格局中，通过对比成绩与表现，我们可以了解各大预言模型的特点与差异，并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat 2.0”实现了对GPT-3.5超越，并且随着商业化落地的推进，在众多行业、场景中发挥令人满意的作用。

例如在需要大量文案工作的场景中，“商量SenseChat 2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等，进行编辑、重写、总结、分类、提取信息、制作Q&A等，有效提高企业员工的生产效率。在客户服务场景中，“商量SenseChat 2.0”还可以扮演许多不同的企业角色，如银行客服、给孩子讲故事的绘本老师等等，并进行顺畅的交流和互动，提升客户体验。

此外，“商量SenseChat 2.0”还拥有广泛的知识储备，能够结合企业自身所在行业的专有数据，非常高效地打造满足企业需要的高阶知识库，帮助实现更智能化的知识库管理。“商量SenseChat 2.0”还是高水平的AI代码助手，能够极大帮助提高开发效率，实现新的二八定律，即80%的代码由AI生成，20%则由人工生成。

商汤大语言模型能力的提升源于更多高质量中文数据的训练学习，得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法，以及更加有效的反馈学习机制，让大模型增强推理能力的同时，减轻了传统大模型的幻觉问题。

申请试用“商量SenseChat 2.0”：

https://lm_experience.sensetime.com/document/authentication

+++

关于商汤

作为人工智能软件公司，商汤科技以“坚持原创，让AI引领人类进步”为使命，旨在持续引领人工智能前沿研究，持续打造更具拓展性更普惠的人工智能软件平台，推动经济、社会和人类的发展，并持续吸引及培养顶尖人才，共同塑造未来。

商汤科技拥有深厚的学术积累，并长期投入于原创技术研究，不断增强行业领先的多模态、多任务通用人工智能能力，涵盖感知智能、自然语言处理、决策智能、智能内容生成等关键技术领域，同时包含AI芯片、AI传感器及AI算力基础设施在内的关键能力。此外，商汤前瞻性打造新型人工智能基础设施——商汤AI大装置SenseCore，打通算力、算法和平台，并在此基础上建立“商汤日日新SenseNova”大模型及研发体系，以低成本解锁通用人工智能任务的能力，推动高效率、低成本、规模化的AI创新和落地，进而打通商业价值闭环，解决长尾应用问题，引领人工智能进入工业化发展阶段。商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块，相关产品与解决方案深受客户与合作伙伴好评。

商汤倡导“发展”的人工智能伦理观，并积极参与有关数据安全、隐私保护、人工智能伦理道德和可持续人工智能的行业、国家及国际标准的制订，与多个国内及多边机构就人工智能的可持续及伦理发展开展了密切合作。商汤《AI可持续发展道德准则》被联合国人工智能战略资源指南选录，并于2021年6月发表，是亚洲唯一获此殊荣的人工智能公司。

目前，商汤（股票代码：0020.HK）已于香港交易所主板挂牌上市。商汤在香港、上海、北京、深圳、成都、杭州、南平、青岛、西安、台北、澳门、京都、东京、新加坡、利雅得、阿布扎比、迪拜、吉隆坡、首尔等地设立办公室。另外，商汤科技在德国、泰国、印度尼西亚、菲律宾等国家均有业务。更多信息，请访问商汤科技网站、微信、微博和领英。

媒体联络及查询

商汤科技

邮箱：pr@sensetime.com

近期资讯

企业超管 2024-12-28

4U上架式工控机:非标自动化设备的智能伙伴

随着工业自动化技术的不断发展，非标自动化设备因其高度定制化和灵活性，正逐渐成为提升生产效率和产品质量的关键因素。在这种背景下，4U上架式工控机作为一种高性能、高可靠性的工业控制解决方案，被广泛应用于非标自动化设备中。一、非标自动化设备概述非标自动化就是指根据客户需求定制的非标准类的自动化设备。与市场上常见的标准化设备不同，非标设备在设计、制造和功能上都更具灵活性和针对性，可以根据客户的具体需求进行个性化定制，从而帮助企业提高生产效率、降低成本并增强市场竞争力。二、4U上架式工控机在非标自动化设备中的应用1

东田工控 2024-12-28

模型“日日新”，商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

推荐体验

相关资讯