登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

作者：甲小姐甲子光年发布时间：2024-11-20

在“最难AI榜”，拿下中国第一、全球第五。

作者｜王艺 ‍‍‍

编辑｜栗子 ‍‍‍

图源： LiveBench官网

根据榜单， Step-2在IF Average（Instruction Following）一项表现突出，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

在AI届， LiveBench榜单一直以严苛的标准被人称为“最难AI榜”。而在国内AI“六小强”中阶跃星辰一直以技术实力强和低调著称，此次登顶LiveBench榜单中国第一，也掀开了这家大模型创业公司的神秘面纱。

1.最权威榜单的最惊艳亮相

事实上，LiveBench是今年新推出的大模型基准测试，但它已经迅速跻身为AI圈“最具权威性和挑战性”的榜单。

不仅因为LiveBench是由图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构推出的大模型测评基准，更因为它特殊的评测机制，被行业内誉为“无法被操纵的LLM基准测试”。

图源：LiveBench官网

LiveBench自设立之初就致力于消灭“刷榜作弊”的可能性：在评估前就用评估基准数据集相关或完全相同的数据进行训练，最终取得较高排名（就像手机厂商针对安兔兔跑分优化一样）。

而且LiveBench每月会发布新问题，并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题，以限制可能出现的数据污染现象，并且每个问题都有可验证的、客观的基本真实答案，最大限度保证结果的客观性。

LiveBench的权威性也部分源自评测范围广泛，截至今年6月，已经评估了几个著名的闭源模型和数十个开源模型。

LiveBench有多难？此前GPT-4-Turbo曾在SuperCLUE-OPEN基准上取得了98.40的高分。但在LiveBench上，GPT-4-Turbo整体准确率却只有50%左右。

尤为值得一提的是， Step-2在IF Average（Instruction Following，指令跟随）一项表现突出，超越了包括o1-preview-2024-09-12 在内的所有国内外语言大模型。这项指标意味着大模型在语言生成上对细节有最强的控制力，模型能够更好地理解和遵循人类指令。

2.模型能力不断进化，指令跟随全榜第一

阶跃星辰之所以能够首次参加LiveBench评测就取得如此高的成绩，与其自研Step-2大模型的两大特点密不可分—— 万亿参数和MoE架构。

相对于阶跃星辰自研的千亿参数语言大模型Step-1，Step-2的综合能力提升了近50%，无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。

在模糊指令方面，Step-2具备出色的理解能力，能够从上下文中推断出用户的需求，精准捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应。在知识分布方面，Step-2在知识覆盖范围和深度上都取得显著突破，不仅能够处理常见领域知识，还能深入理解和回答在特定领域或边缘分布中的复杂问题。

我们在阶跃星辰的C端智能助手「跃问」上测试了Step-2的效果。

给出一道数学题，「跃问」能很快给出条理明晰的正确答案：

Step-2大模型解答数学题，图源：跃问

在文字创作方面，Step-2能够生成高质量、有创意的文字内容，同时具备出色的细节控制能力，能够根据用户的指令对文本进行精确地调整和优化。

阶跃星辰CEO姜大昕认为，想把模型参数扩大到万亿的话，MoE几乎是一个必选项。但从千亿模型到万亿模型，所遇到的挑战是前所未有的。阶跃星辰团队在设计Step-2 MoE架构时候选择了迎难而上，完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新MoE架构设计，Step-2中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分稠密模型。

这也是Step-2之所以具有超强能力的根本原因所在。

3.模型矩阵完善，战略布局全面

大模型算法结构复杂、对算力要求高、对数据需求大，大语言模型和多模态大模型的技术路线也存在差异。也正是因此，不少公司都选择了“取其一点、打穿打透”的策略，专攻大语言模型或多模态大模型。

但阶跃不同。在众多国产模型厂商中，阶跃星辰是为数不多同时布局大语言模型与多模态模型、两个方向齐发力的公司。

除了完整、全面的模型矩阵，阶跃星辰的模型迭代速度也走在全国前列：

在2024年3月23日的全球开发者先锋大会上，阶跃发布了语言大模型Step-2的预览版——这也是国内初创公司，首次交出的万亿参数模型的答卷。

而今年7月，仅仅时隔100天，阶跃星辰就在2024 WAIC上发布了Step-2万亿参数大语言模型正式版，以及Step-1.5V多模态大模型、Step-1X图像生成大模型。

相较于其他厂商每半年或一年才更新一个新版本，阶跃星辰的迭代速度不可谓不快。

目前，阶跃星辰 Step 系列通用大模型矩阵，已经覆盖了从千亿参数到万亿参数，从语言到多模态，从理解到生成的全面能力。

阶跃星辰创始人兼CEO姜大昕认为，要实现AGI的终局需要走一条“ 单模态—多模态—多模理解和生成的统一—世界模型—AGI（通用人工智能）”的路。

今年随着o1的发布，AI技术也出现了新的范式，国内外基座大模型研发的竞赛还在继续。相信包括阶跃星辰的国产大模型，会继续在实现AGI之路上创造更多惊喜。

（封面图来源：阶跃星辰官网）

付亮的竞争情报应用 2023-03-08

中国数据法专家表示，控制AIGC工具目前是不可能的

(环球网综合报道】4月12日，中国的互联网监管机构正在寻求控制人工智能生成的内容模式。但据一位中国数据法专家称，目前是不可能的，因为传递过程是智能和随机的。华东政法大学数据法律研究中心主任高富平告诉《环球时报》记者，语言模型触及个人和公众的利益，因此在AIGC模型到达用户之前建立对它们的控制将是一项艰巨的任务，也是中国最新规定的重点。中国网络空间管理局昨天发布了《AIGC服务管理办法》草案，以规范类似ChatGPT产品可能出现的安全和道德问题。该监督机构将在5月10日前接受意见。北京师范大学法学教授吴沈括

AIGC 法律人工智能

海俊频道 2023-06-14

斯坦福公开十大主流模型透明度！Llama 2位列第一，GPT-4透明差，LeCun炮轰：盈利完全理解

GPT-4、Llama等基础模型（FM）相继诞生，已成为当前生成式AI的引擎。尽管这些FM的社会影响力不断增大，但透明度反而下降。 GPT-4官宣后，OpenAI公布的技术报告中，并未提及关键信息。

斯坦福 LLaMA GPT-4 生成式AI OpenAI

新智元 2023-10-20

T2 CEO：人工智能永远不可能创造出更好的《GTA》

在近日T2财报电话会议上，公司CEOStraussZelnick直言不讳地表达了自己的想法：人工智能永远不可能制造出更好的《GTA》游戏。他对现如今的人工智能和机器学习取得的飞跃感到非常兴奋，并相信其能在游戏…

人工智能

游民星空 2023-02-07

登上“最不可能作弊”的榜单，阶跃星辰Step-2位列中国大模型第一｜甲子光年

推荐体验

相关资讯

中国电信星辰语义大模型TeleChat2位列SuperCLUE榜单第一梯队！

无论ChatGPT多专业，也不可能让中国“专家”失业

中国数据法专家表示，控制AIGC工具目前是不可能的

斯坦福公开十大主流模型透明度！Llama 2位列第一，GPT-4透明差，LeCun炮轰：盈利完全理解

T2 CEO：人工智能永远不可能创造出更好的《GTA》

近期资讯

山东卓智盈讯申请新一代信息技术智能散热装置专利，对高性能计算机周边产生的热量进行综合评估

柏康（湖北）医药科技取得新型临床试验用量筒专利，使溶解效果更好

瀚为科技取得应用低功耗超声的混料匀浆设备专利，节能降低功耗

安徽实特医药取得恒温磁力搅拌器结构专利，避免搅拌功率过高致液体溢出

如何在手机摄影中轻松关闭拍照声音，避免尴尬场合的干扰

成都晟源石化取得一种多液体混合装置专利，解决苯乙烯聚合问题

佛吉亚歌乐电子申请电子设备专利，能够从顶板吸进空气用于冷却发热元件

广东智子取得气流混合器专利，仅需单个喷嘴就能实现对粉体物料充分快速且无死角活化对流混合

开利公司申请具有浸入式散热器的服务器冷却专利，可冷却服务器组件

北检润和取得称重搅拌系统专利，解决实验室溶液制备问题

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响