马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

作者：量子位发布时间：2024-03-29

马斯克 GPT-4

丰色西风发自凹非寺

量子位 | 公众号 QbitAI

就在刚刚，马斯克Grok大模型宣布重大升级。

难怪之前突然开源了Grok-1，因为他有更强的Grok-1.5了，主打推理能力。

来自xAI的官方推送啥也没说，直接甩链接。主打一个“字少事大”

新版本Grok有啥突破？

一是上下文长度飙升，从8192增长到128k，和GPT-4齐平。

二是推理性能大幅提升，数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。

消息一出，评论区立刻就躁起来了。

具体跑分结果如何，咱们立马来看。

Grok-1.5来了

首先，对于上下文窗口。

这次是一把直接提升到之前的16倍，来到128k量级。

这也就意味着Grok可以处理更长和更复杂的提示，同时保持其遵循指令的能力。

在“大海捞针”（NIAH）测试中，Grok-1.5在128K token的上下文中完美检索嵌入的文本。

整个图一水儿的蓝色（100%的检索深度）：

其次，推理方面。

Grok-1.5处理编程和数学相关任务的能力大幅提升，全面超越Grok-1、Mistral Large、Claude 2。

数学方面，Grok-1.5在MATH基准测试上得分50.6%，超越中杯Claude 3 Sonnet；GSM8K上得分90%。

编程方面，Grok-1.5在HumanEval基准测试上得分74.1%，超越中杯Claude 3 Sonnet、Gemini Pro1.5、GPT-4，仅次于大杯Claude 3 Opus。

看起来，Grok这次的实力也是不可小觑。

Grok系列与其他大模型相比还有一个特色，不使用通用的Python语言+Pytorch框架。

据官方介绍，Grok 1.5采用分布式训练架构，使用Rust、JAX+Kubernetes构建。

为了提高训练可靠性和维持正常运行时间，团队提出了自定义训练协调器，可自动检测到有问题的节点，然后剔除。

除此之外，他们还优化了checkpointing、数据加载和训练重启等流程，最大限度地减少故障停机时间。

这，才速速有了现在的Grok 1.5～

更多信息官方也暂时还没有披露。

可以确定的是，新版本未来几天会先推送给早期测试者。并按照“老规矩”，很快将在𝕏平台上线。

网友们表示：Grok进步真的相当迅速。

不提别的，Grok新版本各指标已经全面超越Claude 2。而xAI成立仅一年，只比Anthropic落后9个月。因此：

打赌12个月后，xAI完全有可能成为领导者。

还有人评价更高，认为马斯克这是发了另一个“GPT-4等效模型”，喊着：

OpenAI搞快点啊。

你期待新版本的Grok吗？

参考链接：

[1]https://twitter.com/xai/status/1773510159740063860

[2]https://x.ai/blog/grok-1.5

— 完—

评选报名即将截止！

2024年值得关注的AIGC企业&产品

量子位正在评选 2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项，欢迎报名评选！评选报名 截至2024年3月31日

中国AIGC产业峰会「你好，新应用！」已开启报名！点击报名参会同时，峰会将进行线上直播 ⬇️

点这里👇关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

行业发展前景、地方就业机遇哈工大开了家“就业博物馆”

12月25日，哈工大在校园暖廊内搭建“就业博物馆”正式“开门营业”。“就业博物馆”包括“国之重器”模型展区、地方引才宣传展区、中央企业介绍展区。

生活报 2024-12-26

行业首创可变轮足，广汽第三代具身智能人形机器人GoMate正式发布！

12月26日，2024年中国机器人网年会在上海举行。在新品发布环节，广汽集团隆重推出了自主研发的第三代具身智能人形机器人——GoMate。GoMate与张爱民互动GoMate向参会嘉宾点赞张爱民在现场接受媒体采访创新构型领先行业广汽集团此次发布的GoMate是一款全尺寸的轮足人形机器人，全身拥有38个自由度。

爱车兵团 2024-12-26

“直男”品牌攻占女性市场，大疆Pocket 3是如何火出圈的？

魔镜洞察显示，2023年11月到2024年10月，在淘宝、天猫普通数码相机类目下，大疆Pocket3以1.24亿元的销售额断层第一，影石Insta360GO3s以0.52亿元的销售额位列第二，索尼ZV-1以0.46亿元的销售额位列第三。

蓝鲸新闻 2024-12-26

独享MRDIMM有多强？至强6性能核处理器的内存二三事

MDB主机侧的运行速度是DRAM侧的双倍，DRAM侧的数据接口是主机侧的双倍。由于至强6900P插座尺寸大增，导致双路机型的内存槽数量从上一代的32条减少到24条。与DDR56,400MT/s相比，MRDIMM8,800MT/s的实际运行频率略低（4,400MT/s），导致轻量级的应用不能从内存带宽的增加当中明显获益。

机器之心Pro 2024-12-26

蘑菇开车满地跑，米饭疯狂长出血肉，这世界还能再抽象点吗？

科学研究的面貌并不总是严肃的，它们有时有趣，有时奇怪，也有时让人大呼离谱。本文将带你回顾2024年那些让人印象深刻的谜之研究。今年，蘑菇也当上了机械驾驶员。在下图中，我们看到的满地爬行的小机器人就是由杏鲍菇控制的——对，就是你平时吃的那种。这个长着五条腿的可动机械装置内部生长着杏鲍菇的菌丝体。

果壳网 2024-12-26

微软解析“教育+AI”：小模型带来的智能硬件大爆发，教育亦有结合机会

来源|多知整理|王上摄|张子通近日，在多知OpenTalk第48期“全球起航!‘教育+AI’出海进行时”活动中，微软中国高级解决方案专家王剑白博士发表了主题演讲《GenAl浪潮下教育行业转型及出海的实践与思考》。

多知网 2024-12-26

红果短剧认真整改主动停更5天

红果短剧在接受广电主管部门约见后，高度重视，迅速响应，坚决落实好主管部门关于微短剧管理的有关规定和指导要求，进一步完善审核制度，即日起对平台上所有剧集进行逐一排查，对于发现的违规内容，立即采取下线等措施。

广电视界 2024-12-26

华为Mate 70 Pro+通过三项航天级测试

据华为终端消息，华为Mate70Pro+成功通过模拟火箭360km/h冲击、28米高空跌落和-30度极端低温环境三项航天级测试。华为Mate70Pro+搭载高亮钛玄武架构，可提升手机在抗冲击、抗跌落、抗低温能力。

每日经济新闻 2024-12-26

「e公司观察」技术迭代的溢出效应

无人机变得越来越好用，越来越便宜，受益于汽车产业链，人形机器人变得越来越智能，则受益于大模型。大疆2015年推出第一代的农业植保机MG1时，锂电池保内寿命只有180次。如果以2015年的产品放在现在做吊运不到一个月电池就要报废。另外，大疆无人机还开始搭载激光雷达，激光雷达的发展，也受益于新能源汽车产业链的智能化。

证券时报 2024-12-26

量子通信技术“风起”，相关概念股梳理（附股）

近日，量子通信技术备受关注，被视为未来信息通信领域的重要发展方向。与传统的通信技术相比，量子通信技术的特点及优势体现在具有较高时效性、具有较强的抗干扰性、具有较好的保密性、所需信噪比低等。

证券之星 2024-12-26

马斯克突发Grok 1.5！上下文长度至128k、HumanEval得分超GPT-4

推荐体验

相关资讯

马斯克发布Grok-1.5，上下文128K对标GPT-4 | AI日报

马斯克突然发布Grok 1.5！上下文长度飙升16倍和GPT-4齐平

开源11天，马斯克再发Grok-1.5！128K代码击败GPT-4

马斯克官宣 Grok-1.5！超 GPT-4 16 倍上下文，推理能力超 DBRX，网友：赢在敢说！

OpenAI史诗级更新！128K上下文、价格暴降2/3

近期资讯

行业发展前景、地方就业机遇哈工大开了家“就业博物馆”

行业首创可变轮足，广汽第三代具身智能人形机器人GoMate正式发布！

“直男”品牌攻占女性市场，大疆Pocket 3是如何火出圈的？

独享MRDIMM有多强？至强6性能核处理器的内存二三事

蘑菇开车满地跑，米饭疯狂长出血肉，这世界还能再抽象点吗？

微软解析“教育+AI”：小模型带来的智能硬件大爆发，教育亦有结合机会

红果短剧认真整改主动停更5天

华为Mate 70 Pro+通过三项航天级测试

「e公司观察」技术迭代的溢出效应

量子通信技术“风起”，相关概念股梳理（附股）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响