马斯克突发新版大模型，牺牲特斯拉资源叫板OpenAI，Grok-2一手实测来了

作者：量子位发布时间：2024-08-14

马斯克 OpenAI

梦晨发自凹非寺

量子位 | 公众号 QbitAI

马斯克旗下xAI大模型，出二代了！

Grok-2测试版发布，小杯Grok-2 mini已经在𝕏平台在线可玩。

马斯克还以谜语人的形式，揭晓了困扰大模型圈一个多月的秘密：

原来Lmsys大模型竞技场上的神秘匿名模型sus-column-r，真身就是Grok-2。

sus-column-r在排行榜上积累了1万多人类投票，已经与GPT-4o的API版并列第三。

在xAI自己的内部测试中，Grok-2在常识（MMLU、MMLU-Pro）、数学竞赛问题(MATH)、研究生水平科学知识 (GPQA)等领域与其他前沿模型相媲美。

另外Grok-2最擅长基于视觉的任务，在视觉数学推理(MathVista)达到SOTA。

不过这个图的排版可就有点心机在里面了：把分数最高的GPT-4o、Claude-3.5-Sonnet放得离自己远一些。

光看分数还是抽象，下面就进入一手实测环节。

一手实测Grok-2

如果你是𝕏/推特平台付费用户，可以直接进入Grok频道试玩。不花钱的话也可以到Lmsys大模型竞技场选择sus-column-r试玩。

而且付费用户反倒只能玩到小杯mini版，免费用户能玩大杯，也是很厚到了。‍

由于Grok-2可以访问𝕏上的实时数据，可以直接让他总结当天的新闻，开启趣味模式的话还可以附赠吐槽。

付费版本还接入了最新开源AI生图模型Flux.1，会把中文提示词翻译成英文理解。

点进主页上的“安利一个奇幻游戏”问题示例，可以看到它先推荐了《博德之门3》，并从剧情、人物自定义、游戏机制、世界塑造、幽默元素和玩家社区几个角度做点评，很好的把握了游戏的亮点。

此时可以直接换中文继续提问。

Grok-2同样了解《黑神话：悟空》这款还没发售的游戏，准确说出发售日期在8月20日、使用的虚幻5引擎，并且总结了𝕏上网友的讨论。

还在最后附带了网友的帖子，可以点进去参与讨论，与整个平台的功能整合已经到位了。

不过由于𝕏上只有mini版模型，接下来上强度测试我们移步大模型竞技场，还可以与GPT-4o来一场捉对pk。

在最近流行的智商检测问题“9.9和9.11哪个大”上，Grok-2（sus-column-r）表现碾压ChatGPT最新版本。

不过另一项流行测试“strawberry中有几个r”问题上，两者都还是没能通过。（多试几次两者都有小概率答对）。

更严肃一些的陷阱题“以下哪支蜡烛是最先被吹灭的”中，Grok-2比ChatGPT稍有进步。

考点是最先被吹灭的蜡烛剩下的部分更长（正确答案3），ChatGPT错误的理解成最短的，Grok-2思路是对的但是数哪个最长没数对。

对于经典的大模型弱点“逆转诅咒”问题，两者似乎都以某种方式克服了。不仅能正着回答“汤姆克鲁斯的母亲是谁”，也能倒过来回答数据出现频率更少的“Mary Lee Pfeiffer的儿子是汤姆克鲁斯”。

（当然不排除只是成为经典问题之后，相关数据更多了。）

马斯克大模型升级，牺牲特斯拉换的

测试先告一段落，可以看出Grok-2对比上一代Grok-1.5有了很大进步。

背后马斯克可是，花费了大量资源和人力。

比如有新加入xAI的研究员表示，能用10万卡集群做研究，比起在学校里可怜的资源爽太多了。

但是有一群人可不满意了：特斯拉股东。

根据华尔街日报消息，马斯克持续把人才、数据和GPU资源从特斯拉向xAI转移。

目前为止，xAI已经雇佣了至少11名曾在特斯拉工作过的员工，其中六名直接在Autopilot团队工作过。

原本为特斯拉保留的GPU订单，马斯克也要求英伟达优先供应xAI。

马斯克还公开谈论了特斯拉收集的大量视觉数据，他表示这些数据可以作为训练xAI模型的资源。

至少三位特斯拉股东因为这事把马斯克给告了，声称将资源转移到xAI损害了特斯拉投资者的利益。

目前案件正在特拉华州法院审理。

Lmsys大模型竞技场试玩：

https://arena.lmsys.org

参考链接：

[1]https://x.ai/blog/grok-2

[2]https://www.wsj.com/tech/elon-musk-tesla-shore-up-ai-business-d4e2187f

[3]https://x.com/elonmusk/status/1823593475205685588

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

马斯克突发新版大模型，意在叫板OpenAI？

金融投资网讯(记者薛蕾)在谷歌和OpenAI相互竞争、发布新消息的同一天，8月14日，埃隆·马斯克旗下的XAI公司推出最新大模型Grok2。新一代包括两个版本Grok-2和Grok-2mini，这两种模型均在…

马斯克 OpenAI 谷歌金融融资

金融投资报 2024-08-17

可生成政治人物图像，马斯克旗下xAI发布Grok-2“手撕”OpenAI

（记者朱俊熹）当地时间8月14日，埃隆·马斯克预告已久的新一代AI大模型Grok-2终于面世。马斯克旗下人工智能初创公司xAI本次共推出两款型号的产品，包括Grok-2早期预览版及Grok-2mini。

马斯克 OpenAI AI大模型人工智能

蓝鲸新闻 2024-08-15

AI实测｜Grok-2上线，图像生成能力超亮眼，马斯克对战OpenAI扳回一城？

先不说尝鲜的订阅用户们在X上争先恐后地“炫耀”刚刚用Grok-2制作的梗图，就连非常知名的沃顿商学院教授、AI作家EthanMollick也对Grok-2的表现赞赏有加，称它是目前能与GPT-4相提并论的五大…

马斯克 OpenAI GPT-4

数据猿 2024-08-24

AI加速跑！马斯克旗下AI公司发布Grok-2大模型

近日，特斯拉创始人埃隆·马斯克旗下AI初创公司xAI发布了一款新的聊天机器人Grok-2，声称其性能与竞争对手OpenAI、谷歌和Anthropic的产品相当。值得注意的是，马斯克还公开表示，正在寻求特斯拉董事会批准向该公司投资50亿美元。

马斯克 OpenAI 谷歌融资

和讯网 2024-08-15

马斯克官宣Grok-2！性能秒杀GPT-4？是否开源成焦点

马斯克官宣Grok-2！性能秒杀GPT-4？是否开源成焦点雷科技2024-08-13 11:00发布于广东科技领域创作者全文2743字，阅读约需8分钟，帮我划重点划重点01特斯拉CEO马斯克宣布

马斯克 GPT-4

雷科技 2024-08-13

近期资讯

iPhone 14 / SE 3 退环境，Type-C 一统江湖

IT之家 2024-12-28

消息称苹果 iPhone 17 标准版“大概率使用高刷屏”

IT之家 2024-12-28

Copilot 成品牌核心，更名Microsoft 365应用筑起微软 AI 帝国梦

IT之家 2024-12-28

谷歌CEO皮查伊：明年风险高、赌注大，推广Gemini是首要任务

IT之家 2024-12-28

李想谈至暗时刻：2008年被小股东排挤，想着想着就会掉眼泪

腾讯科技 2024-12-28

洛图科技：中国监控摄像头 11 月线上销量 241 万台，小米双第一

IT之家 2024-12-28

谷歌CEO皮查伊的艰难2024：AI竞争更卷、员工士气下滑、裁员抗议不断

腾讯科技 2024-12-28

调用量疯涨，产业加速落地，百度AI 交出亮眼成绩单

钛媒体APP 2024-12-28

腾讯新闻独家对话李想：谈车企为何自研大模型称喜欢看团队吵架

腾讯科技 2024-12-28

李想：要实现L4自动驾驶，最少要有500万辆以上的车跑在路上

腾讯科技 2024-12-28

马斯克突发新版大模型，牺牲特斯拉资源叫板OpenAI，Grok-2一手实测来了

推荐体验

相关资讯

马斯克突发新版大模型，意在叫板OpenAI？

可生成政治人物图像，马斯克旗下xAI发布Grok-2“手撕”OpenAI

AI实测｜Grok-2上线，图像生成能力超亮眼，马斯克对战OpenAI扳回一城？

AI加速跑！马斯克旗下AI公司发布Grok-2大模型

马斯克官宣Grok-2！性能秒杀GPT-4？是否开源成焦点

近期资讯

iPhone 14 / SE 3 退环境，Type-C 一统江湖

消息称苹果 iPhone 17 标准版“大概率使用高刷屏”

Copilot 成品牌核心，更名Microsoft 365应用筑起微软 AI 帝国梦

谷歌CEO皮查伊：明年风险高、赌注大，推广Gemini是首要任务

李想谈至暗时刻：2008年被小股东排挤，想着想着就会掉眼泪

洛图科技：中国监控摄像头 11 月线上销量 241 万台，小米双第一

谷歌CEO皮查伊的艰难2024：AI竞争更卷、员工士气下滑、裁员抗议不断

调用量疯涨，产业加速落地，百度AI 交出亮眼成绩单

腾讯新闻独家对话李想：谈车企为何自研大模型称喜欢看团队吵架

李想：要实现L4自动驾驶，最少要有500万辆以上的车跑在路上

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响