马斯克突然发布类 GPT-4 级别模型，能解「9.8 和 9.11 哪个大」，爆火 AI 生图功能被网友玩疯了

作者：爱范儿发布时间：2024-08-14

马斯克 GPT-4

就在刚刚，马斯克旗下 xAI 大模型 Grok 2 正式发布。

本次发布的 Grok 2 系列主要包括两个版本：Grok-2 和 Grok-2 mini。简单总结一下这两款模型：

Grok-2：大而全，类 GPT-4 级别模型，处于大模型的中上游水准
Grok-2 mini：小而美，响应速度快，但回复的质量不及 Grok-2

xAI 公司宣称，当下推出的预览版 Grok-2 在聊天、编程和推理方面均有着不俗的表现。Grok-2 系列模型将陆续集成到 X 平台，并且也将在 8 月底通过企业 API 向客户提供。

类 GPT-4 级别模型迎来新玩家，Grok 2 登场

老规矩，先说结论，虽说马斯克和 Altman 的唇枪舌战中常常处于上风，但早期预览版的 Grok-2 没能上演逆袭 ChatGPT 的大戏。

在公认比较靠谱的大模型竞技场 LMSYS 排行榜上，它的得分表现压过了 GPT-4o mini 和 Claude 3.5 Sonnet 一头。

而排在它前面的分别有「宿敌」OpenAI 的 GPT-4o-2024-05-13、Gemini-1.5-Pro-Exp-0801 以及 GPT-4o-latest-2024-08-08 等模型。

在大模型竞技场与其他模型的较量中，Grok-2 遇上 Gemini 1.5 Pro 的胜率最低，只有 48%，其次分别为 GPT-4o（05-13）以及 GPT-4o mini（07-18）等一众模型。

据介绍，在内部评估里，xAI 重点评估模型在两个关键方面的能力，其一为遵循指令，其二是提供准确、真实的信息。

其中 xAI 会采用一种模拟测试的方法：

AI 导师与模型在各种任务中进行互动，这些任务模拟了与 Grok 的真实互动场景。
在每次互动中，AI 导师会根据我们制定的评估标准，从 Grok 生成的两个回应中选择出更佳的一个。

结果表明，相比 Grok-2 mini 以及 Grok-1.5，Grok-2 在处理检索到的内容时的推理能力，以及在使用工具方面的能力，如正确识别缺失信息、通过事件序列进行推理以及排除无关内容等方面，都有了显著的进步。

从基准测试结果来看，Grok-2 的水准基本上能够碾压 GPT-4 Turbo 以及 Claude 3 Opus，甚至在表现上也能与 GPT-4o 以及 Llama 3-405B 互有胜负。

不过，xAI 所披露的基准测试结果也有点「小心思」，比如虽说能和 GPT-4o 不分伯仲，但是用的却是 GPT-4o 以及 GPT-4 Turbo 5 月份的得分，所以很难不让人怀疑这是为了美化结果所打的时间差。

xAI 团队成员 Guodong Zhang 则发文称：

有趣的是，与我们大多数其他公司和实验室不同，我们的发展速度非常快，以至于我们一直没有时间为每个模型发布编写正式的技术报告。

此外，xAI 还特地指出，Grok-2 在大规模多任务语言理解基准测试 MMLU 中，使用的是没有经过特定任务训练的 Grok-2，更真实地反映了该模型的泛化能力和对新任务的适应性。简言之，哥们菜归菜，但胜在真实。

9.8 大还是 9.11 大？Grok-2 竟然知道答案

去年底，马斯克宣布 Grok 将被集成到 X 平台上，并同期向 X 平台的 Premium+ 订阅用户开放，然而，除了可以实时访问 X 的信息，体验过后的网友几乎都给 Grok 打了差评。

现在，Grok-2 和 Grok-2 mini 都将逐步集成到 X 平台上，X Premium 和 Premium+ 用户均可体验这两款新模型。

官方说了，Grok-2 具备文本和视觉理解能力，能实时整合 X 平台的信息。Grok-2 mini 则主打小巧精致，在速度和答案质量之间实现了平衡。

但既然 Grok-2 系列都要集成到 X 上了，总归要给付费的订阅用户拿出一些新东西。

与前代相比，Grok-2 的最大变化莫过于能直接生成图片了。据 xAI 团队内部成员透露，生图的模型正是用到了近期大火的 FLUX.1 模型。

获得访问权限的 X 网友 @ai_for_success 也分享了新版 Grok 的用户使用界面。嗯，看起来有种 AI 搜索的即视感。

玩梗的网友让 Grok 生成一幅「Llama（骆驼）吃草莓」的图，效果也相当不错。

新版 Grok 的自由度更高，特朗普前脚刚直播完，今天 X 平台就铺满了由 Grok 生成的照片，甚至还能生成略微裸露的图片。

网友发现，Grok-2 在图片生成次数方面存在限制，Premium 用户预计能够生成约 20 - 30 张图像，而 Premium+ 用户能够生成更多。

由 Grok-2 mini 生成的图片搭配 Luma Dream Machine 制作而成的钢铁侠视频，感觉如何？

「9.8 和 9.11 哪个大」的经典难题也没难倒 Grok-2。

甚至也能数清草莓（strawberry）里有多少个「r」的难题。

激动不已的马斯克接连转发了数条有关 Grok 2 的推文，为其大力站台宣传，并盛赞 xAI 团队进展速度非常出色。

不看广告，看疗效，Grok-2 更像是一款意义大于实际的新模型，它的发布意味着整个 AI 行业开始迎来了新的类 GPT-4 级别模型，但或许并没有带来足够多的惊喜。

今年 4 月，马斯克在接受挪威主权基金负责人 Nicolai Tangen 采访时表示，Grok-2 需要大约 2 万张 H100 来进行训练。

而上个月在给 Grok-2 的预热期间，马斯克也透露 Grok-3 用了 10 万块英伟达 H100 芯片进行训练，预计将于年底发布，届时将有望成为最强的 AI 大模型。

为此，马斯克甚至不惜调用特斯拉的芯片来给 xAI 团队加 Buff，以至于惹得特斯拉投资者纷纷不满。

值得一提的是，在最近的 X Space 活动上，马斯克依然对 AI 的未来充满信心，他预测到明年年底， AI 可能比任何人类都聪明。

而我的建议是，要不还是先等等 Grok 3 的的效果如何吧。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

马斯克突然发布类 GPT-4 级别模型，能解「9.8 和 9.11 哪个大」，爆火 AI 生图功能被网友玩疯了

类 GPT-4 级别模型迎来新玩家，Grok 2 登场

9.8 大还是 9.11 大？Grok-2 竟然知道答案

推荐体验

相关资讯

号称博士生水准！OpenAI最新模型仍分不出9.11和9.8哪个大

刚刚，马斯克突然发布 Grok 1.5 大模型，但除了这点都不如 GPT-4

9.11和9.9哪个大？AI翻车！好多网友竟也争论不休……

马斯克突然发布Grok 1.5！上下文长度飙升16倍和GPT-4齐平

OpenAI突然更新！GPT-4o推高级语音版，问题秒回答，网友玩疯了

近期资讯

手机没信号？教你应对技巧与享受宁静生活的正确态度

潍坊新星标签制品有限公司取得模切分条一体机专利，使印刷材料两侧张紧度相同

如何轻松卸载微信应用及注意事项详解

智己、阿维塔接连融入大笔资金，新能源汽车背后站满国资投资人

凌云光获得实用新型专利授权：“检测设备和检测系统”

明阳电路获得实用新型专利授权：“一种提高钻孔品质的钻孔模组”

8点1氪｜高德回应司机因“长期接不到女乘客”投诉平台；分析称失事航班机长最后举动挽救数十人生命；宠物葬礼价格最高可达数万元

A股基金年内最大“遗珠”

承德德旸电热科技取得一种石墨烯电热膜收卷设备专利，解决了石墨烯电热膜收卷时的效率和灰尘问题

深圳固尔琦取得储膜装置及膜带输送设备专利，解决放膜过多避免膜带破损

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响