机器之心报道
机器之心编辑部
GPT-5 不出,Grok 已经赶上了。
就在谷歌与 OpenAI 互相抢新闻的同一天,马斯克旗下的 xAI 也没有闲着。
北京时间周三下午,xAI 正式发布了新一代 Grok 2 大模型。
第三方大模型基准组织 Chatbot Arena 也立即更新了 LMSYS 榜的成绩列表。Grok 2 的早期型号(sus-column-r)紧随 GPT-4o(0513 版)之后可以位列第四,表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。
它在编码、复杂问题和数学方面表现出色。
马斯克不免自夸起来,「Grok 的推进速度像坐了火箭。」
注意,这只是早期版本的分数,Chatbot Arena 表示后续还会测试一下正式版。
马斯克表示,Grok-2 是具有最先进推理能力的先进语言模型。新一代包括两个版本:Grok-2 和 Grok-2 mini。两种模型现在都在 X 平台上向 Grok 用户发布。目前,X Premium 和 Premium+ 用户已经可以体验 Grok-2 和 Grok-2 mini 这两种模型。
相比此前的 Grok-1.5,Grok-2 的早期预览版实现了重大进步,在聊天、推理、代码等方面展示出了领先的能力。xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上处于测试阶段,将在本月晚些时候通过企业 API 的方式提供。
新模型发布后不到半小时,已经有网友在晒使用效果了,他使用 Grok 2 mini 生成了一张「我与马斯克吃热狗」的图像。
再试试其他的生成一张华盛顿的画像。
也有人试了试 Grok 2 mini,生成一只飞猫。
还有人生成了特斯拉 Model Y,看起来挺像的?
Grok-2 性能大 PK
随着 xAI 将 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena,我们看到了它与其他流行开闭源模型的性能比较。
就总体的 Elo 得分而言,Grok-2 的表现要优于 Claude 系列模型和大多版本的 GPT-4。当然,排在第一位的是 OpenAI 这几天刚放出的 GPT-4o(8 月 8 日版本)。
下图为 Grok-2 与其他流行模型的胜率(Win Rate)比较。
下图为 Grok 1.5 与 Grok 2 两个版本基于事实性的胜率比较。
xAI 采取这样的流程来对 Grok 2 模型进行评估,利用 AI Tutors 在各种任务中与模型真实互动。在每次互动过程中,Grok 2 都会向 AI Tutors 提供两个响应,然后根据指南中列出的特定标准选择最佳响应。
xAI 专注于在两个关键领域评估模型性能, 分别是指令遵循和提供准确、真实的信息。结果显示,Grok 2 在利用检索到的内容进行推理以及使用工具的能力方面有了显著的进步,比如正确地识别缺失信息、通过事件序列进行推理、丢弃不相关的帖子等。
基准测试成绩
xAI 通过一系列学术基准对 Grok-2 模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。
Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了显著改进。在研究生水平的科学知识 (GPQA)、常识 (MMLU、MMLU-Pro) 和数学竞赛问题 (MATH) 等领域的表现可与其他前沿模型相媲美。
此外,Grok-2 在基于视觉的任务方面表现也很出色,在视觉数学推理 (MathVista) 和基于文档的问答 (DocVQA) 方面性能显著。
Grok 2 界面和功能「大变身」
过去几个月,xAI 一直不断地提升 x 平台上的 Grok 体验。现在,随着下一代 Grok 2 的推出,xAI 重新设计了界面,如下图所示。
当然,xAI 提供了一些新功能,比如 Conway《生命游戏》的简单实现。
再比如多模态理解能力(看图说话)。
其中,Grok-2 是 xAI 最先进的 AI 助手,拥有文本和视觉理解功能,并集成了来自 X 平台的实时信息,可通过 X 应用程序中的 Grok 选项卡访问。
Grok-2 mini 是一款小巧但功能强大的模型,在速度和答案质量之间取得了很好平衡。
与其前代产品相比,Grok-2 更直观、更可控、更灵活,适用于各种任务,无论你是在寻找答案、协作写作还是解决编码任务。
此外,xAI 还与初创公司 Black Forest Labs 展开合作,试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。
本月晚些时候, xAI 还将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。即将推出的 API 建立在新的定制技术堆栈上,允许多区域推理部署,以实现全球低延迟访问。
当然,xAI 还提供了一些增强的安全功能,例如强制性多因素身份验证(例如使用 Yubikey、Apple TouchID 或 TOTP)。
可以看到,自 2023 年 11 月推出 Grok-1 以来,xAI 一直以惊人的速度推进该系列模型。很快,他们将发布具有多模态理解的预览版。xAI 之后的重点将是通过新的计算集群来提高模型的核心推理能力。
博客地址:https://x.ai/blog/grok-2