GPT-5 再不出,Grok 就要赶上了。
就在谷歌与 OpenAI 互相抢新闻的同一天,马斯克旗下的 xAI 也没有闲着。8月14日,马斯克旗下的xAI大模型Grok 2正式发布。本次发布的Grok 2系列主要包括两个版本:Grok-2和Grok-2 mini。
xAI公司宣称,最新推出的预览版Grok-2在聊天、编程和推理方面表现出色。而Grok-2系列模型将逐步集成到X平台,并计划在8月底通过企业API向客户提供。
第三方大模型基准组织 Chatbot Arena 也立即更新了 LMSYS 榜的成绩列表。经过测试,它的得分表现压过了GPT-4o mini 和Claude 3.5 Sonnet一头。
而排在它前面的分别有「宿敌」OpenAI的GPT-4o-2024-05-13、Gemini-1.5-Pro-Exp-0801以及GPT-4o-latest-2024-08-08等模型。其中,它在编码、复杂问题和数学方面表现可以说是非常出色。
马斯克不免自夸起来,「Grok 的推进速度像坐了火箭!」
值得一提的是,这仅仅只是早期版本的评分,Chatbot Arena 表示,后续还会对正式版进行测试。
马斯克表示,Grok-2 是具有最先进推理能力的语言模型。新一代模型包括两个版本:Grok-2 和 Grok-2 mini。
目前,这两种模型已在 X 平台上向 Grok 用户发布,X Premium 和 Premium+ 用户现在可以体验这两款模型。与之前的 Grok-1.5 相比,Grok-2 的早期预览版取得了显著进步,在聊天、推理、代码等方面表现出色。
xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 平台上进行测试,并计划在本月晚些时候通过企业 API 提供给客户。而就在新模型发布后不到半小时,已经有网友在晒使用效果了,他使用 Grok 2 mini 生成了一张「奥巴马优雅地拉大提琴」的图像。
再试试其他的,生成一张「华盛顿与特朗普握手」
也有人试了试 Grok 2 mini,生成一只飞猫。
还有人生成了特斯拉 Model Y,看上去属实是太逼真了
随着 xAI 将 Grok-2 的早期版本「sus-column-r」放入到 Chatbot Arena中,我们看到了它与其他流行开闭源模型的性能比较。
就总体的 Elo 得分而言,Grok-2 的表现要优于 Claude 系列模型和大多版本的 GPT-4。当然,排在第一位的是 OpenAI 这几天刚放出的 GPT-4o(8 月 8 日版本)。
下图为 Grok-2 与其他流行模型的胜率(Win Rate)比较。
下图为 Grok 1.5 与 Grok 2 两个版本基于事实性的胜率比较。
xAI 采用这种流程对 Grok 2 模型进行评估,利用 AI Tutors 在各种任务中与模型进行真实互动。
在每次互动中,Grok 2 都会向 AI Tutors 提供两个响应,AI Tutors 会根据指南中列出的特定标准,从中选择最佳响应。xAI 专注于评估模型在两个关键领域的表现,即指令遵循能力以及提供准确、真实信息的能力。
结果显示,Grok 2 在利用检索到的内容进行推理和使用工具的能力方面取得了显著进步。例如,它能够正确识别缺失信息、通过事件序列进行推理并丢弃不相关的内容。
在过去的几个月里,xAI 持续改进了 X 平台上的 Grok 体验。随着下一代 Grok 2 的推出,xAI 还重新设计了界面,如下图所示。
当然,xAI 提供了一些新功能,比如 Conway《生命游戏》的简单实现。
另外,与前代相比,Grok-2的最大变化莫过于能直接生成图片了。
据xAI团队内部成员透露,生图的模型正是用到了近期大火的 FLUX.1 模型。网友发现,Grok-2 在图片生成次数方面存在限制,Premium用户预计能够生成约20-30张图像,而Premium+用户能够生成更多。
Grok-2 是 xAI 最先进的 AI 助手,具备文本和视觉理解能力,并整合了来自 X 平台的实时信息,可通过 X 应用中的 Grok 选项卡访问。Grok-2 mini 则是一款小巧但功能强大的模型,在速度与答案质量之间实现了良好的平衡。
与其前代产品相比,Grok-2 更直观、更可控、更灵活,适用于各种任务,无论你是在寻找答案、协作写作还是解决编码任务。
此外,xAI 还与初创公司 Black Forest Labs 展开合作,试验他们的 FLUX.1 模型,以扩展 Grok 在 X 上的功能。
本月晚些时候,xAI 将通过新的企业 API 平台向开发人员发布 Grok-2 和 Grok-2 mini。
即将推出的 API 构建在全新的定制技术堆栈上,支持多区域推理部署,实现全球范围内的低延迟访问。此外,xAI 还引入了一些增强的安全功能,例如强制多因素身份验证(如 Yubikey、Apple TouchID 或 TOTP)。
自 2023 年 11 月推出 Grok-1 以来,xAI 一直以惊人的速度推进这一系列模型。很快,他们将发布具有多模态理解能力的预览版。而在未来,xAI 的重点将放在通过新的计算集群提升模型的核心推理能力上。
高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0815_toutiao