谷歌版o1突发即屠榜，思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

作者：量子位发布时间：2024-12-20

谷歌版o1来了！在奥特曼“双十二”倒数第二天——

他们发布Gemini 2.0 Flash Thinking，顾名思义，以闪电般的速度解决复杂问题并展示其思考过程的实验模型。

从姐夫哥展示出的Demo来看，它能在几秒钟之内解决一个物理问题，并且给出思考过程。

还可以给一张图，同时涉及视觉和文本线索的谜题。

如何用其中三个数字加起来等于30？

结果同样也是短短几秒，思考了好几种方案，最终确定是需要将9号球翻转为6号球，以实现6+13+11等于30这样一个结果。

所有综合类别指标中显示，目前Gemini 2.0 Flash Thinking排名第一，包括数学、代码、指令跟随、长QA、创意写作等等各方面。

目前在谷歌AI Studio就可以免费使用。

谷歌版o1第一波实测

从众多网友实测中，主要分为两大“派系”，一种是纯文本型，另一种是视觉类谜题。

最明显感知的就是一个快字。

它还可以解决像抛硬币这样的概率问题：如果我一直抛硬币，直到得到HHH或HTH，那么得到这两个几率之比是多少？

甚至它还可以解析摩斯代码，让网友直呼：怪吓人的。

有解决这种视觉类谜题的，比如找出这里面的字母和数字，并且说明出现了多少次。

结果它都一一指出来了。

DeepMind首席科学家拿出了他当年面试时遇到第一个问题，是用笔和纸写下的一道关于数论的问题。

结果它也秒秒钟回答了出来。

目前仅支持32k上下文窗口，也不支持联网。不过主创表示接下来会在新的一年里快速跟进，提供更长的token、更多的工具支持等。

今天之所以推出这个实验版，主要是为了接受大家的反馈意见。

也有网友反馈，它没有考虑到一些关键的物理因素。

没有考虑到河流流动所暗示的海拔

不过也有不少网友反应，有个bug是，它似乎还是搞不清楚Strawberry有多少个r。

但如果进一步「仔细思考一下」，它就能回答出来。

姐夫哥还透露，未来还会有更多功能，可以在这里期待一下子。

好了，感兴趣的小伙伴可以前往去试试。

体验链接：

https://aistudio.google.com/prompts/new_chat

参考链接：

[1]https://x.com/OfficialLoganK/status/1869789820308074837

[2]https://x.com/JeffDean/status/1869789813232341267

[3]https://x.com/lmarena_ai/status/1869793847548817563

[4]https://x.com/drjwrae/status/1869806621024772096/video/2

[5]https://x.com/catebligh/status/1869823074809647589

本文来自微信公众号“量子位”，作者：白小交一水，36氪经授权发布。

相关资讯

谷歌版o1模型发布

据AIGC开放社区，今天凌晨1点，谷歌DeepMind首席科学家宣布推出全新测试模型——Gemini 2.0 Flash Thinking。新的Thinking模型是以刚发布的2.0 Flash版本为基础，使用了类似o1模型的慢思维思考方式，可以深度可视化展示整个思维链过程，尤其是在执行数学、编程等复杂问题方面，能持续输出全部推理过程，而不是直接给出答案。值得一提的是，Thinking是支持多模态推理的。目前，Thinking模型已经开放使用，可以在Google AI Studio 和 Vertex AI 中的 Gemini API中尝试。(格隆汇)

谷歌 AIGC 编程

昨天

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

具体来说，o1系列是OpenAI首个经过强化学习训练的模型，在输出回答之前，会在产生一个很长的思维链，以此增强模型的能力。不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。…

OpenAI

量子位 2024-09-22

谷歌 Gemini 数学反超 o1 预览版！成本仅 1/10、无需额外思考时间，旧范式还没有死

数学击败 o1-preview，成本仅为十分之一，并且几乎没有思考延迟！ OpenAI《Her》全量开放同一天，谷歌 Gemini 1.5 迎来重大升级。

谷歌 OpenAI

量子位 2024-09-26

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1-mini并列第一

OpenAI o1模型在lmsys排行榜领先，展现出色。

OpenAI 谷歌 Claude

新智元 2024-09-19

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

国产大模型，正在引领AI技术新方向。在数学、物理、化学等基础科学学科的基准能力测试中，初代k1模型的表现超过了全球标杆模型OpenAIo1、GPT-4o以及Claude3.5Sonnet。

Claude3

机器之心Pro 2024-12-16

近期资讯

产品路线图的制作指南

作为描述了产品方向与愿景的工具，产品路线图是产品经理的战略工具之一。这篇文章，作者分享了如何制作产品路线图的方法，供大家参考。

Ray 2024-12-16

吴柳芳账号解禁，粉丝暴涨的她有望成为头部网红吗？

前段时间因为擦边争议被禁止关注，前几天解禁后，吴柳芳的粉丝迎来了一波暴涨，从200多万涨到500多万。这一次，她能否凭借机会成为头部网红呢？

科技旋涡 2024-12-16

最长“黑五”，跨境商家如何打一场硬仗？

随着冬季的到来，零售业迎来了一年中最繁忙的时节，特别是今年的“黑五”预计将成为史上活动期最长的一届，为跨境商家带来了前所未有的机遇和挑战。文章将探讨跨境商家如何在这场全球购物狂欢中把握商机，应对运营、营销、物流仓储等方面的挑战。

霞光社 2024-12-16

AI时代转产品经理是好时机么?求职产品经理要注意哪些细节？

AI时代，各种产品形态、业务的变化，让市场也对产品经理提出了新的要求，产品经理要有哪些变与不变呢？现在入行产品经理是好时机么？没有技术背景、没有学历有优势如何...

起点课堂 2024-12-16

脑极体 2024-12-16

又一个“李佳琦”？“何不食肉糜”还是“表达有误”?

在网络红人层出不穷的今天，一个名为“羊毛月”的网红因其争议性言论而迅速走红。他因发布一则讽刺求职者的视频而引发广泛讨论，视频中的傲慢态度和优越感激起了公众的强烈反响。

饼干哥哥 2024-12-16

SaaS沉浮10年，终于开始重视价值二字！

在SaaS行业的十年沉浮中，价值创造、传递和交付的重要性日益凸显。《SaaS工作手册2.0》中频繁提及“价值”，反映出业界对这一概念的重视。文章结合实际案例，为SaaS企业提供了关于如何更好地服务客户、提高客户粘性和续费率的洞见。

SAAS老司机 2024-12-16

谷歌版o1突发即屠榜，思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

谷歌版o1第一波实测

体验链接：

参考链接：

推荐体验

相关资讯

谷歌版o1模型发布

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

谷歌 Gemini 数学反超 o1 预览版！成本仅 1/10、无需额外思考时间，旧范式还没有死

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1-mini并列第一

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

近期资讯

产品路线图的制作指南

吴柳芳账号解禁，粉丝暴涨的她有望成为头部网红吗？

最长“黑五”，跨境商家如何打一场硬仗？

AI时代转产品经理是好时机么?求职产品经理要注意哪些细节？

面试前自查清单（0-2岁互联网新人）-既往面试核心问题与能力要求报告

看华为，引入IPD的正确路径

产品经理面试的时候都看重什么？

星闪与Wi-Fi 7一相逢，便点亮智家无数

又一个“李佳琦”？“何不食肉糜”还是“表达有误”?

SaaS沉浮10年，终于开始重视价值二字！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响