27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题，物理代码难题闪电秒解

作者：新智元发布时间：2024-12-20

OpenAI十二天直播，杀疯了的竟然是谷歌。

就在深夜，「谷歌版o1」Gemini 2.0 Flash Thinking突然发布。

跟o1的策略类似，它同样是将更多计算能力投入「推理时计算」——即模型实际解决问题的时长。

但不一样的是，Flash Thinking能清晰地展示思考过程。

一经发布，它就直接屠榜Chatbot Arena。

从战绩来看，新模型在总榜位列第一，数学榜单第一，创意写作第一，Hard Promt第一，视觉榜单第一！

举一个比较复杂的概率问题的例子。

如果一直掷硬币，直到得到「正正正」或「正反正」，得到其中一个的几率和另一个的几率之比是多少？

这种水平的概率题，绝大多数LLM都会折戟。

但模型展示出了详细完备的思考过程，并行云流水般地在34.7秒内就给出了最终答案——2:3。

点击「展开查看模型思维」，即可观察推理过程

现在，Gemini 2.0 Flash Thinking已经在Google AI Studio和Vertex AI中上线了，开发者可以去免费测试。

对此，网友纷纷表示，明明是OpenAI的圣诞特别活动，怎么发出炸裂成果的全是谷歌？

现在都是谷歌每天欺负OpenAI

谷歌版o1彻底杀疯了，全是第一

在LLM竞技场上，Gemini 2.0 Flash Thinking连同Gemini-Exp-1206一起，「横扫所有类别，荣登榜首」。

无论是复杂提示、代码、数学、创意写作、指令跟随、长QA等等。

不过，这些排名并未包含OpenAI的完整o1模型。

但无论如何，Flash Thinking打了相当漂亮的一仗。

这个模型，大概率就是谷歌对打OpenAI o1系列的武器，而且，它很可能不是最强版本，或许还有Pro或Ultra Thinking的存在。

据外媒THE DECODER报道，Flash Thinking似乎是著名AI研究员Noam Shazeer进入谷歌后的首个工作成果。

如果果真如此，谷歌27亿美元天价请回天才老员工的这笔买卖，也算值了。

Shazeer是著名论文「Attention is All You Need」的作者之一

在80百分位的情况下，Flash Thinking的响应速度几乎是o1-mini的2倍！

比如下面这道题，OpenAI的o1和o1 Pro分别用了102秒和138秒，而Gemini 2.0 Flash Thinking只花了14秒。

一举冲顶成为最强理科生，最难高考题也不在话下

有人尝试把号称「史上最难」的高考数学题扔给Flash Thinking，它居然也给出了准确的回答。

这种表现，震惊了所有网友。

要知道，这道题连o1都做不出来。

而且更为厉害的是，这道题是中文题。

能做出数学高考题的含金量，不用详细解释了。

毕竟，中国的高考可是被Erudera评为地球上最难的考试。

而在Chatbot Arena的数学领域中，Flash Thinking对比Flash同样也有着显著性进步。

在物理方面，可以来看看下面这个演示，Flash Thinking展示了是如何解决一道物理题并阐明其推理过程。

演示中的题目为：一个电子被限制在一个一维无限深势阱中，势阱壁位于x=- 0.15nm和x=+0.15nm处。求出电子在势阱中能级跃迁时发射的四种最长波长的光子。

Flash Thinking首先会将问题本身复述清晰，接着就开始进行逐步思考问题的求解步骤。

经过16.9s的计算分析后，Flash Thinking给出了最终答案，即为98.9nm，59.3nm，42.4nm ，37.1nm。

下面这个演示，则展示了Flash Thinking如何处理涉及涉及视觉和文本线索的挑战性难题。

演示中使用者首先上传了一张有四个台球的图片，并提问道「我能怎么使用这其中的三个数字使其总和为30？」

在这个演示中，有一个很有趣的地方就在于中间第二个台球既可以识别为9，也可以颠倒一下，识别为6。

Flash Thinking在首次尝试中先是将其识别为正常观察的9，但是发现并不能实现问题的求解。

于是，他很聪明的做出了一个判断：「在题目中并没有清楚的说明每个数字只能出现一次」。

于是它开始尝试将数字进行重复利用，但是还是无法实现问题的求解。

接着，有趣的地方便来了，它出奇地想到了可以把9识别为颠倒的6，这说明它成功地察觉到了这不仅仅只是一个数字游戏，而是实际上可以翻滚的台球。

最终得到了问题的正确答案：利用11、13、6三个数字即可实现总和为30。

整个思考过程清清楚楚，一目了然。

从解题过程中可以看出，Gemini 2.0 Flash Thinking不仅能够实现处理多模态信息，在求解实际的问题方面，它不再是曾经的大模型那种较为机械死板的智能水平，而是像人一样能够学会去多视角地变通看待问题，最终灵活地得到问题的解决方案。

谷歌DeepMind研究者让Thinking模型尝试用不同方法，求解普特南2024的一到数学题，然后自我验证答案是否正确。

35.9秒内，模型给出了答案。

网友实测

手快的网友们，已经纷纷甩给了Gemini 2.0 Flash Thinking一堆难题。

网友们给出的题目，难度都不小。

比如这道数列问题，要求写出一个数列的前六个数字，其中每个数字都是前一个数字的三倍，且第一个数字是2。

最终，模型给出了正确答案——E。

这位网友实测后发现，新模型的推理能力实在强大，不光破解了单词网格难题，甚至连复杂的经济学问题都做得出来。

设想太阳能和模块化核反应堆的广泛应用带来了巨大的能源供应，从经济学的角度深入思考未来十年可能出现的经济变化。请详尽地分析可能产生的影响。

模型给出的答案是：通货膨胀率会下降，经济环境会发生重大变化。

结论：变革的十年如果太阳能和模块化核反应堆（SMR）电力的充足性和可负担性得以实现，未来十年将见证一场深刻的经济变革。我们可以预期通货膨胀率下降，经济环境发生重大变化。

Hallid.ai联创indigo给了它一道填数题，Thinking只需要20秒就做出来了。

而且给出了正确答案。

相比之下，o1就花了40秒，而且还错了。

不过，不知道是不是测试版的原因，Flash Thinking能不能数清楚「草莓」里的r，似乎完全取决于你给了啥prompt……

相比之下，我们在本地跑的QWQ，可以轻松解决这个问题。

参考资料：

https://x.com/JeffDean/status/1869789813232341267

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/

本文来自微信公众号“新智元”，作者：新智元，编辑：编辑部 HYZh，36氪经授权发布。

近期资讯

一场“菌”与数据的碰撞 | 数字上海十大场景Top20

一场“菌”与数据的碰撞数字上海十大场景Top20IT时报2024-12-15 18:51发布于上海IT时报官方账号国内首个行业数据空间带着寻找“人民城市”最佳实践的初心，自11月启动的《I

IT时报 2024-12-15

TCL 华星赵斌：Micro LED 还处于研发阶段，产品化至少还要有几年

TCL 华星赵斌：Micro LED 还处于研发阶段，产品化至少还要有几年36氪2024-12-15 15:20发布于北京36氪官方账号12 月 15 日，据投影时代报道，TCL 华星副总裁、研发

36氪 2024-12-15

豁免Deadline，张予彤事件或许不会有公开结局

豁免Deadline，张予彤事件或许不会有公开结局钛媒体APP2024-12-15 16:53发布于北京钛媒体APP官方账号全文3396字，阅读约需10分钟，帮我划重点划重点012024年12月

钛媒体APP 2024-12-15

这届「年轻人」正悄悄反抗大数据算法

这届「年轻人」正悄悄反抗大数据算法钛媒体APP2024-12-15 16:52发布于北京钛媒体APP官方账号全文2400字，阅读约需7分钟，帮我划重点划重点01随着大数据算法的发展，越来越多的年

钛媒体APP 2024-12-15

人间真有隐身术?人类能控制得了AI吗?

下饭科技503 2024-12-15

小米王腾称 12 月最后一份作业“计划有变”，此前关键词为小旋风

小米王腾称 12 月最后一份作业“计划有变”，此前关键词为小旋风IT之家2024-12-15 18:16发布于山东IT之家官方账号IT之家 12 月 15 日消息，小米中国区市场部副总经理、RED

IT之家 2024-12-15

《IT时报》“2024数字上海十大场景”Top 20出炉

《IT时报》“2024数字上海十大场景”Top 20出炉IT时报2024-12-15 18:51发布于上海IT时报官方账号全文1026字，阅读约需3分钟，帮我划重点划重点01《IT时报》举办的“

IT时报 2024-12-15

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同DeepTech深科技2024-12-15 17:46发布于北京DeepTech深科技官方账号全文1768字，阅读约需6分钟，帮我划重

DeepTech深科技 2024-12-15

那个贼贵的超声波指纹，价格被咱打了下来

那个贼贵的超声波指纹，价格被咱打了下来IT之家2024-12-15 20:26发布于山东IT之家官方账号全文1983字，阅读约需6分钟，帮我划重点划重点01今年安卓旗舰机中，超声波指纹解锁成为标

IT之家 2024-12-15

手机的尺寸战争：黄金尺寸不断变迁，小屏手机成了新潮流

手机的尺寸战争：黄金尺寸不断变迁，小屏手机成了新潮流雷科技2024-12-15 18:56发布于广东科技领域创作者全文2833字，阅读约需9分钟，帮我划重点划重点01vivo X200系列作为2

雷科技 2024-12-15

27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题，物理代码难题闪电秒解

谷歌版o1彻底杀疯了，全是第一

一举冲顶成为最强理科生，最难高考题也不在话下

网友实测

推荐体验

相关资讯

OpenAI新发布：支持多模态的完全版o1和每月200刀的“天价会员”

给小学数学题加句废话，OpenAI o1就翻车了，苹果论文质疑AI推理

夸克发布“灵知”学习大模型，号称考研数学题正确率、得分率比肩OpenAI o1

谷歌版o1模型发布

韦神出初中数学题难倒ChatGPT-4 ？编程都行，初中数学题不行？

近期资讯

一场“菌”与数据的碰撞 | 数字上海十大场景Top20

TCL 华星赵斌：Micro LED 还处于研发阶段，产品化至少还要有几年

豁免Deadline，张予彤事件或许不会有公开结局

这届「年轻人」正悄悄反抗大数据算法

人间真有隐身术?人类能控制得了AI吗?

小米王腾称 12 月最后一份作业“计划有变”，此前关键词为小旋风

《IT时报》“2024数字上海十大场景”Top 20出炉

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

那个贼贵的超声波指纹，价格被咱打了下来

手机的尺寸战争：黄金尺寸不断变迁，小屏手机成了新潮流

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响