鸽了太久的谷歌大模型 Gemini 终于来了。
北京时间12月6日,谷歌在深夜发布了此前备受科技圈关注的Gemini 1.0,不仅一口气推出了Ultra、 Pro 和 Nano 三个版本,同时也在应用层,Gemini 也与谷歌的生态相融合,例如类 ChatGPT 应用 Bard也已升级到了 Gemini Pro 版本,针对移动端的 Gemini Nano 版本也已接入谷歌旗下的智能手机Pixel 8。
在Gemini对外展现的各项能力测试中,也暗戳戳地剑指 OpenAI。谷歌提供的技术报告显示,在MMLU 90%(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达 90.0%,超过GPT-4的86.4%。同时,Gemini Ultra 在推理、数学、代码等方面的表现也都高过GPT-4。
而作为首个「原生多模态」模型,在一系列多模态基准测试中,对标GPT-4V,Gemini Ultra 也展现出了先进的性能。
图源:谷歌新闻稿
在chatGPT发布一周年之际,谷歌通过 Gemini 赶了个晚集,想要再度证明自己在AI时代「霸主候选人」的实力。而OpenAI 和谷歌,一个是经历了「宫斗」后的屠龙少年,另一个则是领先的搜索霸主,在关于谁究竟能成为大模型时代的最终赢家这一问题上,也存在两极分化的观点。
有人认为,在经历了风波之后的 OpenAI,解决了过往管理层的风险,凭借着与微软间的联盟,会持续扩大身位优势。而有的人则认为,AI时代未来仍将属于谷歌,尽管被质疑「行动缓慢」,但在应对巨大的外力挑战面前,谷歌总是能够出招给对手致命一击。
正如英伟达资深科学家 Jim Fan 在社交媒体上所期待的:“我想要看到一群使用GPT-4的人和Gemini Ultra的人玩一局《太空狼人杀》,这将会是一场史诗级的对抗。”
图源:X 截图
为什么姗姗来迟的 Gemini 会被视为是 GPT-4 的有力劲敌,谷歌又为什么有底气在官方新闻稿直接写:“Gemini :我们规模最大、能力最强的 AI 模型”。原因其实有三点:
一是,Gemini 是原生多模态的,这也是与 GPT-4 形成差异的关键。GPT-4 尽管一种多模态模型,但 GPT-3.5 是一种自然语言处理模型。而 Gemini 从一开始就使用多模态数据(包括文字、音频、图片、视频、PDF文件等)进行了预训练和微调。
二是,多平台部署的灵活性,Ultra、 Pro 和 Nano,实现从数据中心到移动设备的高效运用。比如,谷歌已在升级Pixel 8 Pro使用了Gemini Nano,可提供总结与归纳手机语音等功能。
三是,基础设施的创新。Gemini是由谷歌 TPU V5e 和 TPU V4 训练,其中 TPU v5e 专为提供大中型训练与推理所需的成本效益和性能而设计。根据此前 Google Cloud Next 2023大会上的信息,TPU v5e 的成本不到 TPU v4 的一半,但可以让更多企业训练和部署更大、更复杂的AI模型。
Google 数据中心内一排Cloud TPU v5p AI 加速器超级计算机。
除此以外,在训练过程中也展现出工程化创新。根据民生证券的分析,如将4096个 TPU V4 每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对 Gemini Ultra 还有热维护等功能的针对性部署。
而 Gemini 所呈现出的能力跃升,得益于过去一段时间内谷歌的行动。我们来看看谷歌究竟做了什么:
一是,搭建超级团队。在今年4月,Google的CEO Sundar Pichai 就宣布合并DeepMind和Google Brain,成立Google DeepMind,集合Google在AI领域的人才、算力等资源,开启对标GPT-4的研究。当时,Google DeepMind CEO Demis Hassabis 在接受采访时就表示,当时他们所面临的问题是两个团队之中如何协调,形成一个「超级团队」。
Hassabis 曾在播客中表示:“我们作为一个领导小组讨论了大量需要考虑的因素,然后从中得出结论,并采取行动:包括合并、未来几年的计划是什么以及合并后的重点是什么?”。在这之中,灵魂人物的回归也起到了关键作用,比如谷歌联合创始人 Sergey Brin 就重返谷歌工作。根据外媒的报道,他通常每周到谷歌山景城的办公室工作三到四天,和研究人员密切合作,还研究AI程序「损失曲线」之类的问题。
二是,明确差异化路线。从谷歌官宣 Gemini 开始,无论从官方口径还是媒体的报道,一直都是专注多模态路线以及安全性,这也是谷歌的天然优势。今年7月,当被问到正在采取哪些措施来防止滥用 Gemini 时,谷歌发言人就指出,谷歌做出了一系列承诺,以确保其所有产品中负责任的人工智能开发。
三是,发挥垂直生态的优势。此前5月的开发者大会上,谷歌已经带来了诸多的软硬件更新。8月,谷歌云又发布了生成式 AI 关键的基础设施进展,以及与英伟达的合作。可以说,在 Gemini 发布之前,谷歌已经做好了从基础算力到应用层的全部准备。
正如《晚点LatePost》的评价,谷歌的 AI 大计划某种程度上与苹果类似,都是让「大模型变小、嵌入每一个产品」。
事实上,谷歌已经不止一次被问到与 OpenAI 之间的竞争。此前, Pichai 就被问到:“没抢在 ChatGPT 前发布 Bard,你错过了什么?”当时的他回答说,谷歌不是第一个做出搜索引擎,也不是第一个做出浏览器。
“有时候成为第一很重要,但有时候无关紧要。”
至少从现在与 OpenAI 的竞争来看,搜索霸主与屠龙少年,正在迈入同一条河流。
首先,是对模型推理能力的强调。在 Gemini 的演示中,谷歌展示了其手写数学问题,识别错误,并提供解释的能力,而这也是 OpenAI 关注的焦点。此前,被曝出的 OpenAI 神秘的名为Q*的模型,该模型也能够解决以前从未见过的数学问题。
其次,是大模型与消费硬件的结合。我们看到,谷歌在Pixel 8 Pro 中使用了Gemini Nano,而消费硬件也是Sam Altman十分感兴趣的领域。Altman此前投资了前苹果高管创立的企业Humane,这家企业在11月初发布了首款接入chatGPT能力的AI硬件产品——AI Pin。除此以外,Altman还投了一家 AI 初创公司 Rewind AI,该公司计划制作一种项链,可以记录人们所说和听到的内容。
除了寻求更精准的推理能力和探索消费硬件外,算力也是双方关注的焦点。不久前,根据美国《连线》杂志的报道,OpenAI 正从 Altman 投资创企 Rain 采购AI芯片。今年8月,行业分析机构SemiAnalysis在一篇报告中提到,谷歌拥有的算力资源比OpenAI、Meta、亚马逊、甲骨文和CoreWeave加起来还要多。不过,算力一向是谷歌的优势,毕竟从2014年开始,谷歌就已经开始招兵买马开发TPU了。
新的AI时代,站上浪潮之巅的究竟是谷歌等技术巨头,还是如OpenAI 这样的新贵?没人能给出答案。
如文章开头所提到的,有人认为,在经历了风波之后的OpenAI,解决了过往管理层的风险,凭借着与微软的联盟,会持续扩大身位优势。而有的人则认为,AI时代未来仍将属于谷歌这样的企业,尽管被质疑「行动缓慢」,但在面对巨大的外力挑战面前,它们的行动与反击是往往是更有力的。
外界一向认为谷歌因工程师文化而在竞争的战术中始终保守,但如果了解谷歌的历史,就会知道其一直都是进攻姿态。在《浪潮之巅》中,作者这样写到:“谷歌在规模很小时,遭受很多比自己大的公司的围攻,它把自己放在一个挑战者的位置,不断挑战对手,也挑战自己。”
因此,你也不难理解 Pichai 所说的:“有时候成为第一很重要,但有时候无关紧要。” 像谷歌这样强调工程师文化的企业,热衷于做出技术好的产品,有些时候忽略产品体验也没关系,这在此前谷歌与亚马逊的云计算之争中落败就能看出。
工程师文化走的是群众路线,团队通过形成共识,集中资源攻克技术,待产品成熟后再推广,这是谷歌的路径。但OpenAI 就不同了,无论从这家企业的诞生历史,还是不久前的宫斗大戏,这家企业身上都充满着极强的个人英雄主义色彩,与早期的谷歌很像。
不过,ChatGPT 诞生之初,Altman在一次采访中否认了其对谷歌搜索的取代:“我更感兴趣的是思考搜索以外的新应用。” Pichai 也在接受《麻省理工学院技术评论》时提到,与GPT-4的竞争,「并不是一个零和游戏」。
“想想看,向人工智能的转变是多么深刻,我们还处于早期阶段,前方充满了无限的机会。”Pichai 这样说。
可以看出,尽管商业化程度不一,技术与合作模式也不同,但至少在通往AGI的道路上,谷歌与OpenAI殊途同归。
本文来自微信公众号“硅基研究室”(ID:gh_cef05ac13977),作者:山核桃,36氪经授权发布。