从去年底 ChatGPT 席卷全球开始,关于谷歌的「失落」就一再被提起。
明明最早提出了 transfomer 模型,明明还是全球市值、利润最高的几家科技公司之一,结果却在大模型和生成式 AI 上败给了一家成立于 2015 年的「小公司」——OpenAI。
即使在发布 PaLM2 大模型和聊天机器人 Bard 之后,谷歌依然没能超越 OpenAI,无论是从用户体验,还是月访问次数上。
但在生成式 AI 这场世纪大战中,最终会是屠龙勇士彻底战胜巨龙?还是巨龙反杀屠龙勇士?谷歌当然希望看到后者。
谷歌「大杀器」,终于来了
美西时间 12 月 6 日,谷歌正式发布了预告已久的 AI 大模型—— Gemini(1.0)。谷歌表示,Gemini 是旗下迄今为止最强大、最通用的模型,在 32 个广泛使用的基准测试中,有 30 个都超越了 GPT-4,展现出了最先进的性能和结果。
图/谷歌
在需要结合数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题能力的 MMLU(大规模多任务语言理解)上,Gemini Ultra 的得分高达 90.0%,是第一个超越人类专家的模型。
但这是 Gemini Ultra。
Gemini 大模型按照参数规模分为三个版本,分别是最强大的 Gemini Ultra,兼具灵活性和强大的 Gemini Pro,以及能够在移动设备上本地运行的 Gemini Nano。
图/谷歌
事实上,目前用户可以使用的 Gemini 大模型只有 Gemini Pro,实际对标的 GPT-3.5。按照谷歌的说法,配备 Gemini Ultra 的 Bard Advanced 还要等到明年初才推出,而 Gemini Nano 将于本月稍晚时候率先登陆 Pixel 8 Pro,首批更新将支持自带录音 App 与 Gboard 输入法。
不算意外,就在一周前,The Information 爆料称,谷歌原计划在今年底推出的 Gemini 将推迟到 2024 年初发布,原因在非英文查询下存在一些问题,促使谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)做出了该决定。
如今来看,显然是 Gemini Ultra 还存在一些问题,但谷歌经过考虑后还是选择了如期发布 Gemini,只是最强大的 Gemini Ultra 还是要推迟到明年初。
不过即便如此,仅仅根据目前放出的官方上手视频和介绍,Gemini Ultra 已经成为了整个行业的热议焦点,也被视为 OpenAI GPT-4 最强大的对手,这当然不是没有理由的。
谷歌 Gemini,OpenAI 最大的威胁
今年早些时候 OpenAI 发布了 GPT-4,其中最惊艳之处在于对于图片的识别和理解,包括准确解读图片中的「梗」以及直接按图写产品(代码)。
Gemini Ultra 还要更进一步。
在上手视频中,谷歌展示 Gemini Ultra 如何通过摄像头实时理解现实画面信息,并根据现实画面的变化给出新的理解,当然也可以再根据对话给出回答或者结果,比如基于一张纸质世界地图给出了一种游戏玩法。在游戏过程中,Gemini Ultra 甚至可以实时判断用户的行为和结果,与之进行互动。
展示的背后,是 Gemini 对文本、图像、视频、音频的「原生多模态(natively multimodal)」支持。
图/谷歌
不同于 OpenAI 以及其他大模型厂商将不同模态训练模型拼接整合在一起,创建出一个多模态大模型,借此形成对文本、视觉、音频的支持,虽然有些时候还是可以执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,由于「转录」过程中的信息丢失问题,容易出现表现不佳的结果。
而谷歌强调的「原生多模态」,是指 Gemini 从一开始就对不同模态进行了预训练,研究人员又用额外的多模态数据对其进行微调,进一步提升模型的有效性,实现对各种模态输入内容的「无缝」理解和推理。按照谷歌的说法是:
「这样的训练方法,有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。」
另一方面,端侧大模型也是时下从芯片侧到计算终端侧厂商关注的重点,虽然很多手机厂商都宣称了自主训练的端侧大模型,但还没有一家真正实装端侧大模型,基本还是通过云端大模型从语音助手切入。
图/谷歌
眼下来看,Pixel 8 Pro 上的 Gemini Nano,极有可能最先踏出这一步。不仅如此,Gemini Nano 能力是内置在 Android 系统中,未来不只是 Pixel,开发者可以通过 AICore API 直接调用其他 Android 手机的 Gemini AI 能力(在硬件算力上有要求)。
至于 Gemini Pro,用户现在就能在谷歌 Bard 中实际体验到。
实测 Gemini Pro:比 GPT-3.5 稍好,远胜文心大模型4.0
为了对比 Gemini Pro(Bard)的水平,我们进行对比的 GPT-3.5(ChatGPT)以及文心大模型 4.0(百度文心一言)
需要指出的是,目前 Gemini Pro(Bard)仅支持 170 多个国家的英文版本,之后会扩展到更多语言和地区,所以在 Bard 和 ChatGPT 上统一使用英文对话,文心一言由于英文表现较差,使用中文进行对话。
整体来说,升级 Gemini Pro 之后的 Bard 表现出不俗的知识和推理能力,比如询问姚明加盟 NBA 那年亚军队的教练是谁?
中文为网页对照翻译,仅供参考(下同),图/ Bard
在回答中,Bard 不仅准确知道姚明是在 2002 年加入 NBA,还展示了正确的推导过程,并找到了当年 NBA 亚军球队主教练是新泽西篮网(后改名为布鲁克林篮网)的拜伦·斯科特(Byron Scott)。
图/ ChatGPT
ChatGPT 也回答出了正确答案——拜伦·斯科特,不同的是,ChatGPT 锁定的是 2002-2003 赛季(决赛在 2003 年)。
图/文心一言
文心一言同样知道需要找到 2002 年 NBA 亚军队的教练,但在亚军队上给出了错误答案(纽约尼克斯),甚至连纽约尼克斯时任主教练也是错的。
Bard 在图片理解和解读上也有不错的表现,基于一张 Realme GT5 Pro 前段时间的宣传海报,已经能够比较全面地解读出海报传达的信息。
上传图片,图/ Realme
Bard 的解读,图/ Bard
基于 GPT-3.5 的 ChatGPT 并不支持图片,而基于文心大模型 4.0 的文心一言就出现了前文提到的「多模态『转录』过程中的信息丢失」,把 GPT5 Pro「看成」了 GPs Pro。此外,文心一言在表达上也比较「含糊」,不像 Bard 能够传达出比较清晰的信息。
基于同一张图的解读,图/文心一言
受限于时间,目前我们只是进行了部分的测试对比,并不能完整评判三家大模型的表现,如果大家想要看到更深度的对比评测,欢迎在评论区反馈告诉我们,后续会有相关规划。
不过先回到 Gemini Pro 的加持下的 Bard,从初步上手体验来看,不仅表现出了对图片和语音的全面支持,而且部分文本生成回答的质量甚至比 ChatGPT 还略高一筹。等到后续支持中文,在一众免费(文心大模型 4.0 是收费的)对话机器人中,很大可能会成为 ChatGPT(GPT-3.5)的上位替代。
至于未来支持 Gemini Ultra 的 Bard Advanced,预计将会与基于 GPT-4 的 ChatGPT 一样,采用收费模式,至于两者的表现会有什么区别,就需要我们拭目以待了。
写在最后
或许有些「不公平」,但谷歌想要超越 OpenAI 继续领导生成式 AI 革命,意味着 Gemini 不能只是超越 GPT-4,否则不管企业客户还是普通用户为什么要从 GPT-4 迁移到 Gemini。
就在宣告 Gemini 发布的新闻稿中,谷歌 DeepMind CEO Demis Hassabis 指出,Gemini 是谷歌目前规模最大,性能最强的大模型,「可以像我们一样,理解我们周围的世界。」
Demis Hassabis,当时他们开发出了 AlphaGo,图/谷歌
这可能才是谷歌 Gemini 与 GPT-4 最核心的区别所在。
不同于今年上半年对于 AGI(通用人工智能)未来的两极分化看法,很多人坚持认为 AGI 永远不会实现。下半年以来,具身智能以及 AGI 再度成为了新的热点,谷歌、微软、马斯克、李飞飞团队以及 OpenAI 等公司都在继续推进具身智能和 AGI 的探索。
甚至据路透社报道,OpenAI CEO Sam Altman 此前被赶下台的导火索,就是 AGI 探索项目(代号 Q)突破带来的威胁。
但无论是具身智能还是 AGI,就要求 AI 首先能够通过听觉、视觉以及文字理解我们周围的世界,就像 Gemini Ultra 展现出的能力,或是 OpenAI 对正在开发的 GPT-5 提出的规划。从这个角度来看,留给谷歌证明 Gemini 大模型优越性的时间,也不多了。
题图来自谷歌