当人们还在排队灰测 GPT-4o 的语音模式,当苹果的 Apple Intelligence 只能在 Beta 版体验部分挤牙膏的功能时,今天 Google 彻底掀桌了,将这些之前只在发布会惊艳的功能,直接塞进了刚刚发布的 Pixel 9 系列里了。
过去 Pixel 一般在 10 月发布,这次提前亮相,让 Android 抢先 iOS 成为首个拥有大型设备内多模态 AI 模型的移动操作系统——Gemini Nano。
不是期货,马上能用。矛头直指苹果和 OpenAI 的 Google 没少在发布会上调侃那些「即将推出」的 AI 功能。
虽然 Google 今年在 AI 产品发布上屡次翻车,但这次将 Gemini 模型和一系列 AI 功能整合到手机里,让我们看到 Android 这个全球最多人用户的操作系统 ,该怎么用 AI 重塑,给智能手机带来真正来自由里到外的更新。
让我们先看看这次发布会主要的更新:
Google Pixel 系列迎来了四款 AI 手机:Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL 以及 Pixel 9 Pro Fold
对标 GPT-4o 高级语音功能的 Gemini Live 落地手机,未来几周内向 iOS 设备开放
Gemini 支持实现多个应用跨界调用的无缝体验,承诺用户个人数据不会被发送给第三方 AI 提供商
AI 图像功能迎来迭代进化,推出 Add me 与 Magic Editor 新功能
买 Google AI 送手机
Google 紧握的救命稻草便是当下最为风头正劲的词汇——人工智能(AI)。
当 AI 落地端侧成为众所瞩目的命题作文时,如何把 Gemini 更好地塞进手机等端侧设备里,成了本场发布会的最大悬念,好在 Google 也没有让我们的期待落空。
在本场发布会上,Google 推出了重磅的 Gemini Live 功能。简单来说,你可以将之理解为你的聊天搭子。
类似于 GPT-4o 的高级语音模式,Gemini Live 能够让你与 Gemini 进行自由流畅的交流,并且提供了包括名为 Ursa 和 Dipper 在内的 10 种新的语音选项。
感受一下 Gemini 多变的声线
在对话过程中,你甚至随时可以打断 Gemini 的回应,深入探讨某个话题,或是暂停对话,稍后再继续。
此外,Gemini Live 现在也支持免提功能,用户即使在手机后台或者锁屏的状态下也能与 Gemini 进行对话,这样无论是在走路还是忙于其他事务时,都能像普通电话一样随时进行交流。
即日起,Gemini Live 将在 Android 手机上向 Gemini 高级订阅用户推出英文版本,未来几周内还将支持 iOS 设备,并增加更多语言选项。
Gemini Live 不仅仅只是 Gemini 嵌入 Google 端侧设备的一个缩影,也昭示着 Google 对于整合 Gemini 至其应用生态不再是模糊的概念,而是日渐成型的蓝图。
另一个典型的案例就是,上机的 Gemini 省却了在不同的应用程序和服务之间来回切换的繁琐,真正意义上实现多个应用跨界调用的无缝体验。
比如你要举办晚宴,那么你可以使用 Gemini 来搜索 Gmail 中的千层面食谱,并要求 Gemini 将食谱中的食材添加到 Keep 应用的购物清单中。
又或者,在未来你可以随手拍摄一张音乐会传单的照片,询问 Gemini 在那一天是否有空闲时间,Gemini 将能够访问你的日历信息给出回复,如果你恰好有空,它还可以帮你设置一个提醒,以购买音乐会的门票。
在发布会现场,Google 高管 Dave Citron 也演示了这项功能。
声称所有演示都是现场直播的 Citron 通过拍摄 Sabrina Carpenter 音乐会海报的照片,然后让 Gemini 检查他的日历,看看他是否在这位艺术家今年来到旧金山时有空。
结果 Gemini 在最初的两次尝试中都没有响应,直到 Citron 换了手机后,Gemini 才最终给出了回应。
通过长按电源按钮或是轻声呼唤「Hey Google」,你还可以随时在 Pixel 上激活调用 Gemini。
无论是在 YouTube 上观看旅行视频时查看信息,还是需要将 Gemini 生成的图像拖放到 Gmail 或 Google Messages 中,Gemini 都能迅速响应你的需求。
为了提高响应速度和质量,Google 也引入了 Gemini 1.5 Flash 这样的新模型。并且,Google 还计划与其他服务进行更深层次的集成,包括但不限于 Google Home、Phone 和 Messages。
至于用户最为关心的隐私安全问题,Google 也承诺 Gemini 将在 Google 的安全云内部处理复杂的个人数据,以确保用户的个人数据不会被发送给任何第三方 AI 提供商。
Pixel 9,全系登场
在这场提前了两个月的年度盛典上,Pixel 9 系列登场。
今年,Google Pixel 系列迎来了四位成员,分别是 Pixel 9、Pixel 9 Pro、回归的 Pixel 9 Pro XL 以及 Pixel 9 Pro Fold,这四台手机均搭载了 Google 自研的 Tensor G4 处理器。
Tensor G4 处理器使用 1+3+4 的内核配置,由一颗 Cortex-X4、三颗 Cortex-A720 与 四颗 Cortex-A520 组成,与 Pixel 8 上的 Tensor G3 处理器相比(或更以前的芯片),Tensor G4 中新的 Cortex-X4 提升了约 11% 的单核性能,但由于缺少一个内核(Cortex-A720),所以与 Tensor G3 相比,多核结果预计只会上升约 3%。
Google Pixel 9 Pro XL 与上一代 Pixel 8 Pro 跑分对比
不过,芯片的短暂停滞并没有影响 Google 使用 AI 的决心:这是第一台搭载了 Gemini Nano Multimodality 多模态模型的手机,Google 宣称这个模型比去年推出的模型要强大 3 倍,复杂程度也提高 3 倍。
除了新芯片,Google 为影像也做足了准备。
虽然 Pixel 9 标准版与上代 Pixel 8 标准版的变化不大,只是将超广角摄像头从 IMX 386 提升到 IMX 858,但在 Pixel 9 Pro 与 Pro XL 上,Google 选择「一致强大」的方案:除了主摄使用三星 GNK 五千万像素传感器外,其他所有摄像头都使用索尼 IMX 858 传感器。
IMX 858 是目前影像旗舰中最常见的传感器,1/2.51 英寸足以在适当的影像模组大小中担任超广角镜头与长焦镜头的成像任务——这与小米 14 Ultra 的相应焦段配置相同。
Pixel 从单摄「硬刚」双摄的时代一路走来,终于在今天赶上了影像旗舰手机应有的硬件配置。
AI 影像,由「实」入「虚」
在 AI 浪潮袭来的时候,Google 企图踏浪而行——去年的 Made by Google 与今年 Google I/O 2024 大会上,Google 公布了大量 AI 技术,从生成式模型到自然语言处理、从独立 app 到系统集成,这是一种行为上的「All in AI」。
乔布斯最认可的计算机科学家艾伦·凯(Alan Kay)有句名言:
真正认真对待软件的人,就应该自己做硬件。
Google 推出的 AI 新功能的第一位接棒者,自然是「亲儿子」Pixel,而影像,便是手机 AI 的大展拳脚之处。
Google 将 Pixel 9 系列的相机称呼为 「世界上第一款 AI 相机」,足以见证除了旗舰级别的摄影模组外,Google 对全新 AI 的加持抱有同样的信心。
在 Pixel 8 中,有一个专为合照准备的功能:Best Take
在拍照时,有时难免会拍下不符合当时情景的表情和姿态,Best Take 会拍摄多张照片,通过 AI 选择出这些照片中每个人最好的一部分自动合成,如果你对 AI 选择的不满意,也可以手动进行选择,最后合成在一张照片中。
而在 Pixel 9 中,为了帮助你更好地合照,Google 又搞了新花样:Add me。
这个新功能企图解决你在没有外人的帮助下进行「非自拍合影」的困难——你只需要将 Pixel 9 举起来拍摄朋友,再让朋友在同样位置将 Pixel 9 对准你,Add me 会自动帮你们合成在一张照片中。
这有些像摄影中常用的手法——堆栈:将相机稳定后,拍摄同一场景下不同位置的人物,再将这些拍摄的照片放入 Photoshop 或其他后期软件中进行对齐,最后合成在一起,将不同的人物呈现在同一张照片上。
使用相机进行堆栈拍摄的照片
现在,在 AI 的加持下,Pixel 9 在抬手之间就能完成这个复杂流程。
如果说 Add me 只是「堆栈」技术的自动化,那么「Magic Editor」的新功能,则是将手机影像真正带到了「真实」与「虚假」的交汇点。
升级后的「Magic Editor」成为了真正的「魔术编辑器」:除了前代的改变画面曝光、去除背景与移动画面元素外,只需要输入相应的文字,就能创造出根据用户脑海中的画面。
简而言之,这就是我们常说的文生图模型。
文生图,已经不算是 AI 技术中的「新鲜」家伙了,例如 OpenAI 开发的 DALL-E 与开源的 Stable Diffusion 等模型都早已是我们熟悉的作图帮手,经过多次迭代,各类创作可以说是信手拈来。
使用 Midjourney 生成的图片
不过,传统的模型都需要我们使用网页或是 Discord 等渠道才能访问,更有甚者需要自己配置本地的操作界面,才能顺利使用,而 Pixel 9 系列则简单多了——你只需要解锁手机后输入文字,Magic Editor 就可以帮你完成这一切。
这离不开 Google 对于生成式 AI 的技术储备——Google 旗下的 Imagen 从 2022 年 5 月开始,就为使用者提供 AI 图像生成服务,例如我们最讨厌的人机验证程序。
作为 Android 阵营的嫡长子,Pixel 一直以来都比较低调,但谁也不能忽视它的存在——Google 有任何新技术,总是第一时间交给它,久而久之,Pixel 变成了一种指路标:Add me 与 Magic Editor 两个新功能,也许会是未来一段时间内 Android 对于 AI 摄影技术运用的方向。
AI 手机,可能为时尚早
今年以来,我们已经看过不少打着 AI 手机噱头的发布会,Google Pixel 9 系列交出的这份答卷虽有不少惊喜,但总体上也没有脱离以往的框架,AI 要成为影响消费者购买的主要因素还为时尚早。
与苹果 WWDC 大会上精心策划的演示相比,以往饱受 PPT 画饼诟病的 Google 明显多了几分松弛感,至少敢在发布会现场向世人掏出实打实的真家伙。
这种从容自信也融入到今天发布的产品上。Google 在系统级 AI 集成方面的成熟度,使其在图像处理、语音助手和智能搜索等领域的表现尤为出色。
就拿苹果和 Google 在 AI 功能上的效果来说,苹果有升级版 Siri,Google 有更自然对话的 Gemini Live,苹果 Image Playground 允许用户在信息等应用中创作图像,生成素描、插图和动画等样式的图像,而 Google Pixel Studio 也允许用户创作个性化的贴纸……
甚至 Google 的 Add Me 功能通过 AI 集成不同照片中的人,确保每个人都能出现在合影中,也都是相当实用的功能。
基于这些先发底气,这或许也是 Google 在发布会上明里暗里频繁 cue 苹果的重要原因。
不过, 即便去年 Google 先苹果一步推出了搭载不少 AI 功能的 Pixel 8 系列,但市场反应并非总是与技术进步成正比。
一份来自国际数据公司 IDC 的报告显示,2023 年 Pixel 手机在美国市场的份额仅为 4.6%。 这也反映了当下 AI 手机的痛点:AI 功能固然重要,但尚未成为绝大多数消费者决策的核心因素。
而在端侧模型的能力还没突破到一个理想的水平之前,所有硬件厂商都要面临的问题是,长久以来依赖云端模型实现的 AI 功能,比起端侧模型整合在系统层面上的体验还要逊上一筹。
Google 的翻身仗或许还要再晚上一阵, 但凭借软硬件的技术闭环,谁也指不准 Google Pixel 会不会很快就攻守易形态也,而这同样也是其他全力押注 AI 手机厂商的最大野心。
文 | 周奕旨 莫崇宇