腾讯科技讯(吴彬)北京时间5月11日凌晨,谷歌2023年的I/O开发者大会举行,和往年不太一样的是,在今年I/O大会主题演讲中,谷歌将更大的权重交给了人工智能,不但推出了全新一代的超级语言模型,还将其辐射到谷歌旗下各个应用中去。
谷歌展示了人工智能在不久的将来能提供的种种能力,而这些能力也让我们看到人工智能未来是如何改变现有的网络搜索、文本处理、编程等模式的。
基础大语言模型PaLM 2公布,谷歌挑战GPT-4的模型来了
在今年I/O大会开幕之前,所有人都知道谷歌要借助此次开发者大会一雪前耻,公布在人工智能领域最新的进展,但可能很少有人想到谷歌在此次大会上直接更新了他们在去年4月刚刚发布的超级语言模型PaLM,定名PaLM 2。该模型支持全球100多种语言,可完成编写软件代码、数学考试、创意作文和分析方面的测试。
对于PaLM 2的语言能力,谷歌工程师在一份研究论文中称,该系统的语言熟练程度“足以(充当老师去)教授这门语言”。与其他大型语言模型一样,PaLM 2不是单一类型的模型产品,它分为四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,依据特定领域的数据进行了微调,以执行企业客户的特定任务。
其中,体积最小的Gecko可以在手机上运行,每秒可处理20个标记,大约相当于16或17个单词。 谷歌没有说明使用什么硬件来测试这个模型,只是说它在“最新的手机上”运行。
这种语言模型的小型化意义重大。这样的系统在云端运行的成本会很高,同时能够在本地使用它们还有其他好处,比如改善隐私。
谷歌宣称PaLM 2已被用于支持自家的25项功能和产品,其中包括AI聊天机器人Bard,以及谷歌文档、幻灯片和工作表等。其中谷歌Bard聊天机器人在迁移到PaLM 2模型后,整体的能力提升明显,谷歌宣称凭借改进的数学、逻辑和推理技能,Bard现在支持了超过100种以上的语言,可以帮助生成、解释和调试20多种编程语言的代码。
而在这个全新的超级语言模型的帮助下,谷歌几乎所有的业务都可以快速的引入人工智能,而谷歌在今年的I/O大会上,也正是这样一项一项为我们展示的。
搜索:AI可能将打破传统的搜索模式
首先是搜索,尽管它并没有在第一时间出现在I/O大会的主舞台上,但很显然搜索的改进对于谷歌未来的发展是举足轻重的。谷歌将AI引入搜索中来,它势必会在未来很短的时间内,改变用户使用互联网搜索引擎的传统模式。
Google的搜索业务副总裁Liz Reid在现场展示了嵌入AI之后的Google Search功能,她在搜索框中输入了“为什么酵母面包仍然如此受欢迎?” 并按下回车键后,谷歌的正常搜索结果立刻加载出来。而在常规搜索结果的上方,一个长方形的橙色框在闪烁和发光。几秒钟后,发光被AI生成的摘要所取代:几段详细描述了酵母的味道、其益生元能力的优势等等。在右侧,有三个站点链接,这些站点的信息Reid表示他们“证实”了摘要中的内容。
谷歌称之为“人工智能快照”。所有这些都是通过谷歌的大型语言模型,所有这些都来自开放网络。而在AI生成答案之后,谷歌倾向于给出佐证,让人们了解到AI是如何生成这样的描述的。她说这是谷歌AI主动生成模型与众不同的关键。“我们希望大语言模型在生成内容后,作为必要条件,它要告诉使用者有哪些资源可以阅读更多相关的信息”。
而这项业务还会和搜索中的其他业务相结合,比如购物。在展示的过程中,Reid描述了下面这样的关键信息:
- 我女儿要过生日了,他喜欢鲸鱼,有没有类似的玩偶?
- 我想要一辆自行车,它可以让我轻松的骑行5公里,它还可以爬山;
最终人工智能都完成了相应产品的搜索推荐工作。而每加入一个条件后,人工智能都会重新对结果进行检测。很显然,这已经和目前我们所使用的搜索引擎大相径庭了,AI的到来,帮助用户可以更快速准确的搜索相关的信息,而不是再盲目的信息网络中找到他们想要的内容。
地图和Gmail同时获得AI加持
除了搜索之外,谷歌旗下两个最著名的应用“GMail”和“Google Maps”也获得了AI的加持。
GMail继续升级内置的AI工具,从最初的Smart Reply到Smart Compose,而最新版本升级到“Help me write”。
“Help me write”通过引入生成式AI来帮助用户撰写邮件,而且还有多种语气供用户挑选。 例如你向航空公司要求退款,你只需告诉AI你想要什么,它就会根据你的航班细节写一份草稿。同时你还可以要求AI调整语气,让邮件内容更委婉,这样会帮助用户有更大的机会获得航空公司的退款。
谷歌地图可以展示你在陌生城市的主动路线规划,比如你要跑步,谷歌的AI可以帮你规划两条跑步路线,其中可能有一条是海边的跑步路线,同时它还能告诉你未来一段时间的天气情况和交通信息,帮助你更好的跑步。
这个功能将在包括阿姆斯特丹,柏林,都柏林,佛罗伦萨,拉斯维加斯,伦敦,洛杉矶,迈阿密,纽约市,巴黎,旧金山,圣何塞,西雅图,东京和威尼斯在内的15个城市上线相应的能力。
Magic Editor:一键PS工具
基于人工智能主动生成技术,谷歌在I/O大会上推出了一个名为Magic Editor的图片编辑功能,它使用生成式AI帮助用户对照片进行大幅度的编辑和重构。
用户只需要描述需求,这项功能就可以自动帮助用户调整照片中需要修改的部分。在演示过程中,谷歌展示了这项功能对照片更换天气,抹平衣服上的褶皱,甚至是将被拍摄主体从照片的边缘挪到图片中心来,AI会自动补齐缺失的图像。
谷歌表示该功能将于今年晚些时候在Google Photo推出。
AI编程机器人Studio Bot
基于PaLM 2能力的基础编码模型Codey,谷歌为Android的开发者们推出了一个全新的AI编程机器人——Studio Bot。它可以同时支持Kotlin和Java编程语言,并直接存在于Android Studio的工具栏中。开发人员可以借此快速获得编程相关问题的答案,甚至可以让机器人调试他们的部分代码。
谷歌表示,这个机器人的开发完成度仍处于“非常早期的阶段”,他们将继续对其进行培训以改进其编程和答案生成的能力。它目前也只能通过Canary频道提供给美国的开发者,还没有准确的在全球推出的时间表。
Duet AI:对标微软的Copilot
微软之前基于GPT-4推出了Microsoft Copilot服务,将AI全面植入office365中,而谷歌为了追赶微软,在今年3月为其办公套件Workspace引入了一系列AI功能,而在今年的I/O大会上,谷歌赋予了其一个全新的名字——Duet AI。
它能做什么? 在主题演讲中,谷歌展示了Duet AI的一部分能力。人工智能和办公套件的深度整合,让AI可以完成包括准备会议、生成式写作、安排行程、可视化解决方案等等工作。
比如在Gmail和Google Docs中,Duet AI允许通过用户的几句话描述,主动生成完整的回复。同时更进一步的,上下文的关联性也会更严谨且更接近人类真实的笔法,另外它还可以帮助用户修饰词汇,让你的邮件读起来更加的生动或者是温婉。
谷歌还推出了一项名为“Sidekick”的新功能,该功能能够阅读、总结和回答不同谷歌应用程序中的文档问题。
Project Tailwind:一个用户文档培养的AI笔记模型
谷歌在I/O大会上展示了一个名为“Tailwind”的项目,它是一个有趣的个人化人工智能模型。从本质上讲,它是一个根据使用者提供的文档进行训练的AI笔记本,用户可以像导师或合作伙伴一样进行其主动写作的文档。谷歌将其定位为学生工具,不过对于那些经常在生活中处理大量文本的人来说,它可能具有更大的潜力。
谷歌产品管理高级总监乔希・伍德沃德(Josh Woodward)在介绍这个项目的时候表示:“它的工作原理是你可以简单地从谷歌云盘中挑选文件给AI去学习,它能有效地创建个性化和私密的人工智能模型,该模型在你提供的信息方面具有专业知识”。
Universal Translator:AI视频对口型技术
除了Project Tailwind之外,谷歌还宣布正在开发一项名为Universal Translator的实验技术。该工具旨在将视频从一种语言翻译成另一种语言,同时保留整体基调和氛围。这意味着该技术不仅可以将音频从一种语言翻译成另一种语言,还可以模仿说话者的声音、语气和面部表情,人物说话视频会根据目标语言的发音同步改变口型。
Universal Translator通过检测单词并进行翻译,之后它会检查说话者的语气以及他们强调的内容。结合这两个方面后,它会生成目标语言的语音。最后,它会根据AI生成的语音的发音同步视频中说话者的口型。
不过考虑到此工具可能被滥用来创建虚假视频,谷歌表示将限制对Universal Translator的访问范围。只有谷歌授权合作伙伴才能将其用于建设性项目,而普通用户无法使用。
Android 14引入人工智能:可实现主动式文本生成+生成式壁纸功能
人工智能作为今年I/O大会绝对的主角,谷歌将这个功能下放给了目前所有的主要业务中,这其中肯定少不了Android。
此次谷歌赋予了Android 14两个全新的AI功能,一个是主动式的文本生成(Magic Compose),一个是生成式的壁纸。
谷歌在Android的信息服务中引入了这个名为Magic Compose的功能,AI可以根据消息内容生成回复文本,这个功能很接近之前谷歌推出的助理服务(google assistant),只不过这次是通过AI完成文本对话上的主动生成服务。
除了这个功能外,谷歌还通过引入文本转图片扩散模型,允许用户输入一些语义提示,描述想要获取的图片信息,系统将会自动生成相应的壁纸。谷歌还表示,它有一种新的“电影壁纸”(cinematic wallpaper),使用设备上的机器学习网络将图片转换为3D图像,配合手机的重力感应器,壁纸可以实现3D动态的效果。
另外谷歌在此次主题演讲中,带来了一个重要的生态升级,设备查找应用“Find My Device”将很快可以利用其他Android设备构建的网络去帮助用户寻找设备。
谷歌明确表示这些设备的网络信息都是加密的,他们无权查看相关设备信息,以确保用户的隐私安全得到保证。另外未知的跟踪设备会被报警显示,包括苹果的AirTag,这也是谷歌和苹果携手合作的结果。
Pixel折叠屏手机来了:定价1799美元,下月发售
谷歌已经在今年的I/O大会之前预告将会在主题演讲中推出折叠屏手机。而这也是在折叠屏形态的智能手机产品诞生4年后,首个由谷歌这个Android系统母公司设计生产的折叠屏手机,谷歌将其命名为Pixel Fold。
Pixel Fold是一款横向内折屏幕手机,和目前行业普遍采用的大折叠设计不同,这台手机的整体设计类似于OPPO Find N的小折叠,展开后宽高比更加的接近。这台手机折叠后的机身尺寸139.7x79.5x12.1毫米,展开后尺寸139.7x158.8x5.8 毫米,重量为283g。
Pixel Fold 搭载谷歌自研的Tensor G2处理器,附带Titan M2协处理器,配有12GB LPDDR5内存+256/512GB UFS 3.1存储,拥有4821mAh的双电芯电池,以及USB Type-C 3.2 Gen 2 接口 ,支持最高30W的有线快充和Qi标准的无线充电,机身支持IPX8的防水等级。
手机拥有一块5.8英寸的OLED外屏,宽高比为17.4:9,分辨率为2092x1080,支持120Hz刷新率,峰值亮度为1550尼特;内屏为7.6英寸OLED可折叠显示屏,宽高比为6:5,分辨率为2208x1840,同样支持120Hz刷新率、1450尼特的峰值亮度,支持无级悬停折叠。
谷歌为这台折叠屏打造了一个独特的功能,当开启实时翻译时,手机的内外屏可以同时开启,显示不同的语言,可以让使用者实现快速实时的翻译交流。
影像方面,谷歌Pixel Fold外屏配有一颗1000万像素的镜头,内屏配有800万像素的镜头,后置4800万像素主摄(OIS)+1080万像素的超广角+1080万的等效五倍长焦。
在主题演讲中,谷歌宣布这台折叠屏手机会在下月正式开售,共有两个版本,12+256GB版售价1799美元,12+512GB版售价1919美元,预定Pixel Fold会随机附赠一块Pixel Watch智能手表。
Pixel的新平板:久违了
谷歌确实好多年没有推出过Pixel系列的平板电脑产品了,谷歌的产品副总裁Rose Yao在演讲中表示他们也一直在寻找平板电脑这种产品的差异化使用体验。不过好在谷歌还是在此次IO大会上带来了全新的平板电脑产品——Pixel Tablet。
这是一台极具Pixel家族设计风格的平板电脑产品,你不用翻过来看它背面的Google LOGO,看正面和材质你就知道它一定出自谷歌之手。
这是一台在硬件上平平无奇的平板电脑产品,11英寸LCD材质的屏幕,分辨率2560 x 1600,采用Tensor G2处理器,8GB的内存,128GB或256GB的存储空间,满电情况下续航12小时。机身拥有四扬声器模组,前后各有一个800万像素的镜头。
如果一定要在这台平板电脑上找一些差异化的点,那非系统莫属了。谷歌表示目前他们所有的第一方原生应用,都可以在这台设备上实现分屏的操作。
这台平板的定价为499美元,谷歌同时发布了一个支持磁吸充电的扬声器底座,如果购买这台平板电脑,这个价值129美元的充电扬声器底座会随机附赠。
Pixel 7a:最没悬念的产品,价格是关键
最后一个新的硬件产品,是在发布之前被网上各路大神扒了个底掉的Pixel 7a。依然是谷歌主打性价比的智能手机产品,它的定价为499美元,比去年的Pixel 6a小小涨价50美元。
这台手机同样搭载了Tensor G2处理器,配有6.1英寸FHD+OLED显示屏,支持90Hz刷新率,电池容量4385mAh,支持18W有线充电和7.5W的无线充电。
相比上一代Pixel 6a,谷歌这次为Pixel 7a升级了摄像头,搭载了全新的6400万像素主摄+1300超广角双摄,前置了一颗1300万像素的自拍镜头。
谷歌Pixel 7a支持IP67防尘防水,重量为193g,还支持蓝牙5.3和Wi-Fi 6E标准。价格方面,谷歌Pixel 7a已在美国上市,只有8+128GB版本,其中sub 6 5G版本售价499美元,mmWave 5G版本售价549美元。
谷歌全面拥抱人工智能
很显然,今年的I/O大会,全面拥抱人工智能成为更大的主题,在OpenAI对外展示了GPT-4的能力后,全球的科技公司都在大模型上狂奔。而谷歌此次展示了多种AI和相关业务的结合,也让我们看到了AI在未来科技领域的潜力。
不过在谷歌展示的多个项目中,很多还处在研发的初级阶段,何时能使用到这些人工智能加持的应用服务,还是个未知数。另外谷歌在今年的主题演讲中,也多次提到了AI伦理的问题,在同步发展大模型人工智能的同时,严肃看待人工智能的伦理问题,将会成为未来谷歌以及所有大模型研究者必须去面对的问题。