在许多人看来,谷歌面对微软+Open AI的颠覆式挑战,过于迟缓,过于谨慎。但AI带着浑身的缺陷狂奔,其风险也越来越显著。权衡好责任与科技,监管与创新,是一种AI之道。
在ChatGPT推出半年之后,GPT-4推出两个月之后,北京时间今天凌晨,谷歌在今年的I/O开发者大会上,推出了新模型 PaLM 2,全系列工具的 AI 化升级,以及AI化的硬件。谷歌试图表明,它才是大模型和搜索的规则制定者,准备再次领先。在 I/O 大会进行的同时,谷歌的股价也大涨了 5%。
要想拥有新的谷歌搜索体验,用户必须选择一项名为 Search Generative Experience(搜索生成式体验)的新功能,它也是名为 Search Labs 的新功能的一部分。
谷歌强调,生成式搜索是一个实验。但谷歌也很清楚,搜索方式正在发生根本性的长期变化。人工智能增加了另一层输入,帮助用户提出更好、更丰富的问题。它还添加了另一层输出,回答用户的问题,并引导出新的问题。
在事实准确和更加流畅对话两者之间,谷歌显然更加重视前者。
OpenAI创始人奥特曼( Sam Altman) 发出一句优越感十足的轻松推文:“we are so back ”。有人在问他这句话的意思,他回复说:“偶尔在这里发点好玩的,因为搞OpenAI太严肃了,有时候轻松一分钟还是不错的。” 许多回复认为,奥特曼是看到了谷歌的I/O发布会后,有感而发。
大模型 PaLM2 vs. GPT-4
谷歌 I/O 大会上,谷歌CEO桑达尔·皮查伊(Sundar Pichai)宣布推出 PaLM 2 预览版本,将在多语任务方面碾压GPT-4。它在具有 100 多种语言的语料库上训练,能够理解、生成和翻译比以往模型更细致多样化的文本(包括习语、诗歌和谜语等)。PaLM 2 通过了“精通”(mastery)级别的高级语言能力考试。PaLM 2可能实现人类自然语言互译的大一统。
PaLM 基于谷歌 Pathways 架构,第一个版本于2022年4月发布。而PaLM 2构建于谷歌最新 JAX 和 TPU v4 之上,改进了数学、代码、推理、多语言翻译和自然语言生成能力,利用谷歌最新的 TPU 算力基础设施提升了训练速度。谷歌称,由于它的构建方式是将计算、优化扩展、改进的数据集混合以及模型架构改进结合在一起,因此服务效率更高,整体表现更好。
PaLM 2 模型提供了不同规模的四个版本,从小到大依次为壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn),更适于各种用例的部署,并在特定领域的数据上进行了微调,为企业客户执行某些任务。其中轻量级的 Gecko 模型可以在移动设备上运行,速度非常快,不联网也能在设备上运行出色的交互式应用程序。
PaLM 2 在大量包含数学表达式的科学论文和网页上进行了训练,可以轻松解决数学难题、推理文本甚至可以输出图表。从基准测试上可以看到,对于具有思维链提示或自洽性的 MATH、GSM8K 和 MGSM 进行基准评估,PaLM 2 的部分结果超越了 GPT-4。
PaLM 2还改进了对代码编写和调试的支持,在 20 种编程语言上进行了训练,包括 Python 和 JavaScript 等流行语言以及 Prolog、Verilog 和 Fortran 等其他更专业的语言。在PaLM 2 的基础之上,谷歌构建了用于编码和调试的专用模型Codey,用于补全代码和生成服务。
皮查伊现场演示了 PaLM 2 的代码调试功能,输入指令,修复一段代码中的一个 bug,并一行一行地添加韩文注释。
谷歌内部已有70多个产品团队正围绕PaLM2构建产品,如针对安全知识微调而成的 Sec-PaLM,使用AI 帮助分析和解释具有潜在恶意脚本的行为,并检测哪些脚本对个人或组织构成威胁。
另外一个是Med-PaLM 2,可以检索医学知识、回答问题、生成有用的模板和解码医学术语,甚至还可以从图像中合成患者信息,例如胸部 X 光检查或乳房 X 光检查。谷歌称Med-PaLM 2 是首个达到专家水平的大语言模型。
PaLM 2 将继续为谷歌新版Bard 提供支持。开发者可以通过谷歌的 PaLM API、Firebase以及 Colab 访问 PaLM 2。
谷歌还发布了PaLM 2 的“论文”,整整 91 页。但令人失望的是,PaLM 2 和GPT-4 一样,公开的仅仅是一份技术报告。
Bard vs. ChatGPT
谷歌决定取消其对话应用Bard的等候名单,将在180个国家和地区提供服务,与ChatGPT 和新必应展开全面竞争,包括图像功能、编码功能和应用程序集成。
Bard 已经完全运行在了新一代模型PaLM 2 上。但不少人测试,它仍不及基于GPT-4的ChatGPT,勉强达到GPT-3.5的水平。
早期迹象表明,即使在Bard转向新的人工智能模型之后,这个图表仍然保持不变。谷歌的人工智能在工作任务方面的能力仍然不如GPT-4或基于GPT-4的Bing。(来自沃顿商学院创新创业与人工智能教授Ethan)
最新版的改进,着眼于打通生产力工具和搜索引擎。如引用功能,现在 AI 生成的回答将通过展示特定代码块的来源(也是链接),来确保代码引用更加准确,这也适用于从网络上引用叙述性内容。
还有导出按钮。如果 AI 生成的内容接近实用场景,用户会希望能够更快捷地使用这些结果。现在,内容可以快速导出到 Colab 和 Replit 上,方便用户进一步构建和迭代自己的想法。Bard还会写邮件,也可以直接一键 Gmail 发送,或新建一个 Docs 文件。
谷歌计划集成的应用还包括 Sheets、Slides、Calendar、Keep、Tasks、Maps、Photos、Messages、Flights、YouTube、YT Music、Google Images、Imagen、OpenTable、Replit,以及 Adobe 的 Firefly。
Bard 很快就会支持各种第三方扩展。Firefly可以自动根据输入的文本生成图像;其他的插件还包括Spotify,Khan Academy,Zip recruiter 等。
在语言方面,Bard这次增加了日语和韩语,预计7月支持全球“使用人数排名前40”的语言。应该包括中文。
谷歌正在使Bard变得更加可视化,让Bard能够分析图像,并且能在查询结果中提供图像信息等等。假如用户问Bard,美国的新奥尔良有哪些必看的景点,那么Bard就能图文并茂的解答这个问题。就像用户在谷歌搜图中问同样的问题一样。
当前GPT-4的生态布局进展迅速,将聊天机器人与更多网络服务相结合,把更复杂的任务交给像AutoGPT之类的智能代理去完成,在这方面,谷歌正在追赶。
AI安卓
I/O 大会上,谷歌还展示了下一代移动操作系统 Android 14 的新能力。
今年夏天,谷歌的默认短信应用 Message ,将引入Magic Compose测试版。后者是基于 AI 生成模型的工具,可以根据聊天内容,为用户建议相关回复。它可以学习用户的说话方式;用户也可以让自己的回复内容,听起来有不同的语气,包括各种凡尔赛腔调和莎士比亚风格。
安卓操作系统还使用生成式 AI 制作手机壁纸,和 AI 画图一样使用语言提示完成,这要归功于谷歌的文生图扩散模型。谷歌使用了公共领域的训练数据来训练这一功能,理应保证系统不会生成侵犯版权的图像。
此外,谷歌还推出了专为Android开发的AI编码机器人Studio Bot。它不仅可以生成代码、修复BUG,甚至能够回答关于安卓应用开发的相关问题。它同时支持Kotlin和Java编程语言,并将直接嵌入到开发工具Android Studio中。
Google Search vs. Bing
微软戳到谷歌最痛处的,是整合了GPT-4的搜索引擎必应。这次谷歌推出了由PaLM 2驱动的全新搜索引擎。
如果用户问“为什么酵母面包仍然如此受欢迎?” 谷歌搜索就给出几段详细描述酵母及其益生元的摘要。在生成内容旁,还给出了3个链接,方便核对摘要内容,以减少AI“幻觉”。
如果搜索蓝牙音箱,顶部会出现简短的摘要,详细说明了购买注意事项,包括电池寿命、防水性与音质等。右边是三个购买指南的链接。下方是6个购物链接,每个都有AI生成的摘要。
这是谷歌搜索结果页面的新面孔,首先展示AI生成的内容。要是想要访问这一功能,用户必须选择Search Generative Experience(SGE)这一新功能。比起重新设计的微软必应,谷歌显得更为严谨,搜索结果顶部的AI框,对谷歌来说更像是一个小小的更新。
但并非所有搜索都会有AI生成的答案。只有当谷歌的算法认为,它比搜索结果更有用时,AI内容才会出现,而像健康、财务等敏感主题,完全不会由AI生成。
谷歌试图让改进后的搜索引擎,能够以对话方式跟踪原始搜索查询的选项,无需重复上下文。然而,谷歌搜索也存在结构编排(orchestration of structure)问题,它从未被完全解决过。因为大部分数据储存在互联网上,甚至谷歌内部,很难将所有这些数据都连贯地放在一起作为答案。
目前,谷歌新搜索已经开放候补名单,但仅限美国,未来几个月可能推广到更多国家和地区。
谷歌地图现在也有了沉浸式视觉。用户想去的地方,就会有实景导航,还能顺便问问空气质量、天气、交通状况,都能即时演示。
谷歌硬件 vs ……
改变搜索体验的方式,首先会在移动设备上,AI 快照通常会占用搜索结果完整的第一页。
谷歌也发布了 Pixel 7a、PixelTablet,还有自己的首款折叠屏手机 Pixel Fold,售价 1799 美元,新的硬件将于夏天正式开卖。
AI大模型、搜索等超级应用、操作系统、手机等硬件集成为一体,可能是谷歌相比微软+OpenAI最大的优势。大模型为AI手机打开了新的空间,难怪百度也在考虑做手机。
PaLM 2最轻量版本Gecko,小到可以在手机上运行,每秒处理20个token,大约每秒16或17个单词。谷歌将在“最新的手机上”运行。
这也印证了未尽研究
中
所指出的,大模型正在日益向小型化和定制化的方向发展。
英伟达AI科学家Jim Fan指出:“下一波大模型将是移动原生的。一个离线的、永远在线的大模型不仅可以降低服务成本,而且还为用户体验开辟了全新的途径。例如,一个元应用程序可以从你的移动工作流程中学习,并为你实现自动化。在小屏幕上省下的生产力,将比在大屏幕上多得多。”
谷歌正在让移动设备更加AI化。谷歌将会于下半年推出Magic Editor,这是新公布的照片处理功能,使用生成式AI,可以让用户在没有专业工具的情况下编辑照片。
还有AI加持了的笔记本功能ProjectTailwind,用户记录的内容就是AI学习的对象。用户可以方便地从谷歌云盘中挑选文件,为自己定制个人化的AI模型。目前,该功能在大学校园内进行了广泛的测试。在示例演示中,Tailwind收集了大量学习笔记,然后生成了包括主题词在内的内容,用户可以为特定主题创建术语表。
用户目前可以注册Project Tailwind进行测试。该功能也是AI Labs计划的一部分。
Google Lens能够识别图片中的物体。比方说,上传两只狗狗的照片,然后提示“为这两只狗撰写有趣的标题”,Google Lens就可以识别它们的品种,然后Bard就能写下与这两只狗狗特征相关的内容。
而微软在3月份就已经给Bing增加了由OpenAI的DALL-E系统支持的AI图像生成功能。
社会责任
谷歌推出了包括两个判别AI生成内容的工具:
- watermarking(嵌入水印)
- metadata(嵌入元数据)
当谷歌投资功能更强大的模型时,它也在深入投资AI责任。这包括投资那些能够更好地识别综合生成的内容的工具。
嵌入水印和元数据,就是这样两种工具。水印直接将信息嵌入到内容,哪怕是轻微的编辑都会得以保持。今后谷歌会建立起模型和其他技术,让生成的内容从最初就包含水印。合成图像的真实程度越令人印象深刻,未来这项技术就越重要。
元数据则允许内容创建者将附加上下文与原始文件相关联。谷歌承诺每张 AI 生成的图像都具有元数据。用户遇到图像时,能够从中获取更多信息。
办公全家桶:Duet AI vs. Microsoft 365 Copilot
谷歌全新升级了办公全家桶Workspace,称之为Duet AI。它希望用生成式AI全面加持Gmail、Docs、Sheets和Slides,对抗微软整合了GPT4的Microsoft365 Copilot办公套件。
Duet AI的大部分功能还在开发中。例如,在文档中,只要点“Help me write”,Duet AI就能自动生成招聘启事,用户还可以选定任意文风。在Google Slides中,Duet AI能直接从幻灯片中的文本生成图像。写作辅助也会应用在移动端的Gmail上,这是对Smart Compose的升级。
现在,如果想试用这些新工具,需要注册Workspace Labs,加入候补名单。
下一代大模型:Gemini
皮查伊宣布谷歌的研究重心转向 Gemini。这是一个全新的大模型,多模态,高效集成了工具和 API,在记忆和规划能力上也有所突破。
Gemini模型今年才开始研发,将达到GPT-4的万亿参数级别。仍在训练中的Gemini,“虽然还处于早期,但我们已经看到了前所未有的、令人印象深刻的多模式功能。”
一旦经过微调和严格的安全性测试,谷歌同样将提供不同规模和功能的版本,以确保它能够部署在不同的产品、应用和设备上。
这应该是在Google Brain 和DeepMind 合并为Google DeepMind之后,谷歌大模型的新方向。
就在4月20日谷歌宣布DeepMind与Google Brain合并十天之后,深度学习三巨头之一的辛顿(Geoffrey Hinton)即宣布
他已经从谷歌辞职
。与辛顿批评大模型相反,新组建的谷歌DeepMind的CEO哈萨比斯(DemisHassabis)认为,人工智能可能比大多数其他人工智能专家预测的更接近人类智能水平,“我们可能只需要几年,也许…… 十年后就可以实现。” 哈萨比斯主张以后不再分享太多AI研究。
自从去年底OpenAI推出的ChatGPT成为游戏改变者,长期担任谷歌人工智能主管的杰夫·迪恩(Jeff Dean)开始在公司研究部门会议上抱怨,微软的创业公司大量阅读GoogleAI的论文,与谷歌保持同步。
Transformer自提出以来,很快成为了自然语言处理(NLP)领域的基本架构。它也是 ChatGPT得以突破的源头。谷歌的研究,培养了自己的颠覆者,这种情况必须改变。谷歌正在考虑,规定公司的人工智能研究成果,只有在转化为自己的产品后,才能将论文分享出去。
Google DeepMind将与Microsoft OpenAI展开对决,两者都将变得更加不透明;而Meta那里,一个开源的草泥马家族正在兴起。