Google I/O总结：Gemini更新，推出视频模型Veo，新增AI概述搜索功能

作者：鞭牛士发布时间：2024-05-15

鞭牛士报道，5月15日消息，据CNBC报道，谷歌周二举办了年度 I/O 开发者大会，并推出了一系列人工智能产品，从新的搜索和聊天功能到面向云客户的人工智能硬件。这些发布强调了该公司对人工智能的关注，以抵御 OpenAI 等竞争对手。

谷歌推出的许多功能或工具仅处于测试阶段或仅限于开发人员，但它们让人们了解谷歌如何看待人工智能以及其投资方向。

谷歌通过人工智能赚钱，通过向使用其模型的开发人员和支付 Gemini Advanced 费用的客户收取费用，Gemini Advanced 是ChatGPT的竞争对手，每月费用为 19.99 美元，可以帮助用户总结 PDF、Google 文档等。

周二发布的公告是在其人工智能竞争对手举办的类似活动之后发布的。本月早些时候，亚马逊支持的Anthropic 宣布推出其首个企业产品和免费 iPhone 应用程序。与此同时，OpenAI 周一推出了新的人工智能模型和 ChatGPT 桌面版本，以及新的用户界面。

以下是谷歌发布会上的主要内容。

Gemini人工智能更新

谷歌推出了Gemini 1.5 Pro 的更新，其人工智能模型很快将能够处理更多数据——例如，该工具可以总结用户上传的 1,500 页文本。

还有一个新的 Gemini 1.5 Flash AI 模型，该公司表示该模型更具成本效益，专为较小的任务而设计，例如快速总结对话、为图像和视频添加字幕以及从大型文档中提取数据。

Google 首席执行官Sundar Pichai强调了 Gemini 翻译的改进，并补充说它将以 35 种语言向全球所有开发人员提供。

Pichai 表示，在 Gmail 中，Gemini 1.5 Pro 将分析附加的 PDF 和视频，提供摘要等内容。这意味着，如果您在假期期间错过了一封很长的电子邮件，Gemini将能够将其连同任何附件一起进行总结。

新的 Gemini 更新也有助于搜索 Gmail。该公司举了一个例子：如果您一直在比较不同承包商修复屋顶的价格，并正在寻找一份摘要来帮助您决定选择谁，Gemini 可以返回三个报价以及不同电子邮件中提供的预期开始日期线程。

谷歌表示，Gemini 最终将取代 Android 手机上的 Google Assistant，这意味着它将成为苹果的更强大竞争对手iPhone 上的 Siri。

Gemma 2：开放模型的 27B 参数版本，将于 6 月推出

周二，谷歌在其年度 Google I/O 2024 开发者大会上宣布了 Gemma 的一些新成员，Gemma 是其开放（但不是开源）模型系列，可与 Meta 的 Llama 和 Mistral 的开放模型相媲美。

这里最引人注目的发布是 Gemma 2，它是 Google 的下一代开放权重 Gemma 模型，将于 6 月推出，带有 270 亿个参数模型。

PaliGemma 已经可用，它是一种预训练的 Gemma 变体，谷歌将其描述为Gemma 家族中的第一个视觉语言模型，用于图像字幕、图像标签和视觉问答用例。

到目前为止，今年早些时候推出的标准 Gemma 型号只有 20 亿参数和 70 亿参数版本，这使得这款新的 270 亿型号迈出了相当大的一步。

在周二宣布之前的简报中，谷歌实验室副总裁乔什·伍德沃德 (Josh Woodward) 指出，Gemma 模型在各种可用服务中的下载次数已超过数百万次。

他强调，谷歌优化了 270 亿美元的模型，以便在 Nvidia 的下一代 GPU、单个谷歌云 TPU 主机和托管 Vertex AI 服务上运行。

不过，如果模型不好的话，尺寸并不重要。谷歌尚未分享有关 Gemma 2 的大量数据，因此我们必须在开发人员上手后看看它的表现如何。「我们已经看到了一些出色的品质。它的性能优于两倍大的模型。」伍德沃德说。

Google Veo、Imagen 3 和音频概述

谷歌发布了用于生成高清视频的最新模型Veo，以及最高质量的文本到图像模型 Imagen 3，该模型承诺提供逼真的图像，并且比之前的模型更少分散注意力的视觉伪影。

谷歌正在瞄准 OpenAI 的 Sora with Veo，这是一种人工智能模型，可以根据文本提示创建大约一分钟长的 1080p 视频剪辑。

Veo于周二在谷歌 I/O 2024 开发者大会上亮相，它可以捕捉不同的视觉和电影风格，包括风景和延时镜头，并对已经生成的镜头进行编辑和调整。

谷歌 AI 研发实验室 DeepMind 负责人 Demis Hassabis 在虚拟圆桌会议上对记者表示：我们正在探索故事板和生成更长场景等功能，以了解 Veo 的功能。我们在视频方面取得了令人难以置信的进步。

Veo 建立在谷歌在视频生成方面的初步商业工作的基础上，该工作于 4 月份进行了预览，该工作利用该公司的 Imagen 2 系列图像生成模型来创建循环视频剪辑。

但与基于 Imagen 2 的工具（只能创建低分辨率、几秒长的视频）不同，Veo 似乎可以与当今领先的视频生成模型竞争——不仅是 Sora，还有来自 Pika、 Runway 和 Irreverent等初创公司的模型实验室。

Veo 接受了大量镜头的训练。这就是生成式 AI 模型的工作原理：输入某种形式数据的一个又一个示例，模型会拾取数据中的模式，使它们能够生成新数据——在 Veo 的例子中是视频。

训练 Veo 的录像来自哪里？Eck 没有具体说明，但他承认有些内容可能来自 Google 自己的 YouTube。

「谷歌模型可能会接受一些 YouTube 内容的训练，但始终遵守我们与 YouTube 创作者的协议。」他说。

这些工具将于周一向选定的创作者开放，并将登陆谷歌的机器学习平台 Vertex AI，让开发人员可以训练和部署人工智能应用程序。在那之前，将会有一个等候名单。

该公司还展示了音频概述，即根据文本输入生成音频讨论的能力。例如，如果用户上传课程计划，聊天机器人可以说出其摘要。或者，如果您要求提供现实生活中科学问题的示例，它可以通过交互式音频来实现。

另外，该公司还展示了AI Sandbox，这是一系列生成式人工智能工具，用于根据用户提示从头开始创建音乐和声音。

然而，聊天机器人和图像创建器等生成式人工智能工具仍然存在准确性问题。

谷歌搜索主管普拉巴卡尔·拉加万(Prabhakar Raghavan)上个月告诉员工，竞争对手可能有一个人们喜欢玩的新小发明，但他们仍然来到谷歌来验证他们在那里看到的内容，因为它是值得信赖的来源，而且变得更加关键”在这个生成人工智能的时代。

今年早些时候，谷歌推出了由 Gemini 驱动的图像生成器。用户发现历史错误在网上疯传，该公司取消了该功能，并表示将在未来几周内重新推出该功能。该功能尚未重新发布。

新的搜索功能

谷歌搜索负责人 Liz Reid 表示，谷歌将于周一在美国谷歌搜索中推出人工智能概述，人工智能概述显示最复杂搜索问题答案的快速摘要。

例如，如果用户搜索清洁皮靴的最佳方法，结果页面可能会在顶部显示人工智能概述，其中包含从网络上合成的信息中收集的多步骤清洁过程。

该公司表示，计划直接在搜索中引入类似助手的规划功能。它解释说，用户将能够搜索类似为一组易于准备的 3 天膳食计划之类的内容，然后将从网络上获得各种食谱作为起点。

至于在提供多模态或在生成人工智能工具中集成更多图像和视频方面取得的进展，谷歌表示将开始测试用户通过视频提问的能力，例如拍摄他们拥有的产品的问题、上传并要求搜索引擎找出问题所在。

在一个例子中，谷歌展示了一个人在拍摄一台坏掉的电唱机的同时询问它为什么不能工作的情况。谷歌搜索找到了电唱机的型号，并表明它可能因平衡不正确而出现故障。

测试中的另一项名为AI Teammate的新功能将集成到用户的 Google Workspace 中。它可以通过消息和电子邮件线程以及更多 PDF 和文档构建可搜索的作品集。

例如，准创始人可以问 AI 队友：我们准备好发布了吗？助手将根据 Gmail、Google Docs 和其他 Workspace 应用程序中可以访问的信息提供分析和摘要。

在演讲中，首席执行官桑达尔·皮查伊 (Sundar Pichai)宣布，谷歌将从本周开始在美国推出新的人工智能概述功能，以改进其搜索引擎，并计划在不久的将来将其可用性扩展到其他国家。

皮查伊表示，得益于谷歌人工智能模型系列 Gemini，该公司已经能够提高其产品的搜索能力。

随后，这位首席执行官展示了今年夏天 Google Photos 即将推出的一项功能，名为Ask Photos。该工具允许用户根据请求利用人工智能快速访问图书馆中的图像或记忆，例如当他们的孩子学会游泳时。

该功能由谷歌的 Gemini AI 模型提供支持。这项新功能将于今年夏天晚些时候推出，将允许用户使用自然语言查询来搜索他们的 Google 照片集，这些查询利用了人工智能对其照片内容和其他元数据的理解。

例如，您现在可以要求人工智能执行更复杂的操作，例如查找我访问过的每个国家公园的最佳照片，而不是搜索照片中的特定内容（例如埃菲尔铁塔）。人工智能使用各种信号来确定什么使照片成为给定集合中的最佳照片，包括光线、模糊度、没有背景失真等。然后，它可以将其与对一组照片或日期的地理位置的理解相结合，以仅检索在美国国家公园拍摄的图像。