当前位置:首页|资讯|谷歌|OpenAI|人工智能

Google I/O总结:Gemini更新,推出视频模型Veo,新增AI概述搜索功能

作者:鞭牛士发布时间:2024-05-15

鞭牛士报道,5月15日消息,据CNBC报道,谷歌周二举办了年度 I/O 开发者大会,并推出了一系列人工智能产品,从新的搜索和聊天功能到面向云客户的人工智能硬件。 这些发布强调了该公司对人工智能的关注,以抵御 OpenAI 等竞争对手。 

谷歌推出的许多功能或工具仅处于测试阶段或仅限于开发人员,但它们让人们了解谷歌如何看待人工智能以及其投资方向。

谷歌通过人工智能赚钱,通过向使用其模型的开发人员和支付 Gemini Advanced 费用的客户收取费用,Gemini Advanced 是ChatGPT的竞争对手,每月费用为 19.99 美元,可以帮助用户总结 PDF、Google 文档等。

周二发布的公告是在其人工智能竞争对手举办的类似活动之后发布的。本月早些时候,亚马逊支持的Anthropic 宣布推出其首个企业产品和免费 iPhone 应用程序。与此同时,OpenAI 周一推出了新的人工智能模型和 ChatGPT 桌面版本,以及新的用户界面。

以下是谷歌发布会上的主要内容。

Gemini人工智能更新

谷歌推出了Gemini 1.5 Pro 的更新,其人工智能模型很快将能够处理更多数据——例如,该工具可以总结用户上传的 1,500 页文本。

还有一个新的 Gemini 1.5 Flash AI 模型,该公司表示该模型更具成本效益,专为较小的任务而设计,例如快速总结对话、为图像和视频添加字幕以及从大型文档中提取数据。

Google 首席执行官Sundar Pichai强调了 Gemini 翻译的改进,并补充说它将以 35 种语言向全球所有开发人员提供。 

Pichai 表示,在 Gmail 中,Gemini 1.5 Pro 将分析附加的 PDF 和视频,提供摘要等内容。这意味着,如果您在假期期间错过了一封很长的电子邮件,Gemini将能够将其连同任何附件一起进行总结。

新的 Gemini 更新也有助于搜索 Gmail。该公司举了一个例子:如果您一直在比较不同承包商修复屋顶的价格,并正在寻找一份摘要来帮助您决定选择谁,Gemini 可以返回三个报价以及不同电子邮件中提供的预期开始日期线程。

谷歌表示,Gemini 最终将取代 Android 手机上的 Google Assistant,这意味着它将成为苹果的更强大竞争对手iPhone 上的 Siri。

Gemma 2:开放模型的 27B 参数版本,将于 6 月推出

周二,谷歌在其年度 Google I/O 2024 开发者大会上宣布了 Gemma 的一些新成员,Gemma 是其开放(但不是开源)模型系列,可与 Meta 的 Llama 和 Mistral 的开放模型相媲美。

这里最引人注目的发布是 Gemma 2,它是 Google 的下一代开放权重 Gemma 模型,将于 6 月推出,带有 270 亿个参数模型。

PaliGemma 已经可用,它是一种预训练的 Gemma 变体,谷歌将其描述为Gemma 家族中的第一个视觉语言模型,用于图像字幕、图像标签和视觉问答用例。

到目前为止,今年早些时候推出的标准 Gemma 型号只有 20 亿参数和 70 亿参数版本,这使得这款新的 270 亿型号迈出了相当大的一步。

在周二宣布之前的简报中,谷歌实验室副总裁乔什·伍德沃德 (Josh Woodward) 指出,Gemma 模型在各种可用服务中的下载次数已超过数百万次。

他强调,谷歌优化了 270 亿美元的模型,以便在 Nvidia 的下一代 GPU、单个谷歌云 TPU 主机和托管 Vertex AI 服务上运行。

不过,如果模型不好的话,尺寸并不重要。谷歌尚未分享有关 Gemma 2 的大量数据,因此我们必须在开发人员上手后看看它的表现如何。「我们已经看到了一些出色的品质。它的性能优于两倍大的模型。」伍德沃德说。

Google Veo、Imagen 3 和音频概述

谷歌发布了用于生成高清视频的最新模型Veo,以及最高质量的文本到图像模型 Imagen 3,该模型承诺提供逼真的图像,并且比之前的模型更少分散注意力的视觉伪影。

谷歌正在瞄准 OpenAI 的 Sora  with Veo,这是一种人工智能模型,可以根据文本提示创建大约一分钟长的 1080p 视频剪辑。 

Veo于周二在谷歌 I/O 2024 开发者大会上亮相,它可以捕捉不同的视觉和电影风格,包括风景和延时镜头,并对已经生成的镜头进行编辑和调整。

谷歌 AI 研发实验室 DeepMind 负责人 Demis Hassabis 在虚拟圆桌会议上对记者表示:我们正在探索故事板和生成更长场景等功能,以了解 Veo 的功能。我们在视频方面取得了令人难以置信的进步。

Veo 建立在谷歌在视频生成方面的初步商业工作的基础上,该 工作于 4 月份进行了预览 ,该工作利用该公司的 Imagen 2 系列图像生成模型来创建循环视频剪辑。 

但与基于 Imagen 2 的工具(只能创建低分辨率、几秒长的视频)不同,Veo 似乎可以与当今领先的视频生成模型竞争——不仅是 Sora,还有来自 Pika、  Runway 和 Irreverent等初创公司的模型实验室。

Veo 接受了大量镜头的训练。这就是生成式 AI 模型的工作原理:输入某种形式数据的一个又一个示例,模型会拾取数据中的模式,使它们能够生成新数据——在 Veo 的例子中是视频。

训练 Veo 的录像来自哪里?Eck 没有具体说明,但他承认有些内容可能来自 Google 自己的 YouTube。 

「谷歌模型可能会接受一些 YouTube 内容的训练,但始终遵守我们与 YouTube 创作者的协议。」他说。

这些工具将于周一向选定的创作者开放,并将登陆谷歌的机器学习平台 Vertex AI,让开发人员可以训练和部署人工智能应用程序。在那之前,将会有一个等候名单。

该公司还展示了音频概述,即根据文本输入生成音频讨论的能力。例如,如果用户上传课程计划,聊天机器人可以说出其摘要。或者,如果您要求提供现实生活中科学问题的示例,它可以通过交互式音频来实现。

另外,该公司还展示了AI Sandbox,这是一系列生成式人工智能工具,用于根据用户提示从头开始创建音乐和声音。

然而,聊天机器人和图像创建器等生成式人工智能工具仍然存在准确性问题。

谷歌搜索主管普拉巴卡尔·拉加万(Prabhakar Raghavan)上个月告诉员工,竞争对手可能有一个人们喜欢玩的新小发明,但他们仍然来到谷歌来验证他们在那里看到的内容,因为它是值得信赖的来源,而且变得更加关键”在这个生成人工智能的时代。

今年早些时候,谷歌推出了由 Gemini 驱动的图像生成器。用户发现历史错误在网上疯传,该 公司取消了该功能,并表示将在未来几周内重新推出该功能。该功能尚未重新发布。

新的搜索功能

谷歌搜索负责人 Liz Reid 表示,谷歌将于周一在美国谷歌搜索中推出人工智能概述,人工智能概述显示最复杂搜索问题答案的快速摘要。

例如,如果用户搜索清洁皮靴的最佳方法,结果页面可能会在顶部显示人工智能概述,其中包含从网络上合成的信息中收集的多步骤清洁过程。

该公司表示,计划直接在搜索中引入类似助手的规划功能。它解释说,用户将能够搜索类似为一组易于准备的 3 天膳食计划之类的内容,然后将从网络上获得各种食谱作为起点。

至于在提供多模态或在生成人工智能工具中集成更多图像和视频方面取得的进展,谷歌表示将开始测试用户通过视频提问的能力,例如拍摄他们拥有的产品的问题、上传并要求搜索引擎找出问题所在。

在一个例子中,谷歌展示了一个人在拍摄一台坏掉的电唱机的同时询问它为什么不能工作的情况。谷歌搜索找到了电唱机的型号,并表明它可能因平衡不正确而出现故障。

测试中的另一项名为AI Teammate的新功能将集成到用户的 Google Workspace 中。它可以通过消息和电子邮件线程以及更多 PDF 和文档构建可搜索的作品集。

例如,准创始人可以问 AI 队友:我们准备好发布了吗?助手将根据 Gmail、Google Docs 和其他 Workspace 应用程序中可以访问的信息提供分析和摘要。

在演讲中,首席执行官桑达尔·皮查伊 (Sundar Pichai)宣布,谷歌将从本周开始在美国推出新的人工智能概述功能,以改进其搜索引擎,并计划在不久的将来将其可用性扩展到其他国家。

皮查伊表示,得益于谷歌人工智能模型系列 Gemini,该公司已经能够提高其产品的搜索能力。 

随后,这位首席执行官展示了今年夏天 Google Photos 即将推出的一项功能,名为Ask Photos。该工具允许用户根据请求利用人工智能快速访问图书馆中的图像或记忆,例如当他们的孩子学会游泳时。

该功能由谷歌的 Gemini AI 模型提供支持。这项新功能将于今年夏天晚些时候推出,将允许用户使用自然语言查询来搜索他们的 Google 照片集,这些查询利用了人工智能对其照片内容和其他元数据的理解。

例如,您现在可以要求人工智能执行更复杂的操作,例如查找我访问过的每个国家公园的最佳照片,而不是搜索照片中的特定内容(例如埃菲尔铁塔)。人工智能使用各种信号来确定什么使照片成为给定集合中的最佳照片,包括光线、模糊度、没有背景失真等。然后,它可以将其与对一组照片或日期的地理位置的理解相结合,以仅检索在美国国家公园拍摄的图像。

人工智能助手Project Astra计划

Project Astra 是谷歌人工智能助手的最新进展,该助手由谷歌 DeepMind 人工智能部门构建。目前它只是一个原型,但你可以将其视为谷歌开发自己版本的贾维斯的目标,贾维斯是托尼·斯塔克来自漫威宇宙的全能人工智能助手。

在 Google I/O 大会上展示的演示视频中,助手通过视频和音频,而不是聊天机器人界面,能够帮助用户记住他们把眼镜放在哪里、检查代码并回答有关某个部分的问题。

当发言人出现在视频中时,该发言人就会被呼叫。

谷歌表示,一个真正有用的聊天机器人需要让用户自然地与它交谈,没有滞后或延迟。演示视频中的对话是实时发生的,没有延迟。

该演示是在OpenAI 周一展示与 ChatGPT 的类似音频来回对话之后进行的。

DeepMind 首席执行官 Demis Hassabis 在台上表示,将响应时间缩短为对话式的内容是一项艰巨的工程挑战。

皮查伊表示,他预计 Project Astra 将于今年晚些时候在 Gemini 启动。

人工智能硬件

最后,谷歌宣布推出第六代 TPU(即张量处理单元)Trillium,这是运行复杂 AI 操作不可或缺的硬件,将于 2024 年底向云客户提供。

据称该产品的速度几乎是之前版本的五倍。

Alphabet 首席执行官桑达尔·皮查伊 (Sundar Pichai) 在接受记者采访时表示:过去六年,行业对(机器学习)计算机的需求增长了 100 万台,每年大约增长 10 倍。我认为谷歌就是为了这一刻而建立的,十多年来我们一直在(人工智能芯片)领域处于领先地位。

TPU 无意与其他芯片竞争,例如Nvidia 的芯片图形处理单元。例如,皮查伊在 I/O 大会上指出,谷歌云将于 2025 年初开始提供 Nvidia 的 Blackwell GPU。

Nvidia 在 3 月份表示,谷歌将使用 Blackwell 平台进行各种内部部署,并将成为首批提供 Blackwell 支持的实例的云提供商之一,并且访问 Nvidia 的系统将有助于谷歌为企业提供大规模工具开发人员构建大型语言模型。

Alphabet 为人工智能数据中心打造定制芯片的努力是主导市场的 Nvidia 顶级处理器的少数可行替代品之一。加上与谷歌张量处理单元(TPU)密切相关的软件,这些芯片使该公司占据了重要的市场份额。

Nvidia 占据了人工智能数据中心芯片市场大约 80% 的份额,剩下的 20% 的绝大多数是谷歌 TPU 的各种版本。该公司本身并不销售芯片,而是通过其云计算平台出租访问权限。

谷歌表示,与 TPU v5e 相比,第六代 Trillium 芯片的计算性能将提高 4.7 倍,该芯片旨在为从大型模型生成文本和其他媒体的技术提供动力。Trillium 处理器的能效比 v5e 高出 67%。

皮查伊在演讲中强调了谷歌与英伟达的长期合作伙伴关系。两家公司已经合作了十多年,皮查伊过去曾表示,他预计他们在十年后仍将如此。

本文来自微信公众号“鞭牛士”(ID:bianews8),作者:u,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1