当前位置:首页|资讯|谷歌|OpenAI

谷歌IO大会推出AI超级全家桶对抗OpenAI,包括Veo视频生成模型

作者:DoNews发布时间:2024-05-15

DoNews5月15日消息,谷歌在北京时间今天凌晨召开的 2024 I / O 开发者大会上,一口气推出了十多款产品,意图对抗OpenAI。

Gemini模型

在三个月前发布的Gemini 1.5 Pro终于不再是期货了!从今天起它将正式开放给订阅了Geminni Advance的用户,非订阅用户则可以免费试用两个月。

据介绍,Gemini基础模型最重要的维度都做了加强。首先是模型性能,谷歌通过数据和算法改进增强了其代码生成、逻辑推理和计划、多回合对话以及音频和图像理解能力。

最新版本的 1.5 Pro 在多个benchmark中取得了Sota(State of the art,顶尖水准)的成绩。

上下文方面,谷歌把新Gemini 1.5 Pro 的上下文窗口从业界最高的100万令牌(token) 扩展到合300本书的200万令牌。

在多模态支持上,Gemini Pro现在还把语音理解这个过去的短板部分进行了补齐,成了完全体。

指令跟随能力方面,Gemini 1.5 Pro也进行了一轮更新。现在可以遵循越来越复杂和细微的指令,包括那些指定产品级行为(如角色、格式和风格)的指令。从数据上看,现在Gemini 1.5 Pro已经可以全面超越了GPT4。

谷歌还在本次I/O上宣布了Gemini 1.5 Flash,顾名思义,它的主要特色就是快速反应。

从功能上看,虽然其比 1.5 Pro 轻量化,但它也能够跨大量信息进行多模态推理,并且擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取等工作。

但Gemini 1.5 Flash还是牺牲了一些性能已达成其速度。从谷歌方面公布的技术文档上看,Flash 通过一种称为“蒸馏”的过程,从较大的模型中传递最重要的知识和技能到较小、更高效的模型,实现了速度的提升。

1.5 Flash 将于周二在 AI Studio 和 Vertex AI 中提供。

需要注意的是,这里展示的能力是需要通用智能体(Agent)支持的,因此谷歌的下一个重磅产品是通用人工智能Project Astra。谷歌将其定义为自己的Agent战略的核心。

它是一种智能体框架:为了真正有用,智能体需要像人类一样理解和响应复杂多变的世界——并且记住它看到和听到的内容以理解上下文并采取行动。

它还需要具有主动性、可教性和个性化,这样用户可以自然地与它交流而不会有滞后或延迟。

低延迟的要求,让你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中,它的最佳形态就是个人助手。

所以,为了让它更有用,谷歌通过持续编码视频帧、将视频和语音输入结合到事件时间线上,并缓存这些信息以实现高效回忆来更快地处理信息,就是能与视频交互,还有时间记忆。

通过语音模型,谷歌还增强了Astra的声音,使Agent具有更广泛的语调,让这些Agent可以更好地理解它们所处的上下文,并在对话中快速响应。

谷歌表示,今年晚些时候,这些功能中也仅有“一些”将进入谷歌的产品,可能是XR眼镜,也可能是个人助手。

谷歌还宣布了前一阵大火的开源模型Gemma 的2.0版本,270亿参数。并为它拓展了PaliGemma这个多模态版本。

这很可能是目前最强的官方开源多模态大模型了。据谷歌表示,它的开发是受到了视觉模型Pali-3的影响。

多模态生成模型

除了文生视频模型的新公开,谷歌还推出了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别,比起Dalle-3更胜一筹,而且在对细节的跟随上也要更细致。

音乐生成方面,谷歌给2023年发布的Lydia加了个新拓展Music AI Sandbox,一套音乐 AI 工具。这些工具旨在为创意打开新的游乐场,让人们从头开始创作新的器乐部分,以新的方式转换声音等等。

最后,谷歌介绍了自己的视频生成模型——Veo 。它属于谷歌之前的一系列视频生成尝试的集大成者:融合了GQN、Phenaki、WALT、VideoPoet、自家Lumiere这几款在Sora之前发布的明星文生视频模型的长处。

从能力上看,可以生成高质量的 1080p 分辨率视频,能够超过一分钟,涵盖广泛的电影和视觉风格。

从示例视频上看,Veo生成的画面相当一致且连贯:人物、动物和物体在镜头中移动的很真实。

谷歌还表示,Veo 具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。

Veo甚至还能理解电影术语,如“延时”或“航拍镜头”。

从质量上讲,谷歌的Veo和Sora足有一战之力。然而,和Sora一样,Veo 只会将作为 VideoFX 内的私人预览版提供给少量创作者,一般用户可以报名加入候补队列。

AI搜索:多模态最强,但创新有限

AI搜索可以说是谷歌的必争之地。但从2023年来看,新兴的AI搜索虽然获得了不少用户,却基本上没有动摇到谷歌搜索的根基。

所以谷歌也是一副不紧不慢的样子:它的AI搜索服务ESG从2023年5月公布至今,整整一年时间后总算从今天起向公众开放使用了。

这个更强的AI搜索引擎被谷歌命名为人工智能概述AI Overview,但仅限美国,其他国家还得排队等着开。

从Demo展示来看,谷歌搜索在功能上的创新主要集中在多模态。

首先,用户将能够通过简化语言或更详细地分解来调整 AI 搜索结果概述。

其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性处理复杂的多步,乃至多问题。

比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。只要一次搜索,所有需要的信息就自动呈现出来。

通过谷歌AI搜索,用户将能够通过一次搜索询问类似“如何清洁沙发”的问题得到最佳答案。

同样构建在多步推理能力之上的是AI搜索的计划能力。通过AI搜索中的计划功能,你可以直接在搜索里获得一个完整的计划。

然后是灵感延展功能,在问了一个问题后,谷歌搜索将会延展到其他可能你感兴趣的结果,按独特的 AI 生成标题分类,展示广泛的视角和内容类型。

最后其他AI搜索暂时做不到的是多模态搜索。靠Gemini的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用Circle to Secarch功能圈出图片中的一部分去搜索。

除了提问,谷歌 AI 搜索还能制定计划,从饮食到旅行计划,比如搜索「创建一个容易准备的团体 3 天饮食计划」,AI 就会定制计划,然后用户可以将某份晚餐调整成素食,随后导出到文档或者谷歌邮箱里。

AI还能结合视频进行搜索。谷歌举了个范例,比如用户在旧货店买了一台唱片机,但打开时无法工作,带有针头的金属部件在意外漂移。用视频搜索能节省了用户找到合适词语来描述这个问题的时间和麻烦。

谷歌照片应用也将进化。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在演示中称,9 年前他们推出了谷歌照片应用,现在每天有超过 60 亿张照片和视频被上传到这里。

该应用在未来几个月将推出「询问照片(Ask Photos)」功能,也是基于 Gemini 模型,可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等,它能理解照片的上下文和主题,找到特定的回忆信息,无需滑动屏幕。

例如,「向我展示我参观过的每个国家公园的最好看的照片」「去年我在哪里露营?」「我的优惠券什么时候到期?」「露西娅什么时候学会游泳的?」「向我展示露西娅的的游泳技能是怎么进步的?」「莉娜的生日派对是什么主题?」最后,它还能撰写旅行亮点或者个性化的标题,供用户在社交媒体上分享。

Gemini升级

首先登场的是结合Gemini的Wrokspace。

现在,可以让 Gemini 总结学校最近发来的所有电子邮件。在后台,它可以识别相关电子邮件,甚至分析 PDF 等附件,你可以获得一份包含关键要点和待办事项的摘要。

也许你本周正在旅途中,无法参加家长会议,而会议录音长达一个小时。如果这份录音来自于 Google Meet,你就可以让 Gemini 为你提供重点内容。

倘若有个家长小组正在寻找志愿者,而你那天正好有空,那么当然,Gemini 还可以帮助你起草回复邮件。

更智能的 Gemini 体验

谷歌宣布推出称为 Live 的全新 Gemini 体验,让你可以使用语音与 Gemini 进行深入对话。用户甚至可以按照自己的节奏说话或在回答中途打断以提出澄清问题,就像在任何对话中一样。

而且今年晚些时候,将能够在上线时使用摄像头,而开启关于周围所见内容的对话。

Andriod + AI

除了Cricle in Search这个聚焦具体图片局部的多模态搜索外,本次Android AI重点是介绍了Gemini的手机应用,可以和手机上正在展示的内容进行互动。比如阅读打开的PDF,从你正在看的YouTube频道反馈问题。

谷歌宣布已将 Gemini 模型整合到 Android 中,包括最新的设备端模型:Gemini Nano 多模态模型 (Gemini Nano with Multimodality),它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。

硬件:TPU稳步升级

在这次发布会上,所有的AI模型都是由谷歌最新第六代的TPU——Trillium TPU训练的。

相较于前代,它的进步还是非常明显的。Trillium实现了每芯片峰值计算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。高带宽内存(HBM)的容量和带宽和芯片间互连(ICI)的带宽也比v5e翻了一番。

此外,Trillium 配备了第三代 SparseCore,这是一种专门用于处理超大嵌入的加速器,常见于先进的排序和推荐工作负载中。

Trillium TPU 使训练下一波基础模型更快,并以更低的延迟和更低的成本服务这些模型。Trillium 可以扩展到一个包含 256 个 TPU 的单个高带宽低延迟Pod。

另外,能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上。

总结

最后,我们来总结下本次2024谷歌 I/O 大会亮点:

Gemini 1.5 Pro 升级至200 万令牌,优化代码生成、逻辑推理和规划、多轮对话等,新增音频推理能力。

推出轻量级模型 Gemini 1.5 Flash,保持多模态,专为大规模任务优化。

推出 Project Astra,实现多模态理解和实时对话。

推出视频生成模型Veo及文本到图像模型 Imagen 3

谷歌搜索融入 AI Overviews,提供信息概览并辅助用户生活规划。

发布第六代 TPU Trillium,相比上一代 TPU v5e,在每个芯片的计算性能都提升 4.7 倍。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1