面对OpenAI搞出突然发布的精准“狙击”,北京时间5月15日凌晨,谷歌在其一年一度的I/O开发者大会上一连介绍了22项新功能/产品,意图使用“多点开花”的战术从OpenAI抢回被夺去的用户注意力。
相比5月14日,OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力,谷歌开发者大会的现场演讲持续了1小时52分钟,各产品线负责人轮番登场,展示了谷歌在智能助理、视频生成、图像生成、音乐创作、AI搜索等多个方面的能力,相关的新功能、新升级多达22项。
新京报贝壳财经记者浏览整个发布会发现,谷歌本次推出了不乏令人眼前一亮的新功能和新理念,如通过手机摄像头或AR眼镜帮助主人解答问题的智能助手Project Astra;对标Sora的视频大模型Veo;新的AI搜索方式如ask Photos(问照片)功能,以及将Gemini直接植入安卓底层架构等。
不过,作为老牌搜索引擎以及上一届AI领军人物,谷歌也没有忘记自己做搜索的“初心”,谷歌搜索业务主管丽兹·里德(Liz Reid)在现场演示了一系列搜索与AI结合的新功能后留下了一句“问就行(just ask)”“谷歌可以帮你搜索、调查、计划、头脑风暴……你只需要做一件事,就是问。”
谷歌搜索业务主管丽兹·里德发表演讲。
AI智能助手Astra可通过摄像头解题找东西 但为视频演示
发布会现场,DeepMind联合创始人兼首席执行官德米斯·哈萨比斯(Demis Hassabis)展示了一段视频。视频中,拿着手机或戴着VR眼镜的测试者一边“看”周围的景物,一边对谷歌AI助手提问,例如“看到能发出声音的东西就告诉我。”而搭载大模型Gemini的智能助手Project Astra对答如流,如“这是一个音箱。”测试者直接在屏幕上对音箱的黑色喇叭上画出了一道红色箭头:“这又叫什么?”“高频扬声器。”
智能助手Project Astra帮助用户解答问题的演示视频。
这段展示中,谷歌AI助手的效果堪比真人专家,甚至当用户看向窗外,智能助手立刻就说出了用户的详细地址:“这儿显然是伦敦的国王十字路口区域。”同时,其也可以理解绘画和图像,如可以对一个写在白板上的系统流程图给出意见“在服务器和数据库间添加缓存可以提高速度”。
德米斯称,Project Astra是自己期待了几十年的AI助手的雏形,是通用 AI 的未来,“AI个人助理可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中,并缓存这些信息以进行有效回忆,从而更快地处理信息。”
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示,谷歌计划从今年开始将Astra的功能添加到其Gemini应用程序及其产品中。不过,他也强调,虽然最终目标是“让Astra在公司的软件中实现无缝连接”,但该产品将被谨慎推出,并且“商业化之路将由质量驱动”。
不过,Astra似乎并未体现出GPT-4o在前一日展现的能够读懂用户情绪的功能,而且OpenAI的直播为现场演示,而Astra的功能则仅体现在视频里,当然,德米斯信誓旦旦表示,演示视频没有经过伪造或篡改。
皮查伊表示,Project Astra的多媒体聊天功能将在今年晚些时候出现在Gemini聊天机器人上。
推出Gemini 1.5 Pro大模型长文本从100万tokens翻倍至200万tokens
在谷歌智能助手的背后,谷歌大模型Gemini也有所升级。此次开发者大会上,皮查伊宣布了关于Gemini 1.5 Pro 的重大更新。首先,谷歌将 Gemini 1.5 Pro 的上下文长度从原有的 100万tokens(语句单位)提升到了200万tokens,这一升级将极大地增强其数据处理能力,使得模型在处理更加复杂和庞大的数据时更加游刃有余。
升级后的 Gemini 1.5 Pro 在多项公共基准测试中取得了显著改进,特别是在图像和视频理解方面,展现出了先进的性能。这一模型不仅能够理解文本内容,还能够准确地解读图像和视频中的信息。
据了解,Gemini 1.5 Pro可以对 Google AI Studio(谷歌AI演播室)中上传的视频图像和音频进行推理。此外,谷歌还将1.5 Pro集成到了Google产品中,如Gemini Advanced和Workspace 应用程序。收费方面,Gemini 1.5 Pro每100万tokens收费3.5美元。
谷歌还推出了针对速度和效率进行了优化的Gemini 1.5 Flash,这是能提供最快API(接口)速度的Gemini系列模型,它针对大规模、大批量、高频任务进行了优化,服务更具成本效益,并具有100万tokens的长文本窗口。
谷歌宣布,Gemini 1.5 Pro 将面向全球开发者开放。这意味着,无论是专业的开发人员还是业余的爱好者,都可以更加深入地了解和使用这一强大的模型。
文生一切?视频、图片、音乐领域全方位秀肌肉
除了对标OpenAI前一日推出的智能助理新功能外,谷歌还展示了一系列AI生成大模型,包括对标Sora的文生视频大模型Veo,对标Suno的AI音乐创作工具Music AI Sandbox,以及谷歌最高质量文生图模型Imagen 3。
其中,众人最为期待的当数谷歌的文生视频大模型,当德米斯秀出Veo的图标时,全场爆发出了最为热烈的掌声。
德米斯介绍谷歌文生视频大模型veo。
德米斯介绍,Veo是视频生成领域技术的集大成者,包含了多年来谷歌开发的生成查询网络的各类技术。只需一个文本、图像或视频提示,Veo就能生成和编辑70秒以上不同视觉风格的高质量1080p视频,并且还可以任意延长视频长度。
谷歌在发布会现场展示的Veo生成视频为一组汽车从赛博朋克风格的黑夜行驶至现代写实风白天的镜头,该段视频在黑夜部分较为模糊,白天部分则足够清晰,质量很高。不过,贝壳财经记者注意到,该视频的大部分时间都为汽车尾部跟随视角,视频的表现质量相对而言不如Sora更精致且有更多不同角度的镜头。
根据宣传视频,电影导演也用到了Veo,“Veo帮我们把灵感变成现实。”电影导演说,“人工智能可以帮我们快速发现构思中的错误并快速纠正,提高效率。”谷歌方面表示,凭借对自然语言和视觉语义的深入理解,Veo 模型在理解视频内容、渲染高清图像、模拟物理原理等方面都有所突破。Veo 生成的视频能够准确、细致地表达用户的创作意图。
从5月15日开始,谷歌会为一些创作者在 VideoFX中提供预览版 Veo,创作者可以加入谷歌的等待名单。谷歌还将把Veo的一些功能引入到了油管短视频等产品中。
值得注意的是,针对之前传出的OpenAI依赖油管视频内容训练Sora模型的消息(谷歌是油管的母公司),皮查伊称,如果谷歌确定了这一消息的真实性,谷歌将要“解决这个问题”。
“你只需要做一件事 就是问”
皮查伊在演讲中提到,Gemini带来的最令人兴奋的变革之一是在Google搜索中。“我们最大的投资和创新领域之一是我们的创始产品——搜索。”皮查伊回顾,25年前谷歌就创建了搜索,如今Gemini时代,搜索也提升到了全新的水平。
皮查伊在现场展示了新功能“问照片”。当用户在停车场付费却忘记了车牌号码时,之前可能会在手机照片中搜索关键字,浏览大批过往照片来寻找车牌。但现在,谷歌相册足够聪明,可以根据位置、多年来在照片中出现的次数以及其他数据来确定哪辆车是预期的车辆,并在文本回复中返回实际车牌号以及验证它的图像。
另一个新功能则是AI概述(AI Overview),该功能相比传统搜索引擎的结果,能为用户呈现出完整的包括观点、见解、链接的答案,用户在搜索框输入问题,即可得到一个AI总结的答案,且能处理超长问题。
如用户想找一个合适的瑜伽或普拉提工作室,需要同时考虑时间、价格、距离等因素。AI搜索就可以帮助用户提炼整合信息并呈现在AI搜索概述中,最终可以显示出波士顿最佳瑜伽工作室的优惠详情、从家过去的步行时间,为用户节省数个小时的时间。这一功能也适用在出行、聚会等规划上,或是餐饮计划的制定等。
皮查伊说,谷歌的AI搜索概述有三大独特优势:实时信息、排名和质量体系、Gemini模型能力。而AI概述功能将陆续面向美国及各国用户开放。
此外,谷歌还将很快推出视频搜索功能。搜索产品副总裁姚露丝(Rose Yao)现场演示了通过手机摄像头拍摄一个坏掉的留声机后再问谷歌问题的方式,得到了这架留声机坏在哪里,如何维修等回复。
谷歌搜索产品副总裁姚露丝(Rose Yao)现场演示视频搜索功能。
值得注意的是,作为安卓系统的开发方,谷歌表示要做“系统级AI”,即把Gemini用在安卓系统的底层。当Gemini在系统级层面运行,用户将不用安装任何AI应用,而是直接在手机操作系统里享受相关功能。
比如,用户在看视频的时候,手机可以弹出提示,询问是不是想了解关于这个视频的问题,当用户询问视频中的细节时,Gemini可以直接从视频中找到答案。
谷歌特别强调,这些体验只在安卓手机中拥有,似乎在和OpenAI使用苹果手机和电脑进行演示“针锋相对”。谷歌和OpenAI的“神仙打架”将落地到操作系统端继续对抗。
不过,皮查伊在会后采访中也表示,谷歌也不排除与苹果保持合作关系,“我们一直致力于为苹果生态系统提供出色的体验,我相信我们有很多方法来确保我们的产品是可访问的。今天,我们看到AI概述已经成为iOS上的一个受欢迎的功能,所以我们将继续努力。”
记者联系邮箱:luoyidan@xjbnews.com
新京报贝壳财经记者 罗亦丹
编辑 岳彩周 陈莉
校对 柳宝庆