谷歌回击OpenAI：提了121次AI AI搜索、智能对话、视频生成来了

作者：第一财经发布时间：2024-05-17

两天时间里，科技界先后迎来两场重要的发布会。前一天，OpenAI刚刚发布了重大更新GPT-4o，号称颠覆语音助手，再度全网刷屏，紧随其后的谷歌压力颇大。

北京时间5月15日凌晨，谷歌在2024年I/O开发者大会上展开回击：一次性掏出十几款产品更新，重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等，Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。

在两个小时的主题演讲里，据Gemini统计，“AI”被提及了121次，谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争，谷歌看起来全力以赴了。5月14日，谷歌美股(GOOGL)涨0.71%，报170.34美元/股，截至发稿其盘后跌0.27%。

反击OpenAI

相比通过底层技术的革新实现跨越式发展，猎豹移动董事长兼CEO傅盛发文表示，这一次OpenAI的发布会是在工程能力上发力，也就是说把原有的东西做得更好，更便宜、更集成化、用户体验更好，“这次OpenAI发布会上最大的亮点就是语音助手，大家都感叹交互起来和人一样，但像谷歌这样的公司做这类语音助手能力一定不差，工程能力的提升是大公司容易做到的事情”。

谷歌不负期待，掏出了类似的视觉识别和语音交互产品Project Astra，被认为是正面交战GPT-4o。

“我们一直希望开发能在日常生活中提供帮助的通用AI智能体。”谷歌DeepMind首席执行官哈萨比斯（Demis Hassabis）第一次出现在I/O大会上，他表示Astra（高级视觉和对话响应智能体）项目是谷歌在构建未来AI助理方面的进展。

Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到，通过摄像头，这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作，也可以通过画面理解“薛定谔的猫”这样的概念。

哈萨比斯在演讲中表示，要做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并作出反应，还需要具备主动性、“会学习”并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟，“虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步，但要将回答时间缩短到可对话的程度，仍是一项非常艰巨的工程挑战”。

谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月，OpenAI发布视频生成模型Sora引发全网热烈讨论，彼时几小时前才发布Gemini 1.5 Pro大模型的谷歌风头被抢完。

此次，谷歌推出Veo对标Sora，表示这是“我们最强大的视频生成模型”，不仅能生成各种电影和视觉风格的高质量1080p分辨率视频，理解“延时拍摄”或“风景空中拍摄”等电影术语，时间还可以超过一分钟。谷歌表示，凭借对自然语言和视觉语义的深入理解，Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。

谷歌演示了一段汽车追逐的示例生成视频，从整体画面上看，镜头是一致且连贯的，移动较为真实，但相比Sora以往放出的视频，细节没那么清晰，大全景为主。不过，在官网的博客中，谷歌放出了更多的生成案例概览，其中不乏高清且精致的画面。

在影音领域，除了视频，谷歌还更新了图片生成模型Imagen 3，官方提到，与此前的模型相比，Imagen 3分散注意力的视觉伪影更少，细节逼真。谷歌还发布了一套名为Music AI Sandbox的音乐AI工具，可以让人们从头开始创作新的器乐部分，以新的方式转换声音等等。

变革搜索

I/O大会之后，英伟达高级科学家Jim Fan发表观后感表示，谷歌做对了一件事，“他们终于开始认真努力将人工智能融入搜索框，”他认为，谷歌最强大的护城河是分销，“Gemini不必是最好的模型，就可以成为世界上使用最广泛的模型。”

谷歌搜索此次推出了AI概述（AI Overview）新功能，用户在搜索框输入问题，即可得到一个AI总结的答案，且能处理超长问题，如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室，并提供入门优惠详情以及步行所需时间，并附带课程标价，地图上的位置也能标记出来。

凭借Gemini的多模态功能，谷歌搜索还可以做到利用图片搜索产品和文字信息，能用“Circle to Secarch”功能圈出图片中的一部分去搜索。具体而言，谷歌推出了新功能Ask Photos，可以一键从图库中找到想要的照片和视频。

谷歌在演示中举例，假设在停车场缴费时，却想不起自己的车牌号。以往，用户可能需要翻找多年积累的照片来寻找车牌，但现在，只需直接询问Photos，它能够识别出照片里经常出现的车辆，并提供车牌号码。

谷歌还支持视频搜索。在演示中，唱片机出故障，带有针头的金属部件在意外漂移，用户只需一边录制视频一边说出疑问，AI就会立刻分析故障原因；数码相机控制杆出现问题，只需要用摄像头对着产品提问，就能得到关于如何修复的解答，省去用户描述问题的时间和麻烦。

谷歌表示，AI Overview功能将在本周开始在美国推出，后面将陆续推至其他国家。

去年12月，谷歌发布了首款原生多模态模型Gemini 1.0，包含Ultra、Pro和Nano三种不同大小。几个月后，谷歌发布了Gemini 1.5 Pro，性能更强，且拥有100万tokens的长上下文窗口。

此次发布会，谷歌再次更新超长上下文窗口，扩展到了200万tokens（2000K）的级别，并表示将以非公开预览版的方式提供给开发者。相比之下，GPT-4 Turbo的上下文窗口为128K。“这代表着我们朝无限上下文的最终目标又迈出了一步。”谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）说。

训练最先进的模型需要大量的计算能力。此次发布会，谷歌还宣布推出第六代TPU Trillium，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。皮查伊提到，过去六年中，行业对机器学习计算能力的需求增长了100万倍，且每年都会以十倍的速度增长。谷歌将在2024年底向Cloud客户提供Trillium。

十多年来，谷歌一直在AI领域进行投入，但皮查伊表示，目前谷歌仍处于AI平台转型的初期，“我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在”。

谷歌回击OpenAI：提了121次AI AI搜索、智能对话、视频生成来了

推荐体验

相关资讯

两小时“吼出”121次AI，谷歌背后埋伏着OpenAI的幽灵

Open AI视频生成模型Sora来了！一键生成视频颠覆影视行业？

谷歌 CEO：计划在搜索引擎中增加人工智能对话功能

OpenAI正式发布AI视频生成模型Sora

视频生成、智能体、AI搜索……大厂AI应用扩大规模，给娱乐带来哪些机会？

近期资讯

便签的多种使用技巧与管理方法，助你提升生活和工作的效率

全面解析摄像头的用途与设置技巧，提升拍摄与监控效果

如何在微信中设置手势密码以增强账户安全性

如何安全删除监控视频及处理监控设备的实用指南

调声卡技巧详解：提升音频质量的实用指南与步骤解析

轻松连接蓝牙音响：一步步指南享受高品质音乐

轻松连接手柄到电脑，提升你的游戏体验与乐趣

如何在快手上删除作品？详细步骤与注意事项解析

有效降低手机温度的技巧与散热原理解析，延长手机使用寿命的方法总结

现代宽带办理指南：轻松解决选择、安装与使用中的问题

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响