“精彩大戏”拉开帷幕：谷歌推出一系列AI产品追击OpenAI

作者：蓝鲸新闻发布时间：2024-05-15

图片来源：视觉中国

本周的AI竞赛注定是一场不容错过的精彩大戏。

赶在竞争对手谷歌之前，OpenAI周二发布了更快、更类似人类的ChatGPT-4o大模型，让无数人感叹是否科幻电影中的情节已渐行渐近。但谷歌也不甘落后，在北京时间周三凌晨举办的年度开发者I/O大会上推出了一系列AI产品。

从新的AI搜索功能、人工智能体到文生视频模型，谷歌的加入让新一轮AI竞争进一步白热化。

谷歌I/O大会每年5月都在其总部所在地举行，旨在介绍最新的产品和技术。AI毫无疑问是这届活动的关键词。在谷歌首席执行官Sundar Pichai的演讲过程中，“人工智能”一词就被提及了121次，这一数字是由谷歌的AI大模型Gemini统计得到的。

市场研究机构eMarketer的分析师Jacob Bourne表示，“通过展示其最新模型及如何为现有产品提供强大的消费者影响力，谷歌正在表现如何有效地将自己与竞争对手区分开来。为了保持竞争优势并让投资者满意，谷歌需要专注于将AI创新成果大规模转化为可盈利的产品和服务。”

图片来源：谷歌

具备AI功能的谷歌搜索

首先，与其等待被别人革命，谷歌这次想要自己先发动对自己的革命。

比起OpenAI前段时间一连串关于AI搜索页面的烟雾弹，谷歌这次真的将AI融入了其核心产品搜索引擎中。

在搜索页面中，谷歌向用户展示了由AI生成的答案，将其称之为“AI概述”。这是在Gemini模型驱动下得到的摘要，会与传统的基于链接的搜索结果一起出现。

据谷歌介绍，AI概述是为了响应较复杂的搜索，帮助用户寻求解决方案。例如当人们搜索素食准备或出行计划时，AI提供的答案会出现在搜索页面顶部，包括摘要及可以了解更多信息的链接。用户还可以调整AI概述的详细程度，使其更为简洁或细致。

谷歌还提升了搜索的视觉功能，支持通过视频提出问题。在I/O大会上，谷歌演示了当面对一台唱头滑落、无法正常使用的唱片机时，只需将手机镜头对准它，就能通过新搜索得到包括修理步骤和资源在内的AI概述。

谷歌搜索负责人Liz Reid表示，“我们从生成式AI中看到的是，谷歌可以为你做更多的搜索工作。它可以为你分担搜索过程中的大量繁重工作，这样你就可以专注于你想做的事情，或者是你觉得令人兴奋的探索部分。”

升级后的搜索计划于当地时间周二在美国上线，之后再扩展至其他市场。Liz Reid称，预计到今年年底，AI概述将面向超过十亿人。

谷歌是全球搜索引擎的霸主，长期占据90%以上的市场份额，但近年来面临着ChatGPT等AI产品的威胁。多家媒体此前报道称，OpenAI计划发布一款搜索产品，与谷歌展开正面竞争。但OpenAI首席执行官Sam Altman否认了将于这周发布搜索引擎的说法，并推出了GPT-4o。而AI搜索初创公司Perplexity在新一轮融资中筹集到6300万美元，推动公司估值超过10亿美元，在三个月内翻了一倍。

但谷歌的搜索基础仍不容小觑。在I/O大会上，该公司表示谷歌在过去二十年里一直是搜索的代名词，而现在借助AI模型Gemini的技术，谷歌搜索将变得更加强大。

具备视觉记忆的人工智能体

像是在回击OpenAI发布的结合文本、视觉和音频模式的GPT-4o，谷歌还预览了仍在开发中的AI助手Project Astra，称其是具有“高级视觉和说话响应的智能体”。

在视频演示中，Project Astra可以与谷歌员工进行语音交互，通过手机摄像头识别为止，并理解计算机代码。令关注者感到惊奇的是，该项目还具备视觉记忆。在带着Project Astra在房间里绕了一圈后，当用户提出“我把眼镜放在哪了”的时候，尽管之前没有被询问到这一问题，智能体还是能够回答出眼镜的位置。

谷歌DeepMind部门的首席执行官Demis Hassabis表示，他们一直希望能够开发对日常生活有帮助的通用人工智能体。为了真正发挥作用，智能体需要像人类一样理解和响应复杂且动态的世界，可以与用户自然地交谈，没有滞后或延迟。但将响应时间缩短为对话式的内容是一项艰巨的挑战。

而在前一天推出GPT-4o时，OpenAI介绍该模型响应音频输入的平均时间在320毫米，最短可达232毫秒，这与人类在谈话中的响应时间相似。用户能够与ChatGPT进行更像真人的实时对话。尽管在演示过程中，ChatGPT回复的音频会不时出现卡顿。

谷歌的Gemini模型也迎来了一系列更新。2月份公布的Gemini 1.5 Pro得到了升级，新版本的上下文长度由100万Tokens扩大到200万，能够处理更多数据。谷歌介绍称，这相当于能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词，处理量远超其他竞争对手。

此外，谷歌还推出了新的Gemini 1.5 Flash模型，称这是目前通过其API提供的最快的AI模型。Gemini 1.5 Flash专为较小的任务设计，例如快速总结对话、为图像或视频添加字幕或从文档中提取数据。

谷歌提出，Gemini最终会取代Android手机上的Google Assistant。这或许会在之后与苹果的AI助理Siri形成竞争。

但目前各大巨头的AI博弈格局仍未清晰。

苹果此前被传可能把谷歌的Gemini引入即将推出的iPhone操作系统iOS18中。但据彭博社报道，苹果已接近与OpenAI达成协议，正在敲定在iOS18中应用ChatGPT功能的具体条款。

狙击Sora的文生视频模型

OpenAI在今年2月发布文生视频模型Sora，引发市场轰动。三个月后，谷歌终于发布类似的模型Veo以正面迎战。

据谷歌介绍，Veo能够根据文本提示，创建超过一分钟、分辨率最高达1080P的高质量视频。而Sora能支持生成的视频时长为一分钟。

目前仅有一些创作者能够预览Veo。谷歌计划之后将Veo的部分功能引入到旗下的视频平台YouTube Shorts和其他产品中。

OpenAI目前仍未向公众开放Sora的使用权限，只有部分专业用户能够使用。而据媒体此前报道，一些尝试着使用Sora制作视频的团队反馈称，AI从文本一键生成理想中的视频依然只是美好的想象。在分镜、调色、特效等制作过程中，团队需要大量的人工来指导AI。

文生视频大模型这一赛道的热度还在不断攀升。4月底，生数科技联合清华大学发布了国内首个长时长文生视频大模型Vidu。生数科技首席科学家朱军介绍称，Vidu可以一次性生成16秒的视频，目前国内已有视频大模型的生成视频大多在4秒左右。在视频呈现效果上不输Sora，且更能理解中国元素。

相比起OpenAI和微软，谷歌虽然目前在AI竞赛上慢了一步，且策略相对保守，但谷歌在训练数据量方面仍有深厚积累，这或许会使谷歌有追上的机会。

I/O大会当天，谷歌收报170.34美元/股，较前一日上涨0.71%。

“精彩大戏”拉开帷幕：谷歌推出一系列AI产品追击OpenAI

推荐体验

相关资讯

OpenAI开发者大会：推出一系列GPT新产品将上线GPT Store

OpenAI不断推出了一系列令人惊叹的技术

AI“百模大战”拉开帷幕，谁在弯道超车

OpenAI：将在下周推出一系列更新，以改善 ChatGPT 体验

ChatGPT掀起产业热潮，新一轮竞速拉开帷幕

近期资讯

iPhone 17屏幕升级：灵动岛更小了

年末暖心回馈，总有一款适合你！华为服务回馈礼遇推出多重温暖服务权益

年货节进行时：华为音频全系列优惠大放送，选耳机不再纠结

微信更新：支持图片评论

AI赋能基层治理 “数智枫景”法治地图云平台上线

三星折叠屏业务“折叠”！销量逆势大跌，被中国品牌彻底打懵了？

5G赋能新质生产力，宝山区企业荣获全国二等奖！

金橙子：持续开展专利工作促进业务拓展

河北廊坊：金融赋能科技企业创新发展

超强性能与便携并存！ThinkPad X1 Carbon Aura AI元启版重新定义商务本

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响