图片来源:视觉中国
本周的AI竞赛注定是一场不容错过的精彩大戏。
赶在竞争对手谷歌之前,OpenAI周二发布了更快、更类似人类的ChatGPT-4o大模型,让无数人感叹是否科幻电影中的情节已渐行渐近。但谷歌也不甘落后,在北京时间周三凌晨举办的年度开发者I/O大会上推出了一系列AI产品。
从新的AI搜索功能、人工智能体到文生视频模型,谷歌的加入让新一轮AI竞争进一步白热化。
谷歌I/O大会每年5月都在其总部所在地举行,旨在介绍最新的产品和技术。AI毫无疑问是这届活动的关键词。在谷歌首席执行官Sundar Pichai的演讲过程中,“人工智能”一词就被提及了121次,这一数字是由谷歌的AI大模型Gemini统计得到的。
市场研究机构eMarketer的分析师Jacob Bourne表示,“通过展示其最新模型及如何为现有产品提供强大的消费者影响力,谷歌正在表现如何有效地将自己与竞争对手区分开来。为了保持竞争优势并让投资者满意,谷歌需要专注于将AI创新成果大规模转化为可盈利的产品和服务。”
图片来源:谷歌
具备AI功能的谷歌搜索
首先,与其等待被别人革命,谷歌这次想要自己先发动对自己的革命。
比起OpenAI前段时间一连串关于AI搜索页面的烟雾弹,谷歌这次真的将AI融入了其核心产品搜索引擎中。
在搜索页面中,谷歌向用户展示了由AI生成的答案,将其称之为“AI概述”。这是在Gemini模型驱动下得到的摘要,会与传统的基于链接的搜索结果一起出现。
据谷歌介绍,AI概述是为了响应较复杂的搜索,帮助用户寻求解决方案。例如当人们搜索素食准备或出行计划时,AI提供的答案会出现在搜索页面顶部,包括摘要及可以了解更多信息的链接。用户还可以调整AI概述的详细程度,使其更为简洁或细致。
谷歌还提升了搜索的视觉功能,支持通过视频提出问题。在I/O大会上,谷歌演示了当面对一台唱头滑落、无法正常使用的唱片机时,只需将手机镜头对准它,就能通过新搜索得到包括修理步骤和资源在内的AI概述。
谷歌搜索负责人Liz Reid表示,“我们从生成式AI中看到的是,谷歌可以为你做更多的搜索工作。它可以为你分担搜索过程中的大量繁重工作,这样你就可以专注于你想做的事情,或者是你觉得令人兴奋的探索部分。”
升级后的搜索计划于当地时间周二在美国上线,之后再扩展至其他市场。Liz Reid称,预计到今年年底,AI概述将面向超过十亿人。
谷歌是全球搜索引擎的霸主,长期占据90%以上的市场份额,但近年来面临着ChatGPT等AI产品的威胁。多家媒体此前报道称,OpenAI计划发布一款搜索产品,与谷歌展开正面竞争。但OpenAI首席执行官Sam Altman否认了将于这周发布搜索引擎的说法,并推出了GPT-4o。而AI搜索初创公司Perplexity在新一轮融资中筹集到6300万美元,推动公司估值超过10亿美元,在三个月内翻了一倍。
但谷歌的搜索基础仍不容小觑。在I/O大会上,该公司表示谷歌在过去二十年里一直是搜索的代名词,而现在借助AI模型Gemini的技术,谷歌搜索将变得更加强大。
具备视觉记忆的人工智能体
像是在回击OpenAI发布的结合文本、视觉和音频模式的GPT-4o,谷歌还预览了仍在开发中的AI助手Project Astra,称其是具有“高级视觉和说话响应的智能体”。
在视频演示中,Project Astra可以与谷歌员工进行语音交互,通过手机摄像头识别为止,并理解计算机代码。令关注者感到惊奇的是,该项目还具备视觉记忆。在带着Project Astra在房间里绕了一圈后,当用户提出“我把眼镜放在哪了”的时候,尽管之前没有被询问到这一问题,智能体还是能够回答出眼镜的位置。
谷歌DeepMind部门的首席执行官Demis Hassabis表示,他们一直希望能够开发对日常生活有帮助的通用人工智能体。为了真正发挥作用,智能体需要像人类一样理解和响应复杂且动态的世界,可以与用户自然地交谈,没有滞后或延迟。但将响应时间缩短为对话式的内容是一项艰巨的挑战。
而在前一天推出GPT-4o时,OpenAI介绍该模型响应音频输入的平均时间在320毫米,最短可达232毫秒,这与人类在谈话中的响应时间相似。用户能够与ChatGPT进行更像真人的实时对话。尽管在演示过程中,ChatGPT回复的音频会不时出现卡顿。
谷歌的Gemini模型也迎来了一系列更新。2月份公布的Gemini 1.5 Pro得到了升级,新版本的上下文长度由100万Tokens扩大到200万,能够处理更多数据。谷歌介绍称,这相当于能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词,处理量远超其他竞争对手。
此外,谷歌还推出了新的Gemini 1.5 Flash模型,称这是目前通过其API提供的最快的AI模型。Gemini 1.5 Flash专为较小的任务设计,例如快速总结对话、为图像或视频添加字幕或从文档中提取数据。
谷歌提出,Gemini最终会取代Android手机上的Google Assistant。这或许会在之后与苹果的AI助理Siri形成竞争。
但目前各大巨头的AI博弈格局仍未清晰。
苹果此前被传可能把谷歌的Gemini引入即将推出的iPhone操作系统iOS18中。但据彭博社报道,苹果已接近与OpenAI达成协议,正在敲定在iOS18中应用ChatGPT功能的具体条款。
狙击Sora的文生视频模型
OpenAI在今年2月发布文生视频模型Sora,引发市场轰动。三个月后,谷歌终于发布类似的模型Veo以正面迎战。
据谷歌介绍,Veo能够根据文本提示,创建超过一分钟、分辨率最高达1080P的高质量视频。而Sora能支持生成的视频时长为一分钟。
目前仅有一些创作者能够预览Veo。谷歌计划之后将Veo的部分功能引入到旗下的视频平台YouTube Shorts和其他产品中。
OpenAI目前仍未向公众开放Sora的使用权限,只有部分专业用户能够使用。而据媒体此前报道,一些尝试着使用Sora制作视频的团队反馈称,AI从文本一键生成理想中的视频依然只是美好的想象。在分镜、调色、特效等制作过程中,团队需要大量的人工来指导AI。
文生视频大模型这一赛道的热度还在不断攀升。4月底,生数科技联合清华大学发布了国内首个长时长文生视频大模型Vidu。生数科技首席科学家朱军介绍称,Vidu可以一次性生成16秒的视频,目前国内已有视频大模型的生成视频大多在4秒左右。在视频呈现效果上不输Sora,且更能理解中国元素。
相比起OpenAI和微软,谷歌虽然目前在AI竞赛上慢了一步,且策略相对保守,但谷歌在训练数据量方面仍有深厚积累,这或许会使谷歌有追上的机会。
I/O大会当天,谷歌收报170.34美元/股,较前一日上涨0.71%。