科技巨头谷歌和AI(人工智能)新锐巨头OpenAI正在AI领域激烈竞争。
当地时间5月14日,在谷歌I/O开发者大会上的主题演讲中,谷歌为旗下大模型Gemini推出了一系列更新,展示了由升级版Gemini驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo,以及支持多模态输入的AI搜索引擎和第六代Tensor处理器单元(TPU)Trillium芯片等等。其中,Astra是谷歌的AI智能体项目,能够通过手机摄像头或智能眼镜来“看到”用户眼前的内容,响应语音命令。
这本应是属于谷歌的“炸场”时间,遗憾的是,就在前一天,OpenAI刚刚抢过风头,推出了最新多模态大模型GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出,可实现人类级别响应。
从已有的演示视频来看,谷歌AI助手的回应速度似乎比GPT-4o稍慢一些,语音所表现出的感情色彩也比较平淡。相比之下,GPT-4o可以识别用户声音中展现的情感,甚至能实时根据用户的需求来使用不同情感风格的声音。
发布GPT-4o后,OpenAI的CEO萨姆·奥特曼(Sam Altman)还意有所指地发出一条写着“her”的推文,让人联想起著名影片《她(Her)》,片中主角和没有实体但善解人意的AI助手坠入爱河,却又因价值和世界观的不同产生分歧。
有科技媒体指出,OpenAI正在让生成式AI变得更像人类,谷歌则在AI搜索方面加码。虽然谷歌凭借其生态和规模在实用方面不断增强,OpenAI的产品或许更能抓住年轻用户的喜好。
这已经不是谷歌和OpenAI第一次“抢头条”。
今年2月16日,谷歌推出了酝酿已久的Gemini 1.5 Pro,称其在性能上超越GPT-4 Turbo。两小时后,OpenAI突然空降文生视频模型Sora,立刻凭借其出色的生成质量和突破性的生成时长成为全球焦点。
而在不久之后,由于网友发现Gemini 1.5的图像生成器工具似乎有意避免生成包含白人的图像,并在图像中加入了过量的“多样性”要素,一时引发舆论哗然,对谷歌的名声和股价一度造成显著的负面影响,引发投资者对于谷歌在日渐激烈的AI竞赛中是否已经落后的担忧。
不过,也有一些专家认为,谷歌本届开发者大会的表现说明,公司已经在AI领域走上正轨。
在开发者大会举办前,一些华尔街分析师就预测,本次活动将扩大谷歌在AI创新方面的规模,带来产品商业化机会。Gemini的功能升级和AI与搜索引擎的结合符合了他们的预期,体现出谷歌正在积极寻找新的货币化策略。
知名科技分析师、深水资产管理公司(Deepwater Asset Management)的执行合伙人吉恩·蒙斯特(Gene Munster)表示,谷歌的AI进步体现在其生成式AI和代理AI技术上:“他们落后OpenAI约6个月,领先了其他人约5年。”
蒙斯特还指出,谷歌将在其整个产品阵容中推出其人工智能Gemini,这一举措响应了谷歌在2017年宣布要成为“AI第一”的口号。此外,谷歌在本次大会上宣布推出AI搜索AI Overview,这一点也值得关注,但谷歌尚未提供如何将该功能货币化的具体细节。
英伟达高级研究科学家范麟熙(Jim Fan)也表示:“谷歌正在做的一件事是正确的:他们终于在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不一定要成为最好的模型,而是可以成为世界上最常用的模型。”
有趣的是,在发布会后接受外媒采访时,谷歌CEO桑达尔·皮查伊(Sundar Pichai)还表示,如果确认OpenAI滥用视频网站YouTube的数据和内容进行AI训练,公司将采取行动。
虽然并未透露具体的行动方案,皮查伊表示,如果发现相关行为,谷歌将与OpenAI一起“解决问题”。
此前,今年3月,OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时还曾对Sora的训练数据来源含糊其辞。当被追问具体来源是否包含YouTube的视频时,穆拉蒂回复称“我实际上并不确定”,并拒绝回答有关Instagram或Facebook视频是否被纳入训练集的问题。