两天时间里,科技界先后迎来两场重要的发布会。前一天,OpenAI刚刚发布了重大更新GPT-4o,号称颠覆语音助手,再度全网刷屏,紧随其后的谷歌压力颇大。
北京时间5月15日凌晨,谷歌在2024年I/O开发者大会上展开回击:一次性掏出十几款产品更新,重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等,Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。
在两个小时的主题演讲里,据Gemini统计,“AI”被提及了121次,谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争,谷歌看起来全力以赴了。5月14日,谷歌美股(GOOGL)涨0.71%,报170.34美元/股,截至发稿其盘后跌0.27%。
反击OpenAI
相比通过底层技术的革新实现跨越式发展,猎豹移动董事长兼CEO傅盛发文表示,这一次OpenAI的发布会是在工程能力上发力,也就是说把原有的东西做得更好,更便宜、更集成化、用户体验更好,“这次OpenAI发布会上最大的亮点就是语音助手,大家都感叹交互起来和人一样,但像谷歌这样的公司做这类语音助手能力一定不差,工程能力的提升是大公司容易做到的事情”。
谷歌不负期待,掏出了类似的视觉识别和语音交互产品Project Astra,被认为是正面交战GPT-4o。
“我们一直希望开发能在日常生活中提供帮助的通用AI智能体。”谷歌DeepMind首席执行官哈萨比斯(Demis Hassabis)第一次出现在I/O大会上,他表示Astra(高级视觉和对话响应智能体)项目是谷歌在构建未来AI助理方面的进展。
Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到,通过摄像头,这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作,也可以通过画面理解“薛定谔的猫”这样的概念。
哈萨比斯在演讲中表示,要做到真正实用,智能体需要能够像人一样理解周围复杂多变的环境并作出反应,还需要具备主动性、“会学习”并能满足个性化需求,这样用户才能自然地与它交谈,不会有滞后或延迟,“虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步,但要将回答时间缩短到可对话的程度,仍是一项非常艰巨的工程挑战”。
谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月,OpenAI发布视频生成模型Sora引发全网热烈讨论,彼时几小时前才发布Gemini 1.5 Pro大模型的谷歌风头被抢完。
此次,谷歌推出Veo对标Sora,表示这是“我们最强大的视频生成模型”,不仅能生成各种电影和视觉风格的高质量1080p分辨率视频,理解“延时拍摄”或“风景空中拍摄”等电影术语,时间还可以超过一分钟。谷歌表示,凭借对自然语言和视觉语义的深入理解,Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。
谷歌演示了一段汽车追逐的示例生成视频,从整体画面上看,镜头是一致且连贯的,移动较为真实,但相比Sora以往放出的视频,细节没那么清晰,大全景为主。不过,在官网的博客中,谷歌放出了更多的生成案例概览,其中不乏高清且精致的画面。
在影音领域,除了视频,谷歌还更新了图片生成模型Imagen 3,官方提到,与此前的模型相比,Imagen 3分散注意力的视觉伪影更少,细节逼真。谷歌还发布了一套名为Music AI Sandbox的音乐AI工具,可以让人们从头开始创作新的器乐部分,以新的方式转换声音等等。
变革搜索
I/O大会之后,英伟达高级科学家Jim Fan发表观后感表示,谷歌做对了一件事,“他们终于开始认真努力将人工智能融入搜索框,”他认为,谷歌最强大的护城河是分销,“Gemini不必是最好的模型,就可以成为世界上使用最广泛的模型。”
谷歌搜索此次推出了AI概述(AI Overview)新功能,用户在搜索框输入问题,即可得到一个AI总结的答案,且能处理超长问题,如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室,并提供入门优惠详情以及步行所需时间,并附带课程标价,地图上的位置也能标记出来。
凭借Gemini的多模态功能,谷歌搜索还可以做到利用图片搜索产品和文字信息,能用“Circle to Secarch”功能圈出图片中的一部分去搜索。具体而言,谷歌推出了新功能Ask Photos,可以一键从图库中找到想要的照片和视频。
谷歌在演示中举例,假设在停车场缴费时,却想不起自己的车牌号。以往,用户可能需要翻找多年积累的照片来寻找车牌,但现在,只需直接询问Photos,它能够识别出照片里经常出现的车辆,并提供车牌号码。
谷歌还支持视频搜索。在演示中,唱片机出故障,带有针头的金属部件在意外漂移,用户只需一边录制视频一边说出疑问,AI就会立刻分析故障原因;数码相机控制杆出现问题,只需要用摄像头对着产品提问,就能得到关于如何修复的解答,省去用户描述问题的时间和麻烦。
谷歌表示,AI Overview功能将在本周开始在美国推出,后面将陆续推至其他国家。
去年12月,谷歌发布了首款原生多模态模型Gemini 1.0,包含Ultra、Pro和Nano三种不同大小。几个月后,谷歌发布了Gemini 1.5 Pro,性能更强,且拥有100万tokens的长上下文窗口。
此次发布会,谷歌再次更新超长上下文窗口,扩展到了200万tokens(2000K)的级别,并表示将以非公开预览版的方式提供给开发者。相比之下,GPT-4 Turbo的上下文窗口为128K。“这代表着我们朝无限上下文的最终目标又迈出了一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)说。
训练最先进的模型需要大量的计算能力。此次发布会,谷歌还宣布推出第六代TPU Trillium,与上一代TPU v5e相比,每个芯片的计算性能提高了4.7倍。皮查伊提到,过去六年中,行业对机器学习计算能力的需求增长了100万倍,且每年都会以十倍的速度增长。谷歌将在2024年底向Cloud客户提供Trillium。
十多年来,谷歌一直在AI领域进行投入,但皮查伊表示,目前谷歌仍处于AI平台转型的初期,“我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在”。