当前位置:首页|资讯|OpenAI|谷歌|搜索引擎

OpenAI想截胡,谷歌如何拆招?搜索引擎迎颠覆式升级,杀手级应用硬刚GPT-4o

作者:搜狐科技发布时间:2024-05-15

Google I/O 2024 大会现场,谷歌CEO桑达尔·皮查伊(Sundar Pichai)

出品|搜狐科技

作者|郑松毅

在昨日OpenAI推出GPT-4o这一突破性AI技术之后,业界普遍关注作为AI领域另一巨头的谷歌将如何出招应对?

北京时间今日凌晨1点,Google I/O 2024开发者大会在谷歌山景城总部附近的海岸线圆形剧场召开。大会持续了110分钟,据谷歌自己统计,大会期间提及“AI”的次数高达121次。正如谷歌所说,今年的I/O大会就是全面围绕人工智能展开。

Gemini家族喜迎新成员,Gemini 1.5 Pro使用成本低于GPT-4o

大会一开始,谷歌CEO桑达尔·皮查伊(Sundar Pichai)就宣布了Gemini系列大模型的更新。

首先是升级版Gemini 1.5 Pro,长文本能力从100万tokens飙升到200万tokens,谷歌还通过数据和算法的改进增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力,并已向全球开发者开放。

Gemini 1.5 Pro最初于4月10日发布,除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结。

如今的Gemini 1.5 Pro可以理解更复杂、更细节的指令,用户还可以通过设置系统指令来引导模型行为。

使用成本一直是用户最为关心的问题之一,Gemini 1.5 Pro 的定价为每100 万token 3.5美元,比GPT-4o的每100万token 5美元的价格要便宜不少。

值得一提的是,Gemini家族迎来了新成员——Gemini 1.5 Flash。

据介绍,Gemini 1.5 Flash是 API 中速度最快的 Gemini 模型,擅长摘要、聊天应用程序、图像、视频字幕、及从文档中提取数据等。该模型旨在兼顾快速和成本效益,被定位为是一个比Gemini 1.5 Pro更轻、更便宜的模型。

可不要小看了Gemini 1.5 Flash,谷歌称,它针对大规模、大批量、高频任务进行了优化,服务更具成本效益,并具有突破性的长上下文窗口——100 万token。

Gemini时代来临,谷歌搜索引擎颠覆式升级

在展示完AI模型性能提升后,谷歌开始介绍Google搜索的全面升级。

皮查伊介绍,在过去的一年里,Google搜索回答了数十亿个问题查询。现在人们可以使用它以全新的方式进行搜索,例如提出更复杂、更长的查询问题,甚至使用照片、视频等方式进行搜索,以获得最佳信息回答。

另外,谷歌还将推出Ask Photos功能,帮助用户通过键入命令直接从图片库中获取照片信息。皮查伊介绍,如今用户每天上传的照片和视频数量超过 60 亿张,人们喜欢使用照片来搜索他们的生活,Gemini 让这一切变得更加容易。

假如你正需要查询车牌号码来缴纳停车费,之前,用户需要根据记忆来滚动浏览多年的照片进行查找,现在用户只需要键入命令询问照片即可。

你甚至可以根据照片询问一些更复杂的问题,比如你可以问:露西亚是什么时候学会游泳的,学的怎么样等,Ask Photos都会耐心给出解答。谷歌透露,将于今年夏天推出 Ask Photos 功能,并且还将推出更多功能。

除了将Gemini能力加持到搜索引擎外,Gemini还将为Gmail等应用程序提供一些更实用的功能。

皮查伊举例,网上购物是当下最常见的购物方式,但也难免遇到比如鞋子号码购买的不合适要退货的情况,人们常常会为繁琐的退货流程苦恼。现在,Gemini可以从邮箱中直接查找订单编号并自动填写退货单,使整个流程更加容易。

Project Astra亮相,与GPT-4o相比谁是当今智能体王者?

AI Agent(AI智能体)被认为是通往AGI(通用人工智能)道路上的必经点,也是谷歌的重点研究方向。谷歌认为,对于AI Agent来说,最需要具备的三个能力是Reasoning(推理)、Planning(计划)、以及Memory(记忆能力)。

“智能体需要像人类一样理解和响应复杂、动态的真实世界,也需要记忆所看到和听到的内容,以加深上下文理解并采取行动。此外,智能体还需要具有主动性、可教育和个性化,以便用户可以自然地与它交谈,没有滞后或延迟。”

谷歌表示,Gemini也在AI Agent方面做了最大的努力和升级,希望更多的人群能在使用Gemini的过程中收益,让生活变得更加便捷。

昨天,OpenAI发布了GPT-4o,让大家感受到了强大的实时语音、视频交互能力所带来的震撼。

今天,DeepMind的视觉与语音交互通用 AI 智能体项目 Project Astra亮相。据谷歌介绍,该智能体是在 Gemini 的基础上开发的原型,它可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存此信息以进行有效调用,从而更快地处理信息。

在演示视频中,用户在房间内手持手机移动,Project Astra会在看到物体后及时语音反馈给用户,例如在桌子上看到了一台音响。用户还可以通过语音接着向Project Astra提出更多的问题,比如音响的品牌、零部件名称等。

再或是让Project Astra看到一段代码,它可以分析出该段代码的功能。

又或是眼镜找不到了,你可以直接问Project Astra:“我的眼镜放到哪里了?”它会立刻回想刚刚看到的场景,并告诉你是放在了桌子上,旁边有一颗红苹果。

究竟Project Astra和GPT-4o谁的交互体验更加自然,还需实际测评一较高下。

AIGC,谷歌不想落后

在AIGC方面,谷歌宣布推出最新AI媒体创作模型Veo和Imagen 3。

谷歌称,Veo可以制作高质量1080p视频,时长可以超过一分钟,其在图像渲染、模拟物理世界等方面均有突破。另外,Veo可更细致的理解用户创作意图,以生成更准确的视频。

从今天开始,谷歌会为一些创作者在 VideoFX 中提供预览版 Veo,创作者可以加入谷歌的 等候列表。

Imagen 3是最新的文生图模型。Imagen 3 在生成细节、光照、干扰等方面进行了优化升级,并且理解 prompt 的能力显著增强。

同样从今天开始,谷歌将为一些创作者在 ImageFX 中提供 Imagen 3 预览版,用户可以注册加入等候列表。

这两者虽然看上去并不是革命性的AI技术,但它们是谷歌继续对抗OpenAI的Sora模型和Dall-E3的必要方式。

第六代 TPU 芯片Trillium,峰值计算性能提高4.7倍

大会进行到中途,谷歌宣布了第六代张量处理单元(TPU)——Trillium。

谷歌称,与上一代TPU v5e相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍。这是迄今为止性能最强、能效最高的TPU。新AI模型均在 TPU 上进行训练并使用 TPU 提供服务。

谷歌透露,Trillium 也是谷歌 AI Hypercomputer的一部分,是一种开创性的超级计算架构,专为处理尖端的 AI 工作负载而设计。将于2024年末向谷歌云客户提供服务。

下一代开放模型Gemma再迎更新

作为开源模型的支持者,谷歌在这次大会上还发布了开源大模型 Gemma 的更新 ——Gemma 2。

谷歌介绍,Gemma 2 采用全新架构,旨在实现突破性的性能和效率,新开源的模型参数为 27B。

过去十余年,谷歌一直被认为是人工智能领域的领跑企业。然而,随着OpenAI等新势力科技公司出现,谷歌的“老大哥”地位不断受到前所未有的挑战。

在前不久的采访中,皮查伊坚定的表示,“谷歌不应被微软牵着鼻子走,需要有自己的方式前行。更重要的是,现在还处于人工智能这场技术革命的早期阶段,从长远的角度说,还有很长的路要走。”

在这场AI时代的技术角逐中,究竟技术的演变还会带来什么惊喜,谁又会率先破圈突出重围,让我们有了更多的期待。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1