挺过最困的12点,在大家可能已经迈入睡眠的时候,在凌晨1点时刻,我们迎来了期待许久的2024谷歌I/O开发者大会!
本次开发者大会,谷歌核心的重点就放在时下非常火热的生成式AI功能上,其中多次谈及再度升级的Gemini1.5 Pro大模型,并且还发布了谷歌视频生成模型Veo。
另外谷歌搜索也进行升级,同时也宣布Gemini模型将会用于在Android 15之上,并展示了一系列即将上线的生成式AI功能。
发布会开始,谷歌正式推出了“AI Overviews”搜索功能,不过本周会在美国率先开放,后续会陆续在其它国家和地区上线。
谷歌搜索融入Gemini大模型,搜索可以AI生成摘要,并且可以输入一段精确的文字,然后根据文字内容以及场景,去匹配搜索的内容,在做旅游规划时也会创建更合理的清单,甚至会根据天气去做推荐。同时还将上线视频搜索功能,可以拍摄一段视频来搜索想要查找的内容。
随后带来了一个“Ask Photos”功能,该功能的主要亮点就是,在Gemini大模型之下,通过聊天的方式去搜索照片或者视频,比如询问我的车牌是多少,通过检索+辨别的方式,搜索出你的车牌号。另外询问孩子的游泳状况,会搜集到孩子过往的游泳照片,该功能将会在夏天正式推出。
另外谷歌还发布了一个Gemini 1.5 Flash模型,相比Gemini1.5 Pro成本更低,并且针对延迟做了优化,宣称可以一次性分析1500页文档或超过30000行的代码库,为开发人员提供了一个低成本的选择。
紧接而来的是一个重磅Project Astra项目,面向未来的生成式AI交互体验!
演示的视频,显示的是手机通过摄像头对于周围空间环境的理解,并且能够实时的进行语音交互。打开手机摄像头,询问拍到的物体,可以准确识别并给出语音回答,甚至还能记起拍摄过程某个物体的位置,而这种功能可以从手机流转到眼镜上继续使用。
在文生图功能上推出了 Imagen 3,相比上代可以更加准确的识别文字信息,创作的图片也会更符合文本描述。
除了图片、文本生成式创作以外,谷歌发布了视频生成模型Veo,对标OpenAI的Sora,可以通过文本、图像来生成视频,生成的视频分辨率可以达到1080P,并且视频时长可以超过1分钟。
在办公场景中,谷歌 Gmail也会加入Gemini的大模型能力,不仅可以去总结邮件的内容,甚至可以根据需求去比较邮件内容(比如同样装修报价邮件,可以自动比价),并且根据上下文语境智能提供回复内容。
在开发者大会上,谷歌也是明确安卓15将会加入谷歌Gemini大模型,提供更多的AI功能,比如已经在三星AI手机上采用的即圈即搜功能,除了可以搜索物体以外,还加入了截图功能,圈选题目给出解题思路和答案,帮助学生解题。
另外在查看PDF等文件时,可以总结PDF的文件内容,并且以询问的方式获得PDF里面你想要了解的内容。如果识别的页面是视频,也可以对视频的内容、字幕进行分析,更快速获得视频里面的内容。
而且谷歌还为手机加入了AI诈骗电话检测功能,如果在通话过程中识别到疑似诈骗的行为,就会弹出提示窗来警告用户。
相比目前国内手机的生成式AI功能,谷歌所带来的即圈即搜的解题、视频的内容AI分析、AI诈骗电话检测等功能,进一步丰富了手机AI功能体验,大会上谷歌也宣布明天会上线Android 15 Beta 2,期待Android 15正式版上线时所带来的更多AI惊喜。