一水 发自 凹非寺
量子位 | 公众号 QbitAI
目前看来,众人一致认为这是谷歌对OpenAI的一次成功反击,甚至有网友辣评:
迄今为止,OpenAI“双十二”期间最引人注目的反倒是Gemini 2.0。(doge)
根据官方跑分结果,Gemini 2.0在各项基准测试上的得分和Claude 3.5 Sonnet差不多,但相比Gemini 1.5 Pro,其生成速度提升了2倍。
同时,根据Deepmind CEO哈萨比斯的说法,Gemini 2.0这次主打「多模态+Agent」,是一款面向智能体时代的AI模型。
2025年将是AI智能体的时代,Gemini 2.0将是支撑我们基于智能体工作的最新一代模型。
目前,Gemini 2.0 Flash实验版模型已经在网页端开放,大家都能玩,移动端即将推出。此外,开发者还可以通过Google AI Studio和Vertex AI的Gemini API使用。
Okk,话不多说,这就康康网友们都在拿它弄啥嘞——
Gemini 2.0主打「多模态+Agent」,网友已玩疯
首先,随着Gemini 2.0 Flash实验版一同上线的,还有一项名为深度研究(Deep Research)的智能体新功能。
这个功能在Gemini Advanced中推出,仅支持英文版本,有点像最近比较火的科研AI搜索。
按照谷歌CEO皮猜的说法,用户只需给一个科研主题,它就能帮你整理出一份带参考来源的完整报告。
能全程语音交流论文的科研助手
你以为这就完了??
当然不,来看𝕏(前推特)知名AI博主的玩法。视频中,博主用Gemini 2.0来阅读一篇AI论文,和传统的直接上传文件然后总结概括不同,这个智能体直接全程和博主语音交流。(注意听语音)
只听双方打完招呼后,博主将论文屏幕分享给了AI,并询问对方能看见什么?
而AI也和人类正常对话一样,回答自己看见的论文标题,图表……
关键是,双方真的像面对面交谈一样,能够针对论文的具体内容展开一番探讨。
这下我信了博主的说法。据他称,新功能直接将论文阅读能力提高了10倍。
除此之外,谷歌还发布了多款AI智能体,有早已在I/O大会上亮相的Project Astra,也有适用于浏览器的Project Mariner,还有专为开发者打造的AI编程智能体Jules。
下面一一来看。
通用助手Project Astra回答看见的一切
基于Gemini 2.0 Flash,谷歌10月推出的通用助手Project Astra这次有了很多更新。
概括而言,主要是更好的对话、更低的延迟、更强的记忆力(拥有10分钟的会话记忆)以及使用新工具(包括谷歌搜索、Lens和地图)。
根据Deepmind多模态研究员透露,过去几个月他带着这款助手游历了欧洲。
从巴黎到罗马,再到哥本哈根和伊斯坦布尔。它向我解释了从建筑到历史、艺术和美食的一切,并让我记住了这些经历。我对Astra带来的可能性感到非常兴奋,因为它创造了一种与聊天窗口完全不同的体验。
只见在他的vlog中,Project Astra几乎能“看见”并“识别”周围的一切。
帮他从电子邮件中找到公寓密码、告诉洗衣注意事项、搜集打卡地信息……
而且,Project Astra不仅能装在手机里,还可以跑进智能眼镜里,解锁更多需要解放双手的场景(比如骑行)。
不过需要提醒,目前该智能体尚未全面推出,仅限受信任的测试人员使用。
浏览器智能体Project Mariner
此外,基于Gemini 2.0,谷歌这次还发布了一个类似Anthropic「Computer Use」的智能体——Project Mariner。
简单来说,用户只需一句简单指令,它就能自动在浏览器中完成操作,包括处理像素和文本、代码、图像和表单等。
而且使用时会在右边展开侧边栏,实时显示AI的思考及操作过程。(用户也能继续输入指令)
不过目前该智能体尚未全面推出,仅限受信任的测试人员使用。
编程智能体Jules
最后,基于Gemini 2.0 Flash,谷歌这次为开发者专门构建了一个代码智能体Jules。
具体而言,Jules以异步方式工作,并与用户的GitHub工作流集成,在专注于实际想要构建的内容时,它负责处理Bug修复和其他耗时的任务。
据官方介绍,Jules在SWE-bench Verified测试中达到了51.8%的通过率,而Claude 3.5是49%。
不过,目前Jules仅开放给一小部分可信赖的测试者,并计划在2025年初向其他有兴趣的开发者提供。
总之,目前发布的上述3个智能体均未开放给大众,要想体验Gemini 2.0的能力,目前更多还是在多模态上。
比如用它来生成图像。
更关键的是,一次生成不满意,还能继续编辑调整。(从一只蝴蝶到凭空加一只)
进一步深扒发现,Gemini 2.0在图像生成时竟然具备COT思维能力。
在第一次生成后,它很快就发现了自己的错误,并一步步自动调整,最终生成了符合指令的正确图像。
受此启发,该Deepmind员工还创作了绘本故事书,真·图文并茂。
当然,网友们还解锁了更多玩法,篇幅受限在此不再展开……
BTW,截至目前,Gemini 2.0 Flash在幻觉基准测试上的跑分也出来了(只有1.3%)。
另外,谷歌AI Studio负责人还出来预告了一把,好的都在后头。
目前2.0版本已提供给一些开发者内测,谷歌正在迅速将其集成在Gemini和搜索等产品线中。正式产品将于1月份全面上市,届时将推出更多型号。
所以是准备藏着和OpenAI打擂台吗?(doge)
体验地址:
https://aistudio.google.com/prompts/new_chat
参考链接:
[1]https://x.com/omarsar0/status/1866985193179058638
[2]https://x.com/simonw/status/1866942603020910866
[3]https://x.com/Francis_YAO_/status/1866958948173304099
[4]https://x.com/m__dehghani/status/1866937033052262651
— 完—