智东西
作者 | 香草
编辑 | 漠影
北京时间12月7日凌晨,期盼已久的谷歌AI大模型Gemini终于发布了!
作为谷歌用来应对GPT-4的“杀手锏”,Gemini也不负众望,一亮相就拿出了许多亮眼的成绩:首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。
▲Gemini成为首个在MMLU上超越人类专家的大模型
实际上,Gemini的发布也是一波三折。今年8月就有消息称,Gemini将在秋季发布。但到了11月,Gemini又被传出推迟至明年第一季度发布。
此次发布,谷歌称之为Gemini 1.0,包含三个版本:适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。
其中,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,最强大的Gemini Ultra则将在明年发布。
一、三大版本、五种模态,多模态性能全面超越GPT-4V
作为一个从头开始构建的多模态大模型,Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。
这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。
▲Gemini根据视频输入生成代码
Gemini具有三个版本:规模最大、功能最强大,适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。所谓的端侧,主要是指能在手机、平板、PC上直接运行。
▲Gemini的三个版本
其中,Gemini Nano还包含两个规模,分别是参数18亿的Nano-1和参数32.5亿的Nano-2,针对低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识进行训练的,它经过4位量化处理用于部署,并提供最佳性能。
▲Gemini 1.0全家桶介绍
谷歌宣称,Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型,取得90.0%的成绩。作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。
从测评数据上来看,Gemini的性能在多模态任务上全面超越GPT-4V。
▲Gemini在多模态任务上的表现
在文本任务上,Gemini Ultra也几乎全方位胜于GPT-4V。
▲Gemini在文本任务上的表现
具体来说,Gemini Ultra在32个基准测试中的30个中取得SOTA,还在上周新发布的MMMU多模态推理基准上取得了62.4%的最佳分数,比之前的SOTA模型高出5个百分点以上。
二、解题、写文案、做菜谱,60页技术报告教你玩转Gemini
“如果回顾在过去几十年时间AI发展的突破性节点,你会发现谷歌在其中参与良多。我认为Gemini,将会继承这个优良的传统。”在谷歌官方发布的视频里,谷歌CEO桑达尔·皮查伊(Sundar Pichai)面带着笑意说道。
▲谷歌CEO桑达尔·皮查伊
皮查伊还发布了一封公开信,以下是公开信全文:
每一次技术转变都是推动科学发现、加速人类进步和改善生活的机会。我相信我们目前所见到的AI的转变将是我们一生中最深远的,远远超过移动技术或互联网的转变。AI有潜力为全球各地的人们创造机会,从日常生活到非凡事物。它将带来新的创新浪潮和经济进步,并在我们从未见过的规模上推动知识、学习、创造力和生产力。
这就是让我兴奋的地方:有机会让AI对全世界的每个人都有帮助。
作为一个以AI为核心的公司,我们已经走过了近八年的旅程,进展的速度只会越来越快:数百万人现在在我们的产品中使用生成式AI来完成以前甚至无法完成的任务,从回答更复杂的问题到使用新工具进行协作和创造。同时,开发人员正在使用我们的模型和基础设施构建新的生成式AI应用程序,全球的初创企业和企业正在借助我们的AI工具实现增长。
这是令人难以置信的势头,然而,我们只是刚刚开始揭开可能性的表面。
我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标,追求能够给人们和社会带来巨大利益的能力,同时建立安全保障,并与政府和专家合作,应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施,并将它们应用于我们的产品和其他领域,遵循我们的AI原则的指导。
现在,我们正迈向旅程的下一步,推出Gemini,这是我们迄今为止最强大、最通用的模型,具备许多领先基准测试的先进性能。我们的第一个版本,Gemini 1.0,针对不同的规模进行了优化:Ultra、Pro和Nano。这些是Gemini时代的第一个模型,也是我们今年早些时候成立谷歌DeepMind时设想的第一个实现。这一新模型时代代表着我们作为一家公司所进行的最大的科学和工程努力之一。我对未来和Gemini将为全球人们带来的机遇感到真正兴奋。
而作为Gemini的另一大功臣,DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)则给出更为具体的介绍,“Gemini是我们最强大的模型。通过吸收大量的信息,它可以理解我们四周的环境,理解我们的思维方式,并有所产出。”
▲DeepMind CEO戴密斯·哈萨比斯
同时,谷歌也考虑到AI大模型的安全性,提供了一系列保护措施。
谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)在社交平台X贴出了自己团队专门为Gemini写的60页技术报告,来介绍Gemini的能力。
▲DeepMind首席科学家杰夫·迪恩
利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学排版,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。
▲Gemini识别手写笔记并解物理题
利用交错图像和文本生成能力,Gemini可以帮助用户写博客。Gemini能够按照提示词生成与文本密切相关的图像,并且所有图像显示出高度的一致性。下图的提示词为:写一篇去纽约游玩的博客,一只狗和它的主人玩得很开心,包括几张狗狗在不同地标欢快摆姿势的照片。
▲Gemini交错生成文字和图像
通过图像和语音输入,Gemini可以指导做菜,并在不同阶段提出相应的建议。
▲Gemini通过多模态能力辅助做菜
在最常规的文本基准测试中,我们更是看到Gemini“超过”2023年发布的一系列大模型,但如果仔细观看数据,我们也能发现事实上,Gemini拉开的差距并不大。
而在Gemini系列内部,我们也能看到不同版本的模型对语言理解和文本生成的能力有所不同。
在图像理解方面,Gemini Ultra也优于现有的方法。
但我们也能够从近期发布的一系列的大模型测试文件中,看到整个AI产业正在以滚滚巨浪的态势,迅速向前推进。
技术报告地址:
storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
三、Gemini Pro已接入聊天机器人Bard,下周起开放API
目前,谷歌旗下的聊天机器人Bard已经集成Gemini Pro的微调版本,在170多个国家和地区提供英语服务。这是Bard自推出以来最大的升级。
谷歌称,在未来几个月内,Bard将扩展不同的模态,并支持新的语言和地区。明年年初,谷歌还将推出Bard Advanced,提供Gemini Ultra模型的最佳性能。
谷歌的Pixel 8 Pro成为首款搭载Gemini Nano的智能手机,推出录音总结、智能回复等AI功能,明年还将推出更多应用。
针对开发者,Gemini Pro将于美国时间12月13日开始提供API(应用程序接口),开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI获取Gemini Pro入口。
安卓开发者还可以通过谷歌日前推出的AI Core应用来使用Gemini Nano。
Bard体验地址:bard.google.com
▲谷歌数据中心内的一排Cloud TPU v5p AI加速器超级计算机
结语:谷歌凭Gemini追赶微软和OpenAI步伐
昨天,微软刚刚宣布了旗下AI助手Copilot重大升级,将接入OpenAI的最新模型GPT-4 Turbo。正当我们感慨,留给谷歌的时间已经不多了的时候,谷歌突然亮出底牌,甩出Gemini全家桶与之对抗。
虽然目前仅开放了Gemini Pro和Nano,但Gemini Ultra在测评基准上取得的成绩已十分亮眼,尤其是代码生成能力方面。这无疑是在OpenAI陷入内部混乱的时候给了它重重一击。
Gemini Ultra将于明年发布,它在实践中的具体表现将会如何,我们将持续关注。