突发！谷歌深夜掀桌子，发最强大模型Gemini，跑分碾压GPT-4【附60页技术报告】

作者：智东西发布时间：2023-12-18

智东西

作者 | 香草

编辑 | 漠影

北京时间12月7日凌晨，期盼已久的谷歌AI大模型Gemini终于发布了！

作为谷歌用来应对GPT-4的“杀手锏”，Gemini也不负众望，一亮相就拿出了许多亮眼的成绩：首次在MMLU（大规模多任务语言理解）测评上超过人类专家，在32个多模态基准中取得30个SOTA（当前最优效果），几乎全方位超越GPT-4。

▲Gemini成为首个在MMLU上超越人类专家的大模型

实际上，Gemini的发布也是一波三折。今年8月就有消息称，Gemini将在秋季发布。但到了11月，Gemini又被传出推迟至明年第一季度发布。

此次发布，谷歌称之为Gemini 1.0，包含三个版本：适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。

其中，Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成，最强大的Gemini Ultra则将在明年发布。

一、三大版本、五种模态，多模态性能全面超越GPT-4V

作为一个从头开始构建的多模态大模型，Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。

这意味着用户可以自然地交错输入：说几句话，添加图像、文本，或是短视频。同样，模型也会自然地交错文本和图像作为输出。

▲Gemini根据视频输入生成代码

Gemini具有三个版本：规模最大、功能最强大，适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。所谓的端侧，主要是指能在手机、平板、PC上直接运行。

▲Gemini的三个版本

其中，Gemini Nano还包含两个规模，分别是参数18亿的Nano-1和参数32.5亿的Nano-2，针对低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识进行训练的，它经过4位量化处理用于部署，并提供最佳性能。

▲Gemini 1.0全家桶介绍

谷歌宣称，Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型，取得90.0%的成绩。作为对比，人类专家的成绩为89.8%，GPT-4为86.4%。

从测评数据上来看，Gemini的性能在多模态任务上全面超越GPT-4V。

▲Gemini在多模态任务上的表现

在文本任务上，Gemini Ultra也几乎全方位胜于GPT-4V。

▲Gemini在文本任务上的表现

具体来说，Gemini Ultra在32个基准测试中的30个中取得SOTA，还在上周新发布的MMMU多模态推理基准上取得了62.4%的最佳分数，比之前的SOTA模型高出5个百分点以上。

二、解题、写文案、做菜谱，60页技术报告教你玩转Gemini

“如果回顾在过去几十年时间AI发展的突破性节点，你会发现谷歌在其中参与良多。我认为Gemini，将会继承这个优良的传统。”在谷歌官方发布的视频里，谷歌CEO桑达尔·皮查伊（Sundar Pichai）面带着笑意说道。

▲谷歌CEO桑达尔·皮查伊

皮查伊还发布了一封公开信，以下是公开信全文：

每一次技术转变都是推动科学发现、加速人类进步和改善生活的机会。我相信我们目前所见到的AI的转变将是我们一生中最深远的，远远超过移动技术或互联网的转变。AI有潜力为全球各地的人们创造机会，从日常生活到非凡事物。它将带来新的创新浪潮和经济进步，并在我们从未见过的规模上推动知识、学习、创造力和生产力。

这就是让我兴奋的地方：有机会让AI对全世界的每个人都有帮助。

作为一个以AI为核心的公司，我们已经走过了近八年的旅程，进展的速度只会越来越快：数百万人现在在我们的产品中使用生成式AI来完成以前甚至无法完成的任务，从回答更复杂的问题到使用新工具进行协作和创造。同时，开发人员正在使用我们的模型和基础设施构建新的生成式AI应用程序，全球的初创企业和企业正在借助我们的AI工具实现增长。

这是令人难以置信的势头，然而，我们只是刚刚开始揭开可能性的表面。

我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标，追求能够给人们和社会带来巨大利益的能力，同时建立安全保障，并与政府和专家合作，应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施，并将它们应用于我们的产品和其他领域，遵循我们的AI原则的指导。

现在，我们正迈向旅程的下一步，推出Gemini，这是我们迄今为止最强大、最通用的模型，具备许多领先基准测试的先进性能。我们的第一个版本，Gemini 1.0，针对不同的规模进行了优化：Ultra、Pro和Nano。这些是Gemini时代的第一个模型，也是我们今年早些时候成立谷歌DeepMind时设想的第一个实现。这一新模型时代代表着我们作为一家公司所进行的最大的科学和工程努力之一。我对未来和Gemini将为全球人们带来的机遇感到真正兴奋。

而作为Gemini的另一大功臣，DeepMind CEO戴密斯·哈萨比斯（Demis Hassabis）则给出更为具体的介绍，“Gemini是我们最强大的模型。通过吸收大量的信息，它可以理解我们四周的环境，理解我们的思维方式，并有所产出。”

▲DeepMind CEO戴密斯·哈萨比斯

同时，谷歌也考虑到AI大模型的安全性，提供了一系列保护措施。

谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）在社交平台X贴出了自己团队专门为Gemini写的60页技术报告，来介绍Gemini的能力。

▲DeepMind首席科学家杰夫·迪恩

利用Gemini的多模态推理能力，该模型能够读懂凌乱的笔迹，正确理解问题的表述，将问题和解决方案都转换为数学排版，识别出学生在解决问题时出错的具体推理步骤，然后给出问题的正确解决方案。

▲Gemini识别手写笔记并解物理题

利用交错图像和文本生成能力，Gemini可以帮助用户写博客。Gemini能够按照提示词生成与文本密切相关的图像，并且所有图像显示出高度的一致性。下图的提示词为：写一篇去纽约游玩的博客，一只狗和它的主人玩得很开心，包括几张狗狗在不同地标欢快摆姿势的照片。

▲Gemini交错生成文字和图像

通过图像和语音输入，Gemini可以指导做菜，并在不同阶段提出相应的建议。

▲Gemini通过多模态能力辅助做菜

在最常规的文本基准测试中，我们更是看到Gemini“超过”2023年发布的一系列大模型，但如果仔细观看数据，我们也能发现事实上，Gemini拉开的差距并不大。