Google 刚发布的 AI 模型 Gemini，这些特点值得关注

作者：鳭酈㡧发布时间：2023-12-11

与 GPT-4 相比，Gemini 有哪些优势？

图片来源@钛媒体

文 | 电厂，作者 | 张勇毅,编辑 | 高宇雷

北京时间 12 月 6 日晚，Google 给近期稍显沉寂的 AI 模型战场扔下了一颗新的炸弹：号称多模态任务处理能力首次超越人类的 AI 模型，Gemini 1.0 正式发布。

在昨晚正式发布之前，外媒就有诸多关于 Google 这款全新 AI 模型的消息流出，Google 最早在今年五月的 IO 大会期间透露了 Gemini 的存在，但与之前外界预期的不同，Google 声称 Gemini 的发布并未因为任何内部原因而延期，表示其 AI 模型的研发进程从 2012 年已经开始，直到最近 2023 年发布 PaLM2 与 Bard 之后，就开始为 Gemini 的正式发布做准备。

DeepMind本就是 AI 领域顶尖研究机构，早在 OpenAI 踏入聚光灯下之前，DeepMind 就凭借 AI 围棋棋手 —— AlphaGo 赢得了全世界对 AI 时代的关注，如今名为「双子座」的新一代 AI 大模型正式对外发布，也颇有抢回 AI 模型领域主导地位的感觉：双子座在神话本身就对应着「快速思维」的能力，同时也有着包罗万象、善于沟通等寓意。

多模态能力

在实际表现上，Gemini 号称是史上第一款原生支持多模态能力的 AI 模型，换言之在 Gemini 之前的多模态 AI 模型，处理同时包括视频/文字/音频/照片两种以上的输入信息时，逻辑是分别训练不同模态对应的组件，然后将其理解出的语义拼接在一起，从而模拟人类在处理多模态场景问题时的反应。

这种架构虽然已经足够惊艳，但在面对复杂逻辑问题时难免会显得有些笨拙，因为在这种架构下 AI 模型的算力并未得到最高效的使用。Google 的解决方案则是将 Gemini 设计为原生多模态，从一开始就在不同模态上进行预训练。利用额外的多模态数据对其进行微调，以进一步提高其有效性。

这种训练架构上的颠覆，让 Gemini 从最初的输入阶段就能对人类的的各种内容进行快速理解并推理，这一点在处理复杂问题上优势尤为突出：在发布 Gemini 的同时，Google 还宣布 Gemini Ultra 在行业标准 MMLU （多任务语言理解）基准测试中拿到了 90% 的成绩。

这不仅是 AI 模型有史以来第一次超越人类专家的测试结果，也超过了此前 GPT-4 同类测试中 86.5% 的结果。同时在九项独立基准测试中分别击败包括 LLAMA-2 GPT-4 在内的一众竞争对手。

Google也准备了几个演示场景，展示 Gemini 的多模态理解能力：视频中一位测试者正在用简笔画视频的方式，给Gemini 输入信息，在演示中 Gemini 能根据简笔画的每一笔改变，实时对最新的画面内容作出解读与描述。以及根据输入视频中出现的毛线颜色比例，给测试者推荐合适的编织玩具、以及跟 Gemini 玩猜硬币游戏，猜错了硬币在哪个手掌下之后，立即反应出这是测试者的把戏等场景。

同时处理多种形态的信息输入，是 Gemini 比起目前市面上其他的生成式 AI 模型最大的区别，在处理数学、计算机等复杂学科中这种优势能体现的更加明显，Google 也强调了 Gemini 在数学领域的复杂理解能力：在其中一个演示中，就展示了通过视频输入一道数学题，交由 Gemini 辅助解决的场景。

这样一个看似简单的需求中其实包括了对指令语义的准确理解以及手写图像识别，与此同时处理复杂逻辑的数学问题，这就是一个典型的多模态大模型应用场景。

可拓展性

到 2023 年下半年，不同体积的大模型并行发展已经成为行业主流，尤其是模型完全运行在本地的端侧大模型，更是生成式 AI 行业应用中炙手可热的前景。包括 vivo、小米 OPPO 等手机品牌都已经推出了面向普通智能手机用户的端侧大模型与云端大模型的结合应用。

Gemini也没有落下这一特征：在 Gemini 1.0 中，Google 一共发布了三个版本，其中 Gemini Ultra 最聪慧，但同时需要更大的计算量，Pro 是其中最均衡、适用于最多场景的版本，而 Nano 则是体积最小最高效的版本，同时也是主打部署在 Android 手机等设备上的端侧大模型。

Google并未直接向记者介绍 Gemini Nano 模型的体积，但据 DeepMind 介绍，Gemini Nano 具有完全在端侧离线运行的能力，目前 Google 已经针对 Pixel 系统自带的录音 App 进行了 Gemini 的适配，即使没有网络连接，也能自动根据录制的对话、采访、演示等内容生成 AI 摘要。

除了系统自带 App，Gemini Nano 的能力还被整合进 Android 系统中，第三方应用的开发者也能通过应用适配的方式调用手机自带的 Gemini 模型能力：例如手机自带的输入法能根据适配 Gemini 的聊天 App 中，对方发送给你的文字信息自动为你生成合适的快捷回复。

Google研发人员同时提到未来还有将 Gemini 登陆其他 Android 智能手机的计划，但这部分适配工作涉及到手机硬件的算力适配，因此目前暂时只有 Pixel 8 Pro 是 Gemini 的适配机型。

至于不少人关心的问题：Gemini 能完全超越 GPT 4.0 吗？记者现场也询问了 Google DeepMind 研发团队，虽然Google 并未正面回应这个提问，但重新强调了 Gemini Ultra 在 MMLU 中获得的评分相比 GPT-4 更高，也是目前唯一超越人类专家测试结果的 AI 模型。

新硬件，新架构

每次提到 Google 在生成式 AI 领域的硬件技术，往往少不了介绍 TPU（张量处理单元）的内容：这是 Google 专为开发神经网络机器学习的专用硬件，从 2015 年发布 TPU v1，迄今为止已经迭代了五个大版本。目前现阶段 Google 展示的 Gemini 1.0，就是基于 Google 数据中心的 TPU v4 和 TPU v5e 大规模阵列训练而来。

这些 TPU 阵列不仅用于训练 Gemini，它们也已经应用在 Gmail、YouTube、Google Play 等 Google 生态应用中有近十年的历史。同时也从 2018 年开始开放给第三方客户使用。也有不少人工智能初创公司选择其作为训练大模型的硬件基石。Google 同时也提到在 TPU 上，Gemini 的运行速度也明显优于早期体积较小的模型。

如今 AI 模型参数仍然在呈指数级增长 —— 顶级的 AI 大模型已经拥有数千亿甚至是万亿级参数，即使是最顶级的 GPU 配置搭配不差钱地堆砌 GPU 数量，训练出如 GPT-4 这样的大模型也需要长达数月以上。可以说高性价比的高算力平台，是目前行业内最迫切的需求。因此适用于下一代 AI 训练的硬件架构其实也已经呼之欲出：在发布 Gemini 1.0 的同时，Google 同时向外界展示了最新的 TPU v5p 系列。

Google数据中心内的 TPU v5p ｜Google Blog

比起 Gemini 训练的「底座」、同时也是目前应用主力的 TPU v4 与 v5e，v5p 进一步增强了可拓展性，同时为了应对复杂模型的推理训练与调整需求，设计了新的硬件架构，可以根据性能需求灵活部署，每个 Pod 计算单元中的芯片数量加倍，由共计 8960 颗芯片互联构成。浮点运算能力相比 v4 提升了两倍，训练速度相比 v4 能提升 2.8 倍以上。

随着 TPU v5p 一并推出的还有代号为「AI Hypercomputer」的超级计算机架构：据 Google 介绍，这是一个经过优化的技术系统，可以与 Google Cloud 计算中心的硬件协同工作，支持现代 AI 模型开发的工作负载。

AlphaCode 2：全新代码生成工具

AlphaCode是 Google 在两年前发布的一款 AI 代码生成系统，彼时诞生于生成式 AI 尚未掀起巨浪，代码辅助类 AI 机器人仍然占据主流视野的时代，今天 Google 在 Gemini 的基础上发布了 AlphaCode 2。

第一代 Gemini 可以理解、解释和生成目前世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的代码。在此基础上的 AlphaCode 2，同样擅长解决那些不仅需要编码能力而且也需要复杂数学和理论计算机科学知识的竞赛性编程问题。

与最初的 AlphaCode 在同一个平台上进行评估时，AlphaCode 2 表现出了巨大的改进。它解决的问题数量几乎是AlphaCode 的两倍，性能比 AlphaCode 高出将近 50%。当然这些暂时还都只是演示内容，虽然第一代 AlphaCode 实际上从未发布过，但 DeepMind 实际上已经透露了这款产品未来投向市场的可能。

发布时间线

最后是 Gemini 的开放时间，三种不同模型尺寸的 Gemini 在具体开放使用时间、使用场景上都不尽相同：其中 Gemini Pro 将会最先落地，在 12 月 13 日，用户就能以 Bard with Gemini Pro 的形式体验。Google CEO 皮查伊更是表示Gemini 会是 Bard 的一次全面升级，多模态能力将赋予 Bard 输入输出图像、音频视频内容的能力。

升级后的新版 Bard 将在 170 多个国家/地区提供基于 Gemini Pro 的英文服务，目前 Gemini Pro 版本的尚不支持更多语言，Google 表示更多的语言支持正在开发中。同时目前开放的版本中用户暂时只能以文字指令的方式体验 Gemini，Google 同时也表示会在「未来几个月内」允许用户使用音频与图像交互能力。

而 Gemini Nano 除了登陆 Pixel 8 Pro 手机上之外，从即日起也将开放给所有 Android 14 开发者，开发者可以以AICore 的形式，在手机系统中调用 Gemini 的能力，用在自己的 App 中尝试 AI 功能。

至于综合能力已经超过 GPT-4 的 Gemini Ultra，则到明年年初才能逐步开放测试，首先将会开放给部分客户以及开发者用于早期实验反馈，后续普通用户将会以 Bard 的下一代升级迭代版本 —— Bard Advanced 的形式，体验到 Gemini 模型的全部能力。

Google 刚发布的 AI 模型 Gemini，这些特点值得关注

多模态能力

可拓展性

新硬件，新架构

AlphaCode 2：全新代码生成工具

发布时间线

推荐体验

相关资讯

如何接入 Google gemini？如何使用 Google gemini？最简单的Google gemini接入方法

比 GPT-4 还厉害？Google 发布最强 AI 模型 Gemini

Google发布能自我学习能力的Gemini 1.5

年后第一周，这些会议值得关注！

AI 版 App Store 要来了？最新曝光的这些细节和数据值得关注

近期资讯

Chat GPT崩溃后，全球学术水平瞬间回落五年

小红书爆款笔记公式 | 是真的存在还是吸睛噱头？

下一个短视频风口，关于视频号，你想知道的都在这里

如何通过竞争排名设计实现用户激励和竞争机制?

互联网特色尽显，“木途美”的情感营销新探索

B端售前“把对的话说给错的人”，产品再好也白搭

电商，不止淘宝抖音

即时零售：长三角何以成为巨头们的 “必争之地”？

吴柳芳的下一步：国风博主？

微信小店、视频号小店、小程序商城有什么区别？该怎么选？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响