神仙打架！谷歌新款大模型Gemini 和GPT-4谁能笑到最后？丨科技观察

作者：封面新闻发布时间：2023-12-07

封面新闻记者马晓玉边雪

2022年底的人工智能的热潮是OpenAI的ChatGPT带来的，而2023年底，谷歌带着它的Gemini高调杀回人工智能圈。

美国时间12月6日早间，谷歌发布了外界期待许久的大语言模型Gemini，在发布会现场，谷歌将Gemini的多项能力直接与OpenAI的GPT-4进行对比，雄心勃勃地宣布进入“Gemini时代”，更加剧了两大头部科技公司在大语言模型领域竞争的白热化程度。

谷歌表示，现有的人工智能模型通常只处理一种类型的推理，如图片或文本，而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入，组合文本、图像、音频、视频和编程代码。未来，谷歌还计划将 Gemini添加到谷歌搜索引擎和 Chrome 网络浏览器等产品中，而全球有数十亿人在使用这些产品。

谷歌首席执行官皮查伊

让GPT-4“瑟瑟发抖”的Gemini，究竟有什么杀手锏？

拿出一张世界地图，发出指令，“根据你现在所见，想一个游戏，还要用emoji表情呈现。”Gemini即刻给出回答，“我们可以玩一个叫做‘猜国家’的游戏”，然后为你提供几个线索“考拉”、“袋鼠”、“珊瑚”。随后，操作员用手指出澳大利亚所在位置，Gemini就给他打了个勾。

或是将鸭子玩具放在中间，为它设置一个分岔路口，一头通向鸭子纸片，一头通向小熊纸片。Gemini给出指引，“走左边会遇到鸭子，这是朋友。走右边会遇到熊，这是敌人。所以鸭子应该走左边。”

谷歌首席执行官桑达尔·皮查伊在宣传视频中发言

这是谷歌刚刚发布的演示视频中的画面。无论操作员做出何种行动，Gemini都能精准释义，并根据操作者行为的改变迅速作出反应，甚至能够识别物体的材质、预测事件发生的趋势，尤其擅长于解释复杂学科的推理，如数学和物理。此外，视频的呈现还使用了第一人称视角，而不是局限于手机端或网页端进行测试。这就是目前Gemini所具备的能力——在真实世界实时处理任务。可想而知其未来在机器人或者VR眼镜等更多领域上的应用前景有多广阔。

“Gemini是原生多模态打造，是（谷歌）通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示：Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有史以来打造的最强大、最通用的模型，Gemini包括三个版本：Gemini Ultra、Gemini Pro、Gemini Nano。

Gemini的三个版本 Ultra、Pro、 Nano

其中，Gemini Ultra是能力最强大的版本，适用于需要高级处理能力的任务。据介绍，Gemini Ultra是第一个在MMLU（大规模多任务语言理解）方面超越人类专家的模型，该模型综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力。

Gemini Pro专为多任务设计，能够击败GPT-3.5。Gemini Pro在提供迅速响应和理解复杂查询方面表现出色，并被谷歌官方声称在与第三方测试人员的盲测中，搭载 Gemini Pro 的 Bard 是首选的免费聊天机器人，领先于其替代产品。

作为是谷歌最轻量级的人工智能模型，Gemini Nano的主要设计目标是在移动设备上本地离线运行，为设备端任务提供高效的支持。据谷歌介绍，Gemini Nano的出色性能在谷歌的Pixel 8 Pro手机上得到了充分展示，用户已经能够看到它在录音机应用中的语音识别和智能回复等功能表现。值得一提的是，所有的Gemini模型，包括Gemini Nano，都经过了精心地优化，以适应不同的使用场景和需求。

神仙打架！Gemini 和GPT-4谁能笑到最后？

谷歌对 Gemini 模型进行了严格的测试，并评估了它们在各种任务中的表现。从自然图像、音频和视频理解，到数学推理等任务。

数据上看，Gemini Ultra是首个在 MMLU（大规模多任务语言理解数据集）任务表现上优于人类专家的大模型，得分率高达90.0%。作为对比，人类专家的成绩为89.8%，GPT4的成绩为86.4%。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试大模型的知识储备和解决问题能力。

Gemini Ultra在 MMLU任务表现上，得分率高达 90.0%

针对 MMLU 测试集的新方法使得 Gemini 能够在回答难题之前利用其推理能力进行更仔细地思考，相比仅仅根据问题的第一印象作答，Gemini 的表现有显著改进。

另一方面，Gemini也在多模态任务上全面超越了GPT-4V，谷歌称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。

Gemini是谷歌各个团队大规模合作的成果，包括谷歌研究院的研究者，这个模型从发布之初就定位为原生多模态结构，这意味着它能够跨越文本、图像、视频、音频和代码进行无缝推理。这与OpenAI的策略有所不同，后者首先推出了纯文字的GPT-3.5，直到GPT-4才开始加入视觉等多模态能力。

然而，尽管Gemini几乎在所有测试中都领先于GPT-4，但GPT-4本身就是一个巨大的飞跃，Gemini的领先优势似乎并不明显。对此，皮查伊表示，“我们必须意识到，当你试图从85%开始突破时，你已经处于曲线的末端。虽然看起来进展不大，但确实意味着我们仍在取得进展。”

他表示，对于其中一些新的基准，目前的技术水平仍然很低，未来还有很大的提升空间，“比例定律依然有效。随着模型的扩大，我们会看到更多的进展，我真的觉得我们才刚刚开始探索人工智能的潜力。我们还需要开发新的基准测试，这也是我们研究MMLU多模态基准的部分原因。”

而在OpenAI这边才刚刚经历了非常戏剧性的“董事会宫斗”，首席执行官奥尔特曼突遭董事会罢免，但最终迅速回归，给OpenAI未来发展也带来了许多不确定性的同时，也为包括谷歌在内其他行业内竞争者更多追赶的时间和机会。当然，Gemini发布的还是一支预告，真正有能力对标GPT-4的Gemini Ultra还是要到明年年初才会正式上线。

一年前，OpenAI 推出的 ChatGPT 一夜爆火，震动了谷歌和其他科技巨头，引发了整个行业对快速生成人工智能工具的争夺，以及关于人工智能风险和益处的全球辩论。一年后，谷歌推出了反击OpenAI的Gemini，并在很多能力上显示出对GPT-4的全面超越，GPT-5会再次让人眼前一亮吗？史上最强大的大模型“军备竞赛”，让我们拭目以待。

（本文图片来自谷歌官方）