谷歌的原生多模态大模型Gemini来了，剑指GPT-4

作者：三易生活发布时间：2023-12-07

在此前被OpenAI压制了一整年后，就在2023年进入尾声时，当年凭借AlphaGo曾掀起人工智能浪潮的谷歌，也终于扬眉吐气了一把，揭开了原生多模态大模型Gemini的神秘面纱。据悉，Gemini号称是谷歌迄今为止“最大、也最全能的AI模型”，拥有文本、图像、视频、音频和代码能力，而且有别与其他大模型Gemini更加灵活，其包括了能力最强、复杂度最高的Gemini Ultra，适用于多任务的Gemini Pro，以及端侧的Gemini Nano（1.8B/3.25B）。

从能够在移动端到大型数据中心的所有设备上运行，就足以证明谷歌对Gemini寄予厚望。根据谷歌方面的说法，Gemini Nano将率先在Pixel 8 Pro上落地，Gemini Pro则将从当地时间本周三开始支持Bard，而Gemini Ultra则会在明年年初向公众大范围开放。

当然，外界更关心的应该是Gemini的性能究竟如何，以及与GPT-4相比孰强孰弱。

根据谷歌方面公布的信息显示，在32项基准测试中，Gemini在30个项目上都实现了“遥遥领先”，同时Gemini Ultra在MMLU（大规模多任务语言理解数据集）中的得分率更是高达90.0%，成为了大模型中首个超越人类专家的产品。对于目前大模型在评测中刷题蔚然成风的现象，谷歌也特意强调，“对于以前的SOTA模型评估使用不同的提示技术”，也就是Gemini并未针对性的刷题。

Gemini最大的亮点就是原生（native）多模态，谷歌口中的“anything to anything”也代表了Gemini和ChatGPT的本质区别。虽然两者确实都实现了支持文本、图像、音频和视频输入，以及文本和图片的输出，但OpenAI的解决方案是在ChatGPT这个大模型（LLM）上不断叠加多模态模块，谷歌的Gemini则是从一开始就将各种模态的能力一同训练，相当于一个是串联、另一个是并联。

比如在面对用户输入的同样一张图片，GPT-4的策略是用OCR技术分割图片，获得干净的字符图像、再识别字符，并转化为文本信息。而Gemini认知图片的方式则更接近人类，就是综合视觉、听觉、语言来理解事物，这也是Gemini在谷歌展示的DEMO中，对于连续输入的内容几乎能即刻做出反应的关键。

值得一提的是，在Gemini技术报告中，谷歌方面表示其基于谷歌自家的张量处理单元（TPU）v4和v5e进行大规模训练，这也就意味着即使脱离了英伟达的CUDA生态，不使用英伟达GPU，业界依然有能力训练出性能不错的大模型。而且随着Gemini的发布，谷歌同时公布了专为训练先进AI大模型的Cloud TPU v5p，等于说是明晃晃地要抢英伟达的蛋糕。

作为在过去一年几乎压得谷歌几乎喘不过气的产品，GPT-4也是此次展示Gemini性能的标靶。例如Gemini Ultra在推理、数学、代码等文本处理能力的得分，就均高于GPT-4，在图像、视频、音频等多模态能力上也压倒了GPT-4。

但事实真的如此吗？其实仔细观察谷歌在视频中展示的关于Gemini和GPT-4评测的表格和图片会发现，其中似乎暗藏了玄机。

事实上，谷歌在对比中采用了被称为“非对称”的方式，例如在比拼MMLU测试集时，Gemini Ultra的得分率为90%、而GPT-4则是86.4%，但二者测试的方法却截然不同。Gemini Ultra下方的CoT@32表明，它使用了思维链（CoT）技术，这也是目前大模型领域炙手可热的一项技术，它在Prompt中除了任务的输入和输出外，还加入了推理的中间步骤，会使得大模型的性能度提升，而GPT-4下方的5-shot，则代表使用了Few-Shot Learning（少样本学习）技术。

简单来说，两者的区别相当于是同样参加一场考试，GPT-4的作答时间是1小时，Gemini Ultra则有一天时间。试想一下，如果高考的答题时间不是2小时、而是24小时，想必大家的成绩都会更上一层楼。

除此之外，谷歌用未经过“AI对齐”(AI Alignment)的Gemini Ultra，来对比已经经过OpenAI对齐的公开版GPT-4。要知道，AI对齐要求AI的目标要与人类的价值观和利益相对齐，使得其符合设计者的利益预期，不会产生意外的有害后果。

AI对齐概念的出现，其实是OpenAI等厂商为了合规而设计，它的副作用就会是导致大模型性能的下降，这一点在GPT-4、New Bing上已经有了明确的体现。换而言之，谷歌是用一个无法商业化的Gemini Ultra版本，来对比已经商业化的GPT-4，难免就有些胜之不武了。当然，谷歌选择投机取巧也不难理解，毕竟在过去的一年时间里，他们在AI领域确实承受着巨大的压力。

作为AI赛道曾经的领导者，谷歌也被外界批评由于过分僵化和谨慎，从而让其他公司抢占了大模型的先机，以至于创始人谢尔盖·布林都重新出山、协助搭建下一代AI模型。CEO皮查伊在面对媒体时更是不得不放狠话，“不管他们怎么说，我们在AI领域不会输”。更何况，精心筹备的Bard首秀即翻车，在整个2023年OpenAI、微软、Meta各领风骚的情况下，唯独谷歌几乎没有了声音。

如此种种境况，使得谷歌想要让Gemini Ultra在纸面上压倒GPT-4也不难理解了，毕竟都已经倾注了所有的资源，再打不赢OpenAI可怎么办？不过即便Gemini Ultra不能超过GPT-4成为地表最强的AI大模型，但超越GPT 3.5几乎是板上钉钉的事情。

或许有了实质性的竞争对手，未来OpenAI可能也会加速GPT-5的落地。

相关资讯

谷歌发布多模态大模型Gemini，性能超GPT-4！

谷歌发布多模态大模型Gemini，性能超GPT-4！ 12月7日凌晨，谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，宣布最新多模态大模型Gemini

谷歌 GPT-4

芯智讯 2023-12-07

OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

大模型之争，又卷起来了。据Theinformation爆料称，OpenAI即将推出多模态模型GPT-vision。如果消息为真，这将是OpenAI在GPT-4之后推出的最大更新。另一边，谷歌的多模态模型进展也在最近传出，为的就是能和OpenAI抗衡。目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。

OpenAI 谷歌 GPT-4

量子位 2023-09-19

新火种 2023-12-07

谷歌的原生多模态大模型Gemini来了，剑指GPT-4

推荐体验

相关资讯

谷歌发布多模态大模型Gemini，性能超GPT-4！

OpenAI最新大模型曝光：剑指多模态，GPT-4之后最大升级

Google宣布推出原生多模态AI模型Gemini，挑战GPT-4

GPT-4 剑指多模态，前有谷歌 PaLM-E，AI 格局要变？

新火种AI|谷歌深夜发布复仇神器Gemini，原生多模态碾压GPT-4？

近期资讯

掌握常见数据导出技巧，让信息处理更加高效简便！

安徽泾县钱丰粉业取得用于生产超细活性碳酸钙的加热装置专利，避免活性碳酸钙受热不均

湖北中源环保科技取得一种固态电解质材料制备用高效煅烧设备专利，保障了材料的制备效果

江苏冶建锌业取得新型熔锌炉专利，可将漂浮杂质刮除

探讨散热技术对电子设备性能和使用寿命的重要性及优化策略

通化钢铁取得联通器式加热炉水封槽专利，提高液位数值稳定性

数字时代“ph0ne”的读音、含义与社会影响探讨

山西海丰铝业取得红外感应测温铝棒加热炉专利，提高测温准确性

王五笔输入法的使用技巧与提高打字效率的方法总结

新手必看：轻松调节罗技鼠标灵敏度指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响