【花师小哲】鉴定网络热门（？）AI（22）——原生多模态模型Gemini，超越GPT-4吧！

作者：花师小哲-中二发布时间：2023-12-07

今天又是一大早起来就看到惊人的消息——Gemini出了！

可惜上午开会，没法第一时间来写专栏，不过好在报告并不长（言下之意，报告该说的技术都没说），这就看完了，再结合其他地方看到的视频之类的讲讲这个模型。

1.Gemini是什么？

我一般很少开头先吹模型的，不过这次还是想着做一下，确实感觉有点东西。

Gemini是谷歌研发的对抗OpenAI以及ChatGPT和GPT-4的一个模型。众所周知，AI霸权之前一直是在谷歌的手里，但是OpenAI朝着自回归语言模型这一条路走到黑，最终让ChatGPT横空出世，并且之后又发布了加强版本的GPT-4，它们俩直到现在依然是市面上能找到的第一梯队的模型。

谷歌当然不甘落后（虽然OpenAI规模还是小，在量子计算等领域确实没法和谷歌硬碰硬，但在自然语言处理这一块OpenAI真的是弯道超车），虽然此前就有比1750亿参数的GPT-3还要大的5400亿参数的PaLM，但性能确实比不上GPT-3的改进版本——GPT-3.5，于是经历了Bard、PaLM 2之后终于迎来了大招——Gemini。在谷歌自己的报告中，Gemini在32个benchmark（不知道啥意思的就当成评估平台或评估数据集）中达到了30个SOTA（就是最先进），几乎全方位超越GPT-4（虽然超的也并不多），甚至有些数据集上的表现超过人类专家水准。

Gemini这个单词好像是“双子座”的意思，也看到有懂行的在介绍梗，在我看来Gemini像“吉米那”，那不成你也是影之实力者？

2.Gemini架构

Gemini是一个原生多模态多语言大模型，这和GPT-4的多模态(有视觉的GPT-4又称为GPT-4V，但这里我就混用了)是不一样的。

简单来说，GPT-4的本体是语言模型，视觉部分更像是一个组件，或者一个DLC。加入视觉模态其实类似于想办法把视觉信息转换成一门“外语”，所以GPT-4的输出依然只有语言这一种

但Gemini是原生大模型，可以简单认为是多个模态是“水乳交融”的。Gemini支持四种模态输入：文本、语音、图像、视频（某种程度上视频就是图像序列+语音），输出是文本和图像两种（当然，额外加一个文字转语音就可以生成语音输出，多个图像加语音也可以做视频，就是像文心那样加配件嘛）

之前GPT-4V报告中提到GPT-4V的优点就在于图像可以插在文字的任何一个地方，而Gemini可以做到多模态输入的交织混合，更上一层楼，例如可以直接问带图数学题或者语音输入（没错，“X宝”是可以实现的了）。

上面说的“水乳交融”是从前向流程来说的，事实上Gemini训练的时候也是多模态直接混合着训练了，而GPT-4有可能是两个模态分开训练，然后再“对齐”的（毕竟这俩公司的报告对训练细节都藏着掖着，那也只能猜测了）。

关于模型架构，报告中明确说了Gemini的架构就是Transformer，现在据推测参数也是1750亿这个量级。GPT-4的话目前一般认为是参数1万亿以上的MoE架构。也就是说谷歌很可能也掌握了把参数没有那么夸张的模型训练到非常好的技术了。

3.Gemini的版本等

Gemini有三个版本——Ultra、Pro和Nano，性能和内存需求依次降低。可惜的是Ultra好像是到明年5月才对公众开放（《影实》五月也有重要消息宣布，还说你不是影之实力者？）

Ultra是在报告中打败GPT-4的，Pro基本对标GPT-3.5，Nano主要目的是小（虽然小，人家也是高贵的原生多模态），甚至说可以在手机上跑Nano型号模型。

值得注意的是，报告中有一段话非常有意思，说Pro版本用到了“基础设施和学习算法固有的内在可伸缩性”来利用Ultra的一小部分资源，难道是Net2Net之类的黑科技？还有Nano版本是经过蒸馏，并且强化了一些特定能力的，这个倒很正常，毕竟使用语言模型最多的不还是文本摘要、翻译之类的嘛

4.下料足

读完这篇报告，给我的感受就是，这次谷歌下料确实很足。

之前也就提到过，大模型的难点在于工程（和钱），在于你如何找到足够的数据、如何优化并行计算方法等，而不是模型架构长什么样。这次报告虽然简短，但还是提到了非常多的技巧，实际用到的只会更多。在我看来真的是下足了料的。

当然，有人对发布会提出质疑的，例如比例尺不对，显得超越了很多一样（啊？这种宣传品不就该这样做吗？难道让我相信所有食物都和包装上的图片一模一样？），吐槽最多的还是对比不公平（但是技术报告中是公平的，这不还是发布会经典营销手段吗）。

当然，实际用的话有人说上下文能力还是差点等，但基本上还是比较认可现在模型的能力的，是不是真的超越GPT-4就看明年5月了（明年的OpenAI：GPT-5出来了）

5.总结

当然我个人不是很想参与商业竞争或站队的，对我来说有新技术突破至少确实是好事，虽然这意味着科研压力更重了QAQ。

还有，不要再来“Gemini发布，AI要统治人类了吗？”这样的标题了，真的看的不能再腻了。

相关资讯

【花师小哲】鉴定网络热门（？）AI（22）——原生多模态模型Gemini，超越GPT-4吧！

推荐体验

相关资讯

【花师小哲】鉴定网络热门（？）AI（4）——多模态大模型

【花师小哲】鉴定网络热门（？）AI（17）——GPT-4V

【花师小哲】鉴定网络热门（？）AI（6）——Prompt

【花师小哲】鉴定网络热门（？）AI（7）——GPT4：AGI的曙光？

【花师小哲】鉴定网络热门（？）AI（11）——谷歌PaLM 2，据说剑指GPT-4

近期资讯

使能各行业商家高效精准获客，原生鸿蒙近场服务直达

黄海造船取得用于船舶船舱内的自动门装置专利，传动效果较好便于对舱门进行顺畅关闭和开启

CES 2025 发布，AMD 英特尔 800 系列中低端主板上市时间曝光

掌握文件格式转化技巧，轻松应对日常使用中的格式问题

掌握麦克风使用技巧，轻松进行录音与语音通话

全方位防水大坝！OPPO A5 Pro首发1999元起

丰富原生鸿蒙模板、组件，助力开发效率提升超40%

安徽叉车集团智能制造再添新动能

腾鹰家居取得隔热条铝板卡扣件专利，降低热传导能力

大唐推出四 HDMI 输出无风扇迷你主机，i5-1235U 准系统 369 美元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响