当前位置:首页|资讯|谷歌|OpenAI|GPT-4|人工智能

谷歌的原生多模态大模型Gemini来了,剑指GPT-4

作者:三易生活发布时间:2023-12-07

原标题:谷歌的原生多模态大模型Gemini来了,剑指GPT-4

在此前被OpenAI压制了一整年后,就在2023年进入尾声时,当年凭借AlphaGo曾掀起人工智能浪潮的谷歌,也终于扬眉吐气了一把,揭开了原生多模态大模型Gemini的神秘面纱。据悉,Gemini号称是谷歌迄今为止“最大、也最全能的AI模型”,拥有文本、图像、视频、音频和代码能力,而且有别与其他大模型Gemini更加灵活,其包括了能力最强、复杂度最高的Gemini Ultra,适用于多任务的Gemini Pro,以及端侧的Gemini Nano(1.8B/3.25B)。

从能够在移动端到大型数据中心的所有设备上运行,就足以证明谷歌对Gemini寄予厚望。根据谷歌方面的说法,Gemini Nano将率先在Pixel 8 Pro上落地,Gemini Pro则将从当地时间本周三开始支持Bard,而Gemini Ultra则会在明年年初向公众大范围开放。

当然,外界更关心的应该是Gemini的性能究竟如何,以及与GPT-4相比孰强孰弱。

根据谷歌方面公布的信息显示,在32项基准测试中,Gemini在30个项目上都实现了“遥遥领先”,同时Gemini Ultra在MMLU(大规模多任务语言理解数据集)中的得分率更是高达90.0%,成为了大模型中首个超越人类专家的产品。对于目前大模型在评测中刷题蔚然成风的现象,谷歌也特意强调,“对于以前的SOTA模型评估使用不同的提示技术”,也就是Gemini并未针对性的刷题。

Gemini最大的亮点就是原生(native)多模态,谷歌口中的“anything to anything”也代表了Gemini和ChatGPT的本质区别。虽然两者确实都实现了支持文本、图像、音频和视频输入,以及文本和图片的输出,但OpenAI的解决方案是在ChatGPT这个大模型(LLM)上不断叠加多模态模块,谷歌的Gemini则是从一开始就将各种模态的能力一同训练,相当于一个是串联、另一个是并联。

比如在面对用户输入的同样一张图片,GPT-4的策略是用OCR技术分割图片,获得干净的字符图像、再识别字符,并转化为文本信息。而Gemini认知图片的方式则更接近人类,就是综合视觉、听觉、语言来理解事物,这也是Gemini在谷歌展示的DEMO中,对于连续输入的内容几乎能即刻做出反应的关键。

值得一提的是,在Gemini技术报告中,谷歌方面表示其基于谷歌自家的张量处理单元(TPU)v4和v5e进行大规模训练,这也就意味着即使脱离了英伟达的CUDA生态,不使用英伟达GPU,业界依然有能力训练出性能不错的大模型。而且随着Gemini的发布,谷歌同时公布了专为训练先进AI大模型的Cloud TPU v5p,等于说是明晃晃地要抢英伟达的蛋糕。

作为在过去一年几乎压得谷歌几乎喘不过气的产品,GPT-4也是此次展示Gemini性能的标靶。例如Gemini Ultra在推理、数学、代码等文本处理能力的得分,就均高于GPT-4,在图像、视频、音频等多模态能力上也压倒了GPT-4。

但事实真的如此吗?其实仔细观察谷歌在视频中展示的关于Gemini和GPT-4评测的表格和图片会发现,其中似乎暗藏了玄机。

事实上,谷歌在对比中采用了被称为“非对称”的方式,例如在比拼MMLU测试集时,Gemini Ultra的得分率为90%、而GPT-4则是86.4%,但二者测试的方法却截然不同。Gemini Ultra下方的CoT@32表明,它使用了思维链(CoT)技术,这也是目前大模型领域炙手可热的一项技术,它在Prompt中除了任务的输入和输出外,还加入了推理的中间步骤,会使得大模型的性能度提升,而GPT-4下方的5-shot,则代表使用了Few-Shot Learning(少样本学习)技术。

简单来说,两者的区别相当于是同样参加一场考试,GPT-4的作答时间是1小时,Gemini Ultra则有一天时间。试想一下,如果高考的答题时间不是2小时、而是24小时,想必大家的成绩都会更上一层楼。

除此之外,谷歌用未经过“AI对齐”(AI Alignment)的Gemini Ultra,来对比已经经过OpenAI对齐的公开版GPT-4。要知道,AI对齐要求AI的目标要与人类的价值观和利益相对齐,使得其符合设计者的利益预期,不会产生意外的有害后果。

AI对齐概念的出现,其实是OpenAI等厂商为了合规而设计,它的副作用就会是导致大模型性能的下降,这一点在GPT-4、New Bing上已经有了明确的体现。换而言之,谷歌是用一个无法商业化的Gemini Ultra版本,来对比已经商业化的GPT-4,难免就有些胜之不武了。当然,谷歌选择投机取巧也不难理解,毕竟在过去的一年时间里,他们在AI领域确实承受着巨大的压力。

作为AI赛道曾经的领导者,谷歌也被外界批评由于过分僵化和谨慎,从而让其他公司抢占了大模型的先机,以至于创始人谢尔盖·布林都重新出山、协助搭建下一代AI模型。CEO皮查伊在面对媒体时更是不得不放狠话,“不管他们怎么说,我们在AI领域不会输”。更何况,精心筹备的Bard首秀即翻车,在整个2023年OpenAI、微软、Meta各领风骚的情况下,唯独谷歌几乎没有了声音。

如此种种境况,使得谷歌想要让Gemini Ultra在纸面上压倒GPT-4也不难理解了,毕竟都已经倾注了所有的资源,再打不赢OpenAI可怎么办?不过即便Gemini Ultra不能超过GPT-4成为地表最强的AI大模型,但超越GPT 3.5几乎是板上钉钉的事情。

或许有了实质性的竞争对手,未来OpenAI可能也会加速GPT-5的落地。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1