尴尬！“遥遥领先”GPT-4？谷歌Gemini被质疑“造假”

作者：锵锵通信发布时间：2023-12-13

近日，谷歌宣布推出最强大、最通用的多模态人工智能大模型：Gemini（中文称“双子座”），据称性能超越GPT-4。Gemini将包括三种不同的套件：Gemini Ultra，Gemini Pro和Gemini Nano。其中，Pro和Nano已分别集成到聊天机器人和智能手机上，最强大的Gemini Ultra则将在明年发布。

全面超越GPT-4，Gemini成绩亮眼

据悉，Gemini Ultra实现首次在大规模多任务语言理解（MMLU）测评上超过人类专家；在32个多模态基准中取得30个当前最优效果（SOTA），几乎全方位超越GPT-4。

2022年11月30日，OpenAI发布ChatGPT，引发了大模型研发全球热潮。时隔一年，GPT-4迎来了真正的宿命对手。

根据DeepMind官方介绍，Gemini是原生多模态大模型，可实现跨文本、图像、视频、音频和代码的信息无缝推理。这意味着用户可以像自然对话一样，交错沟通语言、音频、图像或是视频，而Gemini也会完成自然推理并输出。

在官方视频演示中，Gemini展示了一系列令人惊叹的能力，包括多模态对话、多语言能力、游戏创作、视觉谜题、不同目标建立联系、图像和文本生成、逻辑与空间推理、理解视觉对象和文化理解。例如，在理解视觉对象方面，在互动中通过不断增加简笔画对象，Gemini依次给出吉他、电吉他、鼓、棕榈树的目标识别，并依次给出增添元素后的音乐氛围和声效。

MMLU涵盖数学、物理、历史、法律、医学和伦理学等57个科目的知识，是测试AI模型知识和解决问题能力的公认方法之一。根据DeepMind官方介绍，Gemini Ultra是首个在MMLU任务上表现超越人类专家的大模型，得分90.0%。作为对比，人类专家为89.8%，GPT-4为86.4%。在推理、数学、代码、图像、视频、音频等细分领域，从多模态任务测评数据上看，Gemini实现了对GPT-4的全面超越。

演示视频引质疑，谷歌否认造假

然而，Gemini发布才一天，外界已开始有声音指控谷歌对Gemini的性能“造假”。在时长6分钟的Gemini演示视频中，谷歌展示了其多模态功能，Gemini似乎能够快速识别图像，并在几秒钟的时间内做出反应。有评论认为，在谷歌发布的这段视频中，Gemini似乎非常强大，但有点过于强大了。

对于视频“造假”一说，谷歌坚决予以否认。谷歌DeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯（Oriol Vinyals）解释：性能演示视频不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，并要求它通过预测来做出回应。

尽管官方声称是为了简洁展现而缩短了时间，但从后续的描述来看，此前的演示视频确实存在一定的误导性，会让外界误认为Gemini的响应和交互速度、准确性如视频所演示的那样。这意味着，Gemini实际回答每个问题所花费的时间要比视频演示中的更长。

另外评论还指出，在大多数基准测试中，Gemini Ultra只比OpenAI的GPT-4高出几个百分点，有些甚至不到1个百分点。换句话说，谷歌这个所谓的顶级人工智能模型只对OpenAI一年前完成的工作进行了有限的改进。

这次事件或许也反映出新一波AI浪潮之下Google的焦虑。此前凭借AlphaGo在围棋领域的表现，Google在全球掀起了一波AI浪潮，但这一轮AI新浪潮的风头却被OpenAI的ChatGPT抢走，因此，Google需要一款现象级AI产品来证明自己在AI领域的实力。

不过，产品的真正实力不只看宣传片，更重要的还是在实际应用中的比试，也只有真正强大的AI工具，才能赢得用户青睐。关于谷歌Gemini演示视频真伪的争论暂时没有定论，但Gemini的原生多模态模型的招牌已经打出，向GPT-4发起了奇袭。