“遥遥领先”GPT-4？谷歌最强AI大模型Gemini发布一天便引质疑！公司承认6分钟视频经特殊剪辑处理，非实时画面

作者：每日经济新闻发布时间：2023-12-08

美东时间12月6日，谷歌CEO桑达尔・皮查伊宣布迄今为止规模最大，能力最强的谷歌大模型Gemini 1.0 版正式上线。Gemini是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro，以及适用于特定任务和端侧的 Gemini Nano。

皮查伊官宣推文发布后，马斯克也在下面评论称，“（Gemini）令人印象深刻”。当天，谷歌还发布了一条约6分钟的延时演示视频，展示Gemini的多模态功能（例如，口语对话提示与图像识别相结合）。截至发稿，该视频在YouTube上已经收获141万次观看。

然而，Gemini发布才一天，外界已开始有声音指控谷歌对Gemini的性能“造假”。

其中，彭博社一篇专栏文章就表示，谷歌在一段演示视频中歪曲了Gemini的AI性能。专栏作家帕米·奥尔森（Parmy Olson）认为，在谷歌发布的这段视频中，Gemini似乎非常强大，但有点过于强大了。对此质疑，谷歌回应时承认，这段关于Gemini性能演示的视频并不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，以便让Gemini做出回应。

6分钟演示视频引质疑

奥尔森认为，Gemini的演示视频确实非常令人印象深刻。Gemini能够仅凭一些毫无规则的点就可以推断出绘制内容是一只螃蟹，显示出谷歌DeepMind人工智能实验室多年来训练的大模型推理能力。不过，奥尔森指出，谷歌这段视频中展示的Gemini所具备的一些功能并不是其独有的，ChatGPT Plus也具有类似的推理能力。

图片来源：谷歌

《每日经济新闻》记者注意到，在这6分钟的视频中，Gemini似乎能够快速识别图像，并在几秒钟的时间内做出反应。然而，如果用户点击发布在YouTube上的这段视频的描述，谷歌写了一个重要的“免责声明”，称“为了达到Gemini的演示目的，延迟已经被人为减少，Gemini的输出时长也为了简洁而被缩短。”这意味着，Gemini实际回答每个问题所花费的时间要比视频演示中的更长。

机器学习讲师Santiago Valdarrama在X平台上发文暗示，谷歌上述视频的“免责声明”似乎“展示的是精心挑选的好结果，不是实时录制而是剪辑的。”他直言，“这就是误导，任何参与到其中的人都应该感到尴尬。”

图片来源：X

此外，谷歌公布的MMLU多任务语言理解数据集测试显示，Gemini Ultra不光超越GPT-4，甚至超越了人类专家。然而，不少业内专家发现，在MMLU测试中，Gemini Ultra的结果下面有灰色小字标CoT@32，代表使用了思维链提示技巧、尝试了32次后选取最好结果。而作为对比的GPT-4，却无提示词技巧，且只尝试了5次。

图片来源：谷歌

否认造假，Gemini负责人称只是为了简洁缩短了反应时长

美国科技媒体The Verge报道中称，公平地说，这并不是大型科技公司首次对其产品演示视频进行剪辑处理，除了谷歌外，其他大型科技公司为了避免现场演示带来任何技术性问题，都会稍微对视频进行调整，这也非常普遍。

但对于视频“造假”一说，谷歌坚决予以否认。谷歌DeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯（Oriol Vinyals）在一篇博客文章中，解释了Gemini演示视频的制作过程：性能演示视频不是实时的，而是使用了原始镜头中的静止图像帧，然后编写了文本提示，并要求它通过预测来做出回应。

“视频中的所有用户提示和输出都是真实的，只是为了简洁而缩短了（Gemini的反应时长）。这个视频展示了使用Gemini构建的多模式用户体验，我们制作它是为了激励开发者。”维亚莱斯强调。

奥尔森对此却并不买账。她在专栏文章中写道：“这与谷歌描述的完全不同——谷歌称，任何人都可以与Gemini进行流畅的语音对话，因为Gemini可以实时观察周遭世界并做出反应。”

她同时指出，谷歌官方发布的Gemini各模态性能显示，Gemini Ultra（下图中蓝色部分）在9项标准基准测试中的7项都优于GPT-4。这些基准测试往往用于测试人工智能模型在高中物理、专业法律和道德场景等方面的能力。

图片来源：谷歌

然而，在大多数基准测试中，Gemini Ultra只比OpenAI的GPT-4高出几个百分点，有些甚至不到1个百分点。奥尔森认为，换句话说，谷歌这个所谓的顶级人工智能模型只对OpenAI一年前完成的工作进行了有限的改进。

需要指出的是，谷歌的6分钟Gemini演示视频并没有说明演示的模型是Gemini Ultra。

奥尔森认为，一年前，谷歌这个“笨拙的搜索巨头”被OpenAI的ChatGPT打了个措手不及，此后便一直希望赶上生成式人工智能这股浪潮。谷歌希望通过强大的营销让人们记住，它拥有世界上最强大的人工智能研究团队之一，并且比其他任何人都能获得更多的数据。但从技术角度来看，在生成式人工智能方面，谷歌仍然落后于OpenAI。

不过，在科技行业，谁也不能保证一直一帆风顺，屹立不倒。早期的手机霸主诺基亚和黑莓就是例子。在苹果推出功能更强大、更受欢迎的产品iPhone后，诺基亚和黑莓的市场份额便迅速被抢走。而在软件领域，市场的成功则来自于拥有最强大性能的系统。

每日经济新闻

“遥遥领先”GPT-4？谷歌最强AI大模型Gemini发布一天便引质疑！公司承认6分钟视频经特殊剪辑处理，非实时画面

推荐体验

相关资讯

遥遥领先GPT-4！谷歌最强AI大模型Gemini发布

尴尬！“遥遥领先”GPT-4？谷歌Gemini被质疑“造假”

遥遥领先GPT-4！谷歌最强AI大模型Gemini 1.0发布：比强更强！

遥遥领先于OpenAI GPT-4：谷歌宣布推出全新大语言模型Gemini 1.0

Gemini 超越 GPT-4 靠作弊？谷歌承认：是的，演示视频经过了剪辑

近期资讯

游戏、后期快人一步的奥秘：三星990 PRO让固态硬盘再进一步

补贴480元！方太01-THK21B大火力天然气燃气灶，厨房智慧选择

机械革命无界14N笔记本首发5999元：酷睿Ultra 5 228V、18.5小时续航

新一周国内手机销量TOP15出炉：华为nova 13进前三

轻松掌握WPS文档页边距设置，提升文档美观与专业性

韩国将全面检查现有101架波音737-800型客机

印度发现“卡脖子”矿产，想偷师中方经验，摆脱对华依赖

反射镜架种类知多少？

OpenCloudOS应用实践，助力中南民族大学构建信息化数字基座

世界最大盾构机每小时挖3.6米，挖穿地球需要多久？能否成功

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响