美东时间12月6日,谷歌CEO桑达尔・皮查伊宣布迄今为止规模最大,能力最强的谷歌大模型Gemini 1.0 版正式上线。Gemini是原生多模态大模型,是谷歌大模型新时代的第一步,它包括三种量级:能力最强的 Gemini Ultra,适用于多任务的 Gemini Pro,以及适用于特定任务和端侧的 Gemini Nano。
皮查伊官宣推文发布后,马斯克也在下面评论称,“(Gemini)令人印象深刻”。当天,谷歌还发布了一条约6分钟的延时演示视频,展示Gemini的多模态功能(例如,口语对话提示与图像识别相结合)。截至发稿,该视频在YouTube上已经收获141万次观看。
然而,Gemini发布才一天,外界已开始有声音指控谷歌对Gemini的性能“造假”。
其中,彭博社一篇专栏文章就表示,谷歌在一段演示视频中歪曲了Gemini的AI性能。专栏作家帕米·奥尔森(Parmy Olson)认为,在谷歌发布的这段视频中,Gemini似乎非常强大,但有点过于强大了。对此质疑,谷歌回应时承认,这段关于Gemini性能演示的视频并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,以便让Gemini做出回应。
6分钟演示视频引质疑
奥尔森认为,Gemini的演示视频确实非常令人印象深刻。Gemini能够仅凭一些毫无规则的点就可以推断出绘制内容是一只螃蟹,显示出谷歌DeepMind人工智能实验室多年来训练的大模型推理能力。不过,奥尔森指出,谷歌这段视频中展示的Gemini所具备的一些功能并不是其独有的,ChatGPT Plus也具有类似的推理能力。
图片来源:谷歌
《每日经济新闻》记者注意到,在这6分钟的视频中,Gemini似乎能够快速识别图像,并在几秒钟的时间内做出反应。然而,如果用户点击发布在YouTube上的这段视频的描述,谷歌写了一个重要的“免责声明”,称“为了达到Gemini的演示目的,延迟已经被人为减少,Gemini的输出时长也为了简洁而被缩短。”这意味着,Gemini实际回答每个问题所花费的时间要比视频演示中的更长。
机器学习讲师Santiago Valdarrama在X平台上发文暗示,谷歌上述视频的“免责声明”似乎“展示的是精心挑选的好结果,不是实时录制而是剪辑的。”他直言,“这就是误导,任何参与到其中的人都应该感到尴尬。”
图片来源:X
此外,谷歌公布的MMLU多任务语言理解数据集测试显示,Gemini Ultra不光超越GPT-4,甚至超越了人类专家。然而,不少业内专家发现,在MMLU测试中,Gemini Ultra的结果下面有灰色小字标CoT@32,代表使用了思维链提示技巧、尝试了32次后选取最好结果。而作为对比的GPT-4,却无提示词技巧,且只尝试了5次。
图片来源:谷歌
否认造假,Gemini负责人称只是为了简洁缩短了反应时长
美国科技媒体The Verge报道中称,公平地说,这并不是大型科技公司首次对其产品演示视频进行剪辑处理,除了谷歌外,其他大型科技公司为了避免现场演示带来任何技术性问题,都会稍微对视频进行调整,这也非常普遍。
但对于视频“造假”一说,谷歌坚决予以否认。谷歌DeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯(Oriol Vinyals)在一篇博客文章中,解释了Gemini演示视频的制作过程:性能演示视频不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,并要求它通过预测来做出回应。
“视频中的所有用户提示和输出都是真实的,只是为了简洁而缩短了(Gemini的反应时长)。这个视频展示了使用Gemini构建的多模式用户体验,我们制作它是为了激励开发者。”维亚莱斯强调。
奥尔森对此却并不买账。她在专栏文章中写道:“这与谷歌描述的完全不同——谷歌称,任何人都可以与Gemini进行流畅的语音对话,因为Gemini可以实时观察周遭世界并做出反应。”
她同时指出,谷歌官方发布的Gemini各模态性能显示,Gemini Ultra(下图中蓝色部分)在9项标准基准测试中的7项都优于GPT-4。这些基准测试往往用于测试人工智能模型在高中物理、专业法律和道德场景等方面的能力。
图片来源:谷歌
然而,在大多数基准测试中,Gemini Ultra只比OpenAI的GPT-4高出几个百分点,有些甚至不到1个百分点。奥尔森认为,换句话说,谷歌这个所谓的顶级人工智能模型只对OpenAI一年前完成的工作进行了有限的改进。
需要指出的是,谷歌的6分钟Gemini演示视频并没有说明演示的模型是Gemini Ultra。
奥尔森认为,一年前,谷歌这个“笨拙的搜索巨头”被OpenAI的ChatGPT打了个措手不及,此后便一直希望赶上生成式人工智能这股浪潮。谷歌希望通过强大的营销让人们记住,它拥有世界上最强大的人工智能研究团队之一,并且比其他任何人都能获得更多的数据。但从技术角度来看,在生成式人工智能方面,谷歌仍然落后于OpenAI。
不过,在科技行业,谁也不能保证一直一帆风顺,屹立不倒。早期的手机霸主诺基亚和黑莓就是例子。在苹果推出功能更强大、更受欢迎的产品iPhone后,诺基亚和黑莓的市场份额便迅速被抢走。而在软件领域,市场的成功则来自于拥有最强大性能的系统。
每日经济新闻