近日,谷歌宣布推出最强大、最通用的多模态人工智能大模型:Gemini(中文称“双子座”),据称性能超越GPT-4。Gemini将包括三种不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。其中,Pro和Nano已分别集成到聊天机器人和智能手机上,最强大的Gemini Ultra则将在明年发布。
01
全面超越GPT-4,Gemini成绩亮眼
据悉,Gemini Ultra实现首次在大规模多任务语言理解(MMLU)测评上超过人类专家;在32个多模态基准中取得30个当前最优效果(SOTA),几乎全方位超越GPT-4。
2022年11月30日,OpenAI发布ChatGPT,引发了大模型研发全球热潮。时隔一年,GPT-4迎来了真正的宿命对手。
根据DeepMind官方介绍,Gemini是原生多模态大模型,可实现跨文本、图像、视频、音频和代码的信息无缝推理。这意味着用户可以像自然对话一样,交错沟通语言、音频、图像或是视频,而Gemini也会完成自然推理并输出。
在官方视频演示中,Gemini展示了一系列令人惊叹的能力,包括多模态对话、多语言能力、游戏创作、视觉谜题、不同目标建立联系、图像和文本生成、逻辑与空间推理、理解视觉对象和文化理解。例如,在理解视觉对象方面,在互动中通过不断增加简笔画对象,Gemini依次给出吉他、电吉他、鼓、棕榈树的目标识别,并依次给出增添元素后的音乐氛围和声效。
MMLU涵盖数学、物理、历史、法律、医学和伦理学等57个科目的知识,是测试AI模型知识和解决问题能力的公认方法之一。根据DeepMind官方介绍,Gemini Ultra是首个在MMLU任务上表现超越人类专家的大模型,得分90.0%。作为对比,人类专家为89.8%,GPT-4为86.4%。在推理、数学、代码、图像、视频、音频等细分领域,从多模态任务测评数据上看,Gemini实现了对GPT-4的全面超越。
02
演示视频引质疑,谷歌否认造假
然而,Gemini发布才一天,外界已开始有声音指控谷歌对Gemini的性能“造假”。在时长6分钟的Gemini演示视频中,谷歌展示了其多模态功能,Gemini似乎能够快速识别图像,并在几秒钟的时间内做出反应。有评论认为,在谷歌发布的这段视频中,Gemini似乎非常强大,但有点过于强大了。
对于视频“造假”一说,谷歌坚决予以否认。谷歌DeepMind和深度学习副总裁、Gemini联合负责人奥里奥尔·维亚莱斯(Oriol Vinyals)解释:性能演示视频不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示,并要求它通过预测来做出回应。
尽管官方声称是为了简洁展现而缩短了时间,但从后续的描述来看,此前的演示视频确实存在一定的误导性,会让外界误认为Gemini的响应和交互速度、准确性如视频所演示的那样。这意味着,Gemini实际回答每个问题所花费的时间要比视频演示中的更长。
另外评论还指出,在大多数基准测试中,Gemini Ultra只比OpenAI的GPT-4高出几个百分点,有些甚至不到1个百分点。换句话说,谷歌这个所谓的顶级人工智能模型只对OpenAI一年前完成的工作进行了有限的改进。
这次事件或许也反映出新一波AI浪潮之下Google的焦虑。此前凭借AlphaGo在围棋领域的表现,Google在全球掀起了一波AI浪潮,但这一轮AI新浪潮的风头却被OpenAI的ChatGPT抢走,因此,Google需要一款现象级AI产品来证明自己在AI领域的实力。
不过,产品的真正实力不只看宣传片,更重要的还是在实际应用中的比试,也只有真正强大的AI工具,才能赢得用户青睐。关于谷歌Gemini演示视频真伪的争论暂时没有定论,但Gemini的原生多模态模型的招牌已经打出,向GPT-4发起了奇袭。