AI大模型是一场军备竞赛,沉寂多时的Google终于迎头赶上,一跃成为OpenAI最强有力的竞争者。12月6日,Google DeepMind发布Gemini(双子座)大模型,在跑分中成功赶超OpenAI的GPT-4,成为新一代的大模型王者。
Gemini是Google新一代AI大模型,分为Ultra、Pro、Nano三个版本。其中,Gemini Ultra是Google参数规模最大、功能最强的大模型,适用于高度复杂的任务;Gemini Pro是中型大模型,可扩展应用于多种任务;Gemini Nano为小型大模型,主要应用于AI终端设备。
在作为大模型行业基准的MMLU(大规模多任务语言理解)测试中,Google的Gemini Ultra得分率为90%,超过得分率为89.8%的人类专家、得分率为86.4%的GPT-4。在同一测试中,Anthrophic的Claude 2得分率为78.5%,Meta的Llama 2得分率为68%。
作为第一个在MMLU测试中战胜人类专家的大模型,Gemini Ultra在自然图像、音视频理解、数学推理方面能力突出。在大模型广泛使用的32项学术基准中,Gemini Ultra有30项为行业最优。
在跨领域、多模态任务组成的MMMU基准测试中,Gemini Ultra获得了59.4%的SOTA分数。
在Google看来,以Gemini为代表的新一代大模型更注重对世界的理解和互动,对于人类而言,更像是一个能力强大、乐于助人的合作者,而不只是一款聪明的软件。
在训练方法上,Gemini大模型改变了分别训练不同模态数据、完成之后拼接在一起的传统方法,一开始便设计为原生多模态,由文本、代码、图像、音频、视频等多模态数据进行训练、微调。采用这一方法后,大模型对多模态内容的理解、推理能力大为增强,可组合不同类型、不同模态的信息,进行流畅的归纳、理解、推理和操作。
在Google DeepMind发布的一段视频中,一个男子做出后仰、躲闪的慢动作,Gemini马上猜出,这是在模仿电影《黑客帝国》的“子弹时间”场景。在另一段视频中,用画笔在纸上勾勒一只鸭子,为之涂上蓝色,Gemini马上指出错误:“这不是鸭子常见的颜色。”三个空杯放在桌子上,其中一个塞进蓝色纸团,眼花缭乱地打乱次序后,Gemini可准确识别纸团在哪只杯子里。
在多模态推理能力增强后,Gemini大模型可以读懂字迹凌乱的手写内容,把相关问题和解决方案转换为数字排版,识别错误的推理步骤,一步步给出问题的解决方案。
在另一个使用场景,Gemini大模型动用阅读、过滤、理解的能力,从数十万份文件中提取数据集和观点。
跑分之外,大模型的竞争也表现在应用端。“华尔街TMT之王”对冲基金Coatue预测,作为一项新技术,PC在美国市场渗透率达到50%,用了20年时间,互联网用了12年,智能手机用了6年,生成式AI或许只需用3年。
在ChatGPT发布之际,Google也发布了聊天机器人Bard。不过,Bard在性能上不敌ChatGPT,一度在成Google股价大跌。Gemini大模型问世之后,Bard集成Pro版本,展开一场甜蜜的复仇。按照Google的计划,集成Gemini Ultra的Bard Advanced将在2024年初上线。
在移动设备端,轻型的大模型Gemini Nano将搭载Google的Pixel 8 Pro智能手机,首批推出的AI功能包括录音总结、智能回复等。在代码生成板块,Google又推出AlphaCode 2,可打败85%的人类程序员。
除此之外,Gemini大模型也将植入搜素、广告、Chrome浏览器等Google系产品,提升相关性能、体验。Google方面指出,通过在搜索产品试运行Gemini大模型,用户的搜索延迟降低了40%。
Gemini大模型是Google DeepMind成立七个月来最大的一个产品发布。2023年4月,为追赶一马当先的OpenAI,Google将Google Brain、DeepMind两大团队合并为Google DeepMind,外界称之为“AI复仇者联盟”。
ChatGPT问世之前,Google在AI领域一直处于领跑地位。Google Brain开发出著名的Tensorflow深度学习框架、一举改变AI版图的Transformer算法,DeepMind则推出风靡一时的AlphaGo、预测蛋白质折叠的AlphaFold。
强大的研发能力之外,Google又配备基于云芯片Cloud TPU v4、v5e的算力基础设施,对Gemini大模型进行大规模训练。在Gemini大模型发布之际,Google同时发布Cloud TPU v5p云芯片,训练速度较上一代TPU提升2.8倍。
文:Bugle-X / 数据猿