谷歌王者归来！全新AI多模态大模型Gemini性能测试完胜GPT-4

作者：蓝鲸财经发布时间：2023-12-07

图片来源：视觉中国

北京时间12月7日凌晨，谷歌宣布推出最新的多模态大模型Gemini 1.0，称其是规模最大、功能最强的人工智能模型。谷歌发布的技术报告显示，Gemini在文本和编码等一系列基准测试中表现出先进性能，在大部分基准测试中性能超过GPT-4，达到目前领先水平。

Gemini推出三个版本，适用不同场景

Gemini是谷歌迄今为止最强大和最通用的人工智能模型，是Google Research在内的谷歌各个团队合作的成果。Gemini作为多模态模型，可以归纳并且流畅地理解、操作和组合不同类型信息，包括文本、图像、音频、视频和代码。Gemini 1.0 针对不同尺寸进行了优化，根据Google DeepMind CEO兼联合创始人Demis Hassabis介绍，谷歌针对不同的应用场景发布了Gemini Ultra、Gemini Pro 和Gemini Nano三个版本，用以确保Gemini能够在所有设备上高效运行。

其中，Gemini Ultra适用于高度复杂的任务，在性能测试中超过当前最先进水平。目前Ultra还处于测试和完善阶段，谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供使用，用以进行早期试验并获得反馈，预计在明年初将向开发者和企业客户提供使用该模型。Gemini Pro是适用于各种任务的最佳模型，用于Bard的升级。从12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。谷歌今年新发售的Google Pixel 8 Pro则成为首款搭载Gemini Nano的智能手机，Gemini Nano作为端侧设备上最高效的模型，能够用以支持录音软件的“总结”和Gboard 的“智能回复”等功能。

功能强大？Gemini性能展现多模态AI技术

谷歌的技术报告表明，Gemini是原生的多模态大模型。与传统的多模态模型相比，Gemini 1.0一开始就在不同模态上开展预训练，并利用额外的多模态数据微调来提高有效性，以便能够流畅地理解和处理各种输入内容。

在复杂推理方面，Gemini 1.0能够理解和分析复杂的书面和视觉信息，从数十万份文件中提取见解。此外，Gemini 1.0 还能有效处理和解释文本、图像、音频等多种格式的信息，并且理解具有细微差别的信息，回答与复杂主题相关的问题。

值得关注的是，Gemini 1.0具有高级编码能力，支持 Python、Java、C++ 和 Go 等流行编程语言。利用这一能力，谷歌进一步开发了 AlphaCode 2，这是一个高级代码生成系统，能够解决需要编程和复杂数学理论知识的问题。

图片来源：Google

为了提高运行效率和扩展性，Gemini 1.0是在谷歌设计的TPUs v4 和v5e等优化过的基础设施上进行大规模训练的。谷歌还推出了功能更强大的Cloud TPU v5p，为训练前沿AI模型提供支持。

Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机图片来源：Google

在安全和责任方面，Gemini 1.0 经过谷歌所有AI模型中最全面的安全评估，包括偏见和毒性评估，并与多个外部专家和合作伙伴合作进行压力测试。此外，谷歌建立了专门的安全分类器和过滤器，用以识别、标记和筛选涉及暴力或负面刻板印象等方面的内容。

谷歌的AI竞赛又添部署，Bard获得“最大升级”

人工智能已经成为科技巨头之间角逐的焦点，在ChatGPT引发爆火现象之后，越来越多的科技公司推出各自对话式生成模型产品，加入到这场较量当中。早在今年6月的谷歌I/O开发者大会上，谷歌CEO桑达尔·皮查伊（Sundar Pichai）就提及了尚在开发中的大型机器学习模型Gemini，并透露了部分细节，该模型具有以往模型所不具备的多模态能力。据悉，此次Gemini 1.0发布是谷歌筹备一年之久的结果，比外界预期的发布时间提前不少。此前根据 The Information消息，谷歌将延期在明年一季度发布Gemini。

但这并不是谷歌首次在人工智能领域“攻城略地”，2023年3月，谷歌推出的聊天机器人产品Bard，这是其在人工智能赛道追赶同行的重要产品，是为应对OpenAI的ChatGPT聊天机器人而开发的。2022年11月，OpenAI推出基于GPT-3大型语言模型的聊天机器人ChatGPT引发广泛关注。新技术的出现将对之前数字广告等创收方式带来颠覆性改变，聊天机器人或将改变甚至取代传统的互联网搜索引擎，这对谷歌在内的科技公司而言无疑成为其目前业务的“潜在威胁”。美国《纽约时报》发表评论称，尽管ChatGPT仍有很大的改进空间，但它的发布导致谷歌管理层宣布“红色代码”。

谷歌在今年2月发布Bard，并于3月以有限规模推出产品，首批开放美国和英国用户申请加入等待名单，在5月的谷歌I/O开发者大会上宣布取消等待名单，增加支持日语和韩语，并拓展到更多国家，今年7月开始支持中文。作为ChatGPT的竞品，Bard并未获得前者所具备的关注度以及期待的外界评价。《纽约时报》发表专栏对比了ChatGPT和Bard作为行政助理的表现，在常见的职责任务的完成中，ChatGPT的表现远远优于Bard。

继Bard之后，Gemini是谷歌在人工智能赛道又一强力部署，Bard也将通过Gemini获得迄今为止的最大升级。谷歌宣称Gemini将分两个阶段向Bard推出使用，发布当天开始，Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划和理解等，明年年初将推出Bard Advanced，这是一种全新的AI体验，也是用户尝试Gemini Ultra模型的首批方式之一。

多模态能力或将成为AI大模型的未来发力点

在尚未公布之前，外界对于Gemini有颇多猜测和质疑，《麻省理工科技评论》称其是“人工智能炒作的巅峰”。根据谷歌发布的信息来看，Gemini大模型的开发为谷歌在AI竞赛中占据了优势，其在多模态人工智能领域树立了新的标准。加州大学伯克利分校教授Alexei Efros认为Gemini具有发展潜力，HuggingFace技术主管Philipp Schmid在X平台上表示质疑，利用谷歌的技术报告的数据修复了图片，认为谷歌有内容有营销之嫌。但毋庸置疑的是，这种进步将带来更加激烈的竞争，华盛顿大学名誉教授Oren Etzioni认为，谷歌和OpenAI之间的竞争将更加“针锋相对”。

目前AI大模型仍处在快速发展变化的时期，可以预见的是，AI大模型将在各行各业得到广泛场景应用。随着技术发展，AI大模型将具备更强的多模态能力，以及更出色的推理能力和创造力，这能帮助模型集成和处理不同类型数据，解决不同情境下更加复杂的问题。谷歌尝试成为AI技术的游戏规则改变者，但仍不可避免面临着与其他科技公司的竞争。

OpenAI开发的GPT系列作为自然语言处理领域的里程碑，掀起了世界范围内的大模型应用开发热潮，不少企业都在AI领域开发了大型模型。针对Gemini的发布信息，Meta CEO扎克伯格在X平台上发表评论称Gemini比Grok看起来“好多了”，而“Grok”系马斯克旗下人工智能公司xAI推出的首款人工智能产品，言论背后正是科技巨头下场人工智能赛道、各自较劲的现状。以Meta公司为例，在今年2月发布了基础大型语言模型Llama 1，并于7月发布Llama 2系列，并宣称和微软、高通合作实现模型应用。

AI大模型在中国同样备受关注，今年8月，中国首份AIGC监管性文件正式实施，首批通过备案的AI大模型名单出炉在月底公开。包括百度的文心一言、华为的盘古大模型、字节跳动的云雀大模型、百川智能的Baichuan大模型在内的大模型诞生，被外界称为“百模大战”，竞争背后体现了人工智能市场的发展潜力。

谷歌王者归来！全新AI多模态大模型Gemini性能测试完胜GPT-4

推荐体验

相关资讯

谷歌发布多模态大模型Gemini，性能超GPT-4！

谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

谷歌推出全新构建的 Gemini 系列多模态 AI 模型,性能全面超越 GPT-4,尤其是在图像、视

谷歌的原生多模态大模型Gemini来了，剑指GPT-4

谷歌全新大模型Gemini 1.5发布，100万token完爆GPT-4

近期资讯

永安行氢能申请 PEM 电解槽及其制作方法专利，降低成本

常熟市永强电气机械有限公司取得自动码料的货架焊接机下料装置专利，提升装置实用性

华为Pura70Ultra，2000元的优惠力度，非常值得体验！

搭建起技能融通、民心相通的交流平台（弘扬“上海精神”：上合组织在行动）

李想称理想是人工智能公司：大模型将对人类产生根本性改变

西门子iQ300滚筒洗衣机：性价比之选，开启智能洗涤新纪元

如何有效扩大手机内存？实用技巧与方法全解析

任天堂 Switch 2 游戏掌机真容曝光

惠普新工作站笔记本曝光，配 AMD Ryzen AI MAX+ PRO 395 APU

荣耀明年推多款新机：Magic Ultra要来了？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响