击败 GPT-4？谷歌 Gemini 大模型横空出世 | 动察

作者：动点科技发布时间：2023-12-07

击败 GPT-4？谷歌 Gemini 大模型横空出世 | 动察

从发布日起，Gemini可开始应用于Bard和Pixel 8 Pro智能手机。

文｜动点科技

作者｜黄尘

排版｜李瑞子

本文预计阅读时长6分钟

昨天凌晨，微软才宣布了旗下AI助手Copilot将接入OpenAI最新模型GPT-4 Turbo的重大升级，正当我们为谷歌忧心之际，后者悄无声息在今日凌晨宣布推出其规模最大、功能最强大的新大型语言模型Gemini。

Gemini模型作为谷歌以及全球范围内最先发布的多模态模型，在性能上是第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型。根据谷歌给出的基准测试结果，Gemini在许多测试中都表现出了“最先进的性能”，甚至在大部分基准测试中完全击败了OpenAI的GPT-4。

Gemini强在哪里

OpenAI推出ChatGPT后，谷歌迎来了一个强大的竞争对手。GPT-4推出后，进一步对谷歌的AI技术的领先地位构成挑战。随着人工智能技术的不断发展和维持优势地位的需要，谷歌在这一年来“励精图治”，顺势推出了Gemini 1.0。

谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯（Demis Hassabis）在发布会上正面谈及GPT-4与Gemini的对比，“我们对系统进行了非常彻底的分析，并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型，从广泛的整体测试（如多任务语言理解基准测试）到比较两个模型生成Python代码的能力。”哈萨比斯称谷歌在32项基准中有30项大幅领先。

Gemini 1.0包括三种不同套件，分别是Gemini Ultra，Gemini Pro和Gemini Nano。

其中Ultra的能力最强，复杂度最高，能够处理最为困难的多模态任务。据介绍，Gemini Ultra是第一个在MMLU方面超越人类专家的模型，该模型综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力，谷歌在一篇博客文章中表示，它可以理解复杂主题中的细微差别和推理。

Gemini Ultra可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval，这是评估编码任务性能的重要行业标准。谷歌的测试显示Gemini Ultra 的性能优于之前最先进的模型，无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。

Pro能力稍弱，是一个可扩展至多任务的模型。不过据CNBC报道，谷歌高管们在新闻发布会上表示Gemini Pro的表现优于GPT-3.5，但回避了与GPT-4相比如何的问题。

Nano则是一款可以在端侧运行的模型。它在多种任务上展示了出色的性能，尤其是在多模态和多语言处理方面。从发布日起，Gemini可开始应用于Bard和Pixel 8 Pro智能手机。谷歌表示，Nano的目标是创建一个尽可能强大的Gemini版本，但同时不会占用手机的存储空间或使处理器过热。

受OpenAI 余波影响，谷歌力证新模型安全

这段时间，OpenAI“夺权案”闹得沸沸扬扬，OpenAI首席科学家Ilya与 CEO奥特曼的最大分歧，就在于Ilya认为OpenAI应该放慢商业化步伐，更专注于AI产品的可解释性、安全性；与之相对，奥特曼和前总裁Greg则秉持技术乐观主义，倾向于积极推动AI模型跑通商业化路径。

尽管此事已经尘埃落定，但是Ilya的担忧仍不无道理。飞速进化的大模型，会不会成为未来悬在人们头顶的达摩克利斯之剑？针对这样的忧虑，谷歌 CEO皮查伊在公开信中表示：“我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标，追求能够给人们和社会带来巨大利益的能力，同时建立安全保障，并与政府和专家合作，应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施，并将它们应用于我们的产品和其他领域，遵循我们的AI原则的指导。”

谷歌表示，通过内部和外部测试以及警示团队（red-teaming），它一直在努力确保Gemini的安全和责任。皮查伊指出，确保数据的安全性和可靠性对于企业优先的产品尤为重要，这也是大多数生成式人工智能利润的来源。与此同时，哈萨比斯也承认，推出最先进的人工智能系统的风险之一就是，它会出现没人能预测到的问题和攻击向量（attack vector），“这就是为什么你必须释放一些东西，去观察和学习”。

一些细节

对于谷歌是否计划对Bard Advanced的访问收费，Bard总经理Sissie Hsiao表示，谷歌专注于创造良好的体验，目前还没有任何相关盈利的细节。

目前，谷歌旗下的聊天机器人Bard已经集成Gemini Pro的微调版本，在170多个国家和地区提供针对英语的免费服务，这是Bard自推出以来最大的升级。谷歌称，在未来几个月内，Bard将扩展不同的模态，并支持新的语言和地区。明年年初，谷歌还将推出Bard Advanced，采用最强的Gemini Ultra模型。

针对开发者，Gemini Pro将于美国时间12月13日开始提供API，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI获取Gemini Pro入口。安卓开发者还可以通过谷歌日前推出的AI Core应用来使用Gemini Nano。