当前位置:首页|资讯|谷歌|GPT-4

双子座:一个功能强大的多模态模型系列,Gemini: A Family of Highly Capable Multim

作者:ReadPaper论文阅读发布时间:2023-12-08

今年 5 月的谷歌 I/O 大会上,谷歌宣布了对标 GPT-4 的大模型 PaLM 2,但同时也提到研究重心正在转向 Gemini(一个神秘的多模态大模型)。

一堆小道消息:

  • 该模型是在 Google Brain 和 DeepMind 合并之后开始研发的,将具有像 GPT-4 一样的万亿参数(有时候又说是5倍,但是实际上大家就连GPT-4的参数量都不知道)

  • Gemini 是基于多模态训练的,而且模态会很多

  • 一旦经过微调和严格的安全性测试,谷歌同样将提供不同尺寸和功能的 Gemini 版本,这样可以部署在不同的设备上发挥不同程度的功能。

然后在大概9月份中旬的时候,一些小道消息说谷歌正在开始小规模地测试Gemini,这也意味着训练已经完成。

当然,这些全部都是小道消息,大家也热衷于小道消息,所以我就总结了一下。

终于在12月的6日(美国时间),谷歌终于是放出了关于Gemini的技术报告。

那,我就读一下好了。

论文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

官网:Gemini - Google DeepMind


该技术报告介绍了Gemini模型家族,它包括三种不同规模的模型:Ultra、Pro和Nano。(确实是有不同的规格。但是,只告诉了我们Nano有1.8B和3.25B两个版本。其他的都藏起来了。)

这些模型在多个领域,如图像、音频、视频和文本理解上表现卓越。

Gemini Ultra模型在多种基准测试中取得了SoTA的成绩,特别是在MMLU考试基准上达到了人类专家的水平。

这些成果不仅展示了Gemini模型的先进性,还预示了其在跨模态推理和语言理解方面的广泛应用潜力。报告中还强调了负责任地向用户部署这些模型的重要性。

1 介绍

Gemini是由谷歌开发的一系列高效能多模态模型。这些模型通过联合训练,覆盖了图像、音频、视频和文本数据。希望建立一个具有强大的通用能力模型,同时在每个特定领域内展现出优秀的理解和推理性能。

Gemini 1.0是一种多模态AI模型,具有三种不同规模:Ultra、Pro和Nano,分别针对不同的任务复杂度和应用需求设计。这些模型在一系列内外部基准测试中展现了出色的性能,覆盖了语言、编程、推理和多模态任务。Gemini在大规模语言建模方面取得了显著成果,其在图像理解、音频处理、视频理解等领域的表现也非常出色。此外,Gemini的发展还得益于序列模型、基于神经网络的深度学习和机器学习分布式系统等领域的长期研究。

本报告中最强大的模型Gemini Ultra遥遥领先。在32个基准测试中的30个中取得了新的最先进成果。它在文本理解、图像理解、视频理解、语音识别和语音翻译等领域展现了出色的能力。尤其值得注意的是,Gemini Ultra在MMLU考试基准测试中首次达到了人类专家水平,其得分超过90%。此外,在MMMU这一最新的多模态推理基准测试中,Gemini Ultra也取得了62.4%的高分,超越了以往模型。这表明了它在视频问答和音频理解等多模态领域的统一性能提升。

Gemini模型的定性评估显示了其在跨模态推理方面的显著能力,能够理解涉及音频、图像和文本的复杂输入序列。以图1的教育场景为例,Gemini能够理解杂乱手写的物理问题,准确分析问题和学生的解决方案,识别错误步骤,并提供正确的解答。这些能力不仅表现出模型对复杂问题的理解和处理能力,还为教育等多个领域带来新的应用前景。

而且,由Gemini提供技术支持,AlphaCode团队开发了一个新的Agent,AlphaCode 2。它集成了Gemini的推理能力、搜索功能和工具使用技术,专门用于解决竞赛编程问题。在Codeforces这一著名的竞赛编程平台上,AlphaCode 2的表现非常出色,其排名位于前15%,远超其前代产品的前50%的最佳成绩。这一进步展示了大型语言模型在解决复杂多步骤问题方面的显著潜力。

而且,团队也注重模型的效率,所以推出了Gemini Nano系列,它们在提升设备内任务的效率方面取得了显著进展。这些模型特别擅长执行如摘要、阅读理解和文本完成等任务。此外,尽管模型体积较小,它们在推理、STEM领域、编程、多模态和多语言任务上的表现仍然令人印象深刻。这些特点使得Gemini Nano在体积和性能之间取得了良好的平衡。

接下来的章节中,首先概述了Gemini模型的架构、训练基础设施和训练数据集,然后对Gemini模型家族进行了详细的评估,涉及文本、代码、图像、音频和视频等领域的众多基准测试和人类偏好评估。论文还讨论了负责任的部署方法(他们会在Gemini正式面向大众之前更新这篇技术报告以提供更多细节),包括影响评估、模型政策的制定、评估和风险缓解措施。最后,论文探讨了Gemini的广泛影响、局限性和潜在应用,预示着AI研究和创新的新时代。

2 模型架构

Gemini模型的架构基于Transformer解码器(Decoder),并通过架构和模型优化的改进,使其能够在大规模上进行稳定训练并优化在谷歌张量处理单元上的推理性能。这些模型能够处理高达32k的上下文长度,并采用了高效的注意力机制,如多查询注意力(multi-query attention,arxiv.org/abs/1911.0215)。如表1,Gemini 1.0的第一版包括三种不同规模的模型,以适应各种不同的应用场景。

(其实现在大家的结构都一样,但是不少人看到名字不一样了,就会觉得不一样。)

Gemini模型被训练以处理与各种音频和视觉输入交织的文本输入,例如自然图像、图表、截图、PDF和视频,并能产生文本和图像输出(参见图2)。

其视觉编码灵感来源于先前的Flamingo、CoCa和PaLI项目,并具有独特之处:模型本身就是多模态的,能够使用离散图像token直接输出图像。此外,Gemini能够将视频作为一系列帧编码并处理可变的输入分辨率。它还能直接处理16kHz的音频信号(USM模型作为提取器),提升音频理解的细节捕捉能力。这些特性使Gemini成为一个高度灵活和多功能的AI模型。


3 训练的基础设施

针对不同规模和配置的Gemini模型,作者选择了TPUv5e或TPUv4作为训练硬件。尤其对于大型的Gemini Ultra模型,作者使用了多个数据中心的大量TPUv4加速器,这在规模上超越了之前的PaLM-2模型。然而,这种规模的扩展也带来了新的挑战,尤其是在硬件故障率方面。尽管作者努力减少计划内的重调度和抢占,但由于外部因素如宇宙射线,大规模硬件加速器中的机器故障仍然是一个普遍现象。

TPUv4加速器被部署在包含4096个芯片的“SuperPods”中,每个芯片都连接到一个可以快速重配置芯片立方体为3D环面拓扑结构的光学开关。此外,为了Gemini Ultra项目,作者们在每个SuperPod中故意保留了少量的立方体,目的是为了实现热备用和便于进行滚动式维护。

(Gemini Ultra的网络通信策略)为了处理Gemini Ultra的大规模数据和计算需求,作者们采用了Google的高级网络技术,连接多个数据中心中的SuperPods。这种网络配置不仅支持高速的芯片间通信,而且还适应了同步训练范式,即在SuperPods内部利用模型并行性,在SuperPods之间实现数据并行性。Google网络的低延迟和高带宽特点是实现这种高效通信的关键。

Jax和Pathways采用了“单一控制器”编程模型,允许开发者通过单一Python进程管理整个训练过程,显著简化了AI开发流程。此外,文本还提到了XLA编译器中的GSPMD分区器和MegaScale XLA编译器的应用。GSPMD分区器负责划分训练过程中的计算任务,而MegaScale XLA编译器则确保集群操作与计算过程的高度重叠,并减少了训练步骤时间的波动。

传统的周期性权重检查点保存方法在大规模训练环境中效率较低。为了解决这个问题,Gemini项目采用了冗余的内存中模型状态副本,以便在发生硬件故障时能够迅速恢复。与以往的PaLM和PaLM-2项目相比,尽管Gemini使用的训练资源更为庞大,但其恢复时间显著缩短,最终使得最大规模训练作业的整体吞吐量从85%增加到97%。

在Gemini项目大规模训练中遇到的新的系统故障模式:“静默数据腐败(Silent Data Corruption, SDC)”。

(SDC通常是由于硬件上的微小电流波动导致计算错误,如计算失误1+1=3。随着芯片变得更加先进和紧凑,这一问题变得更加突出。虽然大多数由制造缺陷引起的错误会被供应商筛选出来,但仍有部分错误可能不被硬件错误检测系统发现,因此需要依赖于检测软件来预防和解决这些问题。)

尽管SDC事件非常罕见,但由于项目的大规模性,这些事件对训练的影响变得频繁。为了应对这一挑战,Gemini项目采用了多种新技术,包括利用确定性重放技术隔离错误计算,以及在闲置和热备用机器上部署主动SDC扫描器。这些措施,加上完全确定性的基础设施,使团队能够在开发过程中迅速识别并解决根本原因,从而确保了训练的稳定性。

(但是实话说,虽然这里介绍了很多和TPU有关的东西,但是我还没有见过哪个除了谷歌的团队使用TPU进行训练。。)


4 训练数据

Gemini模型的训练数据集具有多模态和多语言的特性,包括来自网页、书籍和编程代码的图像、音频和视频等多种数据类型。在训练过程中,使用SentencePiece分词器对大量训练语料进行处理,有效提高了词汇表质量,进而提升模型性能。Gemini模型在处理非拉丁文字时表现出了高效的分词能力,这不仅提升了模型质量,还加快了训练和推理的速度。同时,根据模型的规模,采用了不同的标记数量训练策略,以实现更好的性能优化。

具体来说,最大的模型遵循:arxiv.org/abs/2203.1555

其他的小一些的模型遵循:LlaMa

训练高性能AI模型时的数据集质量管理和训练策略:首先,所有数据集都经过质量过滤,包括启发式规则和基于模型的分类器的应用,以及安全过滤以排除有害内容。评估集是从训练语料库中精心筛选出的。研究团队通过在小型模型上进行消融实验,确定了数据混合和权重的最终方案。在训练过程中,特别是在后期,逐渐增加与领域相关数据的权重,这是训练策略的一部分。数据质量对于构建高性能模型至关重要(因为重要,所以没有细写),并且意识到在确定预训练最佳数据集分布方面,还存在许多值得探讨的问题(因为重要,所以也没有细写)。


5 评估

Gemini模型因其在多个模态上的联合训练而具有显著的多模态特性。该模型在评估中显示出在文本、图像、音频和视频等多个领域的强大能力,这一点甚至超越了那些专门针对单一模态进行优化的模型和方法。

5.1 文本

5.1.1 学术领域基准测试

在文本领域的学术基准测试中,Gemini Pro和Ultra模型与其他大型语言模型(包括PaLM 2)进行了比较。这些测试覆盖了推理、阅读理解、STEM和编程等多个方面。如表2的结果显示,Gemini Pro在性能上超越了以推理优化为特色的模型,如GPT-3.5,并且在某些数据集(如HumanEval)上与市场上一些最先进的模型(GPT-4)相媲美。

Gemini Ultra在MMLU这一综合性考试基准测试中表现卓越,其准确率达到90.04%,超越了所有现有模型和人类专家的表现(89.8%)。MMLU测试涵盖了57个学科领域,对参与者的知识水平进行全面评估。Gemini Ultra的高性能反映了它在多个学科领域的专业知识,以及出色的阅读理解和推理能力。此外,研究表明,当Gemini Ultra与基于模型不确定性的思维链提示方法结合使用时,可以达到更高的准确率。这种方法依赖于生成多个样本的思维链,并根据共识或最大可能性选择答案。

Gemini Ultra在数学领域的表现证明了其强大的分析和解题能力。在GSM8K小学数学基准测试中,Gemini Ultra通过使用思维链提示和自我一致性策略,取得了94.4%的准确率,超越了以往的分数。在MATH基准测试中,面对来自中高等数学竞赛的复杂问题,Gemini Ultra的表现同样出色,准确率达到53.2%。此外,在美国数学竞赛的高难度任务中,Gemini Ultra解决了32%的问题,表现优于GPT-4。这些结果显示,尽管较小的模型在这些高难度任务上几乎无法胜任,但Gemini Ultra通过先进的技术和策略,成功地解决了这些挑战。

Gemini Ultra在编程这一大型语言模型的关键应用领域表现出众。该模型在多种常规和内部基准测试中表现良好,并且在更复杂的推理系统(例如AlphaCode 2)中也展现了强大的能力。特别是在HumanEval这一代码补全基准测试中,Gemini Ultra能够根据功能描述正确实现74.4%的Python代码。此外,在新的Python代码生成任务评估基准Natural2Code中,Gemini Ultra实现了74.9%的高得分,这一成绩在确保无网络泄露的情况下达到了最高。

在对Gemini模型进行基准测试评估时,面临数据污染的挑战。为确保结果的科学性和可靠性,进行了广泛的泄露数据分析,并决定不报告某些测试(如LAMBADA)的结果。特别是在对HellaSwag测试的评估中,通过对Gemini模型进行额外微调,显著提高了验证准确率,显示出优于GPT-4的性能。这表明基准测试结果可能受到预训练数据集组成的影响。因此,我们选择在更严格的评估设置中报告去污染的HellaSwag结果。此外,为了确保评估的健壮性和准确性,Gemini模型在多个新发布的评估数据集上进行了测试,如WMT23、Math-AMC 2022-2023问题和非网络来源生成的Natural2Code。

Gemini Ultra在基准测试中的表现不仅展示了模型的潜在能力,也揭示了其可能对现实世界的任务产生的积极影响。这一表现特别在推理和STEM领域中尤为突出,为大型语言模型在教育领域的应用和发展提供了新的方向。Gemini Ultra在处理复杂数学和科学概念方面的能力尤其引人注目,为个性化学习和智能辅导系统带来了新的、令人兴奋的应用前景。

5.1.2. 能力趋势

团队从Gemini模型家族的能力趋势进行分析,主要通过对超过50个不同基准测试的全面评估来研究六种不同能力的表现(图3)。这些能力包括事实性、长文本理解、数学/科学、推理和多语言等。其中,Gemini Ultra在所有六个能力方面表现最佳,而Gemini Pro作为第二大模型,也展现出了强大的竞争力和高效率。整体上,随着模型大小的增加,在多个领域中表现得到显著提升。


5.1.3. Nano

团队专门打造了Gemini Nano 1和Nano 2模型,这些模型被设计用于设备上的部署,从而使人工智能更加贴近用户。它们在总结和阅读理解任务上尤其擅长,并且在每个任务上进行了细致的微调。通过对比图3和表3的数据,我们可以看出,尽管Nano模型(1.8亿和3.25亿参数)的规模远小于Gemini Pro模型,它们在事实性、推理、STEM、编程、多模态和多语言任务上仍展现出强大的性能。这些模型的推出,使得更多的平台和设备能够接入先进的人工智能功能,从而使人工智能技术更广泛地服务于公众。


5.1.4 多语言

这个章节主要介绍了Gemini模型在多语言处理方面的能力评估。评估任务涵盖了多种类型,包括机器翻译、文本摘要以及跨语言文本生成。具体来说,机器翻译评估覆盖从资源丰富到资源匮乏的各种语言,而文本摘要和基准测试的翻译则涉及多种语言,显示出该模型在处理不同类型的多语言任务上的能力和灵活性。

机器翻译。Gemini Ultra在多种资源水平的语言翻译任务中表现出众,特别是在将英语翻译成其他语言方面,其表现优于传统的大型语言模型方法。如表4,在WMT 23翻译基准测试中,Gemini Ultra在英语以外的翻译任务上取得了最高的LLM基础翻译质量,其平均BLEURT得分超过了GPT-4和PaLM 2。此外,Gemini Ultra还在极低资源语言的翻译方面进行了评估,涵盖了一些较少使用的语言,如塔马齐格语和克丘亚语。

多种语言环境下进行数学问题求解和文本摘要。表5特别指出了Gemini Ultra在MGSM(一种数学基准测试的翻译版本)中的表现,准确率高达79.0%,超过了PaLM 2-L。此外,在多语言摘要方面,Gemini Ultra在XLSum基准测试中的表现优于PaLM 2,但在WikiLingua测试中略逊一筹。整体而言,Gemini模型展示了在处理多种语言任务上的广泛能力,特别是在资源较少的语言和地区。

(这说明,翻译和摘要,其实不一定需要很大的模型,我们在做模型的时候可以多考虑小模型+搞质量数据的组合)

5.1.5 长文本

模型能够有效处理高达32,768个词汇的序列长度,并通过合成检索测试验证了其高效性,其中Ultra模型在跨越整个上下文长度进行查询时表现出98%的准确率。此外,如图4,负对数似然(NLL)的分析显示,随着序列位置的增加,NLL在32K上下文长度内逐渐降低,说明模型在处理长文档时的效果更佳。这种长上下文处理能力为Gemini模型在文档检索和视频理解等新领域的应用提供了可能。

5.1.6 人类偏好评估

模型输出的人类偏好评估是补充自动化评估的重要质量指标。作者们通过盲测方法评估了Gemini模型,比较了两种模型对相同提示的响应。重点是通过指令调优技术改进预训练模型,这种改进针对多种特定能力进行评估,如遵循指令、创意写作、多模态理解等。Gemini Pro模型显示出在多个方面的显著提升,尤其是在安全性和用户体验上。如表6的结果表明,通过指令调优可以显著提高模型的实用性和安全性。

5.1.7 复杂推理系统

Gemini可以结合搜索和工具使用等附加技术,创建能解决更复杂多步骤问题的强大推理系统。一个例子是AlphaCode 2,这是一种新的最先进的Agent,擅长解决竞赛编程问题。AlphaCode 2使用专门调整的Gemini Pro进行广泛的程序搜索,加上过滤、聚类和重新排名机制,提高了问题解决效率。AlphaCode 2在Codeforces平台(codeforces.com/)上进行评估,该平台与AlphaCode相同,包括1、2级别的12场比赛,共77个问题。AlphaCode 2解决了这些竞赛问题中的43%,比之前创纪录的AlphaCode系统提高了1.7倍,后者解决了25%的问题。在竞赛排名中,基于Gemini Pro的AlphaCode 2平均位于大约85%的参赛者之上。这是相对于AlphaCode仅超过50%参赛者的显著进步。将强大的预训练模型与搜索和推理机制相结合,是朝着更通用代理的一个令人兴奋的方向;另一个关键因素是多模态的深入理解。

5.2 多模态

Gemini模型天生具有多模态特性,能够无缝结合不同模态的能力,如从表格、图表等中提取信息和空间布局,并具有强大的语言模型推理能力,特别是在数学和编程方面。此外,该模型还擅长于识别细节、跨时间和空间聚合上下文,并能够处理与时间相关的视频帧序列和音频输入。文本还提到,后续部分将详细评估该模型在图像、视频和音频等不同模态上的表现,并展示其在图像生成和跨模态信息组合方面的能力。

5.2.1 图像理解

评估了模型在四项核心能力上的表现:利用字幕或问答任务进行高级对象识别(如VQAV2);通过TextVQA和DocVQA等任务进行精细转录,以识别细节信息;运用ChartQA和InfographicVQA任务进行图表理解,这需要模型对输入的布局进行空间理解;以及使用Ai2D、MathVista和MMMU等任务进行多模态推理。在零样本问答评估中,模型需提供与特定基准测试相符的简短答案。所有结果均通过贪婪采样获得,并且没有使用任何外部OCR工具。

如表7,Gemini Ultra在多种任务上均展现了强大的性能,包括回答自然图像和扫描文档的问题、理解信息图、图表和科学图解。此外,它在学术基准测试中也取得了显著提升,如在MathVista和InfographicVQA基准上的表现。

MMMU是一个新发布的评估基准,包含六个学科的图像问题,每个学科内含多个专题,这些问题需要大学级别的知识来解答。Gemini Ultra不仅在这个基准测试中取得了最佳成绩,而且在六个学科中的五个学科上都超过了之前的最佳成绩,提高了5个百分点以上,充分展示了它的多模态推理能力。

Gemini模型不仅能够跨越多种模态,还能同时处理多种全球语言,适用于包括图像理解(如解析含有冰岛语文本的图像)和生成任务(如为多种语言生成图像描述)。如表9,通过在Crossmodal3600 (XM-3600)基准的子集上进行评估,Gemini模型在4-shot设置中展现了优越的性能,尤其是在生成图像描述方面。这一评估使用了Flamingo评估协议,且所有模型均未经过微调。结果显示,Gemini模型在生成图像描述方面超过了之前的最佳模型Google PaLI-X,实现了显著的进步。

图5中的定性评估展示了一个关于Gemini Ultra多模态推理能力的示例。具体来说,Gemini Ultra能够理解用户提供的图表、推断出生成这些图表所需的代码、根据用户指示调整子图位置,并对最终的图表输出进行抽象推理。这个过程涉及到图像和文本的综合处理能力。

5.2.2 视频理解

理解视频输入是朝着构建一个有用的通用智能代理迈出的重要一步。对于每个视频任务,团队从每个视频剪辑中抽样了16个等间距帧,并将它们提供给Gemini模型。对于YouTube视频数据集(除了NextQA和Perception测试之外的所有数据集),团队在2023年11月仍然公开可用的视频上评估了Gemini模型。在各种少样本视频字幕任务以及零样本视频问答任务中取得了最新的成绩,如表10所示。

5.2.3 图像生成

Gemini能直接输出图像,而不需要依赖于自然语言的中间描述。这种能力特别适用于少量样本的设置中,如图文交织的序列生成。如图6,举例来说,Gemini可以根据用户的颜色和材料建议,如蓝色和黄色的纱线,来设计创意图像,比如蓝猫或黄耳蓝狗。当提供新的颜色组合(如粉色和绿色)时,Gemini能够给出新的创意建议,例如绿色鳄梨或粉耳绿兔。

5.2.4 音频理解

Gemini Nano-1和Gemini Pro模型在多个公共基准测试中被评估,包括自动语音识别和语音翻译任务,并与其他领先的语音模型进行了比较。表11表明,Gemini Pro在所有测试中都显著优于USM和Whisper模型。尤其在FLEURS测试中,由于Gemini模型也使用了FLEURS训练数据,所以表现尤为突出。Gemini Nano-1在除FLEURS外的所有测试中也优于其他模型。不过他们还没有对Gemini Ultra进行评估。

表12进一步展示了使用USM和Gemini Pro进行的错误分析。相比于USM,Gemini Pro产生的回应更为可理解,特别是在处理罕见词汇和专有名词方面。

音频1:https://storage.googleapis.com/deepmind-media/gemini/fleurs1.wav

音频2:https://storage.googleapis.com/deepmind-media/gemini/fleurs2.wav


5.2.5 模态组合

多模态演示通常包括文本与单一模态(通常是图像)的交织组合。如,表13,以制作煎蛋为例,展示了模型处理音频和图像序列的能力。在这个例子中,模型通过图片和口头问题的序列,进行逐步的互动,以指导煎蛋的烹饪过程。模型不仅能准确回应文本指令,还能处理图像中的细节,以评估煎蛋的烹饪程度。

6 负责任的部署

在开发Gemini模型的过程中,团队遵循了一种结构化的负责任部署方法,以识别、衡量和管理我们模型可能产生的可预见的社会影响,这与谷歌早期发布的人工智能技术保持一致。


6.1 影响评估

影响评估旨在识别、评估和记录与模型开发相关的社会利益和危害。评估工作参考了之前的学术文献、行业内的类似工作、与专家的互动以及对新模型漏洞的探索。关注的领域包括事实性、儿童安全、有害内容、网络安全、生物风险、代表性和包容性等。这些评估随着模型的开发而更新,用于指导缓解措施、产品交付和部署决策。Gemini模型的影响评估还涉及评估这些功能与谷歌AI原则的潜在联系。

6.2 模型政策

团队在理解已知和预期效果的基础上,制定的一系列“模型政策”。这些政策旨在作为模型开发和评估的指导,定义了负责任开发的标准化准则和优先级框架,同时也是评估模型是否准备好上线的指标。Gemini模型政策覆盖了包括儿童安全、仇恨言论、事实准确性、公平与包容性以及骚扰等多个重要领域。

6.3 评估

为了评估Gemini模型对政策领域及影响评估中识别的其他关键风险领域的遵守情况,团队在模型开发的整个生命周期中开发了一套评估方法。

评估分为三个部分:开发评估、保证评估和外部评估。

开发评估是为了在培训和微调Gemini模型的过程中进行“逐步提升”。这些评估由Gemini团队设计,或是针对外部学术基准的评估,考虑了如帮助性(遵循指令和创造性)、安全性和事实性等问题。

保证评估则侧重于治理和审查,通常在关键里程碑结束时由独立小组进行。

外部评估由谷歌之外的合作伙伴进行,用于识别盲点和压力测试模型。此外,还有专业内部团队进行红队操作,以识别新的漏洞,并用于改进评估方法。这些评估涉及多个领域,包括安全性、事实性和帮助性等。

6.4 缓解措施

为了响应上述评估、政策和评价方法的结果,团队开发了缓解措施。评估和缓解措施以迭代方式使用,即在实施缓解努力后重新进行评估。

6.4.1 数据

在训练之前,团队采取了多种措施,在数据策划和数据收集阶段减轻潜在的下游危害。如“训练数据”一节所讨论的,对训练数据进行过滤,以排除高风险内容,并确保所有训练数据质量足够高。

除了过滤外,在数据收集阶段遵循Google DeepMind的数据丰富性的最佳实践(deepmind.google/discove),这些实践基于AI伙伴关系的相关指南。这包括确保为数据丰富工作的人员支付至少等同于当地生活工资的报酬。

6.4.2 指令调整 Instruction Tuning

指令调整包括监督式微调(SFT)和通过人类反馈的强化学习(RLHF),这些方法被用于文本和多模态环境中。在指令调整中,重点在于平衡提升帮助性和减少模型危害。数据的质量被认为比数量更重要,特别是对于大型模型。

同样,对于奖励模型训练,团队发现平衡数据集至关重要,包括模型因安全原因选择“我无法帮助这个问题”的例子和模型给出有用回应的例子。此外,为了训练多头奖励模型,采用了多目标优化,结合帮助性、事实性和安全性的奖励得分。

为减少有害文本生成风险,团队列举了大约20种危害类型(例如仇恨言论、提供医疗建议、建议危险行为),涵盖广泛的使用案例。团队通过政策专家和机器学习工程师手动编制,或通过向高能力语言模型提示主题关键词作为种子,生成了这些类别中可能引发危害的查询数据集。

从检测到的风险领域中,团队创建了额外的监督式微调数据,以展示期望的回应。为了大规模生成这样的回应,团队大量依赖于灵感来自宪法AI(arxiv.org/abs/2212.0807)的自定义数据生成配方,其中团队将谷歌内容政策的语言作为“宪法”注入,并利用语言模型强大的零样本推理能力(https://arxiv.org/abs/2205.11916)来修正回应和在多个回应候选中进行选择。

团队发现这种配方是有效的 - 例如在Gemini Pro中,这整体配方能够缓解识别的大多数文本危害案例,而不会明显降低回应的帮助性。

6.4.3 事实性

确保模型在各种场景下生成事实性回应是非常重要的,同时需要减少错误信息(幻觉)的频率。团队专注于指令调整工作,以反映现实世界的三个关键期望行为:

  1. 归因:当指示生成一个完全基于给定上下文的回应时,Gemini 应产生最忠实于上下文的回应。这包括对用户提供的来源进行总结,根据问题和提供的片段生成细致的引用,回答基于长篇源材料(如书籍)的问题,以及将给定的来源转换为期望的输出(例如,根据会议记录的一部分生成电子邮件)。

  2. 闭卷回应生成:面对没有给定来源的事实性询问,Gemini 不应产生错误信息。这些提示可以从寻求信息的问题(例如:“印度的总理是谁?”)到可能要求事实信息的半创造性提示(例如:“写一篇500字支持采用可再生能源的演讲”)。

  3. 回避:面对“无法回答”的输入时,Gemini 不应产生幻觉。相反,它应通过回避来承认无法提供回应。这包括输入提示包含错误前提的问题, 以及指示模型执行开卷问答但无法从给定上下文中得出答案的情况。

实验包括三个主要部分:

(1) 事实性集(Factuality),通过人类注释员评估闭卷问题的事实性;

(2) 归因集(Attribution),评估模型对提示中来源的归因准确性;

(3) 回避集(Hedging),自动评估模型在面对不确定性时的回避行为。这些实验旨在提高模型的事实性和准确性。

表14中比较了经过指令调优但未经事实性专注调整的Gemini Pro模型版本和Gemini Pro。主要发现包括:(1) 事实性集中的不准确率减少了一半;(2) 归因集中归因准确率提高了50%;(3) 在回避集任务中,模型成功回避的比例从0%提升至70%。这些结果表明,针对事实性的专注调整显著提高了模型的准确性和适应性。

6.5 部署

在完成审查之后,为每个通过审查的Gemini模型创建模型卡片。这些模型卡片为内部文档提供了结构化和一致性,记录了关键的性能和责任指标,并随时间适当地通报这些指标的外部沟通。

6.6 负责任的治理

Gemini项目在Google DeepMind的责任与安全委员会(RSC)的指导下,进行了伦理和安全审查。RSC是一个跨学科团队,其任务是确保项目、论文和合作遵循Google的人工智能原则。RSC提供了对项目的影响评估、政策、评估和缓解策略的反馈和建议。在Gemini项目中,RSC特别关注了包括儿童安全在内的关键政策领域,设定了评估目标。

7 讨论与结论


Gemini是一系列新型模型,它们在文本、代码、图像、音频和视频等多模态领域取得了进步。

Gemini Ultra模型在自然语言处理和多模态理解方面设定了新的最高标准。在自然语言领域,Gemini Ultra在MMLU考试基准测试上超越了人类专家的表现。在多模态领域,Gemini Ultra在图像、视频和音频理解的基准测试中也取得了优异的表现。此外,作者对Gemini模型在解析复杂图像和多模态序列、生成交织的文本和图像回应方面的新应用前景表示兴奋。

尽管Gemini模型的性能令人印象深刻,但LLMs在高级推理任务上,如因果理解、逻辑推理和反事实推理方面仍存在挑战。这强调了需要更具挑战性和健壮的评估来衡量它们的真正理解,因为目前最先进的LLMs在许多基准测试上已经饱和。

Gemini是我们解决智能、推进科学并造福人类使命的又一步。我们期待看到Google及其他同行如何使用这些模型。

未来的更广泛目标:开发一个大规模、模块化的系统,它将在许多模态上具有广泛的泛化能力。

8 贡献和致谢

这个贡献者名单长达9页,而且还有一整页的分工说明

谷歌确实是很喜欢埋彩蛋

角色分工:

  • 领导(Lead):负责整个项目的子团队的个人。

  • 核心贡献者(Core Contributor):在整个项目中产生重大影响的个人。

  • 贡献者(Contributor):对项目有贡献并在工作中有一定参与的个人。

  • 程序领导(Program Lead):负责Gemini项目的组织方面工作。

  • 总技术领导(Overall Technical Lead):负责整个Gemini项目的技术方向。

(感觉这个角色定义挺好的,下次我写论文也用这个方法好了)

9 附录

附录写的很辛苦的,而且有不少例子,我觉得还是有必要看看的。

9.1 在MMLU基准上的思维链比较

团队提出了一种新的方法,其中模型生成k个思维链样本,如果模型在某个阈值以上有信心,则选择多数投票,否则选择贪婪的样本选择。这些阈值是根据每个模型在验证集的性能上进行优化的。这种方法被称为不确定性路由的CoT(uncertainty-routed chain-of-thought)。

(这不就是结合了一下CoT和Self-Consistency,真的泪目,竟然没有单独发一篇论文而是放在附录,什么时候这么不水了)

这种方法背后的直觉是,当模型明显不一致时,与最大似然决策相比,思维链样本可能会降低性能。(我觉得这种方法的直觉是,尽可能的缝合多数投票)

与仅使用思维链样本相比,Gemini Ultra更多地受益于这种方法。GPT-4的性能从使用贪婪抽样的84.2%提高到使用32个不确定性路由的思维链方法的87.3%。但是值得注意的是,GPT-4的CoT分数和不确定性路由的CoT的得分是一样的。相反,Gemini Ultra的性能从使用贪婪抽样的84.0%显著提高到使用32个不确定性路由的思维链方法的90.0%,而仅使用32个思维链样本的性能略有改善,达到85.0%。(其实我觉得,恰恰是这个实验说明,所谓的不确定性路由很可能不是一个通用的方法,这只是在验证集上进行精心挑选的结果罢了。刷分嘛。)

9.2.能力与基准任务

使用了超过50个基准任务用以综合地测试Gemini模型。

  • 事实性(5个):BoolQ, NaturalQuestions-Closed, NaturalQuestions-Retrieved, RealtimeQA, TydiQA-noContext 和 TydiQA-goldP。

  • 长篇上下文(6个):NarrativeQA, Scrolls-Qasper, Scrolls-Quality, XLsum (英语), XLSum (非英语语言), 以及另一个内部基准测试。

  • 数学/科学(8个):GSM8k (with CoT), Hendryck's MATH pass@1, MMLU, Math-StackExchange, Math-AMC 2022-2023 problems, 以及另外三个内部基准测试。

  • 推理(7个):BigBench Hard (with CoT), CLRS, Proof Writer, Reasoning-Fermi problems, Lambada, HellaSwag, DROP。

  • 摘要(5个):XL Sum (英语), XL Sum (非英语语言), WikiLingua (非英语语言), WikiLingua (英语), XSum。

  • 多语言性(10个):XLSum (非英语语言), WMT22, WMT23, FRMT, WikiLingua (非英语语言), TydiQA (no context), TydiQA (GoldP), MGSM, 翻译的MMLU, NTREX, FLORES-200

  • 图像和视频(9+6个):MMMU, TextVQA, DocVQA, ChartQA, InfographicVQA, MathVista, AI2D, VQAV2, XM3600 (多语言图像理解),以及6个视频理解基准测试:VATEX (两种不同语言的字幕),YouCook2, NextQA, ActivityNet-QA, Perception Test MCQA。

  • 音频(5个):自动语音识别(ASR)任务,如FLEURS, VoxPopuli, 多语言Librispeech,以及自动语音翻译任务,如CoVoST 2。

9.3. 定性示例

以下的实例均来自Gemini Ultra的输出

9.3.1 图表理解和数据推理

可以看到输入的是图表和文本,模型可以根据指示输出Markdown格式的文本。

9.3.2 多模态问答

该模型能够识别图像中显示的特定植物并提供相关信息。而且,模型对拼写错误具有鲁棒性,即使出现拼写错误,它仍能理解用户的问题。

9.3.3 交错式图像和文本生成

以后水文章越来越容易了!

9.3.4 图像理解和推理

模型可以识别图像中的形状,理解它们的属性,并进行推理,以预测下一个对象的出现。

9.3.5 几何推理

模型能够在指令略微不清晰的情况下提供有意义的推理步骤。

9.3.6 对物体进行信息搜索

模型能够识别图像中的物体并确定连接这两个物体的共同特征。

9.3.7 基于视觉线索的多模态推理

即使在图像中存在小的视觉扭曲时,也能识别这些对象。

9.3.8 多模态幽默理解

9.3.9 多语言中的通识推理

(考虑到从这一节开始,原文的章节序号错了,所以我这里直接更正了)

9.3.10 推理与代码生成

9.3.11 数学:微积分

模型可以逐步解决微积分问题,并正确定义LaTeX方程式,同时提供解题过程的解释。

9.3.12 多步推理与数学

模型可以理解任务要求,生成带有正确计算值的Markdown表格。它还明确遵循说明,展示数字的来源,并回答任务中提出的问题。

9.3.13 复杂图像理解、代码生成和指令跟随

Gemini Ultra需要执行逆向图形任务,以推断生成绘图的代码,进行额外的数学转换,并生成相关的代码。

9.3.14 视频理解与推理

模型能够分析视频中发生的事情,并提供关于视频中的行动如何改进的建议。

10 想法

60页的论文是真的,看起来够累的。。


一个很直观的看法:多模态真的要征服一切了!

虽然数据格式还没告诉大家具体的样子,但是目前来看,数据格式至少在工业界的几个公司里面已经得到了统一,接下来就看学术界的了。

这次谷歌对大模型真的是下足本了。可以在这么短的时间做出如此高性能的模型,而且一次性做了好几个。虽然有很多细节仍然没有提到,但是相比起OpenAI,还是Open了很多信息给到大众。

训练一个优秀的大模型,需要考虑数据、模型结构、训练、评估、部署等方方面面。这不是一个简单的工作,某些企业宣传这是一个“简单”的事情,这啪啪打脸,模型不是训出来就可以了的。他们也很难想到,大模型的训练还会和宇宙射线有关呢?

算力,人才,资金的差距是真的一直在拉大。


人工智能领域是真的需要太多人力和资本的投入了。

而且,真的在这个领域摸爬打滚才真的发现,起步艰难,学术很艰难,商业化更艰难。


望吾辈自强,因为可以获得的帮助实在是太少了。


特邀作者:日本早稻田大学计算机系博士  王军杰

文章转载自:https://zhuanlan.zhihu.com/p/670821058


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1