纵览机器学习前生今世，万字整理谷歌首席科学家 Jeff Dean 一小时演讲

作者：CSDN发布时间：2024-03-18

自从 2017 年谷歌发表了题为 “Attention is All You Need” 的重磅论文，其中提出的“自注意力”这一革命性的概念成为 Transformer 模型的核心部分，引领了我们目前正在经历的 AIGC 革命。

然而，当前的大模型领域似乎并不是姓“谷”的，反倒是有种微软一手遮天，谷歌和其他公司在后追赶的感觉。

为什么现在会出现这种“逆转”的情况呢？谷歌现在都做了些什么工作？为了解答这个问题，谷歌首席科学家 Jeff Dean 于 2 月 13 日在美国莱斯大学进行了一场 1 小时 12 分钟的公开演讲，突出展示人工智能和机器学习领域中几个令人振奋的趋势，并介绍了谷歌在人工智能时代的过去、现在与未来所做的工作，还概述了大家都很感兴趣的 Gemini 系列多模态模型。

这场演讲的时间很有意思，因为谷歌随后在 2 月 15 日发布了 Gemini 1.5，然后在同一天被 OpenAI 的 Sora “背刺”了一手，抢尽风头。

要弄懂这场演讲，首先就得了解 Jeff Dean。他于 1999 年加入谷歌，目前担任谷歌首席科学家，专注于 Google DeepMind 和 Google Research 的人工智能进展。他的研究重点包括机器学习和人工智能，以及将人工智能应用于以有益于社会为基础的问题。他的工作对谷歌搜索引擎的多个版本、其初期广告服务系统、分布式计算基础设施（如 BigTable 和 MapReduce ）、TensorFlow 开源机器学习系统以及许多库和开发者工具都产生了重要影响。

Jeff Dean

本文将整理 Jeff Dean 这场演讲的内容（有部分删改），让我们一起看看谷歌在 AI 时代已经做了什么，未来又有哪些计划。

演讲视频地址：https://www.youtube.com/watch?v=oSCRZkSQ1CE&t=1354s

Dean 观察到的“质变”与“增长”

我将为大家介绍机器学习中令人兴奋的趋势。这将是一场广泛而不深入特定领域的演讲，其重点是让你们了解这个领域的发展历程以及其中的激动人心之处。同时我们也需要认识到其中的机遇，以及在为大家构建这项技术时应该注意的事项。

我会分享谷歌许多人的工作，其中有些是我亲身参与并共同撰写的，而有些则是我认为值得大家了解的优秀工作。

让我们从一些观察开始。在近些年，我认为机器学习真的改变了我们对计算机能力的期望。如果回想一下十年前，语音识别技术只能称得上“勉强能用”，但并不是非常流畅，会产生很多错误；计算机对图像并不能做到真正理解，无法从像素水平理解图像中的内容；在语言方面，自然语言处理领域当时已有一些工作，但机器对语言概念和多语言数据的深刻理解并不是很明显。

现在，机器学习已经从那个阶段转变到了一个比十年前的期望更好的状态，计算机已经能够看到和感知到我们周围的世界，而这创造出了更多机会。

让我们想象一下，当动物突然之间进化出眼睛时会发生什么？我们目前在计算领域就有点类似于这个阶段。我们现在有了能够看到和感知的计算机，这是一个完全不同的局面。

AIGC 绘制图片

另一个观察是规模的增长，比如计算资源使用的大幅增加以及专用计算机技术的广泛应用。我注意到数据集在不断扩大，不仅更加丰富多元，而且愈发引人关注；同时，机器学习模型的构建规模也在不断突破以往。这种规模的增长往往能够带来性能上的显著提升，过去 10 至 15 年的发展历程已经对此进行了有力验证：每当我们将规模进一步扩大，无论是解决问题的能力还是结果的准确性，都会实现一个质的飞跃。原本无法触及的精度阈值被逐渐突破，新的功能和应用也随之应运而生，使得以前难以企及的事物变得触手可及。

这种基于全新机器学习范式的计算需求与传统的、依赖于人工编写的复杂 C++ 代码大相径庭，现有的许多 CPU 设计初衷是为了高效运行此类传统代码。鉴于此，为了更有效地执行这类新型计算任务，我们需要寻求不同类型、更为适应的硬件解决方案。

实际上，我们可以通过聚焦于计算机需要执行的一系列更为专一的任务，并针对这些任务优化硬件性能，使其在特定领域内表现出卓越的效率。这样一来，当我们需要扩展规模时，就能够更加便捷且高效地实现这一目标。

计算机技术的十年飞跃

我刚刚应该带大家回想了一下十年前，事实上计算机技术在过去的十年间确实取得了令人瞩目的飞跃，特别是在机器学习和人工智能领域。从图像识别到语音处理、翻译以及生成式模型的运用，这些进步都极大地拓宽了我们与计算机交互的可能性。

计算机视觉、语音识别和自然语言处理技术在过去的十年间取得了令人瞩目的进步。十年前，计算机难以从原始图像像素中准确识别并归类到成千上万的不同类别中，但现在这一任务对它们来说已不再是难题。音频处理方面也有了显著提升，现今的计算机不仅能通过分析音频波形来理解并转写 5 秒内的语音内容，而且语音识别系统的准确率和实时性相较于过去有了大幅提升。

在翻译领域，机器翻译的进步使得诸如将英语的打招呼自动准确地转换为法语这样的任务变得轻而易举，这对于跨越语言障碍、促进全球沟通具有重要意义。

更令人惊奇的是，我们不仅实现了从图像到标签或文本描述的转化，比如能详细描绘出一张猎豹站在吉普车顶的度假照片中的场景，而且还能够逆转这些过程：从一个简单的类别标签生成多样的相关图片，或者根据一句关于温度的描述生成逼真的音频表达，这是文本转语音技术在不断提升后的成果。

此外，还出现了从文本描述生成图像甚至视频剪辑的能力，以及基于文本描述合成特定声音片段的技术，这标志着跨模态理解和生成技术的重大突破。这些能力的出现无疑极大地拓宽了计算机构建和应用的可能性，与十年前的技术水平相比，我们现在可以利用这些先进技术创造出更加丰富多元的应用和服务，前景令人振奋不已。

斯坦福大学推出的 ImageNet 基准测试项目是一个标志性事件，该项目涉及从包含大约一百万张彩色图像及其对应的一千个类别标签的训练数据集中学习，并要求参赛系统对未见过的新图像进行准确分类。在 2011 年首届竞赛中，最佳系统的识别准确率仅为 50.9%。

转折点发生在次年，Alex Krizhevsky 和 Jeffrey Hinton 合作发表了一篇具有里程碑意义的论文，推出了名为 AlexNet 的深度神经网络模型，该模型在比赛中取得了飞跃式的进展，将准确率提高了约 13%，这一突破性成就使得神经网络成为了主流选择。当时，在所有 28 个参赛作品中，只有他们的团队采用了神经网络技术，这标志着一个革命性的转变——从手动设计特征转向直接从原始数据中学习模式，比如如何区分豹子与其他如长颈鹿或汽车等对象，这是手工设计方法难以企及的复杂度。

自那以后，进步的步伐并未减缓。ImageNet 挑战赛中的准确率已经从 63% 跃升至当前的 91%，这一数值甚至超过了人类在此类任务上的平均表现，考虑到有 1,000 多个类别以及诸如 40 多种不同犬种这样细微的区分难度，这样的提升是极其显著的。

与此同时，语音识别技术也经历了类似的增长。以一个广泛应用的开源基准测试为例，衡量标准为词错误率（WER），即错误识别单词的百分比。短短五年内，这项指标从 13.25% 下降到了惊人的 2.5%，意味着原本每六七个词就有一个错误的情况，现在变成了大约四十个词才出现一次错误，极大地提升了语音识别系统的可靠性和可用性，使之能够支持诸如电子邮件口述等实际应用。

此外，技术进步还体现在硬件优化和能效提升上。随着更高效、针对机器学习优化的硬件不断迭代更新，我们在保持相同计算资源消耗或能源使用的情况下，得以构建出质量更高、规模更大的模型，从而推动了计算机设计方式的根本变革。这些不断提升的效率不仅改变了模型的质量，也为未来实现更加经济和节能的人工智能发展奠定了坚实基础。

神经网络的独特优势

神经网络作为广泛应用的机器学习模型，具备两个特别的优势。首先，它对计算精度的要求并不苛刻，在很多情况下，将模型中的浮点运算精度从六位数降低到一到两位数是可以接受的，甚至有助于提升模型的学习效果。某些优化算法会特意引入噪声以增强模型的学习能力，而降低精度在某种程度上类似于向学习过程中添加一定量的噪声，有时候反而能带来更好的训练结果。

其次，神经网络中的大多数计算和算法本质上都是线性代数操作的不同组合，例如矩阵乘法和各种向量运算等。如果能够设计出专精于低精度线性代数运算的计算机硬件，就能够以更低的计算成本和能源消耗构建出高质量的模型。

为此，谷歌研发了张量处理单元（TPU），这是一种专门针对低精度线性代数优化的系统架构。最初的 TPU V1 版本主要用于推断阶段，即当模型已经训练完成并应用于实际产品环境时，比如识别图像内容或语音识别。与当时使用的 CPU 相比，TPU V1 在能耗和计算性能方面实现了 30 至 80 倍的提升。

TPU V2 和 V3 版本不仅提升了单个芯片的性能，还开始关注大规模系统的设计，支持多个芯片协同工作进行模型的训练和推断。其中，TPU V3 采用了水冷技术来提高散热效率，而 TPU V4 则在外形设计上增添了时尚元素，加了一些五颜六色的酷炫电线（观众大笑）——其实还真挺酷的。

这三个迭代版本的芯片设计成能够组装成更大的系统，我们称之为 Pod。

第一代 Pod 的网络结构简单，但带宽高，采用 2D 网格布局，每个芯片与其四个相邻芯片直接相连，确保了高速、低成本的数据传输。随着技术进步，Pod 的规模不断扩大，第二代扩展到了 1,024 个芯片，分布于八个机柜中；而更进一步的版本则利用 64 个机柜，每个机柜有 64 个芯片，提供了超过 1.1 太赫兹的低精度浮点运算能力，共计 4,096 个芯片。

最近公开披露的 TPU v5p 系列有两种型号，一种用于推断，为拥有 256 个芯片的 Pod；另一种 v5p 芯片内存更大、芯片间带宽更高、内存带宽更充足，其 16 位浮点性能接近半 petaflop，并且混合精度性能是其两倍。最大的 v5p Pod 包含了近 9,000 个芯片，可提供 exaflop 级别的强大计算能力，为机器学习和人工智能的发展带来了前所未有的硬件支撑。

语言模型的十五年征程

现在我们来深入探讨语言处理领域。在图像识别和语音识别取得显著进步的同时，我认为语言领域是人们见证计算机能力发生最大变革的领域之一。

2007：自然语言处理中的 N-gram 模型

早在神经网络广泛应用之前，我就对语言模型抱有极大兴趣。我曾与谷歌翻译团队合作，他们构建了一个用于研究竞赛的高质量系统，虽然只能处理少量句子（例如两周内翻译约 50 句话），但可以通过查找大约 20 万条 N-gram 实现高品质翻译。尽管如此，我还是设想将这种高精度翻译应用到实际场景中。

为此，我们建立了一个提供 N-gram 模型服务的系统，统计了超过 2 万亿个标记中每个五个词序列出现的频率，从而产生了大约 3000 亿种独特的五词组合，并将其存储在多台计算机的内存中以并行查询。为了解决数据稀疏问题，我们创新地提出了一种名为“Stupid Backoff”的算法，在找不到匹配 N-gram 时，会逐步尝试查找前缀直至找到合适的词汇序列。

这个经历让我深刻认识到，大量数据只要结合简单技术就可以产生惊人效果。

在我的职业生涯中，一直有类似的经验：只需采取非常简单的策略，就能让数据自身揭示答案。

2013：Word2Vec 模型

随后，我的同事 ‪Tomas Mikolov 开始关注分布式表示的概念，即将单词从离散表示转变为高维向量空间中的连续表示，如使用百维向量来表示不同的单词。

通过训练过程，我们将出现在相似上下文中的单词调整至彼此靠近的位置，并将出现在不同上下文中的单词分隔开来。当在一个相对简单的训练目标下对海量数据进行训练时，使得相似语境下的词向量相互接近、不相似的则远离，就能够在高维空间中发现优秀的特征结构。在这个难以直观理解的百维空间里，类似概念的词语会聚集在一起，例如山、小山丘和悬崖这些词都会相邻。更有趣的是，在高维空间中的方向也具有意义，比如国王与女王之间的向量差值指向的方向大致反映了男性与女性的一般区别。其他诸如动词现在时态到过去时态的变化也有其特定的方向。这些分布式表示蕴含着强大的力量，能在单词的百维向量编码中包含多种类型的信息。

2014：Sequence to Sequence（序列到序列）模型

后来，我的同事 Ilya, Oriol 和 Quoc（编者注：这里面的 Ilya Sutskever 后来成为 ChatGPT 的头号功臣；Oriol Vinyals 加入 Deepmind 成为首席科学家；Quoc V. Le 留在谷歌创造了 LaMDA）开发了一个被称为“Sequence to Sequence”的模型，该模型利用神经网络，其中输入一个英语句子，通过递归神经网络（具体来说是长短时记忆网络）逐词更新状态，形成与先前所见单词对应的分布式表示。

当遇到句子结束标记时，模型被训练输出该句子的翻译结果。在大量双语平行语料上重复训练后，模型能够准确地从英语句子翻译成法语句子。

一年后，Oriol 和 Quoc 进一步发表了一篇研讨会论文，展示了如何在多回合对话中运用上下文信息。借助 Sequence to Sequence 模型，机器可以基于之前多个互动回合的上下文生成恰当回复。

2017：Transformer 问世

之后，谷歌的其他研究人员与一名实习生共同提出了“Transformer”模型，这一创新在于摒弃了传统递归模型的顺序依赖性，转而采用并行处理输入中的所有单词，并通过注意力机制聚焦于文本的不同部分，而非强制单个状态按照顺序处理每一个单词。这不仅大大提升了计算效率，而且在相同计算资源条件下提高了翻译准确性高达 10 到 100 倍。

随着硬件性能的不断提升以及此类算法改进的不断涌现，大规模模型得以发展，变得更加强大。人们开始广泛采用 Transformer 模型替代递归模型，不仅用于翻译任务，还应用于对话式数据的训练，取得了相当优异的结果。评估标准包括回应的恰当性和针对性，确保聊天机器人能针对交互内容给出具体有意义的回答。

2020- ：百花齐放的大模型时代

在这一系列发展中，神经语言模型和神经对话模型日臻成熟，如 Meena、OpenAI 的 GPT 系列，以及谷歌去年发布的 Bard 等。在此基础上，出现了基于 Transformer 架构的大型语言模型项目，如 GPT-3/4，谷歌研究院的 PaLM，DeepMind 的 Chinchilla，谷歌研究院的 PaLM 2 以及由我和我的同事 Oriol Vinyals 共同领导的 Gemini 项目。

在谷歌的多个研究办公室中，有许多团队成员致力于构建强大的多模态模型。一年前启动 Gemini 项目时，我们的目标是训练全球最佳的多模态模型，并在谷歌内部广泛应用。有关 Gemini 项目的更多信息，可以在相关博客和由 Gemini 团队发布的技术报告中查看，我有幸成为该项目的一员，并对此深感自豪。

Gemini：“天生”的多模态大模型

Gemini 项目自始便以实现真正的多模态处理为核心目标。我们不仅局限于文本信息，还致力于整合图像、视频以及音频等多种数据类型。首先，我们将这些不同模态的数据转换成一系列标记，并基于此训练 Transformer 架构的模型。该模型具有多个解码路径：一条路径用于学习生成文本标记；另一条则是通过初始化解码器的状态，利用 Transformer 学到的知识从该状态生成完整的图像像素集合。值得一提的是，Gemini 支持交错式输入序列，比如在处理视频时，可以交替输入视频帧和描述帧内容的文本，或者是将音频字幕嵌入到文本中，使得Transformer能够跨多种模态构建共享的语义表示。

Gemini V1 版本提供了三种不同的规模选择。其中，V1 Ultra 是规模最大且功能最强大的模型；V1 Pro 则适合数据中心部署，适用于各种产品环境；而 V1 Nano 模型专为移动设备优化，能在手机或笔记本电脑上高效运行，进行量化处理后体积更小，适应性更强。（编者注：在这场演讲之后发布的最高配置版本 Gemini 1.5 Pro 支持高达 1,000,000 token 的超长上下文，主打多任务处理。）

关于训练基础设施，我们追求高度可扩展且灵活的架构设计。用户只需指定高级别的计算需求，系统会自动将其映射到可用硬件资源上。我们采用 Pods 的方式组织计算资源，系统能智能决定各个部分的最佳放置位置及芯片间的通信方式，依据高速网络拓扑结构确保高效的数据传输。这样，研究人员和开发者无需关心底层细节，只需关注模型性能特征差异即可。

在大规模模型训练过程中，故障管理至关重要。随着模型规模扩大，机器故障难以避免，如 TPU 芯片过热等。因此，减少人为操作引起的故障并优化修复与升级流程至关重要。例如，在涉及大规模并行计算时，我们会选择同时关闭所有相关机器进行内核升级，而不是逐个更新导致持续故障。此外，我们关注“有效产出”（good put）指标，即模型实际获得有用进展的时间百分比，努力缩短恢复时间以加快整体训练速度。

在训练数据方面，为了打造一个多模态的模型，我们采用了大量多元化的数据集，包括网络文档、各类书籍、不同编程语言的代码以及图像、音频和视频数据。我们运用一系列启发式方法过滤数据，并结合基于模型的分类技术来筛选高质量的内容。

具体做法是，在较小规模模型上使用不同比例的数据混合进行训练，并根据广泛评估指标调整策略，例如增加特定领域的数据占比。此外，我们计划引入更多多语言数据以提升模型的跨语言能力。我们认为，数据质量的研究极为关键且有趣，高质量数据对模型在任务上的表现有着显著影响，有时甚至比模型架构本身更重要。在未来，我们研究的一个重要方向将是模型如何自动学习辨别高质量示例与低质量示例的能力。

惊动 AI 界的“大模型思维链”

我的一些同事曾提出了一项名为“Chain-of-Thought”（思维链）的技术（编者注：此处的同事指曾在 Google Brain 工作的 OpenAI 研究员 Jason Wei，谷歌在 2022 的年度开发者大会上特意对这一研究成果进行过宣传），这种技术与我们小学三年级时数学课上老师的教学方法相呼应。那时，老师总是强调展示解题步骤的重要性，这不仅是为了让老师改卷时了解我们的思考路径，也鼓励了我们学会将复杂问题拆解为更易处理的小步骤。

在向模型提问时，通常我们会提供一个样例问题和相应的正确答案，然后提出新的问题并要求模型作答。举例来说，对于某个数学问题，如果模型仅仅被训练来直接输出答案，可能会得出错误的结果。如下图所示，直接问问题会让模型得出 50 这个错误答案。

然而，当采用思维链的方式时，通过向模型展示逐步的解决过程，比如“肖恩起初有五个玩具，每次获得两个新玩具，所以总数是五个加上四个，等于九个...”，可以使模型被激发，去采取渐进的方式找到答案。说白了，就像幼教一样（观众大笑）。

这种方法使模型有更多的时间去思考并正确解决问题，从而产生了显著的效果。

这展示了同一底层模型在不同规模下的表现差异，面对数学问题时，仅使用标准提示的情况下，模型的解答质量较差。但随着模型规模增大到一定程度后，在应用“思维链”的策略时，准确率就有了大幅提升。

我认为这揭示出一个有趣的科学领域：如何恰当地向这些模型提问，使其不仅能给出可解释的答案，而且更有可能得出正确的结果。

接下来顺着这个话题，我想谈论的是 Gemini 模型中的多模态推理能力。比方说，我们可以给模型提供一个多模态输入，包括一张学生手写的物理问题解决方案图片、相关的问题图片以及关于能量守恒的文字描述；然后，用“思维链”风格要求模型逐步分析这个问题，判断学生的答案是否正确，并在答案错误时指明错误之处及提供正确解答，同时要求在数学部分使用 LaTeX 格式并将最终答案精确到小数点后两位。

接下来，在一个具体的实操案例中，我们输入包含一张手写物理习题解答的照片，以及一幅描绘滑雪者从坡道滑下的图像，附加有关能量守恒的文本说明。

Gemini 的模型分析结果显示，学生在计算坡道起始处的势能时犯了错误，误用了斜面长度而不是高度进行计算。模型给出了纠正后的正确解决方案，并以排版良好的形式呈现出来。

这意味着 Gemini 能够接受复杂的多模态输入并执行所需的推理操作。虽然它并不总能达到预期效果，但它无疑已经具备了这样的潜力。这种能力令人惊叹，完全可以用于教育。设想一下，一名学生拍下自己的解题照片，系统能够帮助他们找出错误并予以修正，或许可以接近实现类似个性化辅导的效果。

在对 Gemini 模型进行评估的过程中，我们发现其在多个特征上都表现出卓越的能力。评估有助于我们识别模型的优点和不足，监测训练进度，并据此决定改进方向，比如当我们发现数学性能低于期望时，可能需要增加数学相关的训练数据。但这样做也可能影响多语言性能，其间存在着许多复杂的权衡。我们在训练初期做出某些决策，同时在线监控并在必要时基于原则或直觉调整策略，以对比和理解模型相对于其他模型的能力差异。

总体来看，Gemini 在研究涉及的 32 项学术基准测试中，于 30 项测试达到了最先进的水平。特别是在针对数学问题、一般推理或文本导向基准等方面，Gemini Ultra 与之前的最先进技术 GPT-4 相比，往往能取得更好的成绩。例如，在八个八年级数学问题上，最先进技术的准确性达到了 90%，而在 MMLU 这样涵盖化学、数学、国际法、哲学等 57 个学科的广泛问题集上，Gemini 的表现甚至超越了人类专家水平。

我想强调的是，评估团队在全面理解并评测这些模型能力方面付出了巨大的努力，他们的工作非常出色，让我们对 Gemini 模型的强大功能有了深入的认识。

不断进化的 AI 图像创作技术

接下来让我们聊一聊 AIGC 模型在图像和视频创作方面的进展。当前有许多模型（如 Parti, Imagen）可以实现根据用户输入的描述自动生成图像，这些模型能够接受对视觉内容的文字提示，通过理解并编码句子的含义，进而生成对应的图像像素。

例如，“一列蒸汽火车穿越一座巨大的图书馆，画面采用伦勃朗油画风格”，或者“由玉米、煎饼、寿司或沙拉材料构成的一条巨型眼镜蛇”——我觉得其中生菜造型的眼镜蛇颇具创意，而玉米材质的也很有趣。

当然，还可以描述出非常细节丰富的场景：“一张客厅照片，内有一张白色的沙发和壁炉，墙上挂着一幅抽象画，明亮阳光透过窗户洒入室内。”

对于演示或其他用途所需的图片，这样的模型可以轻松创建符合要求的内容。甚至可以生成像这样详尽描述的画面：“一张黑白高对比度照片中，一只戴着巫师帽、正在阅读书籍的熊猫骑在马背上，背景为灰色混凝土墙，墙上有彩色花朵和‘和平’字样装饰，照片模拟单反相机日间拍摄效果。”

这种技术现已集成到 Bard 中，伊利诺伊州的 K-12 公立学校机构就利用此功能创造出了他们的吉祥物 Hyperlink the Hedgehog 的各种形象，比如下图这只在 AI 浪潮上冲浪的刺猬。

让我简要概括一下图像生成的工作原理：首先，用户输入提示语，模型基于分布式向量表示来理解句子，然后生成一个小规模的初步图像；接着，另一个专门用于提高分辨率的模型会在低分辨率图像的基础上，结合文本嵌入信息生成更高清的像素；最后再次使用更大尺寸的图像和文本条件，生成完整的 1024x1024 像素的高清图像。

如上图所示，以四个参数量从 350 万至 200 亿不等的模型为例，给它们相同的提示：“一只穿着橙色连帽衫、蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上，胸前挂着一块写着‘欢迎朋友’的牌子。”随着模型参数量的增加，生成结果的质量也随之变化。较小规模的模型能够捕捉到袋鼠的部分特征和橙色元素，以及牌子的存在，但处理文字时稍显吃力。当模型规模增大时，袋鼠的形象更为逼真，也更好地描绘了悉尼歌剧院的大致轮廓，不过细节欠佳，牌子上的文字也未能完美展现。

然而，当达到足够大的规模时，模型能生成包含悉尼歌剧院和清晰袋鼠形象的高质量图像，并准确地展示了“欢迎朋友”（Welcome friends！）的文字。这表明模型规模的重要性，过去十年中规模的扩大以及更好的训练方法和算法的进步，共同推动了生成结果质量的显著提升。

我还观察到另一个不可忽视的重要方向，即机器学习如何悄无声息地融入人们的日常生活，特别是在智能手机应用中发挥关键作用。现代智能手机摄像头功能的巨大提升得益于计算摄影技术和机器学习算法的深度融合。例如，iPhone 的肖像模式利用这一技术实现背景虚化，使前景人物更加突出，为拍摄艺术感十足的人像照片提供了便捷工具。而夜间模式则允许用户在极低光照环境下也能拍出高质量的照片，通过软件处理传感器捕捉到的大量数据，模拟出比实际环境更为明亮的成像效果，这不仅有助于拍摄清晰的星空照片，还支持人像模糊、色彩增强等高级编辑功能，在特定场合下显得尤为实用。

此外，一些手机上的“魔法橡皮擦”功能能让用户轻松移除图片中的特定物体。比如，如果你不希望自己拍的美景中出现某个电线杆或者人群，只需指示系统轻松擦除他们，以保持照片的纯净度。

智能手机上搭载的许多智能服务都聚焦于信息或状态的转化与传递。有时候我们可能不方便接听电话，这时就可以启用由计算机生成语音代答的功能，它会询问来电者的意图，并将通话内容转写为文字供你查看，以便决定是否回拨。这一类“代听”功能在拨打银行客户服务热线时特别有用，可以让 AI 代替人类一直在线等待，并记录对方反馈的信息。

实时字幕功能同样展现了强大的实用性，它可以自动为我们播放的手机视频提供同步的文字转录。当我们身处图书馆或其他安静场所，不想打扰他人时，这个功能就显得格外贴心。

同时，对于视听障碍人士以及需要跨语言交流的用户来说，手机摄像头结合阅读和翻译功能也带来了革命性的进步。只需对准文本或指向屏幕上的内容，手机就能朗读所指内容；如果遇到非母语文本，手机还能帮助朗读并实时翻译，极大地提高了沟通效率和便利性。

机器学习在我们看不见的地方同样发光发热

我在大模型领域观察到的另一个重要发展趋势是将通用模型进一步优化，转化为领域专用模型。

我的一些同事在 PaLM 和升级版的 PaLM 2 模型的研究基础上，取得了一项显著成果。PaLM 2 作为一个通用文本训练模型，经过针对医学数据集（包括医学问题和文章）的深化训练与微调后，产生了 Med-PaLM 模型，并且该模型首次在医学考试中超越了及格线。六个月后，他们又推出了 Med-PaLM 2，在特定医学考试任务上实现了专业级别的表现。这个例子确实证明了先拥有强大的通用模型，再进行领域适应性训练的巨大潜力。

此外，我觉得材料科学是一个极其有趣的领域。在这个领域中，机器学习已经开始深刻影响科研进程。通过自动化探索科学假设空间以及构建快速、高效的模拟器，机器学习正在以前所未有的方式推动材料科学的进步。在某些情况下，机器学习能够生成与人工编码模拟器功能相当但速度却高出几十万倍的模拟工具，这使得科学家能够在短时间内筛选数以百万计的化合物或材料，并发现具有独特性质和潜力的新物质。

DeepMind 等研究团队正致力于研发创新方法，利用图神经网络（Graph Neural Networks，GNN）对潜在材料进行表示，通过结构变异来寻找相邻且可能具备新颖特性的材料结构。结合已知材料数据库中的能量模型，这些研究工作已经成功地自动发现了超过 220 万个新的晶体结构，从而为实验室合成提供了一批具有实际应用前景的候选材料。

在医疗保健方面，机器学习同样展现了巨大的应用潜力。特别是在医学影像分析和诊断上，机器学习技术已经在处理从二维图像到三维医学成像（如 CT 扫描）等各种复杂问题上取得了显著成效。其中，糖尿病性视网膜病变的筛查就是一个重要的应用场景。这是一种如果早期发现并治疗则可有效控制病情的眼科疾病，但如果延误诊断，则可能导致严重的视力损害甚至失明。然而，全球范围内具备解读视网膜图像能力的眼科医生资源有限，难以满足大规模筛查需求。

机器学习在此领域的介入极大地提高了筛查效率和准确性。通过对经过眼科医生标注的视网膜图像数据进行训练，可以构建出与专业眼科医生水平相当的 AI 模型，用于识别视网膜病变的不同阶段。当进一步使用视网膜专家级别的标注数据进行训练时，模型的表现甚至可以媲美经验丰富的视网膜专家。这意味着只需在普通笔记本电脑上配备 GPU，就可以实现与顶级专家同等水平的筛查质量。目前，相关研究机构已经与印度的眼科医院网络、泰国政府以及其他欧洲国家的组织合作，开展大规模的糖尿病性视网膜病变筛查项目。

此外，在皮肤科学领域，机器学习同样大有作为，因为它允许通过简单的照片采集来分析皮肤病症状。部署的相关系统可以基于大量的皮肤科图像数据库，帮助用户判断其皮肤病症状的严重程度和可能的病因，从而为患者提供了初步评估及决策支持。

结语

总的来说，我认为现在是计算机领域极为振奋人心的时代。

我们正见证从手写编码软件系统向学习型系统的转变过程，这些系统能够以多种有趣的方式与世界互动，并与人们进行有趣的交流。

如今，计算机能够处理、理解和生成的媒介类型正在不断扩展，我相信这将使计算机的使用变得更加无缝和自然。很多时候，我们仅局限于键盘输入等交互方式，但现在，我们已具备了以非常自然的方式与计算系统交谈的能力，它们能理解我们的言语表达，并能够根据需求以自然的声音作出回应或生成精美的图像。这一切都让人感到无比激动。

当然，巨大的机遇面前也伴随着巨大的责任。如何推进这项工作，确保其对社会有益，并真正为世界带来积极影响，是我们需要深思并付诸实践的问题。

演讲者 | Jeff Dean

整理 | 王启隆

本文来自微信公众号“CSDN”（ID:CSDNnews），作者：王启隆，36氪经授权发布。