谷歌今天发布了其下一代人工智能模型 Gemini 1.0 版本。Gemini 是谷歌在 CEO 桑达尔·皮查伊(Sundar Pichai)多年的监督和推动下诞生的产物。
图 | 桑达尔·皮查伊(Sundar Pichai)(来源:ANDREAS PEIN/LAIF/REDUX)
皮查伊之前曾负责 Chrome 和安卓,以痴迷于产品而闻名。在 2016 年他以 CEO 身份发布的第一封致股东信中,他预测“我们将从移动优先走向人工智能优先的世界。”自那以后的几年里,皮查伊将人工智能深深融入了谷歌的所有产品中,从安卓设备到云服务。
尽管如此,2022 年在很大程度上是由另一家公司 OpenAI 发布的人工智能所主导的。2022 年推出的 DALL-E 和 GPT-3.5 模型,以及 2023 年推出的 GPT-4,都主导了该行业,并引发了初创公司和科技巨头之间的军备竞赛。
Gemini 是这场比赛中的新选手。这个最先进的系统由谷歌 DeepMind 领导,DeepMind 由杰米斯·哈萨比斯(Demis Hassabis)领导,他将该公司的人工智能团队聚集在一起。你今天可以在聊天机器人 Bard 上体验 Gemini,它将在 2024 年整合到谷歌更多的产品线中。
在 Gemini 发布前夕,我们在谷歌位于美国加利福尼亚州山景城的办公室与皮查伊坐下来讨论了它对谷歌、其产品、人工智能和整个社会意味着什么。
以下采访内容尽可能地还原了皮查伊的原话。为了清晰易读,我们对对话进行了编辑。
《麻省理工科技评论》:为什么 Gemini 令人兴奋?你能告诉我,你所看到的与人工智能相关的全貌是什么吗?它的力量、有用性,以及它将如何融入你的产品?
桑达尔·皮查伊:Gemini 令人兴奋的一个具体部分是,它是一个从零打造的原生多模态模型。就像人类一样,它不仅仅从文本中学习,还会从音频和代码中学习。因此,该模型天生就更有能力,我认为这将帮助我们梳理出新的能力,并为该领域的进步做出贡献。这太令人兴奋了。
还有一点也很令人兴奋,在32个基准中,Gemini Ultra 在 30 个基准上都是最先进的,尤其是在多模态基准方面,即 MMMU 基准,它展示了可观的进展。
令我个人感到兴奋的是,在领先基准 MMLU(大规模多任务语言理解)中,Gemini 突破了 90% 的分数门槛,这是一个重大的里程碑。两年前的技术水平是 30% 或 40%。
所以,要意识到这个领域正在取得多大进展。在 57 个科目中,人类专家大约能达到 89% 的水平。这是第一个超越这个门槛的模型。
我也很兴奋,因为它终于出现在我们的产品中了,开发人员可以利用它。这是一个平台。人工智能是一个影响深远的平台转变,比网络或移动更大。因此,从那一刻起,它也代表着我们迈出了一大步。
《麻省理工科技评论》:让我们从这些基准开始。它似乎在几乎所有方面都领先于 GPT-4,但差距不大。而 GPT-4 当时实现的提升似乎是一个巨大的飞跃。我们是否开始看到一些大型语言模型技术所能做的事情趋于平稳,你认为我们将继续看到巨大的增长曲线吗?
桑达尔·皮查伊:首先,展望未来,我们确实看到了很大的空间。一些基准已经很高了。你必须意识到,当你试图从 85% 提升到更高的水平时,你现在正处于增长曲线的边缘。所以它看起来提升可能不多,但它正在取得进展。
我们也将需要更新的基准。这也是我们研究 MMLU 多模式基准的部分原因。对于其中一些新的基准,目前最好的水平(SOTA)仍然要低得多。前面还有很多进展,规模定律仍然有效。随着我们把模型做得更大,将会有更多的进展。当我从全局的角度审视它,我真的觉得我们才刚刚开始。
《麻省理工科技评论》:我想知道,你认为 Gemini 有哪些关键突破,以及它们将如何应用。
桑达尔·皮查伊:人们很难想象会发生什么样的飞跃。我们正在提供 API,人们会以非常深入的方式想象它。
我认为多模态会很重大。当我们教这些模型进行更多的推理时,就会有越来越大的突破,更深入的突破还在后头。
思考这个问题的一种方法是 Gemini Pro。它在基准测试中表现非常好。但当我们把它用在 Bard 上时,作为一个用户,我能真切地感觉到它。我们一直在测试它,所有类别的数据都大幅上升。这就是为什么我们称之为 Bard 迄今为止最大的升级之一。
当我们把两种 Bard 放在一起进行盲评估时,使用了 Gemini 的版本展示出了优异的表现。因此,你可以使这些更好的模型在基准上得到改进。它取得了进展。我们将继续训练,并从中学习。
但我迫不及待地想把它放在我们的产品中。这些模型非常强大。实际上,在接下来的几个月里,(继续)设计产品体验以利用所有模型的优势,这将是令人兴奋的。
《麻省理工科技评论》:我相信 Gemini 的发布背后有着巨大的压力。我很好奇你从 GPT-4 的发布中学到了什么?在那段时间,哪些方法发生了改变?
桑达尔·皮查伊:至少对我来说,学到了这样一件事:这远非零和游戏。想想向人工智能的转变有多影响深远,我们还在多么早期的阶段。前方充满了机遇。
但对于你的具体问题,这是一个我们都在共同进步的富饶领域。它有科学元素,也有学术元素。我们看到了像 GPT-4 这样的模型是如何在现实世界中工作的。我们已经从中吸取了经验,意识到安全是一个重要领域。
因此,我们根据模型在现实世界中的运行情况,学习并改进了一些安全技术,用在了 Gemini 上面。它展示了微调等各种操作的重要性。
我们在 Med PaLM 2 中展示的一件事是,采用像 PaLM 这样的模型,将其真正微调到特定的领域,让它优于最先进的模型。这就是我们认识到微调的力量的一种方式。
当我们在努力创造 Gemini 时,其中很多经验都得到了应用。我们之所以选择花更多时间在 Ultra 上(即 2024 年才推出的更高级版本的 Gemini),部分原因是为了确保我们对其进行严格的安全测试。但我们也在对其进行微调,以真正梳理其功能。
《麻省理工科技评论》:你也看到了,有些模型发布后,当人们开始在现实世界中随意使用它时,它们会产生幻觉,或者透露出模型训练时使用的一些敏感数据。我想知道,考虑到训练所用的数据,如果这是不可避免的,那么其中有多少是人工智能大模型技术固有的?如果这是不可避免的,你会尝试做什么来限制这种情况?
桑达尔·皮查伊:你说得对。这些都是活跃的研究领域。事实上,我们刚刚发表了一篇论文,展示了如何通过一系列提示(prompt)来揭示这些模型的训练数据。
幻觉并不是一个已解决的问题。我认为我们都在这方面取得了进展,还有更多的工作要做。我们需要克服一些基本的局限性。一个例子是,如果你以 Gemini Ultra 为例,我们正在积极地将这些模型与使用它的外部第三方团队进行红队测试,这些第三方是这方面的专家。
在像多模态这样的领域,我们要胆子大,同时我们也要负责任。我们将更加小心多模态的推出,因为出现错误用例的几率更高。
但你是对的,因为这仍然是一项正在进行中的技术,这就是为什么它们不会做对所有事情。这就是为什么在搜索中,我们对如何使用它、何时何地使用它以及何时触发它更加谨慎。它们具有这些惊人的功能,但也有明显的缺点。这是我们所有人面临的艰巨工作。
《麻省理工科技评论》:你认为这个问题最终会被解决吗?幻觉,还有其他训练数据的泄露?
桑达尔·皮查伊:对于目前的自回归大语言模型技术,幻觉并不是一个可以解决的问题。但未来的人工智能系统可能不像我们今天所拥有的这样,现在我们看到的只是该技术的一个版本。
这就像人们曾认为口袋里装不下电脑一样。20 年前,有些人真的很固执己见。同样的,看着现在这些系统,然后说你无法设计出更好的系统。
我不同意这种观点。已经有许多研究探索正在进行中,以思考如何解决这些问题。
《麻省理工科技评论》:你谈到了这是一个多么深刻的转变。在最近的一些转变中,比如向移动端的转变,它并不一定能提高生产力,而生产力已经在很长一段时间内保持不变了。我认为有一种观点认为,这甚至可能加剧了收入不平等。谷歌正在做什么样的工作来确保这种转变对社会更广泛地有益?
桑达尔·皮查伊:这是一个非常重要的问题。我会从几个层面来思考它。在谷歌,我们一直关注的一件事是:我们如何让技术访问尽可能广泛?
所以我认为,在向移动设备转变的例子中,也就是我们在安卓系统上所做的工作,我们让数亿人获得了访问计算机的途径。我们正努力推动价格合理的智能手机,价格可能在 50 美元以下。
因此,让人工智能对每个人都有帮助是我思考的框架。你试图让尽可能多的人接触到它。我认为这是重要的一部分。
我们正在深入思考将其应用于可以造福于人们的用例。例如,我们之前之所以进行洪水预测,是因为我们意识到,人工智能可以检测规律并做好这件事。我们正在用它翻译 1000 种语言。我们现在正努力将小语种的内容以其他语言呈现,不然你可能都见不到这些语言。
这并不能解决你所说的所有问题。但我们一直都在关注,如何慎重考虑何时何地,你将关注什么样的问题。以 AlphaFold 为例,我们建立了一个世界各地病毒的开放数据库。
但是谁先用它?它能用在哪里?人工智能不会神奇地让一些更困难的问题变得更好,比如不平等,它甚至可能会加剧这种情况。
但重要的是,你要确保技术对每个人都可用。你早早地开发了它,让人们接触到它并参与对话,这样社会就可以思考并适应它。
在这项技术中,我们参与的时间肯定比其他技术更早。你知道,最近的英国人工智能安全论坛,还有在美国与国会和政府合作。我们正在努力建立更多的公私合作关系,更早地引入非营利和学术机构。
对就业等领域的影响需要深入研究,但我确实认为会有惊喜。当然,会有令人惊讶的正外部性,也会有负外部性。解决负外部性不是一家公司能做到的,这是社会中所有利益相关者的角色。所以我没有一个简单的答案。
我可以给你举很多移动带来好处的例子。我认为这也是事实。我们已经在糖尿病视网膜病变等领域进行了研究,因为世界上许多地方没有足够的医生来检测这种疾病。
就像我觉得让世界各地的人们使用谷歌搜索会产生积极的影响一样,我认为这就是扩大人工智能访问的方式。
有些进步显然会让人们更有效率,编程就是一个很好的例子。然而,这项技术的民主化正是威胁就业的因素。
即使一家公司不能解决所有的社会问题,当然,解决社会问题也不只是一家公司的责任,它也可以推出一款能够极大地改变世界并产生深远影响的产品。
我们从未提供面部识别 API。但人们构建了 API,技术因而向前发展。因此,技术也不在任何一家公司手中。它总是会向前发展。
我认为答案比这更复杂。社会本身也可能被落下。如果你不采用这些技术,可能会影响你的经济竞争力,你可能会失去更多的工作。
我认为正确的答案是负责任地部署技术并取得进展,思考它可能造成不成比例伤害的领域,并努力减轻伤害。新的工作种类会出现的。如果你看看过去的 50、60 年,麻省理工学院的经济学家们研究表明,大多数新创造的就业机会都是那之后出现的新领域。
新的工作岗位将会涌现,有些工作会变得更好,一些重复性的工作会被解放,你可以更具创造性地表达自己。
你可以是医生,你可以是放射科医生,你也可以是程序员。你花在日常任务上的时间与更高层次的思考时间的比例会改变,所有这些都可能改变,使工作更有意义。还有一些工作可能会被取代。那么,从社会的角度而言,我们如何对人们进行再培训、技能重塑并创造机会呢?
《麻省理工科技评论》:2022 年,在我们应该如何对待人工智能这一问题上,人们产生了哲学上的分歧。你可以相信它要追求安全第一,商业用例第一,或者变成一个加速主义者与末日论者。你所处的位置是,你必须弥合所有这些哲学,并将其结合在一起。谷歌将成为这一领域的领导者,我想知道,你个人对如何将谷歌的这些利益连接到这个新世界有何看法。
桑达尔·皮查伊:我是一个技术乐观主义者。基于我的个人经历,我一直相信人和人性。因此,总的来说,我认为人类将利用技术来造福人类。所以我一直是个乐观主义者。你是对的,像人工智能这样强大的技术有其双重性。
这意味着我们有时会大胆前进,因为我认为我们可以推动最先进的技术。例如,如果人工智能可以帮助我们解决癌症或气候变化等问题,你就想竭尽全力快速前进。
但你肯定需要社会制定框架来适应它,无论是深度伪造还是工作岗位流失等问题。这将是一个前沿领域,与气候变化没有什么不同。这将是我们在未来十年所面临的最大问题之一。
《麻省理工科技评论》:另一个悬而未决的大问题是人工智能的法律环境。还有关于公平使用的问题,关于保护产出内容的问题。这对知识产权来说似乎是一件大事。你如何告诉使用你产品的人,让他们有安全感,他们所做的不会让他们被起诉?
桑达尔·皮查伊:这些话题并不都会有简单的答案。当我们构建产品时,比如搜索和 YouTube,以及前人工智能时代的东西,我们一直在努力实现正确的价值交换。
这对人工智能来说也没什么不同。我们绝对专注于确保我们能够在符合法律的情况下,根据允许训练的数据进行训练,让人们有机会选择让自己的数据不被用来训练。然后就是关于什么是合理使用。
为原创内容的创作者创造价值是很重要的。这些都是重要的领域。互联网就是一个例子,或者当电子商务兴起时,你如何在电子商务和常规商业之间划清界限?
随着时间的推移,会有新的法律框架发展起来,我想这就是我在这个领域发展时的想法。但与此同时,我们将努力站在法律的正确一边,确保我们与当今许多内容提供商建立深厚的关系。
有些领域存在争议,但我们正在努力解决这些问题,我致力于解决这个问题。我们必须创造一个双赢的生态系统,让这一切随着时间的推移而发挥作用。
《麻省理工科技评论》:人们现在非常担心搜索的未来。当你有一种技术可以根据网络上的信息为你回答问题时,人们担心用户可能不再需要访问这些搜索网站。这似乎也可能对谷歌产生影响。我还想知道,你是否在从自己的业务角度考虑这个问题。
桑达尔·皮查伊:我们在搜索中的一个独特价值主张是,我们帮助用户发现和学习新事物,找到答案,但始终以与他们分享网络上存在的丰富性和多样性为目的。即使我们创建了生成式搜索体验,这个主张也是一样的。这是我们开发产品的一个重要原则。
我不认为人们总是在搜索时说:“给我一个答案就够了。”可能有一两个问题是这样的,但即使是这样,你也会学到更多,甚至在这段旅程中,会走得更远。我们一直想确保我们做对的事,我认为这不会改变,重要的是我们要在这方面取得平衡。
同样,如果你深度交付价值,那么你所交付的东西也有商业价值。从桌面到手机,我们都遇到过这样的问题。
这对我们来说并不新鲜。根据我们所看到的一切以及用户对高质量广告的反应,我觉得很好。YouTube 是我们开发订阅模式的一个很好的例子。这也很有效。
《麻省理工科技评论》:随着这些产品开始真正进入市场并开始互动,你认为 2024 年人们的体验将如何改变?他们的经历将如何改变?
桑达尔·皮查伊:我认为一年后,任何开始在谷歌文档中工作的人都会期待一些不同的东西。如果你让他们用新版谷歌文档,然后再回溯到旧版,他们会发现它已经过时了。
这就像,对于我的孩子而言,如果文档软件中没有拼写检查,他们从会认为这个软件坏了。你和我可能还记得在拼写检查出现之前,我们使用这些产品是什么体验。
但与任何其他公司相比,我们在搜索中引入了如此多的人工智能,人们认为这是理所当然的。这是我随着时间的推移学到的一件事:他们会认为这是理所当然的。
就人们可以做什么新事情而言,随着我们开发多模态能力,人们将能够以以前无法实现的方式完成更复杂的任务,而且会有更强大的真实用例。
作者简介:马特·霍南(Mat Honan)是《麻省理工科技评论》的主编。加入《麻省理工科技评论》之前,马特在 BuzzFeed News 任职,他在那里担任执行编辑,并推出 BuzzFeed 新闻技术服务台,他的团队在那里获得了波尔克奖、利文斯顿奖和普利策奖。霍南也曾是《连线》杂志的专栏作家和资深作家,20 多年来一直报道科技行业。
支持:Ren