当前位置:首页|资讯|数字人|英伟达|OpenAI|深度学习|ChatGPT

黄仁勋:未来自己会以数字人形式永生,这是首先要交给机器人做的事

作者:搜狐科技发布时间:2024-07-30

出品 | 搜狐科技

作者 | 梁昌均 王一鸣

北京时间7月30日凌晨,在美国当地时间举办的SIGGRAPH上,英伟达CEO黄仁勋(Jensen Huang)和《连线》资深撰稿人 Lauren Goode(劳伦·古德)进行了一场炉边谈话,探讨了生成式AI有关的技术、伦理和未来发展趋势等。

黄仁勋首先回顾了计算机行业的一些关键时刻,称英伟达所做的一切背后都是加速计算。他提到2012年英伟达开始研究深度学习,2016年为此建造了第一台计算机DGX-1,并交给了OpenAI,其在2022年推出的ChatGPT则是革命性的产品。

“现在生成式AI已成为可能,这真的是一个革命性时代,几乎每一个行业都将被改变。”黄仁勋表示,科学计算、内容创作、工业可视化、机器人和自动驾驶等都将被生成式AI改变。

同时,他认为,生成式AI正推动向软件3.0迈进。“未来每个研究员不是使用机器学习来学习新的AI,基础模型已经预训练好,开发软件的方式可能会非常像组建一个由各种AI能力的专家组成的团队。”

关于AI的幻觉问题,黄仁勋表示,GPT的强化学习人类反馈,且只会专注于被训练去做的事情,以及检索增强生成的能力,这三个组合使文本能够做到更加有用和可控。

对于图像或视频而言,黄仁勋表示,英伟达创建了一种方式,能够通过更多的条件来控制和对齐,Omniverse也可以组合不同模态的数据和内容,并可以控制它,可以改变姿势,可以改变位置,背后是3D增强生成技术的突破。

“我认为可能会看到的是,现在的生成式AI将比以前更容易控制。”黄仁勋表示,使用Omniverse和生成式AI可以更好地控制生成的图像并减少幻觉,这两种工具都帮助提高生产力,很有可能将改变所有的工作方式。

他认为,未来每个人都将有一个AI助手,公司中的每一个工作都将有AI作为助手,都会被AI增强。“没有AI,Hopper就不可能实现;没有AI,Blackwall就不可能实现。”他还透露,这周英伟达正在交付Blackwell的工程样品。

黄仁勋还宣布推出数字代理微服务——AI数字人。“它有能力说话,与你进行眼神接触,以一种有同情心的方式进行动画制作。”

对于由此产生的伦理问题,比如让人们开始会误以为AI是人类的问题,黄仁勋回应称,数字人技术已经非常逼真,但大家都知道它仍然是一个机器人,所以这并不可怕。

黄仁勋还强调,英伟达一直是一家软件公司,因为加速计算需要设计加速器、编写代码等来实现。“通过重新设计整个堆栈,可以将应用程序加速20倍、40倍、50倍、100倍。”

他提到,在过去的时间里,已经将深度学习加速了100万倍,这就是现在有可能创建这些大型语言模型的原因,而成本和能源减少100万倍使通用的生成式人工智能成为可能。

面对技术调整和市场竞争,当被问到“是什么让你夜不能寐”时,黄仁勋感叹建立一家公司真的很难。

“通用计算是最简单的方式,我们已经这样做了60年,为什么不继续这样做呢?”他认为,加速计算只有在提供非凡的速度提升时才成为可能,而每一次开拓新市场,都要重新发明所有的计算。

对于生成式AI带来的能耗问题,黄仁勋表示,加速计算可以帮助节省大量的能源,且生成式AI具备记忆能力,减少了通过网络运行到数据中心检索并将其带到网络上所需的能量。最后,AI并不关心它在哪里训练,未来需要把数据中心转移到更靠近能源过剩的地方。

对于开源的问题,黄仁勋强调开源很重要。“如果没有开源,所有行业和所有公司如何能够参与人工智能,这使人工智能的大众化成为可能。”

他还表示,下一波AI浪潮是物理AI,英伟达为此建立了三台计算机,这些计算平台将共同推动全球开发者进入物理AI驱动的人形机器人的时代。

在对话最后,黄仁勋还表示,绝对会有一个Jensen人工智能。“我曾经说过的每一句话,我曾经写过的每一个字,以及我曾经做过的任何事,都可能会被吸收到这些生成式AI模型中。我希望这会在未来发生,这是我首先要交给机器人去做的事情。”

以下是对话实录(经删减整理)

Lauren:SIGGRAPH从1974年开始,英伟达今天在这里的意义是什么?

黄仁勋:SIGGRAPH过去是关于计算机图形的,现在它是关于计算机图形学和生成式AI。我们都知道英伟达的旅程,它开始于计算机图形。我做了一幅关于我们旅程的漫画,这些都是计算机行业中最重要的时刻。

IBM系统360,现代计算的发明,1975年的Utah teapot,1986有了可编程着色处理,否则大多数动画电影都不可能完成。1993年,英伟达成立,1995年的Windows彻底改变了个人电脑行业,让每个家庭和每张办公桌上都有一台多媒体个人电脑。2001年我们发明了第一个可编程着色处理GPU,这推动了英伟达的事业。

我们所做的一切都是为了加速计算,通过创建一种计算模型,可以增强通用计算,这样就可以解决普通计算机无法解决的问题。我们首先选择的应用程序是计算机图形学,计算机图形学属于计算密集型。

自从计算机图形学诞生以来,实际上就需要超级计算机来绘制一些原始场景。所以我们长期以来一直致力于加速计算,推广CUDA到每个GPU,与应用程序兼容,这是一个伟大的决定。

2012年我们第一次接触了人工智能AI,它是计算机视觉领域的一个突破,核心是深度学习,它是一种编写软件的新方法。我们改变了公司的一切,从处理器到系统,到软件堆栈,所有的算法,图像基础研究转向深度学习。我们为深度学习构建的第一台计算机DGX-1,它为自动驾驶汽车和机器人等建立模型,可以做到人工智能生成图形。

Lauren:你在去年的SIGGRAPH主题演讲中提到RTX光线追踪极限是计算机图形遇到人工智能的重要时刻之一,RTX在2018年的重要性是什么?

黄仁勋:2018年英伟达发布了RTX,它是世界上第一个实时、交互式光线跟踪平台。这是计算机图形遇到人工智能的重要时刻之一。它通过并行处理器来计算光线追踪,但一开始光线追踪大约是每秒只有10帧,分辨率是1080P。

现在有了DLSS,它可以通过渲染一个像素,同时使用人工智能来推断其他像素。现在我们能够以4K的分辨率,以每秒300帧的速度渲染光线跟踪,拥有完整的路径跟踪模拟,这完全由人工智能实现。

来到了2022年,ChatGPT问世,它是革命性的,是AI历史上增长最快的服务。自从ChatGPT发布以来,行业研究人员已经想出了如何使用人工智能来学习一切,不仅仅是单词,而是学习图像和视频的含义,以及三维化学、蛋白质、物理、热动力学、流体动力学、粒子物理。

生成式AI已经成为可能,这是一个革命性的时代,几乎每个行业都会受到影响。无论是科学计算,试图用更少的精力更好地预测天气,增强创作者生成图像或为工业数字化生成虚拟场景,还是机器人技术,自动驾驶汽车都将被生成式AI改变。

现在我们的机器正在学习如何编写软件,编写人类无法解决的问题的软件,我们以前几乎无法想象。Andrej Karpathy开发了机器学习软件2.0,现在正在向软件3.0发展。你可能会从预先训练的模型开始,开发软件的方式很像是由具有各种人工智能能力的专家组成的团队,有些人使用工具,有些人能够生成特殊的东西,它是通用人工智能,它非常擅长推理。

Lauren:在使用这些工具时会产生幻觉和低质量的输出,同时消耗了大量的能量。你为什么对此如此乐观?你认为是什么为我们指明了方向,让生成式AI变得更加有用和可控?

黄仁勋:ChatGPT的重大突破是RLHF(强化学习人类反馈),这是一种使用人类来产生正确答案或最佳答案的方式,以使人工智能与我们的核心价值保持一致,或使我们的人工智能与我们希望它执行的技能保持一致。它也只会专注于它被训练去做的事情,而第三个突破被称为检索增强生成,一切都被矢量化,在AI响应之前,它会从矢量数据库中搜索适当的内容,然后在生成过程中增强,这三个组合确实使文本做到这一点。

现在真正酷的是如何使图像做到这一点。英伟达正在创建的一个二维文本到二维的多模态人工智能模型,我们与Getty合作,使用他们的数据库来训练一个人工智能模型。你可以使用提示符并生成图像,但你很难控制这种提示,它可能会产生幻觉,可能生成一种不完全是你想要的效果。单词是非常低的维度,它的内容是极度压缩的,现在很难控制图像。所以我们创造了一种方法,我们可以更好地控制和调整更多的条件。

我们有AI Foundry,其他企业可以跟我们一起合作创建模型,他们提供数据,生成自定义AI模型。我们现在使用Prompt,生成一个3D模型,我们把它放在Omniverse中。Omniverse是一个可以合成数据和内容的地方,它可以是3D人工智能,可以是动画,可以是材料。我们使用Omniverse来组合所有这些多模态数据,从而可以实现控制,你可以改变姿势、位置,使用Omniverse中的图像进行调节。

Lauren:AI可能正在取代人类所做的某些事情,这对我的工作意味着什么?你认为界限是什么?

黄仁勋:这就是工具的作用,我们发明工具,工具要么助力我们的工作,要么与我们合作,这样我们就让我们更好地去工作,甚至会成就更大的事业,做以前不可能做的事情。你会看到的是生成式AI会更可控,我们通过使用RAG、检索和增强生成来控制,同时文本生成能有效地减少幻觉。

Omniverse和生成式人工智能可以更好地控制图像并减少幻觉,这两种工具都可以帮助我们提高工作效率,做一些我们无法做的事情。这样的工具不仅仅对于艺术家来说,我想说的是,很可能我们所有的工作都会改变。

未来每个人都会有一个AI助手,每一项工作都会有AI来协助人来完成,就像软件程序员有AI帮助他们编程一样。没有AI,Hopper是不可能的;没有AI,Blackwell是不可能的。

我们本周在这里宣布的一件事是数字代理的概念,AI数字任将增强公司中的每一个工作,其最重要的用例之一是客户服务。我们创建了客户服务,基本上是一个微服务,它位于云端。

一个数字人前端基本上是一个IO,它有能力说话,与你进行眼神接触,以一种有同情心的方式进行动画制作,你可以选择将你的ChatGPT或你的AI连接到数字任。你可以与AI聊天,它生成文本,然后将文本转换为语音,这个语音再驱动面部动画,然后通过RTX路径追踪,这就是数字人的渲染。所有这些技术都可供开发者使用,你可以选择你想要使用的部分。

Lauren:你如何看待这个事情的伦理问题?这些技术正在被推向世界,你认为一个非常像人类的聊天机器人,应该表明它是一个聊天机器人吗?它是如此像人类,以至于人们会误以为它是人类。

黄仁勋:它仍是相当机械的,我认为我们已经让数字人技术变得非常逼真,但你和我都知道它仍然是一个机器人,所以我认为这并不可怕。在许多不同的应用场景中,人类的参与比对话的文本框更吸引人,可能有人需要陪伴,医疗保健需要给门诊病人提供建议,帮助老年人,需要家教来教育孩子。所有这些不同的应用场景都更适合有一个更像人类的人,能够与之建立联系。

Lauren:这些都是软件开发,它们依赖于你的GPU,但最终是软件。同时,还有一些公司,在软件和云服务方面正在寻求更深入地进入底层,可能正在开发自己的芯片,软件战略对英伟达保持其领先地位并实现增长的承诺有多重要?

黄仁勋:我们一直是一家软件公司,因为加速计算不是通用计算。通用计算可以运行任何C语言或C++程序、Python,几乎每个人的程序都可以编译并有效运行。

不幸的是,当想要加速流体动力学时,你必须理解流体动力学的算法,必须设计一个加速器,必须设计GPU上的代码,使其可以理解算法,以便能够很好地加速它。这样做的好处是,通过重新设计整个堆栈,我们可以将应用程序加速20倍、40倍、50倍、100倍。例如,我们刚刚将英伟达 GPU放入GCP中运行Pandas,这是世界上领先的数据科学平台,我们加速了50到100倍,超过了通用计算。

在过去的时间里,我们已经将深度学习加速了100万倍,这就是现在有可能创建这些大型语言模型的原因,成本和能源减少100万倍使通用的生成式人工智能成为可能。

通过设计新的处理器、新的系统张量核心GPU,NVLink交换机结构,是完全突破性的AI,当然系统本身、算法、分布式计算库我们称之为Megatron,每个人都使用Tensor RT L1,这些都是算法。如果你不理解算法,应用程序就很难弄清楚如何设计整个堆栈。

Lauren:英伟达未来的软件生态系统中最重要的部分是什么?

黄仁勋:每一个领域都需要一个新的库,我们称之为DSL,领域特定库。在生成式AI中,DSL叫做cuDNN。对于量子仿真叫做CuQuantum,计算光刻使得我们能够帮助行业推进下一代工艺技术。库的数量不断增加,每一次我们引入一个领域特定库,都将加速计算进入到一个新的市场。它需要这种合作,库的完整堆栈、架构、市场推广以及围绕它的开发者和生态系统,才能开辟一个新的领域。所以这不仅仅是构建加速器,还必须构建一个完整的堆栈。

Lauren:你对未来的探索,你的创新取决于很多事情,必须继续推动物理定律的极限,也总是有竞争对手在紧追不舍,是什么让你夜不能寐?会继续向你预计的乐观方向发展吗?

黄仁勋:对我来说,建立一家公司真的很难,事情也从来没有向我们的方向倾斜,必须有意识地将未来变为现实的加速计算。世界需要通用计算,因为它很容易,只需要拥有软件,它每年运行速度提高两倍,每五年提搞10倍快,每十年提高100倍,有什么不好的?当然,你可以缩小一个晶体管,但你不能缩小一个原子,最终CPU架构走到了尽头。所以它不再有意义了,因为技术没有给我们带来飞跃。但加速计算擅长一切,可以擅长这些不可思议的事情,从深度学习到量子模拟,到分子动力学,流体动力学,再到图形计算学,所以我们创建了这种加速计算架构来做到这一点。

但这是一场逆风战斗,因为通用计算是最简单的方式,我们已经这样做了60年,为什么不继续这样做呢?所以加速计算只有在提供非凡的速度提升时才成为可能,当能源变得越来越稀缺,当不再仅仅依赖CPU曲线时,我们需要另一种方法。但几乎每一次我们想要发展的时候,就必须去学习它。这就是为什么我们正在研究机器人技术和自动驾驶汽车的原因,打开这些市场要理解必要的算法,并理解下面的计算层,这样我们才能提供非凡的结果。每一次我们开拓一个新市场,医疗保健,数字生物学,都要求我们重新发明所有的计算。

Lauren:生成式人工智能要消耗大量的能源,有数据称数据中心未来十年消耗全球能量的占比将达到6%,你认为未来是否有足够的能量来满足你想要做的事情的需求?

黄仁勋:首先有两三个或三四个模型制造商正在向前沿推进,今年可能有三倍多,但仍然是非常高的个位数,就算10家,而且这些模型的规模,每年增加一倍,可能比这更快。为了训练一个规模是原来两倍的模型,需要的不仅仅是两倍的数据,计算负载每年可能增长四倍。

这就是为什么Blackwell如此备受期待的原因之一,因为我们使用相同的能源加速了应用程序。这是一个在恒定能源、恒定成本下加速应用程序的例子,它越来越便宜。

世界上有很多公司,他们的数据中心遍布各地,英伟达向很多公司和很多不同的数据中心销售GPU。那么核心发生了什么?实际上正在发生的第一件事是CPU拓展结束和加速计算的开始。世界各地的数据中心,它们都在转移,每个人都在从CPU转向加速计算,因为他们想要同样的能量。加速计算可以帮助节省大量的能源,20倍,50倍,并进行相同的处理。

我们首先要做的是尽可能加速每一个应用程序,如果你正在进行Spark数据处理,用加速的Spark运行它,这样你可以减少20倍所需的能源。如果你正在进行SQL处理,进行加速的SQL处理,这样你可以通过减少20倍的功率。所以如果你正在进行天气模拟,或者无论你正在进行什么样的科学模拟,用GPU可以加速它。很多这些应用程序过去都是在CPU和通用计算上运行的,所有这些都应该加速计算。

现在正在发生的第一件事就是减少世界各地使用的能源量,我们的GPU密度和加速计算的密度更高,能源密度更高,但使用的能源量显著降低。生成式AI的能源消耗,可能占世界能源的1%左右。但即使数据中心消耗了4%的世界能源,生成AI的目标不是训练,而是推理,理想情况下我们创建新模型来预测天气,预测新材料让我们优化我们的供应链,减少能源消耗和浪费汽油,所以目标实际上是减少96%的能源消耗。因此非常重要的是,必须从纵向的角度考虑AI。AI客观上将提高生产力,它将使我们能够发现新的科学,而且会更加节能,这就是加速计算。

生成式人工智能的影响的第二件事是记忆,传统的计算方式被称为基于检索的计算,一切都是预先录制的,所有的图像、视频都是预先录制的,一切都存储在数据中心的某个地方预先记录。生成式人工智能减少了通过网络运行到数据中心检索一些东西并将其带到网络上所需的能量。数据中心并不是唯一消耗能源的地方,世界上的数据中心只是总计算的40%。60%的能量消耗在互联网上,移动电子、移动比特和字节。生成人工智能将减少互联网上的能源数量,因为我们不必去检索信息,可以在现场生成信息,因为我们了解上下文。我们可能在设备上已经有了一些内容,可以生成响应,这样就不必去检索它。

最后,人工智能并不关心它在哪里训练。今天的数据中心建在社会所在的电网附近,因为那是我们需要它的地方。未来会看到数据中心在世界上不同的地方建立,那里有多余的能源,只是要花很多钱,也许是在沙漠里,也许是在有很多可持续能源的地方,那里水也很充足,我们可以把数据中心放在人口较少而能源较多的地方。还有很多来自太阳的能量,世界上有很多能源。所以我们需要做的是把数据中心移到更靠近能源过剩的地方,而不是把所有东西都放在人口附近。

Lauren:我想问你开源的问题,我知道你将会和马克·扎克伯格谈论这个问题。

黄仁勋:开源真的很重要,如果没有开源,所有行业和所有公司如何能够参与人工智能。今天都在用Llama 2,Llama3.1刚出来,人们对此非常兴奋。这使人工智能的大众化成为可能,并让每一个行业都参与到人工智能中来。

我想说的是,第一次浪潮是加速计算,减少能源消耗,让我们能够满足持续的计算需求,而不是让能源继续增长。所以加速一切,它使生成AI成为可能。

生成式AI我们知道有许多先驱,OpenAI、Anthropic、谷歌、微软、xAI,很多了不起的公司都在做这件事。我们希望我们能够给每一个企业创造他们自己的AI的能力,所以每个人都会被增强,并有一个协作的AI,可以赋予他们权力,帮助他们做得更好。

下一波AI之后被称为物理AI,我们将需要三台计算机,一台计算机来创建AI,另一台计算机来模拟AI,两者使用合成数据生成,第三台是实际运行AI的计算机。这是一个三台计算机的问题,是一个三体问题,它非常复杂。我们为此创建了三台计算机,在每一台计算机中,无论你想使用软件堆栈,算法,还是仅仅是计算基础设施,仅仅是机器人的处理器,运行的功能安全操作系统,以及AI和计算机视觉模型或仅计算机本身,都是开放的。物理AI的时代已经到来,这些计算平台共同推动全球开发者进入物理AI驱动的人形机器人的时代。

Lauren:人们正在创造真正令人惊叹的数字媒体,你正在用你的技术加速它。未来人们对文件、格式、档案的访问以及创造或生活会有什么改变,机器人也将存在,我不担心他们会接管,对吗?

黄仁勋:这是一个很好的问题。我们深信的格式之一是Open USD,它将几乎每一种工具的多种模态结合在一起,并允许它进行交互,组合在一起,进出这些虚拟世界。随着时间的推移,你可以理想地将任何格式引入其中。

在这次会议上,我们宣布通用机器人数据格式URDF可以兼容或者被吸收到开放的USD中,我们将把所有东西都变成一种通用语言,使用标准是允许内容和数据共享、允许每个人在其上协作并永久存在的最佳方式之一。例如如果没有HTML,每个人都很难访问来自世界各地的所有这些不同的内容。因此在很多方面,Open USD是虚拟世界的HTML,我们是它的早期推动者,很多公司已经加入。我希望世界上的每一个设计工具都能够连接到Open USD,一旦你连接到虚拟世界,你就可以在任何地方使用任何工具与任何人协作。

Lauren:你说这些内容可以实现永生,你要建造一个永远活着的Jensen人工智能吗?

黄仁勋:绝对会有一个Jensen人工智能。我曾经说过的每一句话,我曾经写过的每一个字,以及我曾经做过的任何事,都可能会被吸收到这些生成式AI模型中。我希望这会在未来发生,所以这是我首先要交给机器人去做的事情。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1