芯东西(公众号:aichip001)
作者 | 云鹏
编辑 | 漠影
最近的AIGC圈着实迎来了一波新品发布小高潮!
先是谷歌Gemini突然深夜炸场,硬刚OpenAI的GPT-4,然后是斯坦福科学家李飞飞团队亮出AI视频生成模型W.A.L.T,拳打Pika脚踢Gen-2,最近微软又发布了手机端侧都能跑的小语言模型Phi-2,平均性能甚至超过Llama 2。
▲W.A.L.T文生视频案例片段
AI大模型火爆之下,各路科技巨头几乎都在“All in AI”,而AI军备竞赛已经很快从云端卷到了端侧,从智能手机到PC,我们身边各类熟悉的智能硬件都已被卷入这场大模型浪潮。
各类智能助手、各类AIGC相关应用如雨后春笋般涌现,各类“GPTs”已经逐渐进入大众视野。
热况之下,AI大模型在端侧的落地离不开底层硬件的支持,英伟达、英特尔、AMD等大厂也不断亮出各种应对AI新时代的软硬件新品,加速着AI PC时代的到来。PC作为算力最强的消费级产品,成为AI大模型在端侧应用的最理想平台之一。
毫无疑问,AI将成为PC产业发展的一个关键拐点,AI也会彻底改变玩家、创作者、上班族、学生乃至每一个普通PC用户的体验。
▲图片由Bing创作,来源:PCWorld
目前全球搭载英伟达RTX GPU的Windows PC和工作站已经超过了1亿台,英伟达作为AI大模型时代最核心的全栈玩家,正通过全栈生态的赋能让这些“RTX PC”的AI性能有翻倍式暴涨。
在我们熟悉的文生图应用Stable Diffusion中,基于英伟达的RTX专用加速插件,一张RTX 4090仅用49秒就可以生成100张高质量图像,速度翻了3倍,而这样的升级甚至不需要改变其他硬件配置。
英伟达RTX相关技术在AI领域的应用,让全球无数开发者可以更轻松、高效地创建AI应用,人们使用PC的方式,也在潜移默化中改变着。
英伟达如何为AI PC时代的底层筑基?英伟达在AIGC时代藏得最深的王牌又是什么?今天,从硬件、软件到生态,英伟达似乎已经和AI画上了等号。
一、从通用计算到加速计算,从数据中心到PC,英伟达CUDA生态占C位
今天的计算产业究竟酝酿着哪些关键变量,英伟达又在其中扮演着怎样的角色?
正如英伟达CEO黄仁勋在财报电话会中提到的,放眼如今的全球计算产业,有两个重要的转变值得注意:第一,用一种通用处理器处理一切工作的传统通用计算已经不再具有成本和效率的优势,与之相对的“加速计算”将成为主流。
顾名思义,数据中心需要尽可能地去“加速”所有工作负载,这样才能有更高的性能、能源效率和成本效益。
第二,在加速计算的大趋势下,新的软件开发方式成为了可能,这也推动了软件平台的转变,让以前无法实现的应用程序成为可能。
或许正如黄仁勋所说,AI并不是一种奢侈品,AI是必需品,AI的投资是一种战略性的迫切需求,可以帮企业提高未来的竞争力。
在这场“不能输”的AI之战中,英伟达的GPU俨然已经走到了舞台中央,已经走到了全球“AI新工业”的中央。在黄仁勋看来,如今的数据中心就像一座“AI工厂”,数据是原材料,被生产、开发、精炼,转化为世界上最有价值的东西——智能。
显然,这对于所有科技巨头来说,都是一场技术乃至商业范式的革新。
在这样的大背景下,各行各业都在经历从通用计算到加速计算和生成式AI的平台化转型,而英伟达最新一季财报中数据中心业务接近280%的强劲同比增长也恰恰证明了这一点。
AI大模型的初创公司、消费互联网公司和全球云巨头们都在积极“备战”,各大云服务商不断加大对AI云的投入,企业级软件公司也陆续为自己的平台增加AI相关应用和功能,不少厂商都推出了定制化AI产品,推动着各大行业的智能化、自动化发展。
热潮之下,英伟达的GPU、CPU、网络、AI foundry、AI企业软件解决方案等产品和服务都成为加速这一转型的核心“引擎”。
上述各行各业的智能化、自动化与计算产业密不可分,在计算产业中,除了数据中心在经历“加速计算”的转型,PC产业作为计算的关键一环,也同样经历着类似的转变。
当下,各类生成式AI产品正迅速成为高性能PC的支柱型应用,在各行各业从业者的日常工作中发挥着重要作用。而英伟达的RTX GPU,无疑已成为AI PC时代最核心的底层技术支撑。
为什么英伟达的GPU能够在AI时代走到如此关键的位置,并且几乎是“不可替代”的?
实际上,提到英伟达的GPU,就不得不提到CUDA。在黄仁勋看来,英伟达是通过发明CUDA这种新编程工具,以及GPU这种处理器来推动加速计算的。
CPU无法高效执行的工作,GPU可以进行有效的加速,并且在性能、能源成本上有着显著优势。基于CUDA的GPU经历近25年的发展,如今已经与开发者、系统制造商、云服务提供商、技术制造商和用户深度绑定,CUDA生态系统已经为各行各业所信任,这也是英伟达有着不可替代性的根本性因素之一。
在深度学习、AI大模型的发展中,英伟达所提出的加速计算发挥着关键作用,生成式AI的崛起与其密不可分,这也被很多人称之为“第四次工业革命”。
在黄仁勋看来,智能是最有价值的,倘若智能可以批量化、自动化的生产,其带来的价值是不可估量的。
如今英伟达所做的,正是推动这一未来走入现实。
二、兼容性架构铺路,TensorRT-LLM让推理性能翻倍,AI绘图进入“秒速时代”
正如前文所说,英伟达在技术生态方面的布局,尤其是25年来在CUDA领域的深耕,是其能够在AI时代占据C位的关键。而这样的生态布局如今在PC产业中释放的能量开始愈发凸显。
今年四季度,英伟达发布了一个名为TensorRT-LLM的引擎优化编译器,其目的就是进一步提升大语言模型的AI推理性能。
AI大模型在云端的训练需要消耗大量算力,而AI大模型真正走入每个人的生活,更需要解决推理这“最后一公里”的难题,因为实际场景中的推理任务往往是极为复杂的。
根据官方数据,在TensorRT-LLM的加持下,对于Lambda2这样的大语言模型,H200的推理能力可以提高到H100的2倍,成本也有着称成倍降低,与H100相比,H200在GPT-3模型上的推理性能有着18倍的提升,得益于此,英伟达的客户可以使用更大的模型,但延迟却不会增加。
▲TensorRT-LLM v0.6.0可以带来最高5倍推理性能提升
实际上,TensorRT-LLM有着这样的表现,与CUDA的特性是密不可分的。英伟达CFO在财报电话会中特别提到,他们之所以能够创建TensorRT-LLM,正是因为CUDA是可编程的,如果CUDA和其对应的GPU不是可编程的,以如今这样快的速度迭代改进软件栈是很难实现的。
经过20多年的深耕,每一个英伟达GPU的背后,都是不断迭代更新的软件栈在做坚实支撑,而CUDA的灵活性和兼容性无一不是这一生态的突出优势。
英伟达有着规模庞大的生态系统软件开发人员、系统制造商生态系统和分销合作网络,而将这些真正连结在一起形成一个高效生态系统的,正是英伟达CUDA软件生态和架构层面的兼容性。
英伟达CFO称,一切基于兼容性构筑是他们几十年前就做出的一个伟大决定,保证架构的兼容性也一直是他们的首要任务。
每当英伟达引入一个新的特性、新功能、新技术时,生态中的开发者们会立即从各个方面获益,享受到这些红利。目前英伟达在全球有28000名员工,他们服务于全球各地、各个行业、不同的市场和公司,但依然可以保持高效协作,这与良好的兼容性密不可分。
而这样的兼容性进一步带来的就是英伟达平台的稳定性,这也是全球各类新应用几乎都选择率先在英伟达平台上进行开发并进行优化的关键原因之一。
云计算领域的数据中心中有着数百万英伟达GPU,而全球PC和工作站用户手中又有着1亿多块英伟达GPU,他们在架构上都是兼容的,因此所有基于英伟达平台实现的技术创新,都可以快速应用到这些数以百万计、数以亿计的产品中。
这也可以说是英伟达人无我有的核心优势之一。
最后,在加速计算方面,英伟达GPU可以为Spark、Python甚至是目前最成功的数据科学框架Pandas进行加速,据了解,Pandas现在由英伟达的CUDA加速,并且无需代码行就能用起来。
在企业和专业领域之外,对于普通用户来说,英伟达GPU带来的加速能力也是感知极强的。
就在今年四季度,英伟达在发布TensorRT-LLM的同时也带来了TensorRT-LLM for Windows,与此同时,微软也在Ignite大会上发布了OpenAI Chat API的 TensorRT-LLM封装接口、RTX驱动的性能改进DirectML for Llama 2等新工具和资源。
可以说,Windows PC的终端用户们也可以享受到TensorRT-LLM带来的加速红利了。
根据官方数据,TensorRT-LLM for Windows可以将终端设备上的大语言模型推理性能最高提升4倍左右,而目前英伟达RTX GPU的装机量已经超过了1亿台,这一新特性也已经快速全面普及开来,这对于应用程序开发者们来说无疑是一大喜讯。
TensorRT-LLM for Windows的推出无疑意味着AI大模型可以更好的应用于端侧RTX PC中,满足用户各类AIGC需求,提升用户的AI PC体验。
数以百计的AI相关开发者项目和应用都可以直接在搭载RTX GPU的PC上本地运行,同时,用户的私人和专有数据也可以在PC本地进行保存。
值得一提的时,TensorRT-LLM也在持续更新,支持更多新的热门大模型,比如Mistral 7B 和 Nemotron-3 8B,这些版本的TensorRT-LLM可以直接运行在8GB 及以上显存的GeForce RTX 30系列和40系列GPU上。
▲TensorRT扩展的配置需求,由Bilibili UP主Nenly同学制作
根据Bilibili平台上一位专业设计师UP主Nenly同学的测试,在Tensor RT的加持下,Stable Diffusion这一热门文生图应用基于RTX GPU生成的模型推理速度直接提升了2倍甚至3倍以上,AI绘画进入了“秒速时代”。
▲标准StableDiffusion与TensorRT引擎优化后相比,每分钟绘制图片数的差异,由Bilibili UP主Nenly同学制作
根据Nenly同学发布视频,在GeForce RTX 4090上,Stable Diffusion的运行速度是使用苹果M2 Ultra的Mac顶配版的7倍。甚至4060Ti在TensorRT扩展的支持下,生成图片的速度已经超过了加速前的4090。
对于一些需要大量出具草图的创意工作者们来说,这样的加速能力所带来的收益是极为明显的。面对数千张图片吞吐量的工作,节省下来的时间可能是以天计算的。
比如被誉为“插画领域的刘慈欣”、“国内科幻绘画第一人”,也是首位获得全球雨果奖的华人艺术家赵恩哲,在工作中就使用了全流程经GeForce RTX GPU加速的Stable Diffusion进行创作,AI辅助创作工具可以省掉细化时间,同时给他很多意向不到的创作设计可能。
▲《虚空之舟》——使用SD创作,全流程经GeForce RTX GPU加速
赵恩哲特别说道,其实每位创作者都渴望将脑海中的世界完美呈现,但由于技术门槛和工业化流程等方面的限制,他们过去只能在概念设计与最终呈现之间做出妥协。但如今,借助英伟达GeForce RTX显卡的强大算力以及SD、RUNWAY等AI创意工具,概念设计师可以突破限制,在短短几秒内尝试所有想法,相信今后有了更强大的算力加持,每位艺术家都可以实现无限创造!
▲赵恩哲
当然,基于RTX GPU这些能力,相关公司也可以基于自己的模型构建具有最有效果的加速引擎,让算力的效益最大化,从而实现显著的降本增效。
可以说,从企业到个人,从数据中心到PC,基于数十年建立的坚实生态,英伟达正通过技术创新拉近每一个人与AI大模型的距离。
三、DLSS用AI改写游戏产业,英伟达为开发者武装到牙齿,RTX就是AI
今天,我们看到了Tensor RT对于PC端侧运行AI大模型能力带来的颠覆式升级,而在此之外,英伟达RTX GPU已经深耕AI领域多年,如今提到AI,几乎就等于提到英伟达。用英伟达CFO的话来说,“RTX就是AI”。
在游戏领域,这一特点体现的尤为明显。这其中最具代表性的就是DLSS技术,这也是英伟达最早推出的AI模型之一,从五年前的首次亮相至今,DLSS技术经历了多个大版本迭代,AI技术的融入也愈发深入,目前已经包含超分辨率、帧生成和光线重建三个不同的模型。
据了解,从发布之初,DLSS技术就一直离不开背后AI模型的持续学习,AI模型学习的结果不断反馈迭代,推动DLSS技术完善,进而提高DLSS技术在游戏中带来的性能和画质提升。
今年英伟达推出了DLSS 3.5,其对于游戏图形渲染技术发展的推动是极为明显的,基于新的AI模型光线重建,DLSS 3.5可以创建出更高质量的光线追踪画面,同时还能进一步提升游戏的帧率表现,可以说是一举两得。
这一技术也在游戏玩家中收到了广泛好评。根据官方数据,目前支持RTX特性的游戏和应用已经超过了500个,这一生态系统的发展壮大,可以说为玩家们带来了真正体验上的直观提升。
除了游戏,在生产力创作领域,根据官方数据,目前英伟达的RTX GPU加速了110多个创作类应用,尤其在生成式AI相关应用领域,RTX GPU的应用更为广泛。
如今,AI PC时代的大门已经被推开了,各路厂商都在积极找准自己的定位,进行产品和技术的布局,而在这场时代大潮中,开发者们的作用至关重要,在RTX加持下,开发者现在可以直接利用前沿AI大模型,通过跨供应商API来部署自己的应用。
英伟达一直在做的,其实就是增强开发者的能力,在AI新时代为开发者们武装到牙齿。英伟达提供的新优化、新模型和资源无疑会加速AI功能和应用在全球 1亿多台RTX PC上的开发和部署,AI与PC的融合,会变得越来越简单。
结语:AIGC时代要想玩转AI,英伟达是彻底绕不开了
在AIGC风起云涌的当下,无数创企涌入赛道,消费者们也争相接触新的技术、感受生成式AI带来的体验革新,而英伟达无疑成为了风口浪尖上的一颗明星企业,从硬件、软件到生态,英伟达的王牌一张接着一张。
AI技术的发展,引起了整个计算产业范式的革新,加速计算概念的落地普及,牵动着全球各行各业的企业。从数据中心到我们每个人家中的PC,英伟达的技术正深入每一处,在AI技术落地的过程中,发挥着关键作用。
如今回顾科技产业发展的历史,我们能清楚地看到,那些最成功的公司,无一不是凭借生态取胜,从自身的产品技术生态到与产业链各领域玩家联合形成的牢固生态,生态必然会成为当今科技巨头们比拼的核心焦点。
不论如何,在当下的AIGC时代,想要乘风而行,走在浪尖,英伟达这艘大船,是必须要上了。