当前位置:首页|资讯|生成式AI|Stable Diffusion

AI PC成为马良的“神笔”,让NPC成为“赛博话唠” | 钛极客

作者:钛媒体APP发布时间:2024-05-28

NPC对话(图片来源:钛媒体APP作者拍摄)

“我正在寻找马丁-莱恩先生,他告诉我正住在这间酒店,我有急事,请你帮我联系他,谢谢!”我说到。

“非常理解您焦急的心情,但是处于对酒店客人隐私的保护,我无法提供这位客人的信息给您,很抱歉。”前台服务员表示。

“我知道马丁-莱恩先生在这里寄存了东西,我是受到他委托来取走的,请你把它交给我吧。”我说到。

“好的,那您可以将行李寄存的寄存单给我吗?如果没有寄存单的话,可以让马丁-莱恩先生给礼宾部打电话,告知我们将东西给您。”

以上两段对话,听起来很像是摘取自某部小说或者是电影、游戏内容的固定台词,但它们竟然出自人与电脑的语音交流。

AI让游戏NPC“活”过来了

更准确地说,上述这些对话是玩家与游戏NPC的交流,只不过游戏流程中既没有固定逻辑脚本也没有预设提问、回答选项。玩家唯一要做的就是想尽办法与电脑“套话”获取信息。

电脑的目标则是确认玩家的身份确实与目标人物相关,在此之前,它们则要尽一切可能保守秘密。换句话说,这场对决其实是人脑与电脑间的“智力与信息的攻防游戏”,而驱动这台电脑的背后技术正是当下被所有行业集中讨论的“生成式AI”。

ACE技术演示(图片来源:钛媒体APP作者拍摄)

早在去年的COMPUTEX展会上,英伟达就推出了ACE(Avatar Cloud Engine)技术,旨在通过生成式AI为游戏中的非玩家角色(NPC)带来智能对话和互动功能,如今大家看到的正是最新的DEMO演示。

与过去采用固定语句、动作与玩家交互的方式相比,利用NeMo语言模型,ACE可以创建能够进行自然语言对话的NPC。这些NPC不仅能理解玩家的输入,还能根据特定的背景和情境生成合适的回应,比如上文提到的各个角色会进行符合身份的回答,并且在称谓、回答内容上也会更加贴合真实场景。

对于ACE技术的出现,最大的意义在于可以帮助游戏内容制作者打破“线性”叙事的框架,也就是说,所有的游戏内容并不需要按照固定的内容流程完成。玩家可以充分发挥自己的想象,甚至可以颠倒任务的前后顺序,只要围绕最终目标即可,但这仅限于推理类的游戏,因为此类游戏中NPC的重要性更高。

那对于其他游戏而言,如果拥有开放式世界设定,也会在ACE技术上收益很大,因为每一位NPC都拥有了自身的“思维”而不是传统的固定逻辑,每天重复一样的事情。相比之下,过去的游戏就如同电影《楚门的世界》一样,只有玩家一个人可以尝试去灵活处置,而在ACE技术的加持下,玩家想出来的各种骚操作,电脑都有办法应对。

想象很美好,对吧?但就如同每次游戏画质的展示DEMO一样,回看2012年的虚幻4引擎展示,现在很多3A大作可能都还无法达到它的水平,ACE技术的应用也是如此,它的条件还是非常苛刻的,现阶段对线上同时在线的玩家数量、网络带宽等都有着严苛的要求。

据英伟达工作人员介绍,想要获得与NPC的实时沟通体验,专线网络是必备选项,同时在线的玩家数量也要控制在个位数,这对于一款商业游戏而言,是完全不可接受的。

那想要扩大玩家接入量,对于游戏开发商而言,就需要更强的云端算力作为支撑,但在整个游戏内容的制作过程中,是否应该为NPC配置如此重量的资源以及它能够带给玩家的反馈提升,都是现阶段面临的问题。所以说,ACE技术确实展现出了一个能够让游戏NPC“活”过来的办法。

AI PC成为数字时代的“神笔”

“神笔马良”是很多人都听过的中国童话故事,马良在获得神笔后,能够把自己的画作变成真正的物件。而在AI时代,PC反而成为了“神笔”的化身。一方面,Stable Diffusion等工具可以将文字表述变成图像,这样就可以将脑中的构想通过最简单的方式呈现为画作,即便是没有绘画天赋的人也可以做到。

以英伟达目前的消费级旗舰产品RTX 4090 D为例,作为市面上最快的Stable Diffusion计算出图方案,它可以支持每秒8张图的生成速度。使用当前最快的Stable Diffusion 加速方法TensorRT,再配合开发者进一步的性能优化,目前RTX 4090 D GPU最高能实现每秒超过100张图的生成速度。

这是什么概念呢?路边的肖像速写,应该是日常能够接触到的比较快速的绘画出图方式,而画成一幅人像作品的时间,通常在10分钟左右。在同样时间内,Stable Diffusion生成的图片数量(以每秒8张计算),已经足够支持组合为每秒30帧的视频播放两分半钟,而图片数量则是整整的4800张。

利用本地算力实现图生图(图片来源:钛媒体APP作者拍摄)

当然,AI PC的能力不仅仅体现在文生图上,图生图的应用也很有趣,比如通过人像生成控制模型InstantID,就快速通过搭载RTX 4090 D的RTX AI PC上由普通摄像头的自拍照生成高质量影棚级别的肖像照,别的场景不说,至少笔者认为对很多以拍证件照作为主要盈利手段的小摄像馆来说,这项功能绝对是“抢饭碗”的利器。

应该说,更快的生图速度、更广泛的生图应用,其实也没有什么稀奇的,毕竟不是每一张图片都能符合预期。而且玩过AI生图的人都知道,生成的图片质量参差不齐,总是需要不断修改、不断尝试才能获得基本满意的效果,而绘画则不同,往往在起笔时就已经有了大概方向,途中也可以进行小范围的调整。

但钛媒体APP认为,AI生图应用出现,最大改变在于把绘画的门槛降低了,同时也进一步解放了人们脑中的万千创意,像“科幻元素“的作品,大众普遍能够输出的目前只包括文字部分,你可以把天马行空的想法“写”下来。

文字表述自然有其任凭读者想象优势,但在直观性上也恰恰受到了限制。因此很多科幻小说作品,比如《三体》《沙丘》等等,文字的描写在精妙,也会有很多超出读者想象的画面,而将这些作品影视化改编,其所付出的成本却又高的离谱,那么,通过AI绘图,是不是刘慈欣就可以简单描绘一下他心中的《三体》了呢?这是很有可能的。

其实,当前已经有很多设计师、艺术家,设法将生成式AI提供的“想法落地为现实”能力转变为自身的生产力。

设计应用(图片来源:钛媒体APP作者拍摄)

像在建筑设计领域,即时AI基于扩散模型和蒸馏技术,通过RTX GPU的加速,实现了AI实时绘画,屏幕前的设计师只需要勾勒出简单的线条,AI就能帮助根据目标风格绘制出具体的概念图,设计师可以花更多时间集中在想法上,而不是如何把一个有趣的想法,一笔一笔“画”出来。

所以说,AI PC的生产力属性,真的在绘画这件事上表现的淋漓尽致。一方面,它确实大大降低了绘画的门槛,无需掌握具体的绘画手法、色彩选择,这些都由AI完成,人们只需要专注于“想法”。

另一方面,其在行业中的渗透和落地应用潜力也是更加直接的,ChatGPT也许什么都能干,但通过它,很难直接创造商业价值,但对于艺术家、设计师来说,提升几十上百倍的出图效率和“想法预览”确实能够直接转化为生产力。

视频会议、游戏场景,AI PC无处不在

很有意思的一点是,目前行业内对AI PC的定义也有着不小的分歧,如果按照英特尔的说法,2023年底AI PC才出现,2024年是AI PC元年,而对于微软高通来说,似乎AI PC又是2024年刚刚推出的新物种。

英伟达对AI PC的规划(图片来源:钛媒体APP作者拍摄)

但如果要追溯到更早,实际上英伟达于2018年就推出了RTX技术和首款专为 AI 打造的消费级GPU芯片(GeForce RTX) 。在他们看来,AI PC 是搭载专用AI加速硬件的计算机,而在RTX GPU上,这些专用的 AI 加速器被称为Tensor Core。

Tensor Core的出现,实际上就是为了能够加速AI性能,并为PC用户引入以前在云端才能运行的AI新功能。针对开发者或者深度AI用户,英伟达也已经上线了TensorRT开发者套件,实现加速深度学习推理性能。

TensorRT能加速热门的生成式AI模型,Stable Diffusion 1.5和SDXL等,全新的 UL Procyon AI 图像生成基准测试也已支持TensorRT加速。

AI能力除了可以用在提升游戏开发、生产力上,它还能做很多工作,当你觉得用自拍生成棚拍画面已经足够离谱,那么1分钟语音就能克隆声音的AI能力,是不是会感觉AI会有点“恐怖”?

通过AI克隆声音(图片来源:钛媒体APP作者拍摄)

基于RTX GPU加速的声音克隆可仅用5秒录音来克隆声音,实现无需训练的个性化声音生成。基于开源的GPT-SoVITS项目,声音克隆快速使用5秒声音样本,根据其发音特征由文本生成个性化语音片段,这个过程仅五分钟就能完成,而基于更多样本(1分钟)的微调训练则能实现更高质量接近1:1复刻的声音克隆。

作为消费级GPU产品的供应商之一,英伟达看中AI PC的其中一个落地场景当然是“游戏”,并为此推出了DLSS图形技术,其原理就是利用AI提高帧率并改善图像质量。最新的DLSS 3.5技术中,可以通过AI增强光线追踪表现,备受期待的《黑神话:悟空》和《永劫无间》即将支持DLSS 3.5光线重建和全景光线追踪技术。

AI对游戏图像进行增强(图片来源:钛媒体APP作者拍摄)

换句话说,就是让显卡能够以更低的负载,输出更高帧率的画面以及光影质量更加逼真的内容,而这一切并不是通过传统意义上增加图形算力获得的,而是通过AI能力获得的。此外还有RTX Remix技术,通过使用生成式 AI 工具自动增强材质,以及借助全景光线追踪和 DLSS 快速创建画质更好的“重制版”游戏。

其他一些方面,AI的应用也在加速渗透当中,比如很早前就已经上线的NVIDIA Broadcast应用,可以为直播提供AI增强型语音、视频工具,包括噪音和回音消除、虚拟背景和AI绿幕、面部追踪、视频降噪和目光接触,其实很多主播目前都已经开始使用了,本地算力调取不占网络带宽和低延迟是它最大的优势。

如果讨论生成式AI所能玩出的花样和上限,英伟达无疑是现阶段最有发言权的厂商,无论是已经看到的各类应用还是各个AI公司疯抢的高算力GPU,都能代表其在AI领域硬件方面的领先地位,但想要把AI PC普及起来,或者让普通消费者为AI功能而添置或升级GPU,现阶段而言并不现实。

可以预见的是,AI PC在各行各业的应用会越来越广泛,同时其对娱乐、办公、社交等场景的渗透也会慢慢深入,但与很多此前发布的技术不同,生成式AI的加入往往是“无感”的,比如Stable Diffusion绘画出的高质量图片往往能够以假乱真,而ACE技术加持下的NPC也与真人有几分相似,更不要说AI还能帮助实现声音克隆等能力。

对于娱乐场景来说,追求高帧率和更逼真画面的用户可以通过更新GPU并选择开启AI功能来增强体验,在生产力应用上,GPU似乎也有望成为“隐形战力”。(本文首发于钛媒体APP 作者/邓剑云 编辑/钟毅)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1