我觉得有些话还是应该放在前面,比如游戏人的焦虑是来自于技术的进一步迭代,自己是否会被AI取代。ChatGPT 发布之后,游戏产业迎来了一波裁员;Stable Diffusion出来之后,又是一波;现在Sora来了……
人的焦虑大部分来自于未知,大部分是害怕自己被时代淘汰,未来自己将会遭遇那些在抖音、小红书上看见的不幸。事实上,游戏产业的变化和裁员并不能完全归咎于AI的运用,更何况Sora目前都还不能完美运用。所以在我们看来,更多的还是应该学会拥抱,毕竟所有事情都是有两面性的,万一Sora能够让游戏行业变得更好呢?
半年前的AI视频“强森吃石头”
自ChatGPT 掀起AI狂潮之后,几乎每天都有新的模型冒出。2月16日,谷歌推出Gemini 1.5,创纪录地实现了100万Tokens技术,全方位碾压GPT4,剑指GPT5。
正思索着OpenAI要如何亮剑的时候,他们在当天就公开了自家的首款视频生成模型“Sora”,向对手以及同行丢出了“二向箔”这种维度打击武器。
当Runway、Pika这样率先入局“文生视频”领域的同行,还停留在只能输出几秒时长的视频、并且视频一致性与连贯性无法得到保证的时候。Sora就展现出更强大的视频创作能力。它不仅可以输出达到长达60S的电影质感的视频,在物理呈现上也向世界展示初步的“理解”能力。
更让人眼前一亮的是,OpenAI向Sora提供了“Minecraft”一词的提示后,它就能渲染出令人信服的游戏视频,能够控制角色移动,生成HUD,实现物理反馈。其光照效果更是让人怀疑这是不是打开启了光线追踪功能。
而下面这段虽然不是游戏视频,但采用了赛车游戏视角,如果加上合适的UI,不注明这是AI生成的,可能真的会骗到不少人。
,时长
01:24
Sora秀了一波肌肉后,马斯克则来了记“马后炮”,表示特斯拉早在一年前就掌握了类似 OpenAI 的视频生成技术,它对真实世界的模拟和视频生成是全世界最“牛”的。由于涉及自动驾驶领域,对物理场景的预测可能更加精确。
这时就有网友提议让他做款游戏来看看,马斯克表示,自己早就想用特斯拉做游戏了,但不幸的是,这还需在特斯拉推出FSD之后才可以。
由于马斯克只是随口一说,不妨只当个乐子来看。但我们或许真的应该思考一下,AI的视频生成技术以及对世界的模拟技术,是否也能运用到游戏开发中来,进而改变游戏开发的思路?
OpenAI的“世界模拟器”
视频能力是Sora很重要的一部分,但它无法完全定义Sora的潜力。理解现实世界各种复杂因素的交互、并能够逼真地还原和创造真实场景,那才是Sora真正强大之处。
OpenAI在官网中表示,“我们正在教会人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。”官方对Sora的这番期待,让我们看到了Sora用来生成游戏的可能。毕竟模拟物理世界的工具,我们往往会联想到制作游戏的引擎。
英伟达的高级科学家Jim Fan就认为 Sora 的实现原理不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。
他表示“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”
他推测推测Sora在训练过程中使用了大量游戏引擎中的数据(UE5),从而一定程度地理解了各种视频中现实世界的物理规律,并完成了高度的再现:“Sora 是一个端到端的扩散型 Transformer 模型。它输入文本/图像,直接输出视频像素。Sora 通过海量视频数据和梯度下降,在其神经网络参数中隐式地学习了一个物理引擎。Sora是一个可学习的模拟器,或者称之为‘世界模型’。当然,它不会在循环中显式地调用 UE5 ,但 UE5 生成的(文本、视频)数据对可能被作为合成数据添加到训练集中。”
Pytorch联合创始人Soumith Chintala也猜测道,“根据Sam Altman发布的所有用户请求视频,Sora似乎是由游戏引擎提供支持,并为游戏引擎生成作品和参数”。
由于OpenAI的技术文档并没有明确提出Sora运用了UE5或其他游戏引擎的数据,因此这也只是大佬们的猜测。技术文档只是提出,Sora模型基于diffusion transformer架构,先是对素材进行降维处理、然后喂数据进行训练就行了。至于为什么展现出预测性以及极高的准确性,他们只表示训练量足够大、样本质量足够高,就自然地“涌现”了。
不过,这种方式生成的视频,会出现许多违反常识以及物理规律的情况。比如下面这段视频就像平常看到的纪录片一样,利用微距镜头追踪了一只蚂蚁,然而细看却发现这只蚂蚁只有四条腿。
又比如这个视频中几个考古人员在追一张用沙子做的板凳,刚刚还拿在手上的相机一转眼却自己漂浮了起来,看起来略显“幽默”。
360创始人周鸿祎表示:“Sora的工作原理就像人做梦,Sora出现的BUG就像人做梦产生的幻觉。”
中科院自动化研究所曾毅也表示:“Sora更充分地利用了数据与数据的关联,进行对物理世界的映射预测和呈现,生成更具高级感的视觉数据,虽然这并不是对物理世界形成真正意义的理解……”可见,现阶段的Sora不存在完全理解现实物理规律一说。
然而对于吃瓜的玩家而言,若是一款游戏达到了Sora所展示的画面与物理效果,那也得烧高香了。毕竟大多数游戏并不追求真实性,平时玩家对游戏中出现的BUG、穿模等现象也已司空见惯。
AI生成游戏,还会远吗?
虽然Sora宣称有成为世界模型的潜力,目前还只能生成视频,但即便如此,这对游戏行业已经有很大的启示了,比如可以制定一些特定场景的CG作为游戏的过场动画,游戏场景中远处的广告也可以利用Sora来生成,大幅减少成本。
对于一些异步互动游戏,同样可以极大地提升其制作效率,例如《完蛋了!我被美女包围了》这类游戏。
此外,结合NeRF、3DGS(3D高斯辐射场)、点云等技术,将Sora生成的二维画面转变为3D模型或者场,在一定程度上能够缩短建模时间。
长远来看,利用Vision Pro等VR或AR设备,则可以构建元宇宙的雏形。有 github 网友@AndrewMayne 将 OpenAI 案例视频转化成了适用 Vision Pro 的空间视频,用于创建模拟立体 3D 效果。
当然,以上都是十分主观的展望,Sora的实际运用还要考虑算力以及具体的硬件条件,它只是提供了模拟世界的一种方向,游戏行业的AI技术其实并不局限于此。
比如英伟达显卡最新的DLSS 技术就使用了神经网络来渲染游戏和应用,由全新第四代 Tensor Core 和 GeForce RTX 40 系列 GPU 的全新光流加速器驱动,附有开创性的帧生成功能。
在3A大作的运用中,帧生成技术可生成全新帧,分析两帧连续的图像,并计算帧到帧中物体和元素的运动矢量数据,在两个真实帧之间插入AI推算出来的全新帧,最高可带来4倍之多的性能提升。
另外,英伟达在去年5月宣布推出全新定制 AI 模型代工服务NVIDIA ACE 游戏开发版,利用 AI 驱动的自然语言交互技术,让游戏中的非玩家角色(NPC)智能化,从而改变游玩体验。
虚幻引擎这边,和Adobe对自家生产力工具加入AI辅助功能类似,市面上还有大量与UE5相适配的AI辅助工具。去年3月,一家名为TREE Industries的开发公司实现了利用GPT-4来控制UE5中灯光的效果。
如果善于利用AI工具,开发一款游戏也并不难。2023年5月,游戏开发商Luden.io推出了一款名为《Generated Adventure》网页游戏,使用了Stable Diffusion、Midjourney和ChatGPT等人工智能工具,完成了游戏剧情、美术、UI、音乐等制作,而这款游戏只花了72个小时。
只是这样辅助工具过于分散,找起来也颇为繁琐。好消息是,近期微软旗下的Xbox Game Studios宣布与人工智能公司Inworld AI进行重大合作,致力于开发一个全新的一体化AI增强型游戏开发工具包。Inworld AI的技术曾应用于GTA V的一个Mod项目《Sentient Streets》,但在发布不久后就被Take-Two关闭。
同样是游戏开发领域,R星自己则早在2021年就申请了一项名为“System And Method For Virtual Navigation In A Gaming Environment”(游戏环境中虚拟导航的系统和方式设计)专利,让NPC可以自行分配运动模块,变得更动态、复杂、智能,从而增强真实感。
说了这么多,可以发现人类制作游戏的方式是建立在理解物理原理的基础上,进行硬编码实现的。期间会对3D建模进行复杂、高精度的光线跟踪计算,以及利用插件模拟物理变化、生物行为。在这个层面上,AI最多也只是辅助运算并节省工作量。
而Sora却通过模型一次性地输出最终结果,虽然只是视频而且有不准确的地方,但其呈现的物理反馈、光照阴影却是当前大部分游戏做不到的。
让人意外的是,Sora更多的是工程上的突破,核心论文之一曾因缺乏创新被拒。理由是认为diffusion transformer架构只是将Diffusion和Transformer融合在了一起,算不上开创性发展。而去年也有一些学者的论文表示方法类似并且可以生成3D模型,不过限于实验规模同样被拒。
结语
Sora 这个名字在日语的本意是指天空、穹、空,寓意天马行空的想象力以及无边无界的创造力。不过在我看来,可能还包含了永恒流转的变化之意。“苟日新,日日新”谁能想到,半年前的AI视频还只是强森吃石头这样的“抽象”巨作,而一年后Sora的视频却能够以假乱真。从文字、绘画到视频,AI技术近两年给我们带来了一次又一次“震撼”,或许下一次,就是游戏。