生成式AI，将在游戏领域引爆一场革命

作者：神译局发布时间：2023-01-19

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：随着生成式人工智能的发展，游戏制作领域将迎来前所未有的变革。本文来自编译，希望对您有所启发。

要了解生成式人工智能将如何彻底改变游戏领域，只需看看 @emmanuel_2m 最近的 Twitter 帖子。在推文中，他探索使用 Stable Diffusion + Dreambooth（目前流行的2D生成式AI模型），为一款假想的游戏生成了一个药剂瓶图像。

生成式人工智能的变革性之处在于，它不仅节省了时间和金钱，而且还提供了高质量的作品，从而打破了经典的“成本、质量或速度只能选其二”的三角模型。艺术家们现在只需几个小时，就能创作出高质量的图像，否则需要花费数周的时间来手工制作。真正具有变革性意义的是：

现在，只要能学会一些简单的工具，任何人都可以获得这种创造力。

这些工具可以以高度迭代的方式，创造出无穷无尽的变化。

一旦训练完毕，这个过程就是实时的，结果几乎是即时可用的。

自实时 3D 技术以来，还没有一种技术对游戏具有如此革命性的意义。只要花点时间与游戏创造者交谈，你便能够感受到兴奋和惊奇。那么，这项技术将走向何方？它将如何改变游戏？首先，让我们回顾一下什么是生成式人工智能？

什么是生成式人工智能？

生成式人工智能是机器学习的一个类别，计算机可以根据用户的“提示”生成原创的新内容。如今，文本和图像是这项技术最成熟的应用，但从动画、音效到音乐，甚至是创建具有完整个性的虚拟角色，几乎每个创意领域都有生成式人工智能的影子。

当然，AI 在游戏中并不是什么新鲜事。即使是早期的游戏，如美国雅达利公司（ATARI）开发的乒乓游戏《Pong》，也有计算机控制的对手来挑战玩家。然而，这些虚拟对手并没有像我们今天所知道的那样运行人工智能，而只是游戏设计师编写的脚本程序。计算机模拟了一个人工智能的对手，但这个对手不会学习，只能遵循程序员的代码来工作。

现在不同的是，由于更快的微处理器和云计算，可用的计算能力大大增强。有了这种能力，就有可能构建大型神经网络，可以在高度复杂的领域中识别模式和表征。

这篇博文分为两部分：

第一部分是我们对游戏领域生成式人工智能的观察和预测。
第二部分是我们对该领域市场地图的描述，这部分概述了各个细分市场，并确定了每个细分市场的关键公司。

第一部分：观察和预测

1.1 假设

首先，让我们来探讨一下本博文其余部分所依据的一些假设。

1. 对通用人工智能的研究将持续发展，创造出更有效的技术

这张图表显示了 arXiv 中每月发表的关于机器学习或人工智能的学术论文数量：

arXiv 中每月发表的关于机器学习或人工智能的学术论文数量。图片来源：a16z.com

正如你所看到的，论文数量呈指数级增长，没有放缓的迹象。这还只包括已发表的论文，许多研究甚至从未发表过，而是直接用于开源模型或产品研发。其结果是兴趣和创新的爆发。

2. 在所有娱乐中，游戏将受到生成式人工智能最大的影响

就涉及的应用类型（2D 艺术、3D 艺术、音效、音乐、对话等）而言，游戏是最复杂的娱乐形式。游戏也是最具互动性的，强调实时体验。这为新游戏开发者创造了一个巨大的门槛，同时也意味着制作一款现代的排行榜冠军游戏会产生巨大的成本。这也为生成式人工智能的颠覆创造了巨大的机会。

在所有娱乐中，游戏将受到生成式人工智能最大的影响。图片来源：a16z.com

以《荒野大镖客 2》（Red Dead Redemption）为例，它是有史以来最昂贵的游戏之一，制作成本接近5亿美元。原因很简单，它拥有市场上所有游戏中最美丽、最完整的虚拟世界之一。这款游戏也花了近 8 年的时间来制作，拥有超过 1000 个 NPC（non-playable characters），每个角色都有自己的个性和配音演员。这款游戏包含一个面积近 30 平方英里的世界，有 100 多个任务分布在 6 个章节中，还有由 100 多名音乐家创作的近 60 个小时的音乐。关于这个游戏的一切都很宏大。

关于这个游戏的一切都很宏大。图片来源：a16z.com

现在，我们将《荒野大镖客 2》与《微软飞行模拟》（Microsoft Flight Simulator）进行比较，后者不仅是大，而且是非常庞大。微软飞行模拟让玩家能够环绕整个地球飞行，这可是 1.97 亿平方英里的地球。微软是如何制作出如此庞大的游戏的？答案是让人工智能来做。微软与 blackshark.ai 合作，并训练人工智能从 2D 卫星图像生成逼真的 3D 世界。

微软飞行模拟让玩家能够环绕整个地球飞行。图片来源：a16z.com

这款游戏如果不使用 AI 就不可能创造出来，而且，这些模型还可以随着时间的推移而不断完善。例如，他们可以改善“高速公路立交桥”模型，重新运行整个建造过程，突然之间让整个星球上的所有高速公路立交桥都得到了改善。

3. 游戏制作中涉及的每项内容都将有一个生成式人工智能模型

到目前为止，像 Stable Diffusion 或 MidJourney 这样的 2D 图像生成器，由于其能够生成吸引人的图像，正处在生成式人工智能的聚光灯下。但是，已经有生成式人工智能模型用于游戏中涉及的几乎所有内容，从 3D 模型到角色动画，再到对话和音乐。这篇博文的后半部分包括一张市场地图，展示了一些专注于每种类型内容的公司。

4. 游戏资产的价格将大幅下降，在某些情况下实际上会降至零

当与那些正在尝试将生成式人工智能整合到其制作过程中的游戏开发者交谈时，最令人兴奋的是时间和成本的大幅减少。一位开发者曾告诉我们，他们为一张图片生成概念图的时间，（从开始到结束）已经从 3 周缩短至 1 小时，这个时间比例是 120 比 1。我们相信，整个生产线都可能实现类似的节省。

需要明确的是，艺术家并没有被取代的危险。这确实意味着美工不再需要自己做所有的工作，他们现在可以设定最初的创意方向，然后将大量耗时和技术执行工作交给人工智能。在这一点上，他们就像手绘动画早期的画师一样，技艺高超的“墨匠”画出动画的轮廓，然后由成本较低的“画师”大军做耗时的工作，为动画上色，填充线条。这就是游戏创作的“自动完成”过程。

5. 我们仍处于这场革命的初级阶段，许多做法仍需要完善

尽管最近发生的事情令人兴奋不已，但我们还只是在起跑线上。在我们弄清楚如何将这种新技术应用于游戏的过程中，还有大量的工作要做，那些迅速进入这个新领域的公司将会获得巨大的机会。

1.2 预测

基于这些假设，以下是关于游戏产业将如何转变的一些预测：

1. 学习如何有效地使用生成式人工智能，将成为一种有市场价值的技能

我们已经看到一些实验人员比其他人能更有效地使用生成式人工智能。要充分利用这项新技术，需要使用各种工具和技术，并知道如何在它们之间来回切换。我们预测，这将成为一种有市场价值的技能，它结合了艺术家的创造性视野和程序员的技术技能。

克里斯·安德森（Chris Anderson）有句名言：“每一次富足都会带来新的匮乏。”随着内容变得丰富，我们相信那些知道如何最有效地与AI工具合作的艺术家，将是最紧缺的。

例如，使用生成式人工智能制作艺术作品会带来特殊的挑战，包括：

对于任何内容，你都需要能够对该内容进行修改或编辑。对于人工智能工具，这意味着需要能够以相同的提示来复制内容，这样你就可以进行修改。这可能会很棘手，因为相同的提示可能会产生截然不同的结果。
一个游戏中的所有艺术都要有一致的风格，这意味着你的AI工具需要与特定的风格相结合。

2. 降低门槛会带来更多冒险和创造性的探索

我们可能很快就会进入游戏开发的新“黄金时代”，在这个时代，进入门槛的降低会导致更多创新和创意游戏的爆发。不仅因为更低的制作成本带来更低的风险，还因为这些工具可以为更广泛的受众创造高质量的内容。这就引出了下一个预测……

3. AI 辅助的“微游戏工作室”崛起

有了生成式人工智能工具和服务，我们将开始看到只有 1 或 2 名员工的小型“微工作室”制作出更多可行的商业游戏。小型独立游戏工作室的想法并不新鲜，热门游戏 Among Us 就是由只有 5 名员工的 Innersloth 工作室开发的。如今，这些小工作室能够创造的游戏的规模将会增长。这将导致……

4. 每年游戏发行数量的增加

Unity 和 Roblox 的成功表明，提供强大的创意工具能够创造出更多游戏。生成式人工智能将进一步降低门槛，让游戏开发者创造出更多游戏。游戏行业已经在面临着曝光度的挑战了，仅 2021 年一年就有超过 1 万款游戏被添加到 Steam 上，这将给曝光度带来更大的压力。然而，我们也会看到……

5. 生成式人工智能出现之前不可能出现的新游戏类型

如果没有生成式人工智能，我们将无法创造出这种新的游戏类型。我们已经谈到了微软飞行模拟，但将会有全新的类型被发明出来，这些类型的游戏依赖于新内容的实时生成。

以 Spellbrush 的 Arrowmancer 为例，这是一款 RPG 游戏，以 AI 创造的角色为特色，提供几乎无限的新玩法。我们还知道另一家游戏开发商正在使用AI，让玩家创建自己的游戏角色。以前他们有一系列手绘的头像，玩家可以混合和匹配来创建自己的头像，现在他们完全抛弃了这个，而是根据玩家的描述来生成头像。让玩家通过 AI 生成内容，比让玩家从头开始上传自己的内容更安全，因为 AI 可以被训练成避免创造攻击性内容，同时还能让玩家有更大的所有权感。

6. 价值将归于行业特定的人工智能工具，而不仅仅是基础模型

围绕 Stable Diffusion 和 Midjourney 等基础模型的热潮正在推动其不断走高的估值，但新研究的持续涌现，确保了新模型将随着新技术的完善而出现和消失。看看 3 种流行的生成式人工智能模型（Dall-E, Midjourney 和 Stable Diffusion）的网站搜索流量，每一款新模型都成为了人们关注的焦点。

看看3种流行的生成式人工智能模型（Dall-E, Midjourney 和 Stable Diffusion）的网站搜索流量，每一款新模型都成为了人们关注的焦点。图片来源：a16z.com

另一种方法可能是构建与行业相一致的工具套件，专注于特定行业的生成式人工智能需求，深入了解特定受众，并与现有的制作方式（如游戏的 Unity 或 Unreal）进行丰富的集成。

一个很好的例子是 Runway，它针对视频创作者的需求，提供人工智能辅助工具，如视频编辑、绿屏移除、修补和运动跟踪。像这样工具的受众是特定的用户，随着时间的推移添加新的模型。我们还没有看到像 Runway 这样的游戏套件出现，但我们知道这是一个积极发展的领域。

7. 法律挑战即将到来

所有这些生成式人工智能模型的共同点是，它们都是使用大量的内容数据集进行训练的，这些数据集通常是通过抓取互联网本身来创建的。例如，Stable Diffusion 是从网络上抓取的超过 50 亿张图像/标题对进行训练而成的。

目前，这些模式声称是在“合理使用”的版权原则下运作的，但这一论点尚未在法庭上得到明确的验证。显然，法律挑战即将到来，这可能会改变生成式人工智能的格局。

大型工作室有可能通过其拥有明确权利和所有权的内部内容，建立专有模型来寻求竞争优势。以微软为例，它目前拥有 23 家第一方工作室，在收购动视后又增加了 7 家。

8. 编程不会像艺术内容那样被彻底颠覆，至少现在还不会

软件工程是游戏开发的另一个主要成本，但正如我们 a16z 企业团队的同事在他们最近的博客中所分享的那样，用AI模型生成代码需要更多的测试和验证，因此比生成创造性内容的效率提升更小。像 Copilot 这样的编码工具可能会为工程师提供适度的性能改进，但不会产生同样的影响，至少短期内不会。

1.3 建议

基于这些预测，我们提出以下建议：

1. 现在就开始探索生成式人工智能

要想弄清楚如何充分利用即将到来的生成式人工智能革命的力量，还需要一段时间。现在就开始行动的公司，以后会有优势。我们知道有几个工作室正在进行内部实验项目，以探索这些技术如何影响生产。

2. 寻找市场地图上的机会

目前市场地图的某些部分已经非常拥挤，如动画或语音与对话，但其他领域还很开放。我们鼓励对这一领域感兴趣的企业家，将精力集中在尚未开发的领域，例如“游戏跑道”。

第二部分：市场地图

2.1 市场现状

我们创建了一个市场地图，以记录那些在游戏领域的不同类别中，探索生成式人工智能应用的公司。这篇博客文章会详细介绍这些类别，并重点介绍每个类别中最令人兴奋的公司。

游戏领域生成式人工智能的市场地图。图片来源：a16z.com

2.2 二维图像

根据文本提示生成 2D 图像已经是生成式人工智能应用最广泛的领域之一。Midjourney、Stable Diffusion 和 Dall-E 2 等工具可以从文本中生成高质量的 2D 图像，并且已经在游戏生命周期的多个阶段应用于游戏制作中。

2.2.1 概念艺术

生成式人工智能工具非常擅长“构思”或帮助非艺术家（如游戏设计师）快速探索概念和想法，以生成概念艺术作品，这是制作过程的一个关键部分。例如，一个工作室（不愿透露名称）将这些工具结合在一起使用，从根本上加快了他们的概念艺术过程，只需一天就可以创建一个以前需要长达 3 周才能创作出来的图像。

首先，他们的游戏设计师利用 Midjourney 去探索不同的理念，并创造出他们认为有灵感的图像。这些被交给专业的原画设计师，他们将这些图像组装在一起，并绘制出一个连贯的图像，然后将其输入 Stable Diffusion，创造出一系列风格变体。然后他们从 Stable Diffusion 的图像中选择一个，手动进行一些编辑，然后重复这个过程，直到他们对结果满意为止。

最后，再把这个图像传回 Stable Diffusion，以进行“升级”，创建最终的艺术作品。

2.2.2 二维艺术作品

一些工作室已经开始尝试使用同样的工具，来制作游戏内部的美术作品。例如，Albert Bozesan 有一个关于使用 Stable Diffusion 创建游戏内部 2D 资产的教程。

2.3 三维作品

3D 资产是所有现代游戏以及即将到来的元宇宙的基石。虚拟世界或游戏关卡本质上只是 3D 资产的集合，通过放置和修改来填充环境。然而，创建 3D 资产比创建 2D 图像更复杂，涉及多个步骤，包括创建 3D 模型和添加纹理及效果。对于动画角色，这还包括创建内部“骨架”，然后在骨架上创建动画。

在 3D 资产创造过程的每个阶段，包括模型创建、角色动画和关卡制作，我们都看到了不同的初创公司。然而，这还不是一个已经解决的问题，目前还没有一种解决方案可以完全集成到游戏制作中。

2.3.1 3D 资产

试图解决 3D 模型创建问题的初创公司包括 Kaedim、Mirage 和 Hypothetic。更大的公司也在关注这个问题，包括英伟达（Nvidia）的 Get3D 和欧特克（Autodesk）的 ClipForge。Kaedim 和 Get3d 专注于图像到 3D，ClipForge 和 Mirage 专注于文本到 3D，而 Hypothetic 对文本到 3D 和图像到 3D 都感兴趣。

2.3.2 3D 纹理

一个 3D 模型只有应用到网格的纹理或材料上看起来才真实。决定在一个中世纪的城堡模型上使用哪种长满青苔的风化石纹理，可以完全改变一个场景的外观和感觉。纹理包含关于光对材料的反应的元数据（即粗糙度、光泽度等）。允许美术人员根据文本或图像提示轻松生成纹理，将极大地提高创作过程中的迭代速度。包括 BariumAI、Ponzu 和 ArmorLab 在内的几个团队正在寻求相关机会。

2.3.3 动画

制作优秀的动画是游戏制作过程中最耗时、最昂贵、最需要技巧的部分之一。一种降低成本并创造更逼真动画的方法是使用动作捕捉，在这种方法中，你需要让演员或舞者穿上动作捕捉套装，并记录他们在特殊仪器动作捕捉舞台上的动作。

我们现在看到的生成式人工智能模型，可以直接从视频中捕获动画。这种方法是更有效的，因为它不需要昂贵的动作捕捉设备，因为这意味着你可以从现有的视频中捕捉动画。这些模型的另一个令人兴奋的方面是，它们也可以用来对现有的动画进行过滤，例如使动画人物看起来是喝醉了，或老了，或高兴了。进军这一领域的公司包括 Kinetix、DeepMotion、RADiCAL、Move Ai 和 Plask。

2.3.4 关卡设计和游戏世界构建

游戏创作中最耗时的环节之一是构建游戏世界，生成式人工智能应该非常适合完成这一任务。像“我的世界”、“无人深空”和“暗黑破坏神”这样的游戏都是以使用程序技术生成关卡而闻名的，在这些游戏中，关卡是随机创建的，每次都不同，但会遵循关卡设计师制定的规则。新的 Unreal 5 游戏引擎的一大卖点是，它收集了用于开放世界设计的程序化工具。

我们已经在这一领域看到了一些创举，如 Promethean、MLXAR 或 Meta 的 Builder Bot，并认为生成技术在很大程度上取代程序技术只是时间问题。这一领域的学术研究已经有一段时间了，包括“我的世界”（Minecraft）的生成技术或“毁灭战士”（Doom）的关卡设计。

期待生成式人工智能工具用于关卡设计的另一个令人信服的理由，是能够创造不同风格的关卡和世界。你可以想象使用工具生成一个 20 世纪 20 年代摩登时代的纽约世界，或者是神秘的刀锋战士式的未来世界，或者是托尔金式的幻想世界。

输入“……风格的游戏关卡”作为提示，我们在 Midjourney 生成了以下画面。

输入“……风格的游戏关卡”作为提示，在 Midjourney 生成的画面。图片来源：a16z.com

2.4 音频

声音和音乐是游戏体验的重要组成部分。我们已经开始看到一些公司使用生成式人工智能来生成音频了。

2.4.1 音效

对于人工智能来说，音效是一个很有吸引力的开放领域。已经有学术论文在探索使用 AI 在电影中产生各种音效的想法，如脚步声，但在游戏中还很少有商业产品。

我们认为这只是一个时间问题，因为游戏的互动性使得生成式人工智能成为一个明显的应用工具，既可以在制作过程中创建静态音效，也可以在运行时创建实时互动音效。

考虑一下像为玩家角色生成脚步声这样简单的事情。大多数游戏通过添加少量预先录制好的脚步声来解决这一问题，如在草地上行走，在砾石上行走，在草地上奔跑，在砾石上奔跑，等等。这些声音的产生和管理都很繁琐，而且在运行时听起来重复且不真实。

一个更好的方法是为拟音音效建立一个实时生成AI模型，它可以生成适当的音效，每次都略有不同，对游戏参数（如地面、角色重量、步态、鞋类等）做出反应。

2.4.2 音乐

音乐一直是游戏的一大挑战。音乐很重要，因为它可以帮助设定情感基调，就像在电影或电视中一样，但由于游戏可能持续数百甚至数千小时，所以它很快就会变得重复或烦人。此外，由于游戏的互动性，音乐很难在特定时间精确匹配屏幕上发生的事情。

20 多年来，自适应音乐一直是游戏音频领域的一个主题，可以一直追溯到微软的“DirectMusic”系统，用于创建交互式音乐。DirectMusic 一直未被广泛采用，很大程度上是因为这种格式很难作曲。只有少数游戏，如 Monolith 的“无人生还”创造了真正的互动配乐。

现在我们看到许多公司都在尝试创造AI生成的音乐，如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva。虽然现在的一些工具，如 Open AI 的 Jukebox，计算量很高，不能实时运行，但一旦初始模型建立起来，大多数工具都可以实时运行。

2.4.3 语音和对话

有很多公司都在努力为游戏角色创造逼真的声音。鉴于通过语音合成让计算机发声有着悠久历史，所以这并不令人惊讶。这一领域的公司包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai，还有很多其他公司。

使用生成式人工智能进行语音处理有很多优势，这在一定程度上解释了为什么这个领域如此拥挤。

通常情况下，游戏中的语音都是由配音演员预先录制的，但这些仅限于预先录制的话语。有了生成式人工智能对话，角色可以说任何话语，这意味着他们可以完全对玩家的行为做出反应。结合更智能的 NPC 人工智能模型（超出了本文的范围，但目前是一个同样令人兴奋的创新领域），完全可以响应玩家的游戏很快就会出现。
许多玩家希望扮演与他们的现实世界身份几乎没有相似之处的幻想人物。然而，一旦玩家用自己的声音说话，这种幻想就会破灭。使用与玩家角色匹配的生成声音，可以维持这种幻觉。
在生成语音时，你可以控制声音的细微差别，如音色、语调转折、情感共鸣、音素长度、口音等等。
允许将对话翻译成任何语言，并以相同的声音说话。像 Deepdub 这样的公司特别关注这个细分市场。

2.5 NPC 或玩家角色

许多初创公司都在考虑使用生成式人工智能，来创建可以与玩家互动的可信角色，部分原因是，这是一个在游戏之外具有广泛适用性的市场，比如虚拟助理或接待员。

创造可信角色的努力可以追溯到人工智能研究的开始。事实上，人工智能的经典“图灵测试”的定义是，人类应该无法区分到底是在与人工智能对话，还是在与人类对话。

在这一点上，有数百家公司正在开发通用聊天机器人，其中许多是由 GPT-3 之类的语言模型支持的。还有一小部分人专门为了娱乐目的而开发了聊天机器人，比如 Replika 和 Anima，他们试图建立虚拟朋友。

我们现在看到了这些聊天机器人平台的下一个迭代，如 Charisma.ai、Convai.com 或 Inworld.ai，这些工具旨在支持完全渲染的 3D 角色，带有情感和代理权。如果它们能够融入游戏中，或者能够推动剧情向前发展，而不是纯粹作为摆设，那么这点便非常重要。

2.6 一体化平台

最成功的生成式人工智能工具之一是 Runwayml.com，因为它将广泛的创建者工具套件集于一身。目前还没有这样的平台为电子游戏服务，我们认为这是一个被忽视的机会。我们愿意投资于具有以下特点的解决方案：

全套生成式人工智能工具，覆盖整个制作流程。（代码、资产生成、纹理、音频、描述等）
与 Unreal 和 Unity 等流行游戏引擎紧密集成。
设计适合典型的游戏制作流程。

结语

现在是成为游戏创造者的绝佳时机！由于有本文中所描述的工具，生成游戏所需的内容变得前所未有的简单，即使你的游戏有整个星球那么大！

甚至有一天，我们可以想象出一款完全个性化的游戏，完全根据玩家的需求为他们量身打造。这在科幻小说中已经存在很长一段时间了，比如《安德的游戏》中的“AI 心理游戏”，或者《星际迷航》中的全息甲板。随着这篇博文中所描述的工具的快速发展，不难想象，这一现实可能近在咫尺。

译者：Jane