OpenAI 最近公布了其令人惊叹的视频生成模型 Sora,打破了文本到视频生成模型的天花板。近日,谷歌 DeepMind 也展示了最新的文本到视频游戏的生成模型。
(来源:GOOGLE DEEPMIND)
这款名为 Genie 的新模型可以接受简短的文字描述、手绘草图或图片,并将其变成一款可玩的电子游戏,游戏风格类似于超级马里奥等经典的 2D 平台游戏。
但游戏的帧数惨不忍睹,只能以每秒一帧的速度运行,而大多数现代游戏通常是每秒 30 到 60 帧。
“这是一项很酷的成果。”加拿大阿尔伯塔大学的人工智能研究员马修·古兹戴尔(Matthew Guzdial)说。他曾在几年前开发了一个类似的游戏生成器。
Genie 使用的训练数据来自于网上找的数百款 2D 平台游戏视频,总时长 3 万小时。
古兹戴尔说,其他人以前也采取过这种方法。他自己的游戏生成器可以从视频中学习创建抽象平台(游戏)。
2020 年,英伟达使用视频数据训练了一个名为 GameGAN 的模型,可以生成与吃豆人风格类似的游戏。
但所有这些例子都使用输入动作、控制器上的按键记录和视频片段来训练模型,比如将马里奥跳跃的视频帧与“跳跃”动作(按键)相匹配。用输入动作标记视频片段需要大量工作,这限制了可用的训练数据量。
相比之下,Genie 只接受了录像(视频)训练,然后它就能学会,在八个可能的动作中,哪一个会导致视频中的游戏角色改变位置。这可以将无数现有的网络视频转化为潜在的训练数据。
动图 | Genie 可以根据手绘草图生成简单的游戏(来源:GOOGLE DEEPMIND)
Genie 可以根据玩家给出的动作动态地生成游戏的每个新帧。按跳跃键,Genie 就会更新图像来显示游戏角色跳跃;按左键,图像就会显示角色向左移动。
游戏一个动作一个动作地进行,每个新帧都是在玩家输入指令时从零生成的。
Genie 的未来版本可能会运行得更快。“原则上,没有任何条件限制我们实现每秒 30 帧。”
谷歌 DeepMind 的研究科学家蒂姆·洛克塔切尔(Tim Rocktäschel)说,他领导着这项工作的团队,“Genie 使用了许多与当代大型语言模型相同的技术,后者在提高推理速度方面取得了重大进展。”
Genie 还学到了一些平台游戏中常见的视觉技巧。许多这种类型的游戏都会用到“视差”,前景向侧面移动的速度比背景快。Genie 经常将这种效果添加到它生成的游戏中。
虽然 Genie 是一个内部研究项目,不会向公众发布,但古兹戴尔指出,谷歌 DeepMind 团队表示,有一天它可能会变成一个游戏制作工具(他本人也在朝着这个方向努力)。“我很想看看他们造出了什么。”他说。
虚拟游乐场
谷歌 DeepMind 的研究人员感兴趣的不仅仅是游戏生成。Genie 背后的团队致力于研究开放式学习,将人工智能控制的机器人放入虚拟环境中,通过试错(一种被称为强化学习的技术)来解决各种任务。
2021 年,另一个 DeepMind 团队开发了一个名为 XLand 的虚拟游乐场,机器人在其中学习如何在移动障碍物等简单任务上进行合作。
像 XLand 这样的虚拟环境对于训练机器人应对一系列不同的挑战至关重要:经过训练后,它们会更加适应现实世界中的类似场景。视频游戏的例子证明,Genie 可以生成这样的虚拟沙盒供机器人训练。
其他人也开发了类似的世界构建工具。例如,Google Brain 的 David Ha 和瑞士 IDSIA 人工智能实验室的尤尔根·施密杜伯(Jürgen Schmidhuber)于 2018 年开发了一种工具,在基于游戏的虚拟环境(又名世界模型)中训练机器人。
但是,与 Genie 不同的是,这些工具需要包含输入动作的训练数据。
该团队还展示了这种能力在机器人领域的实用性。当 Genie 看到真实的机器人手臂操纵各种家用物体的视频时,模型学到了手臂可以做什么动作以及如何控制它。
这意味着,未来的机器人或许可以通过观看视频教程来学习新任务。
施密杜伯表示:“我们很难预测它将创造哪些用例。我们希望,像 Genie 这样的项目最终能为人们提供新的工具来表达他们的创造力。”
作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren
运营/排版:何晨龙