当前位置:首页|资讯

NeurIPS'24开源 | MoGenTS:基于时空联合建模的运动生成

作者:3D视觉工坊发布时间:2024-10-06

0. 论文信息

标题:MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling

作者:Weihao Yuan, Weichao Shen, Yisheng He, Yuan Dong, Xiaodong Gu, Zilong Dong, Liefeng Bo, Qixing Huang

机构:Alibaba Group、The University of Texas at Austin

原文链接:https://arxiv.org/abs/2409.17686

代码链接:https://github.com/weihaosky/mogents

官方主页:https://aigc3d.github.io/mogents/

1. 摘要

从离散量化产生运动提供了许多优于连续回归的优点,但代价是不可避免的近似误差。以前的方法通常将整个身体姿态量化到一个代码中,这不仅面临着在一个向量中编码所有关节的困难,而且还丢失了不同关节之间的空间关系。不同的是,在这项工作中,我们将每个单独的关节量化为一个向量,这I)简化了量化过程,因为与单个关节相关联的复杂性明显低于整个姿势的复杂性;ii)维持时空结构,该结构保存关节之间的空间关系和时间运动模式;iii)产生2D令牌图,这使得能够应用在2D图像中广泛使用的各种2D操作。基于2D运动量化,我们建立了一个时空建模框架,其中提出了2D联合VQVAE、时空2D掩蔽技术和时空2D注意,以利用2D令牌之间的时空信号。大量实验表明,我们的方法在不同数据集上明显优于以前的方法,在HumanML3D上FID降低了26.6%,在KIT-ML上降低了29.9%。

2. 引言

根据文本提示生成人体运动是计算机视觉领域一个快速发展的方向,对于电影制作、游戏产业、虚拟现实和机器人技术等诸多应用具有重要意义。给定一个描述人体运动的文本提示,目标是生成一个序列,该序列包含与文本提示相对应的人体所有关节在每个时刻的位置。

以往应对这一挑战的方法大致有两个方向。第一种方法直接使用生成对抗网络(GANs)、变分自编码器(VAEs)或最近的扩散模型等方法,从文本输入中直接回归连续的人体运动。尽管连续回归具有直接针对真实数据进行优化且不损失数值精度的优势,但在回归包含复杂骨骼关节信息的连续运动时面临挑战,且受限于当前文本到运动数据集的质量和规模。第二种方法利用向量量化(VQ)技术将连续运动转换为离散标记,从而将回归问题转化为分类问题。这样,运动生成的难度可以大大降低。从更广泛的角度来看,使用量化技术来处理连续回归问题正变得越来越流行。在本文中,我们旨在通过设计一种新颖的表示和学习范式,来拓展第二种方法的极限。

尽管最近的方法通过利用运动量化取得了令人瞩目的成果,但它们都存在一个固有的缺陷。VQ过程不可避免地会引入近似误差,从而对生成运动的质量造成不利影响。因此,提高VQ近似的准确性是这些方法的关键点。为此,提出了许多技术,如残差VQ-VAE和分层VQ-VAE,以提高量化精度,并取得了显著成果。

然而,几乎所有以前的方法都是将一帧中的所有关节量化为一个向量,并从码本中用一个码字来近似这个向量。这并不是最优的,因为全身姿态包含大量的空间信息,即所有关节的位置,因此将整个姿态量化为一个向量存在两个缺点。一是这使得编码过程变得困难,因为码本中的每个码字都需要包含所有关节的综合信息,这使得量化从根本上变得更加复杂。二是会丢失单个关节之间的空间关系,因此后续网络无法捕获和聚合空间信息。

为了解决这些问题,我们提出将每个关节而不是全身姿态量化为一个向量。这带来了三个好处。首先,在关节层面进行编码显著简化了量化过程,因为表示单个关节信息的复杂性明显低于表示整个姿态的复杂性。其次,由于每个关节都是单独编码的,因此生成的标记保持了时空分布,既保留了关节之间的空间关系,又保留了其运动的时序动态。第三,这些标记的时空分布自然地组织成二维结构,类似于二维图像。这种相似性使得能够应用各种二维操作,如二维卷积、二维位置编码和二维注意力机制,从而进一步增强模型解释和生成人体运动的能力。

在本文中,我们从二维运动量化出发,提出了一个用于人体运动生成的时空建模框架。我们采用时空二维关节VQVAE将所有帧中的每个关节编码为从码本中抽取的离散码,从而生成代表运动序列的二维标记,如图1所示。利用二维结构,编码器和解码器都配备了二维卷积网络以进行高效特征提取,类似于二维图像。然后,我们按照语言任务和一些先前的运动生成工作中的做法,执行掩码建模技术。然而,与以前的方法不同,我们提出了一种针对二维标记的时空二维掩码策略。然后,根据文本输入,使用时空二维Transformer预测随机掩码的标记。不同标记的空间和时间位置首先通过二维位置编码进行编码,之后二维标记通过空间和时间注意力机制进行处理。时空注意力不仅考虑生成的运动在时序序列上是否符合输入文本,还考虑生成的关节在空间结构上是否合理。在不同数据集上的大量实验证明了我们的方法在运动量化和运动生成方面的有效性。与之前的SOTA方法相比,我们的方法在HumanML3D和KIT-ML上的FID分别降低了26.6%和29.9%。

3. 效果展示

在HumanML3D测试集上的定性结果。从浅蓝色到深蓝色的颜色表示运动序列顺序。箭头表示该序列在时间轴上展开。

4. 主要贡献

本文的主要贡献总结如下:

• 我们创新地将人体运动量化为时空二维标记,其中每个关节被量化为VQ码本中的一个单独码字。这不仅使量化任务更容易处理并减少了近似误差,而且还保留了单个关节之间至关重要的空间信息。

• 二维运动量化使得能够部署类似于二维图像的二维操作,因此我们引入了二维卷积、二维位置编码和二维注意力来增强运动自编码和生成。推荐课程:基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

• 我们提出了一种时空二维掩码策略,并在时间和空间维度上执行注意力,从而确保运动在时序运动和空间结构上的质量。

• 我们在运动量化和运动生成方面均优于以前的方法。

5. 方法

框架概述。(a)在运动量化中,通过联合VQ-VAE将人体运动量化为时空2D表征图。(b)在运动生成中,执行时空2D掩蔽以获得掩蔽图,然后设计时空2D变换器来推断掩蔽标记。

运动的时空2D联合量化

时空2D运动生成

6. 实验结果

7. 总结 & 未来工作

本文提出将每个关节单独量化为一个向量,生成用于运动量化的时空二维标记掩码,这减少了量化中的近似误差,保留了不同关节之间的空间信息以供后续处理,并使得广泛应用于二维图像的二维算子得以使用。然后,本文提出了时空二维掩码和时空二维注意力机制,以利用关节之间的时空信息进行运动生成。大量实验证明了所提方法的有效性。

局限性与未来工作。尽管在量化方面有所改进,但仍存在近似误差。在未来的工作中,需要一个大型数据集来预训练一个精确的量化器。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1