当前位置:首页|资讯

深度估计新SOTA!DepthART:将单目深度估计定义为自回归优化任务

作者:3D视觉工坊发布时间:2024-10-14

0. 论文信息

标题:DepthART: Monocular Depth Estimation as Autoregressive Refinement Task

作者:Bulat Gabdullin, Nina Konovalova, Nikolay Patakin, Dmitry Senushkin, Anton Konushin

机构:AIRI, Moscow, Russia、HSE University

原文链接:https://arxiv.org/abs/2409.15010

1. 导读

尽管最近在单目深度估计的判别方法中取得了成功,但其质量仍然受到训练数据集的限制。生成方法通过利用从互联网规模数据集的训练中获得的强先验来缓解这个问题。最近的研究表明,当在小深度数据集上进行微调时,大型文本到图像扩散模型在深度估计方面获得了最先进的结果。同时,自回归生成方法,如视觉自回归建模~(VAR),已经在条件图像合成中显示出有希望的结果。遵循视觉自回归建模范例,我们介绍了第一个基于视觉自回归变换器的自回归深度估计模型。我们的主要贡献是DepthART -一种新的训练方法,制定为深度自回归细化任务。与采用静态目标的原始VAR训练程序不同,我们的方法利用动态目标公式,使模型能够自我完善,并在训练期间纳入多模态指导。具体来说,我们在训练期间使用模型预测作为输入,而不是地面真实令牌图,将目标框定为残差最小化。我们的实验表明,在深度估计任务中,所提出的训练方法明显优于通过下一尺度预测的视觉自回归建模。在Hypersim上使用我们的方法训练的视觉自回归变换器在一组看不见的基准上取得了优于其他生成和判别基线的结果。

2. 引言

单目深度估计(MDE)是计算机视觉中的一个基本问题。深度图提供了一种紧凑的中间场景表示,对于物理环境中的决策制定非常有用。从单张图像中恢复深度数据对于包括空间视觉智能、自动驾驶和机器人技术在内的不同应用具有很高的实用价值。

早期基于学习的方法将单目深度估计问题视为一项监督回归任务。然而,这些方法具有领域特异性,并且严重依赖于带注释的数据集。因此,它们受到可用带注释数据量较少导致的泛化能力有限的制约。

最近的技术提出了不同的技巧来挑战这一限制。MiDaS提出通过使用混合数据集上的仿射不变深度训练方案来缓解这一问题。尽管仍然有新的方法提出带注释的数据源,但大规模获取准确的深度注释仍然具有挑战性。

最近的研究强调了文本到图像扩散模型的有效性,这些模型最初是在互联网规模的图像-字幕数据集上进行训练的,可作为单目深度估计的先验。这些方法涉及在具有深度注释的小型合成数据集上对预训练的扩散模型进行微调,从而生成准确且高度详细的深度图。同时,自回归模型(如视觉自回归建模VAR和LLaMA-Gen)的进步表明,这些模型能够在类别或文本引导的设置中生成高质量图像。这些发现促使我们探索用于深度估计的自回归生成技术,提供了一个有前景的新方向。

在本工作中,我们基于视觉自回归建模引入了一种新的单目深度估计方法。我们的主要贡献是提出了一种新颖的训练过程,将其表述为深度自回归细化任务(Depth Autoregressive Refinement Task)。我们的方法利用模型自身的预测来构建动态目标,而不是在训练过程中依赖真实标签的标记图。通过将目标设定为残差最小化,并使用模型预测作为输入,我们缩小了自回归建模中训练和推理阶段之间的差距,从而提高了深度估计的质量。我们广泛验证了我们的模型,并将其与相似条件下的流行基线进行了比较。据我们所知,这是第一个自回归深度估计模型。此外,与流行的深度估计基线相比,它的性能相当或更优。

3. 效果展示

我们提出了用于单目深度估计的深度自回归Transformer,该模型使用我们创新的方法——即深度自回归精炼任务(DepthART)进行训练。我们的模型通过预测下一尺度的残差来迭代地增强深度图,从而获得高度精细的最终估计。

4. 主要贡献

我们将我们的贡献总结如下:

我们通过开发深度自回归转换器,介绍了自回归图像建模在深度估计中的一项新应用。

我们提出了一种新的深度估计训练范式,称为深度自回归细化任务(Depth Autoregressive Refinement Task,DepthART),它促进了自我细化,并在训练过程中融入了多模态指导。

我们通过大量实验证明,使用DepthART训练的深度自回归转换器在多个未见过的基准测试中,与现有基线相比,具有竞争性或更优的性能。推荐课程:单目深度估计方法:算法梳理与代码实现。

5. 方法

我们着重指出了原始向量量化自回归(VAR)方法(左侧)与我们提出的训练方法DepthART(右侧)之间的关键差异。在VAR方法中,向量量化变分自编码器(VQ-VAE)提供的量化标记图在训练过程中既作为输入也作为目标。我们的DepthART方法引入了一个精炼过程(红色框内高亮),在该过程中,模型通过使用其预测的标记图作为输入,而不是预定义的VQ-VAE尺度,来实现自我精炼。目标被定义为编码后的深度特征fD与当前尺度下模型累积预测之间的量化残差。深度特征fD是从VQ-VAE编码器中提取的,且未经量化处理。

6. 实验结果

7. 总结 & 未来工作

本研究工作展示了生成式自回归建模在单目深度估计中的潜力。目前,我们的深度自回归Transformer建立在VAR预训练的基础上,这受到ImageNet数据集的限制。我们认为,在更广泛和多样的数据集上进行预训练,如用于文本到图像生成的数据集,可以显著提升我们模型的性能。我们方法的一个主要局限性是依赖于从VAR派生的VQ-VAE网络,且该网络未经过微调或重新训练。该VQ-VAE是在相对较小的OpenImages数据集上以低分辨率训练的,与之相比,LAION-5B等更大、更新的数据集则更具优势。我们预计,升级到更高质量的VQVAE将极大地促进我们的方法,并将这些局限性视为未来研究的关键方向。

在本文中,我们通过自回归视角解决了深度估计问题,特别是将视觉自回归建模方法应用于此任务。该方法最初是为类别条件图像生成而设计的,我们将其重新用于图像条件深度图估计,并引入了深度自回归Transformer。我们的分析揭示了标准VAR训练过程中的局限性,这导致在公共深度基准测试上的准确性不理想。为解决这些挑战,我们提出了一种新的训练公式,即深度自回归精炼任务(DepthART)。使用DepthART训练的深度自回归Transformer相较于VAR过程在性能上有了显著提升,并在公共基准测试上与近期方法相比取得了具有竞争力或更优的结果。我们的方法增强了模型的自我精炼能力,并解决了视觉自回归建模中的单峰性问题,这已通过实证评估得到证明。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1