当前位置:首页|资讯

上交最新!三维重建新思路?可控3D对象生成框架!超高纹理细节!

作者:3D视觉工坊发布时间:2024-10-19

0. 这篇文章干了啥?

随着游戏、虚拟现实(VR)和增强现实(AR)等行业的不断发展,对3D内容的需求日益增长。然而,手动创建3D内容成本高昂,因此迫切需要解决使用人工智能技术快速生成高质量、满足人们需求的3D内容的问题。在2D图像生成领域,扩散模型取得了惊人的成功。有几种方法利用2D领域的现有成功成果应用于3D任务。然而,在3D生成领域,要达到与扩散模型相似的成功并非易事。为解决这个问题,DreamFusion提出了评分蒸馏采样,将2D扩散模型的预训练先验知识提炼到3D隐式表示中,但其3D内容生成速度慢,还面临双面神问题。另一种方法的代表是Instant3D,随着Objaverse的出现,它利用改进的Transformer架构和前馈训练方法实现端到端的文本到3D内容的生成,但这种方法在3D生成过程中需要大量的计算资源进行模型训练。

更重要的是,现有的文本到3D对象生成工作主要集中在生成单个对象上,缺乏对生成对象最终结果的控制。例如,当提供包含多个对象的文本提示(如“三个甜甜圈”)时,当前的文本到3D内容生成方法难以产生令人满意的结果。生成的3D对象位置存在多种可能性,且单个对象位置无法满足预期要求。此外,这些方法还常常遇到对象融合和遗漏等挑战。生成的3D对象数量往往不正确,多个对象的特征也容易混在一起。

在本文中,我们提出了一种简单而有效的框架COMOGen,用于生成多个3D内容,并确保生成的3D对象位置与我们的预期一致,通过边界框进行控制。核心思想是利用多个扩散模型的强大先验知识。我们将经典的文本到3D方法扩展为三个组件:布局控制模块、多视图一致性控制模块和3D内容增强模块。此外,我们提出了布局多视图评分蒸馏(LMSD),以统一布局先验和多视图先验。具体来说,如图2所示,对于给定的文本提示和边界框,我们首先使用布局控制模块生成多样且合理排列的图像,作为多视图控制模块的2D先验。然后,在布局控制模块中,我们提出了布局评分蒸馏(Layout-SDS)来提炼由输入文本和边界框指导的布局预训练知识。在多视图一致性控制模块中,我们设计使用多视图评分蒸馏(Multi-view SDS)来提炼由2D先验图像指导的多视图一致性先验知识。此外,为了统一从两个扩散模型获得的布局知识和多视图知识,我们提出了LMSD。最后,我们计算Layout-SDS、Multi-view SDS和LMSD的多个损失值,以优化初始3D内容并获得最终的多个3D对象。此外,在3D内容增强模块中,我们基于优化3D实例的多视图渲染对扩散模型进行微调,以拟合3D内容所表示的分布。推荐课程:彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用

COMOGen展现出强大的泛化能力,其中我们框架中使用的GLIGEN和Stable Zero123模型分别基于COCO数据集和Objaverse数据集上的稳定扩散进行训练。此外,COMOGen在推断3D信息时保持创造性和多样性,使我们能够从给定的文本和布局中生成多个布局合理的3D对象。COMOGen使任何人都能仅通过文本和边界框生成合理的3D内容,有可能彻底改变游戏、视觉特效、电影制作和内容创作等行业。

下面一起来阅读一下这项工作~

1. 论文信息

标题:COMOGen: A Controllable Text-to-3D Multi-object Generation Framework

作者:Shaorong Sun, Shuchao Pang, Yazhou Yao, Xiaoshui Huang

机构:南京理工大学、上海交通大学

原文链接:https://arxiv.org/abs/2409.00590

2. 摘要

3D对象生成方法的可控性是通过输入文本实现的。现有的文本到3D对象生成方法主要集中于基于单个对象描述生成单个对象。然而,当输入文本涉及多个对象时,这些方法在产生与我们期望的位置精确对应的结果方面经常面临挑战。为了解决生成多个对象的可控性问题,本文引入了一个可控的文本到3D多对象生成框架COMOGen。COMOGen通过对布局和多视图先验知识的提炼,实现了多个3D对象的同时生成。该框架由三个模块组成:布局控制模块、多视图一致性控制模块和3D内容增强模块。此外,为了将这三个模块集成为一个完整的框架,我们提出了布局多视图得分提取,它统一了两个先验知识,进一步增强了生成的3D内容的多样性和质量。综合实验表明,与最先进的方法相比,我们的方法是有效的,这代表着在实现更可控和多功能的基于文本的3D内容生成方面向前迈出了重要的一步。

3. 效果展示

与基线方法的比较。COMOGen能够生成更合理的3D内容。

4. 主要贡献

我们的主要贡献概括如下:

• 我们提出了一个可控的文本到3D生成框架,能够同时生成具有合理空间关系的多个对象。我们的方法仅需要文本输入和相应的边界框来生成3D内容,无需任何监督的文本到3D数据进行训练。

• 我们提出了布局多视图蒸馏采样(LMSD),一种用于统一从预训练扩散模型中提炼的布局先验和多视图一致性先验的方法。

• 我们通过使用迭代优化框架COLA对扩散模型进行微调并拟合3D内容的分布,提高了生成质量。

5. 基本原理是啥?

我们提出了一种名为COMOGen的方法,用于根据文本和边界框生成可控的3D内容,如图2所示。COMOGen主要由布局控制模块(a)、多视角一致性控制模块(b)和3D内容增强模块(c)组成。首先,COMOGen根据输入的文本和边界框初始化3D内容并生成一个2D图像,该图像作为多视角控制模块的2D先验。在布局控制模块(a)中,它以文本和边界框为指导,利用我们设计的布局-SDS(Score Distillation Sampling,评分蒸馏采样)从布局控制预训练模型中提炼布局先验知识。同时,多视角一致性控制模块(b)以2D先验为指导,利用多视角SDS提炼预训练知识。此外,3D内容增强模块(c)将待优化的3D内容渲染出的噪声图像作为输入,利用COLA损失微调布局控制扩散模型,以适应生成的3D内容的分布。最后,我们通过设计LMSD(Layout-Multi-view Score Distillation,布局-多视角评分蒸馏)并计算多个损失值来联合优化多个3D对象。

6. 实验结果

首先,我们遵循Instant3D的评估方法,使用CLIP分数来评估生成的3D内容。为了最大限度地减少Janus问题对CLIP分数的正面影响,我们从三个不同视角(正面、左前和右前)渲染每个3D内容的视图。我们使用CLIP ViT-B/32来提取文本和图像特征,并通过计算每个视图与输入文本提示之间的相似度平均值来计算CLIP分数。表1中的结果显示,COMOGen在CLIP分数上具有优势,这表明它在文本到多对象生成和多对象布局方面统计上优于基线方法。然而,由于Clip分数仅从指定视角渲染2D图像,因此在多个对象的3D生成内容中不可避免地会存在对象之间的遮挡,导致Clip分数下降,因此仍需要更合理的定量指标来评估多对象生成。

为了克服上述问题并更有效地评估文本到多对象的生成,受VP3D和GaussianDreamer定量实验的启发,我们在T3Bench上测试了我们的方法,以使实验结果更符合人类主观评价。表2显示了多对象文本提示的实验结果。与其他方法相比,我们的方法在质量和对齐度方面都取得了优势,特别是COMOGen在对齐度评估中取得了显著领先。

此外,我们还进行了一项用户研究实验。我们随机选择了10个文本提示并生成了40件3D内容。该研究采用多选题形式,每个问题仅提供文本提示和四种方法对应的生成结果。我们招募了103名参与者,并指示他们根据批判性文本匹配、3D内容的纹理质量和位置关系来选择他们认为与提示最匹配的内容。如表1所示,我们提出的COMOGen获得了64.17%的票数,成为首选。与排名第二的算法MVDream相比,我们实现了显著的43.88%的准确率提升。这一结果强调了我们方法的视觉优越性。

7. 总结 & 未来工作

在本文中,我们提出了COMOGen,这是一种能够根据复杂文本和给定边界框生成多个对象的可控3D生成方法。COMOGen基于布局扩散模型和多视角扩散模型。我们提出的新颖蒸馏方法从预训练模型中提取先验知识以分析组合概念。我们已经讨论并分析了COMOGen的每个模块,实验结果强调了我们方法的可行性和优越性。然而,我们观察到广泛使用的评估指标并不能有效地量化多个3D对象。虽然我们的视觉比较结果显著优于基线,但这种优越性在定量实验结果中难以展示。此外,我们的方法存在一个局限性,即我们使用的2D边界框无法准确描述z轴上的位置关系,这将在未来的工作中得到解决。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊可提供顶会论文的课题如下:




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1