当前位置:首页|资讯

更细腻的三角网格和纹理!DreamMesh:文本到3D生成最新SOTA!

作者:3D视觉工坊发布时间:2024-09-13

来源:计算机视觉工坊

添加小助理:CV3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

扩散模型已成为强大的现代生成网络的基础,用于生成逼真且多样的视觉内容(如图像和视频)。在此期间,文本驱动的视觉内容生成任务取得了巨大进展,例如文本到图像的生成和文本到视频的生成。这一成功归功于多个因素,如十亿级别的多模态数据和基于可扩展去噪扩散的生成建模。然而,直接训练一个健壮的针对文本到3D生成的特定3D扩散模型并非易事,因为成对的文本-3D数据相对稀缺,且3D场景具有比2D图像更复杂的几何结构和多视图视觉外观。

最近,Dreamfusion的进展巧妙地规避了文本到3D生成任务中对大量成对文本-3D数据的需求,并仅通过预训练在图像上的2D扩散模型来学习隐式3D场景表示(NeRF)。其核心学习目标是使用Score Distillation Sampling(SDS)通过2D扩散模型从每个采样视图中获取的2D观测值来优化隐式3D场景。尽管SDS取得了令人印象深刻的定量结果,但定性分析表明,这种文本到3D的生成往往由于2D扩散先验的内在偏差而导致跨视图不一致或模糊的纹理细节。随后,一系列工作致力于使用具有3D感知知识的3D先验来升级SDS中的2D扩散先验,旨在增强生成跨视图一致3D场景的能力。请注意,这些文本到3D的工作主要围绕基于密度的几何隐式3D场景表示进行,其表面边界未定义。如图1所示,这种未定义表面的框架很容易导致提取出的表面带有噪声和过饱和/过平滑的纹理。此外,具有隐式3D场景的学习3D资产无法直接集成到图形管道中,并且需要从隐式转换为显式3D场景。这种转换可能会在表面上引入更多噪声,从而阻碍了特别是在各种高质量3D应用中的使用。

为了应对这些挑战,我们的工作基于无处不在且定义明确的表面(三角形网格)的完全显式3D场景表示,为文本到3D的生成塑造了一种新方法。我们提出了一种新颖的文本到3D框架,即DreamMesh,它将纹理三角形网格的学习分为两个阶段。具体来说,在第一阶段(粗阶段),DreamMesh通过文本引导的雅可比矩阵对三角形网格进行变形,从而获得全局平滑的粗网格。接下来,通过预训练的2D扩散模型的交错使用,在无需调整的情况下获得相应的粗纹理。在第二阶段(细阶段),DreamMesh联合操作粗网格并细化粗纹理贴图。该方案以粗到细的方式学习显式3D表示的表面和材质/纹理。最终,DreamMesh生成的显式3D模型忠实地反映了高质量几何形状(干净且组织良好的拓扑结构)和丰富的纹理细节(见图1)。

下面一起来阅读一下这项工作~

1. 论文信息

标题:DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation

作者:Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Zuxuan Wu, Yu-Gang Jiang, Tao Mei

机构:Fudan University、Shanghai Collaborative Innovation Center of Intelligent Visual Computing、HiDream.ai Inc.

原文链接:https://arxiv.org/abs/2409.07454

官方主页:https://dreammesh.github.io/

2. 摘要

具有强大2D扩散模型的学习辐射场(NeRF)已经为文本到3D生成获得了流行。然而,NeRF的隐式3D表示缺乏对表面上的网格和纹理的显式建模,并且这种表面未定义的方式可能遭受问题,例如,具有模糊纹理细节的噪声表面或交叉视图不一致。为了缓解这一问题,我们提出了DreamMesh,这是一种新颖的文本到3D架构,它基于定义良好的表面(三角形网格)来生成高保真的显式3D模型。从技术上来说,DreamMesh利用了一种独特的由粗到细的方案。在粗略阶段,网格首先通过文本引导的雅可比矩阵进行变形,然后DreamMesh从多个视点以自由调节的方式通过交错使用2D扩散模型对网格进行纹理化。在精细阶段,DreamMesh联合操纵网格并细化纹理贴图,从而产生具有高保真纹理材质的高质量三角形网格。大量实验表明,DreamMesh在忠实生成具有更丰富文本细节和增强几何图形的3D内容方面明显优于最先进的文本到3D方法。

3. 效果展示

4. 主要贡献

我们做出了以下贡献:(1)我们创新性地基于三角形网格的完全显式3D场景表示来构建文本到3D的生成框架,这显示出能够缓解与隐式3D场景相关的问题并学习更平滑的表面的能力。(2)精心设计的以显式3D场景表示为中心的粗到细策略被证明能够促进三角形网格的操纵和纹理化。(3)通过在全面的文本到3D基准(T3Bench)上进行广泛的实验,对提出的DreamMesh进行了分析和验证,与最先进的方法相比,展示了优越的结果。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图。

5. 基本原理是啥?

在本节中,我们将详细介绍DreamMesh,它以从粗到细的方式,基于完全显式的3D表示来构建文本到3D的生成框架。图2展示了详细的框架,该框架包括两个阶段:粗阶段生成粗网格和纹理,以及细阶段通过基于扩散的2D图像到图像细化器联合优化网格和纹理。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了DreamMesh,这是一个新颖的文本到3D生成框架,它完全依赖于从粗到细的显式3D表示。具体而言,在粗阶段,我们利用神经雅可比场来变形三角网格,然后通过无调参过程以及交替使用预训练的2D扩散模型来为生成的粗网格添加纹理。在细阶段,我们联合优化粗网格和纹理,以生成具有丰富纹理细节和增强3D几何形状的高质量3D模型。我们在T3Bench基准上评估了我们的方案,并通过定性和定量比较证明了其相对于最先进技术的优越性。

局限性与更广泛的影响。由于先前2D扩散模型的3D感知能力有限,DreamMesh在某些情况下可能会遇到双面雅努斯问题。在3D数据上对扩散模型进行微调可能会缓解这一问题。由于生成的网格可以与现有的3D引擎无缝兼容,DreamMesh有可能通过自动化取代创意工作者,从而推动创意产业的增长。然而,它也可能被潜在地应用于意外场景,如生成虚假和恶意内容,因此需要更加谨慎。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型:www.3dcver.com

—  —



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1