编译/VR陀螺
近日,Adobe Research与澳大利亚国立大学研究人员合作开发了一个新的AI大模型LRM,它只需5秒即可将2D图像转化为高质量的3D模型。
与以往以特定类别的方式在小型数据集上进行训练的方法不同,LRM采用高度可扩展的基于Transformer的神经网络架构,具有超过5亿个参数。它以端到端的方式对来自Objaverse和MVImgNet数据集的约100万个3D对象进行训练,直接从输入图像预测神经辐射场 (NeRF)。
图源:yiconghong.me/LRM/
《LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D》论文中指出,“大容量模型和大规模训练数据的结合使我们的模型具有高度通用性,并根据各种测试输入(包括真实世界的捕获和生成模型的图像)生成高质量的3D重建。”
实验表明,LRM可以根据真实世界图像以及DALL-E和Stable Diffusio等AI生成模型创建的图像重建高保真3D模型,系统可生成详细的几何形状并保留木纹等复杂的纹理。不过LRM在遮挡区域的纹理生成方面依旧具有一定的局限性。
在应用方面,LRM具有广阔的前景,其中涵盖了从工业设计到游戏娱乐等各种场景,此外,在AR/VR中,LRM可以通过从2D图像实时生成详细的3D环境来增强用户体验。
来源:venturebeat