当前位置:首页|资讯|生成式AI|Stable Diffusion|Stability AI

图片合成3D视频!开源的3D渲染视频模型问世!

作者:AI-GitHub发布时间:2024-03-20

Stable Diffusion官方又又又又上新了。

本次的下手对象是视频。

3月18日,Stability AI发布了用于渲染3D视频的生成式AI视频工具Stable Video 3D(SV3D)。

全新SVD的模型支持文本到视频、图像到视频生成。

只需输入几行描述性的文字,或放入一段静态图像,你就能获得一段生动的动态视频。

不光如此,它还支持物体从单一视角到多视角的转化。这意味着用户可以仅提供一个静态图像,SV3D就能够展示该对象从不同角度的样貌。并通过生成的多视角图像,进一步构建对象的3D网格模型,为用户提供一个完整的三维视觉体验。

这一全新的技术就像是给视频制作领域注入了一剂强心针,让内容创作者们激动不已。

甚至发问:

那么,SV3D是如何做出此番突破的呢?

研究人员披露:“这主要得益于大规模预训练生成模型,使其能够充分泛化到各个领域。”

Stable Video 3D基于去年末发布的Stable Video Diffusion模型,后者经过大型数据集如LAION和LVD的训练。随后,SV3D在“Objaverse”数据集的精炼版本上进行了进一步训练,该数据集包含了大量的3D物体。

这让他可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。

此外,SV3D还首次将视频扩散模型应用到了3D生成领域。利用视频模型的时间一致性来提高3D生成的一致性。

它有两个变体:

SV3D_u:此变体基于单图像输入生成360度环绕视频,无需相机条件。

SV3D_p:在SV3D_u的基础上扩展,能够处理单图像和轨道视图,允许沿特定相机路径创建特定视角3D视频。

不光如此,研究人员还改进了3D优化技术。

比如采用由粗到细的训练策略,优化NeRF和DMTet网格来生成3D对象。

比如设计了一种名为掩码得分蒸馏采样(SDS)的特殊损失函数,通过优化在训练数据中不直接可见的区域,来提高生成3D模型的质量和一致性。

比如引入了一个基于球面高斯的照明模型,用于分离光照效果和纹理,在保持纹理清晰度的同时有效减少了内置照明问题。

比如采用CFG(无分类器引导)来控制生成的清晰度,采用三角形CFG缩放来避免过度锐化。

形形色色,不一而足。

虽然目前只发布了基础模型,但Stability AI官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。

Stable Video 3D也确实秉承了Stability AI一贯的开放传统,官方公布了两种图像到视频模型,可以以每秒3到30帧之间的自定义帧速率生成14(SVD)和25帧(SVD-XT)的视频。

美中不足的是,该模型最低的显卡运行要求为英伟达GeForce RTX 4090及以上。

此外,Stable Video 3D不可商用。想要商业使用的小伙伴,可能还得订阅一个Stability AI Professional的会员(每月20美元)。

在接受VentureBeat采访时,Stability AI首席研究员Varun Jampani表示,“Stable Video 3D是生成3D资源的宝贵工具,特别是在游戏行业内。此外,它还能制作360度环绕视频,这在电子商务中很有用,为购物提供了更具沉浸感和互动性的体验。”

或许在不久的将来,3D生成技术就会被用到游戏和视频项目中,让所有人大吃一惊。

官方网址:https://stability.ai/news/introducing-stable-video-3d

开源地址:https://huggingface.co/stabilityai/sv3d



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1