当前位置:首页|资讯|人工智能|Stability AI|Stable Diffusion|教育

Stable Video Diffusion:从静态图片到影片的AI新突破

作者:科闻社发布时间:2023-11-27


由人工智能初创公司Stability AI推出的全新AI模型,Stable Video Diffusion,引起了广泛关注。这款模型基于之前发布的Stable Diffusion文本到图像AI模型,不同之处在于它能够将静态图片转化为高质量影片。


目前,Stable Video Diffusion处于研究预览阶段,用户需同意特定使用条款,包括预期应用(如教育、创意工具、设计和其他艺术过程等)以及非预期用途(如对人或事件的真实表达)。该模型提供两种版本,分别是SVD和SVD-XT。SVD能够将静态图像转为14帧576×1024的影片,而SVD-XT在相同架构下将帧数提高到24,两者均可以每秒3到30帧的速度生成影片。


然而,这项技术并非没有局限性。Stable Video Diffusion无法生成静态或慢动作影片,无法通过文字进行控制,无法清晰渲染文字,并且在生成人脸和人物方面存在一些问题。此外,模型的发布也引发了一些担忧,尤其是其潜在滥用的风险。模型似乎缺乏内建的内容过滤器,可能导致制作不当内容的风险。


Stability AI表示,尽管模型在某些方面存在限制,但具有很高的扩展性,可以适应生成物体360度图等多种用例。公司计划推出一系列基于SVD和SVD-XT的新模型,并将文字提示集成到网络的“文字到影片”工具中。最终目标似乎是商业化,潜在应用领域包括广告、教育、娱乐等。


Stable Video Diffusion技术层面深度解析


Stable Video Diffusion被定位为一种高分辨率的视频潜在扩散模型,达到了文本到视频或图像到视频的最先进水平。该模型通过插入时间层并在小型高质量视频数据集上进行微调,实现了从2D图像合成训练的潜在扩散模型向生成视频模型的转变。


成功训练Stable Video Diffusion包括三个关键阶段:图像预训练、视频预训练数据集和高质量微调。在图像预训练阶段,模型建立在Stable Diffusion 2.1的基础上,为视频模型提供了强大的视觉表示。视频预训练数据集依赖于人类偏好作为信号,创建了包含580M对带注释视频片段的大型视频数据集。


在高质量微调阶段,Stability AI对三个模型进行了微调,分析了视频预训练对最终阶段的影响。模型的成功训练为下游任务提供了强大的运动表征,具有广泛的应用前景。


然而,Stable Video Diffusion目前尚未适用于现实世界或直接的商业应用,Stability AI计划根据用户对安全和质量的反馈继续改进模型。尽管模型仍处于早期阶段,但它为Stability AI提供了一个多模态产品组合,涵盖图像、语言、音频、三维和代码等多个领域,展示了公司提升AI技术的决心。



*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1