由人工智能初创公司Stability AI推出的全新AI模型,Stable Video Diffusion,引起了广泛关注。这款模型基于之前发布的Stable Diffusion文本到图像AI模型,不同之处在于它能够将静态图片转化为高质量影片。
目前,Stable Video Diffusion处于研究预览阶段,用户需同意特定使用条款,包括预期应用(如教育、创意工具、设计和其他艺术过程等)以及非预期用途(如对人或事件的真实表达)。该模型提供两种版本,分别是SVD和SVD-XT。SVD能够将静态图像转为14帧576×1024的影片,而SVD-XT在相同架构下将帧数提高到24,两者均可以每秒3到30帧的速度生成影片。
然而,这项技术并非没有局限性。Stable Video Diffusion无法生成静态或慢动作影片,无法通过文字进行控制,无法清晰渲染文字,并且在生成人脸和人物方面存在一些问题。此外,模型的发布也引发了一些担忧,尤其是其潜在滥用的风险。模型似乎缺乏内建的内容过滤器,可能导致制作不当内容的风险。
Stability AI表示,尽管模型在某些方面存在限制,但具有很高的扩展性,可以适应生成物体360度图等多种用例。公司计划推出一系列基于SVD和SVD-XT的新模型,并将文字提示集成到网络的“文字到影片”工具中。最终目标似乎是商业化,潜在应用领域包括广告、教育、娱乐等。
Stable Video Diffusion技术层面深度解析
Stable Video Diffusion被定位为一种高分辨率的视频潜在扩散模型,达到了文本到视频或图像到视频的最先进水平。该模型通过插入时间层并在小型高质量视频数据集上进行微调,实现了从2D图像合成训练的潜在扩散模型向生成视频模型的转变。
成功训练Stable Video Diffusion包括三个关键阶段:图像预训练、视频预训练数据集和高质量微调。在图像预训练阶段,模型建立在Stable Diffusion 2.1的基础上,为视频模型提供了强大的视觉表示。视频预训练数据集依赖于人类偏好作为信号,创建了包含580M对带注释视频片段的大型视频数据集。
在高质量微调阶段,Stability AI对三个模型进行了微调,分析了视频预训练对最终阶段的影响。模型的成功训练为下游任务提供了强大的运动表征,具有广泛的应用前景。
然而,Stable Video Diffusion目前尚未适用于现实世界或直接的商业应用,Stability AI计划根据用户对安全和质量的反馈继续改进模型。尽管模型仍处于早期阶段,但它为Stability AI提供了一个多模态产品组合,涵盖图像、语言、音频、三维和代码等多个领域,展示了公司提升AI技术的决心。
*免责声明:以上内容整理自网络,仅供交流学习之用。如有内容、版权问题,请留言与我们联系进行删除。