当前位置:首页|资讯|AIGC|编程|Hugging Face

近期视频AIGC热点工作整理 (2024年2月上)

作者:VictorYuki发布时间:2024-02-15

第一次写专栏,写的不好的地方请大家见谅~

这篇文章的主要目的是回顾一下最近一个多月的视频AIGC的热点工作,选文来自于HuggingFace的Daily Papers,后续我打算开一个视频栏目专门分享一下相关论文,如果有你很想让我分享的论文的话,欢迎私信我~

(ArXiv 24.2.14) Magic-Me: Identity-Specific Video Customized Diffusion

paper链接:https://arxiv.org/pdf/2402.09368.pdf

代码链接:https://github.com/Zhen-Dong/Magic-Me

简评:本文想做的事情就是给一个ID,然后生成主体符合这个ID的视频。不过粗看Figure 3里的草图,感觉像是customized T2I+AnimateDiff+人脸增强的pipeline,创新性感觉弱点。个人还是觉得video的customization需要设定一些独属于video的功能,比如对motion的customization,这样可能才会和之前T2I的工作有区分,也会有更大的价值。

https://arxiv.org/pdf/2402.09368.pdf

(ArXiv 24.2.8) Animated Stickers: Bringing Stickers to Life with Video Diffusion

paper链接:https://arxiv.org/pdf/2402.06088.pdf

简评:Meta的工作,看起来是EMU系列的后续工作。这篇文章可以认为是在研究如何解决把一般domain上训练的T2V和I2V模型迁移到特定domain上(这篇论文里就是sticker images)可能会遇到的问题(比如style上不适配,motion幅度太小等)。本文提出的方法即两阶段的预训练,一阶段训练多个teacher,然后收集这些teacher推理的结果并做过滤,然后用这些过滤后的数据训练一个更小但更强的student。是一篇比较有工程色彩的论文,不过应该挺有价值的。

https://arxiv.org/pdf/2402.06088.pdf

(ArXiv 24.2.6) CONSISTI2V: Enhancing Visual Consistency for Image-to-Video Generation

paper链接:https://arxiv.org/pdf/2402.04324.pdf

主页链接:https://tiger-ai-lab.github.io/ConsistI2V/

简评:本文尝试解决I2V模型会产生的appearance不一致以及生成动作较差的问题。我的一些看法:这两个问题一般可以认为是模型生成能力不够所导致的,这种情况下,如果没有对数据量做出重大变化的情况下,往往就是要做trade off,也就是说要牺牲别的什么东西来换取更好的一致性。具体到I2V问题来说的话,就是会牺牲生成视频的动作幅度,极端地想的话,如果生成的视频是不动的话,那也就不存在不一致的问题,不过不至于真做到这地步。另外只看这个论文的方法图的话,感觉缝合了很多之前工作的方法,辛苦了。

https://arxiv.org/pdf/2402.04324.pdf

(ArXiv 24.2.5) InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

paper链接:https://arxiv.org/pdf/2402.03040.pdf

主页链接:https://invictus717.github.io/InteractiveVideo/

简评:本文就是提出视频生成的时候可以支持多种条件输入。个人感觉写作画图略显粗糙,特别是Figure 3的framework,感觉画的并不是很清楚,反正我是没能一下子get住是怎么支持多个条件输入的。

https://arxiv.org/pdf/2402.03040.pdf

(ArXiv 24.2.5) Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion

paper链接:https://arxiv.org/pdf/2402.03162.pdf

代码链接:https://invictus717.github.io/InteractiveVideo/

简评:这篇文章还挺有意思的,虽然做法也不复杂。所谓direct,就是可以通过输出相机位姿或者移动物体的box来控制motion。相机位姿作为训练时的输入给到网络,只要数据集上能够建立相机位姿和数据之间的关系,那么就是可以学习到的,这也是目前越来越被大家关注的一个研究点。而移动物体的box则是需要用户指定某一个object的box的起点以及终点,然后中间帧就插值。不过实际实现中确实要生成对应的mask来操作attention map,这个思路对于我来说还是比较有趣味的,虽然之前很多图像的工作包括一些视频编辑的工作已经弄过了,不过我觉得还挺不错的。

https://arxiv.org/pdf/2402.03162.pdf

(ArXiv 24.2.2) Boximator: Generating Rich and Controllable Motions for Video Synthesis

paper链接:https://arxiv.org/pdf/2402.01566.pdf

主页链接:https://boximator.github.io/

简评:用box以及其轨迹来控制视频的生成,乍一看其实挺像每一帧都用T2I的ControlNet的感觉。不过他这个control的方式是在网络结构中插入可训练的模块来实现的,有即插即用的潜力,而且调控的方法和直接在feature上做加法不一样,是cross attention类似的思路,有一定的趣味性。

https://arxiv.org/pdf/2402.01566.pdf

(ArXiv 24.2.1) AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

paper链接:https://arxiv.org/pdf/2402.00769.pdf

主页链接:https://github.com/G-U-N/AnimateLCM

简评:这篇文章是在研究基于AnimateDiff的视频生成模型如何蒸馏的问题。不是简单的对AnimateDiff蒸馏,而是要在这个过程中保留AnimateDiff良好的解耦性质。粗看感觉是一篇挺有意思的工作,开篇画的方法示意图也挺清楚的,值得精读一下。

https://arxiv.org/pdf/2402.00769.pdf

(ArXiv 24.1.31) Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling

paper链接:https://arxiv.org/pdf/2401.15977.pdf

主页链接:https://xiaoyushi97.github.io/Motion-I2V/

简评:我觉得这篇论文的思路还是挺不错的,不同AnimateDiff对视频生成的解耦为temporal和spatial,这篇论文是对appearance和motion来解耦,其中motion的表示形式是类似光流的场。所以这篇论文提出的框架是两阶段的,第一阶段是生成光流,第二阶段是将光流作为条件再生成视频。而对于视频的motion的控制,可以全部在第一个阶段生成光流的时候来实现,确实有一定的优势。

https://arxiv.org/pdf/2401.15977.pdf










Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1