当前位置:首页|资讯|ChatGPT|腾讯

这款工具让你一秒成AI版宫崎骏,AI视频“ChatGPT时刻”快到了

作者:腾讯科技发布时间:2023-10-17

这款工具让你一秒成AI版宫崎骏,AI视频“ChatGPT时刻”快到了

《新鲜计划》栏目由腾讯科技推出,挖掘最新鲜的产品,体验智慧浪潮中的Aha时刻。

文 / 歸藏

编辑 / 腾讯科技 周小燕

关注AI的朋友可能发现,最近多了很多AI视频生成的工具,同时视频的生成质量好像也比之前的高了很多。

比如,你可能会看到一则酷炫的短视频,一个女孩在水中变装舞蹈,整个画面展现较为顺畅:

再比如,一个黑白相间的动画,通过AI视频生成工具,转变为一则填充色彩的动画:

这些视频是用一款名为Animatediff的项目,直接从文字生成的动图。

Animatediff是香港中文大学团队开源的AI视频生成方法,基于Stable DIffusion的开源基建,8月份开源模型之后,一个月就把AI视频生成的质量提高了几个等级。比如下面这个视频就是用Animatediff从0生成的,只需要一段提示词,用户可以描述在视频的第几秒出现什么样的画面,比如输入以下提示词:

“0” : “1girl、solo、樱花、赏花、粉红花、白花、春季、紫藤、花瓣、花、梅花、户外、落花瓣、黑眼睛、上半身、白色衣服、紫色头发”

“24” : “1girl、solo、薰衣草蓝天白云、夏季、户外、飘落的玫瑰花瓣、黑眼睛、上半身、白色衣服、紫色头发”

“48” : “1girl、solo、橙叶、黄叶、秋季、户外、落叶、黑眼睛、上半身、白色衣服、紫色头发”

“72” : “1girl、solo、梅花、红叶、冬季、户外、飘落的雪花、黑眼睛、上半身、白色衣服、紫色头发”

“96” : “1girl、solo、樱花、赏花、粉红花、白花、春季、紫藤、花瓣、花、梅花、户外、落花瓣、黑眼睛、上半身、白色衣服、紫色头发”

这些提示词可以生成一个唯美的视频,一位紫色头发、在蓝天白云里站在樱花之下的女孩:

基于Stable Diffusion生态,Animatediff现在除了具备通过文本生成动图和短视频的能力之外,它还具备非常全面的视频制作能力,比如它可以自定义视频镜头运动方向。

但是Animatediff的使用依旧存在一些门槛,它并不是以直接面向用户的界面形态存在,用户需要在Stable Diffusion Web UI和ComfyUI中使用Animatediff的插件来生成视频。

Stable Diffusion Web UI和ComfyUI都是给Stable Diffusion图像生成模型搭配使用的UI界面,Web UI更加像我们平时使用的网站,它上手更容易一些,用户只需要填写内容后,点击生成就可以生成图片。

在Animatediff插件的使用方面,Stable Diffusion Web UI和ComfyUI这两种方式支持的功能不太相同。

首先是Web UI的Animatediff插件,Web UI不如ComfyUI灵活,基本Web UI所有的功能都需要单独写代码开发,开发成本很高,目前Web UI版本的插件比ComfyUI少很多,但优点就是门槛比较低。Web UI主要功能有:

1、通过输入纯粹的提示词文字生成视频;

2、通过上传图片以及提示词生成视频;

3、支持生成 PNG 图片序列、 gif 图片、 MP4 视频三中格式的输出;

4、支持提示词旅行功能,简单来说就是可以定义视频不同时间段的内容提示词,比如:0 秒是春天的景色,1 秒的时候变成秋天;

5、支持上传视频之后根据视频内容和 ControlNet 控制生成视频(加上 ConTrolNet 后生成时间变得非常长)。

Stable Diffusion Web UI Animatediff 插件界面

了解Stable Diffusion的人基本都对Web UI也有一定的了解 ,那么ComfyUI呢? ComfyUI是一个通过创建和链接各种SD模型中的节点模块来生成图片和内容的界面,ComfyUI的优势就是灵活,在Web UI上需要开发个插件才能完成的事情,可能在ComfyUI上面只需要链接节点就可以了,但过于灵活造成的问题就是上手门槛很高,需要了解SD生成图片的每个模块的具体作用才行。

Comfy UI 图像生成流程

ComfyUI的Animatediff插件基本支持Web UI插件的所有功能,同时由于ComfyUI的特性,在相同配置的硬件上内容的生成时间要比Web UI少很多,另外他还能更快速的放大生成的视频,也可以将视频插帧率看起来更加流畅,结合IP Adpter的能力从多张图片中生成视频。重要的是以上这些流程都可以自定义,流程保存之后,每一次运行点击一次就可以了。

Comfy UI Animatediff插件生成视频流程

AI视频生成领域的Stable Diffusion,是如何诞生的?

Animatediff这个项目的起源于今年七月香港中文大学研究团队发表的一篇论文《AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

AnimateDiff是一种框架,可以在不需要特定调整的情况下,通过个性化的文本到图像(T2I)模型生成动画图像。该框架将运动建模模块引入到冻结的T2I模型中,并在视频剪辑上进行训练,以学习合理的运动先验知识。然后,可以将此运动建模模块注入到从相同基模型派生的个性化T2I模型中,从而使其能够生成多样化且个性化的动画剪辑。

AnimateDiff原理示意

相较于之前其他的Stable Diffusion生态中的视频生成方案,AnimateDiff的优势有:

无需数据收集和定制化训练:与其他视频生成方式不同,AnimateDiff无需额外的数据收集或定制化训练。它通过将一个运动建模模块注入到基于相同基础模型的个性化T2I模型中,从而实现了个性化的动画生成。

保持个性化模型的质量和领域知识:AnimateDiff通过在视频剪辑上训练运动建模模块来学习合理的运动先验知识,并将这些知识注入到个性化T2I模型中。这样一来,个性化模型就可以生成多样化、个性化的动画片段,同时保持原始模型的质量和领域知识。

生成动画片段的时序平滑:个性化T2I模型通常缺乏时序自由度,不能生成动画图像。而AnimateDiff通过引入运动建模模块,能够生成具有时序平滑性的动画内容,使得动画片段在视觉上更加连贯。

简单且低成本:AnimateDiff提供了一个实用且有效的方法,可以为现有的个性化T2I模型添加动画,而无需进行大量的调整或数据收集。用户只需要导入个性化模型,并将训练好的运动建模模块注入其中,即可快速获取个性化的动画,而无需额外的调整和数据收集的成本。

尽管个性化的T2I模型因其视觉质量而受到关注,但它们缺乏时间自由度。AnimateDiff旨在通过在不需要额外数据收集或定制训练的情况下,从个性化模型生成动画图像来解决此问题。

将所提出的框架在几种具有代表性的个性化T2I模型上进行了评估,其中包括动漫图片和逼真的照片,表明它可以在保留输出的域和多样性的同时生成时间上平滑的动画剪辑。

AnimateDiff团队的更新也很频繁,刚开始的模型一次只能够生成16帧的动画,在上个月更新V2之后单次可以生成32帧的动画,配合上下文工具之后可以实现无限长度的内容生成。

开源社区的帮助也很大,最近有很多基于AnimateDiff原始模型再次训练的运动模型,这些模型在一些方面都比原始模型有些优势。

在国庆节前AnimateDiff还更新了基于Lora模型的镜头控制功能,可以自定义生成视频的镜头运动方向,比如拉远、向左移动,顺时针旋转等,更加丰富了画面表现。

AnimateDiff支持的镜头调度方式

随着生态越来越丰富,和其他模型的产出(比如基于SDXL的运动模型),AnimateDiff可能会变成AI视频生成领域的Stable Diffusion 。

基于Animatediff开发的产品集合

很多最近发布的AI视频生成应用,所使用的正是跟AnimateDiff非常类似的技术。和EbSynth以及Deforum等生成方式不同的是,这些技术可能给图像模型和运动模型增加了一些自定义功能,同时在流程里增加了视频放大和插帧算法。

我们来介绍一些最近发布的可能基于Animatediff开发的AI视频生成应用。

Pika:除了Runway之外,最早涉猎AI视频生成的应用

Pika可以说是除了Runway之外,最早要吃AI视频生成这个蛋糕的应用了,用户需要去Discord频道中通过机器人沟通使用。

Pika生成质量也非常高,目前处于测试阶段,用户可以免费使用,生成的视频是带水印的。跟Midjourney类似,用户可以根据提示词命令来触发一些功能,比如“-ar 16:9”就是生成 16:9 的视频比例,也支持控制镜头方向和帧率,每个生成的视频时长是3秒。

Pika 视频生成流程

可以看一段用Pika生成的视频效果:

Genmo:可以生成极高清的视频

Genmo的主要功能跟Pika类似,他们主要的特点是可以生成非常高清的视频,在某些写实内容上的质量非常好,网站可以通过UI操作的体验也比 Pika这类Discord要更好上手一些,同时最近还上线了FX插件功能,用户可以给生成的视频加上各种FX效果,比如视频上的某一部分内容会呈现心形之类的。

Genmo应用界面

同样,可以观赏一段Genmo生成的视频,它能细致到展现花瓣、花蕊和蜜蜂的翅膀:

Moonvalley:可以选择不同风格的图像模型

Moonvalley是最近发布的一个高清视频生成应用,也是在Discord里面进行内测,视频的生成质量非常高。从视频质量和一致性来看可能是最近效果最好的。Moonvalley在视频生成的时候需要选择对应的图像模型,比如写实照片、起换风格、动漫效果等。

Moonvalley UI界面

下面这段视频是用Moonvalley生成的,可以见识一下它在写实类内容上的细节刻画:

AI视频的ChatGPT时刻到了?

AI视频的Midjourney V5时刻就要到了,实际上已经有这个端倪了,从开始的Pika到后来的Genmo,在到前几天的Moonvalley,视频生成的效果越来越好。

最迟到年底(12月底),AI视频应该就会被大规模用到生产环境中,类似现在的一众AI画图软件和到处可以看到的AI图像。

根本原因是技术基建的成熟,也就是Animatediff这项技术框架的成熟带来的。产生这样的判断,主要基于这几个维度的原因:

从生成质量来看:Animatediff在很多场景生成视频的闪烁都已经可以接受了,由于提示旅行(给视频的不同时间段定义不同的提示词实现内容变化)这个功能的存在,时间比较长的视频也能获得不错的连贯性。

从控制方式来看:用户现在可以通过Animatediff的镜头控制模型来控制镜头,可以利用ControlNet来从原始视频转绘,可以基于图片生成视频,控制方式非常全面适合各种场景。

从资源消耗看:Animatediff从出现小分辨率和低帧率的视频的时候,需要的算力已经非常低了。几秒的视频达到了几十秒这个量级,再加上SD生态里面各种原有的放大模块,高清视频消耗的资源也可以接受了。

目前Animatediff主要的缺点,可能还是在于生成每段视频的时常过短,无法生产类似电影镜头那种长视频,还有每段视频的连续性不太够。但这也许并不是问题,毕竟现在是短视频的天下,几秒十几秒一个镜头的时常已经够用了。

想AI一步到位完成电影或者电视TVC这种质量的内容,本来就是不现实的。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1