今天分享的是AIGC系列深度研究报告:《AIGC专题:Sora有望带来AI生成视频领域的新一轮变革》。
(报告出品方:方正证券)
报告共计:19页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
➢ 主要功能&亮点:
• 支持的视频生成方式&时长:底层模型diffusion-model;支持文生视频、图生视频、图加文字描述生成视频;默认生成的视频长度为4s(每秒 视频需要消耗5积分;免费用户目前有525积分),可以通过将已生成图片作为输入,延长视频时长(extend,最多延长至20s以内);
• 可以调整的参数:①基础设置:interpolate(使视频帧更丝滑);Upscale:提高视频分辨率(需要会员,免费版默认720P);Remove watermark(去除水印,需要会员);②Camera Motion:指定摄像机的不同方向的运动与速度(假设自己是导演在运镜);③Motion Brush: 用户可以控制生成内容中特定对象是否运动&运动方向;
• 亮点:①可以通过Motion Brush/Director模式的高级摄像头实现生成内容运动状态的精细控制;②可以一键设置不同视频风格;
➢ 主要缺点:①视频帧率问题:生成视频的帧率较低,一些画面像连放PPT;②移动过程中图片内容容易掉帧/模糊化/扭曲:当相机围绕物体快速移动 /放大物体时,物体周围的像素会模糊化;③语义信息理解能力不够强:比如以“龙年大吉”为提示词,生成内容只有龙,Gen-2忽视了其他提示词 的存在(例如good luck、new year);
➢ 评价:公认的综合能力较为突出的文生视频工具;能生成比较连贯的视频,但如果通过它来搭建一个视频的连续框架可能要输入的素材和工作量远大于正常拍摄;要生成高质量长视频还需要迭代。
➢ 主要功能&亮点:
• 支持的视频生成方式&时长:Stable Video Diffusion同样是一种潜在扩散模型;支持文本描述生成视频、图像生成视频(可以使用一张图像 作为条件,生成这张图像的后续运动镜头)、多视角渲染(可以生成同一个物体的多个前后左右观察角度的视频镜头,这样可以生成3D效果视 频)、插入视频帧(可以将两张图像作为条件,生成插入在它们中间的额外镜头,实现视频帧率的提升);时长:默认生成的视频长度也是4s;
• 可以调整的参数:模型选择:可选择14帧的SVD/25帧的SVD-XT(与SVD架构相同,但针对25帧视频生成进行了微调);视频大小;视频帧数 (5-30FPS);镜头移动距离;
• 训练方式与数据集规模:Stability.AI使用5.8亿个视频剪辑的巨大数据集来训练SVD模型,使用系列方法进行数据筛选(级联切换检测、运动 信息提取、文本描述生成、质量评估、过滤去噪),最后保留1.5亿视频片段的超高质量数据集;模型采取三层训练架构(预训练层+大规模数 据训练层+高质量数据微调层),并设计了专门的时间卷积和注意力结构,明显提高了视频时序信息的捕捉和学习能力;
• 亮点:①开源;②高性能:例如图生视频功能14帧&25帧测评结构不逊色于Gen2&Pika Labs的免费模型;③作为 Stability.AI家族产品的一部 分,SVD与其他开源模型(如 Stable Diffusion 和 Stable LM)相结合,形成了一个完整的多模态解决方案;
➢ 主要缺点:①硬件性能要求高:由于端侧部署,需要20G以上的显存,一般用户难以使用;②尺寸限制:SVD支持的图片尺寸为 1024x576,可能限制 应用场景;③相机运动&可控性差:SVD不支持调节相机视角,也不能精细控制视频内容;④帧率&清晰度:视频清晰度不够&生成对象移动过程中掉 帧&形变比较明显;
➢ 评价:较之Runway&pika等商用产品,SVD在帧数/分辨率/内容精细控制/内容风格选择/视频生成时长等方面存在差距,胜在开源。
➢ 主要功能&亮点:
• 支持的视频生成方式&时长:支持文生视频、图生视频、视频生成视频;时长:默认时长为3s(最多可以延长至15s);分辨率默认24帧;
• 可以调整的参数:指定摄像机的不同方向的运动与速度、视频尺寸、视频帧数、正向/反向提示词、可以增加视频时长&提升分辨率(会员功能)、视频局部修改(可以给对象添加元素);
• 训练方式与数据集规模:未知;
• 亮点:①生成视频的背景稳定性很好;②可以给视频局部添加元素(例如给人物添加眼镜);③部分场景视频质量很高(例如卡通风格);
➢ 主要缺点:①场景不够泛化、②语义信息理解能力不够强(例如把熊猫理解成猫)、③运镜过程中内容掉帧&人物审美及肢体细节的展现有缺陷;
➢ 评价:较之Runway Gen2&SVD,在卡通等细分场景表现不俗;对提示词要求高,场景泛化能力相对弱些。
报告共计:19页
海量/完整电子版/报告下载方式:公众号《人工智能学派》