AIGC专题：Sora有望带来AI生成视频领域的新一轮变革（附下载）

作者：烟树晚雁发布时间：2024-02-27

今天分享的是AIGC系列深度研究报告：《AIGC专题：Sora有望带来AI生成视频领域的新一轮变革》。

（报告出品方：方正证券）

报告共计：19页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

Runway-Gen2：综合实力最强的文生视频应用，内部训练数据集含2.4亿张图像和640万个视频剪辑

➢ 主要功能&亮点：

• 支持的视频生成方式&时长：底层模型diffusion-model；支持文生视频、图生视频、图加文字描述生成视频；默认生成的视频长度为4s（每秒视频需要消耗5积分；免费用户目前有525积分），可以通过将已生成图片作为输入，延长视频时长（extend，最多延长至20s以内）；

• 可以调整的参数：①基础设置：interpolate（使视频帧更丝滑）；Upscale：提高视频分辨率（需要会员，免费版默认720P）；Remove watermark（去除水印，需要会员）；②Camera Motion：指定摄像机的不同方向的运动与速度（假设自己是导演在运镜）；③Motion Brush：用户可以控制生成内容中特定对象是否运动&运动方向；

• 亮点：①可以通过Motion Brush/Director模式的高级摄像头实现生成内容运动状态的精细控制；②可以一键设置不同视频风格；

➢ 主要缺点：①视频帧率问题：生成视频的帧率较低，一些画面像连放PPT；②移动过程中图片内容容易掉帧/模糊化/扭曲：当相机围绕物体快速移动 /放大物体时，物体周围的像素会模糊化；③语义信息理解能力不够强：比如以“龙年大吉”为提示词，生成内容只有龙，Gen-2忽视了其他提示词的存在（例如good luck、new year）；

➢ 评价：公认的综合能力较为突出的文生视频工具；能生成比较连贯的视频，但如果通过它来搭建一个视频的连续框架可能要输入的素材和工作量远大于正常拍摄；要生成高质量长视频还需要迭代。

Stable Video Diffusion（SVD）：开源文生视频平台，Stability.AI基于Stable Diffusion的演进

➢ 主要功能&亮点：

• 支持的视频生成方式&时长：Stable Video Diffusion同样是一种潜在扩散模型；支持文本描述生成视频、图像生成视频（可以使用一张图像作为条件,生成这张图像的后续运动镜头）、多视角渲染（可以生成同一个物体的多个前后左右观察角度的视频镜头，这样可以生成3D效果视频）、插入视频帧（可以将两张图像作为条件,生成插入在它们中间的额外镜头,实现视频帧率的提升）；时长：默认生成的视频长度也是4s；

• 可以调整的参数：模型选择：可选择14帧的SVD/25帧的SVD-XT（与SVD架构相同，但针对25帧视频生成进行了微调）；视频大小；视频帧数（5-30FPS）；镜头移动距离；

• 训练方式与数据集规模：Stability.AI使用5.8亿个视频剪辑的巨大数据集来训练SVD模型，使用系列方法进行数据筛选（级联切换检测、运动信息提取、文本描述生成、质量评估、过滤去噪），最后保留1.5亿视频片段的超高质量数据集；模型采取三层训练架构（预训练层+大规模数据训练层+高质量数据微调层），并设计了专门的时间卷积和注意力结构，明显提高了视频时序信息的捕捉和学习能力；

• 亮点：①开源；②高性能：例如图生视频功能14帧&25帧测评结构不逊色于Gen2&Pika Labs的免费模型；③作为 Stability.AI家族产品的一部分，SVD与其他开源模型（如 Stable Diffusion 和 Stable LM）相结合，形成了一个完整的多模态解决方案；

➢ 主要缺点：①硬件性能要求高：由于端侧部署，需要20G以上的显存，一般用户难以使用；②尺寸限制：SVD支持的图片尺寸为 1024x576，可能限制应用场景；③相机运动&可控性差：SVD不支持调节相机视角，也不能精细控制视频内容；④帧率&清晰度：视频清晰度不够&生成对象移动过程中掉帧&形变比较明显；

➢ 评价：较之Runway&pika等商用产品，SVD在帧数/分辨率/内容精细控制/内容风格选择/视频生成时长等方面存在差距，胜在开源。

Pika：视频版Mid-journey

➢ 主要功能&亮点：

• 支持的视频生成方式&时长：支持文生视频、图生视频、视频生成视频；时长：默认时长为3s（最多可以延长至15s）；分辨率默认24帧；

• 可以调整的参数：指定摄像机的不同方向的运动与速度、视频尺寸、视频帧数、正向/反向提示词、可以增加视频时长&提升分辨率（会员功能）、视频局部修改（可以给对象添加元素）；

• 训练方式与数据集规模：未知；

• 亮点：①生成视频的背景稳定性很好；②可以给视频局部添加元素（例如给人物添加眼镜）；③部分场景视频质量很高（例如卡通风格）；

➢ 主要缺点：①场景不够泛化、②语义信息理解能力不够强（例如把熊猫理解成猫）、③运镜过程中内容掉帧&人物审美及肢体细节的展现有缺陷；

➢ 评价：较之Runway Gen2&SVD，在卡通等细分场景表现不俗；对提示词要求高，场景泛化能力相对弱些。

报告共计：19页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

AIGC专题：Sora有望带来AI生成视频领域的新一轮变革（附下载）

Runway-Gen2：综合实力最强的文生视频应用，内部训练数据集含2.4亿张图像和640万个视频剪辑

Stable Video Diffusion（SVD）：开源文生视频平台，Stability.AI基于Stable Diffusion的演进

Pika：视频版Mid-journey

推荐体验

相关资讯

AIGC，内容生产端的超级革新者，有望带来游戏行业的新一轮爆发（附下载）

AIGC专题：Sora引爆新一轮AI军备竞赛，通用人工智能时代加速到来（附下载）

AI大模型专题：多模态，AI大模型新一轮革命（附下载）

AIGC向端侧下沉成趋势，有望引领新一轮硬件创新（附下载）

AI PC&AI手机专题报告-AIGC向端侧下沉成趋势-有望引领新一轮硬件创新（附下载

近期资讯

卢伟冰回应“REDMI汽车”：完全没计划

Docker-Dockerfile讲解(三)

雷军有对手了！余承东抖音粉丝破300万：刚入驻半个月

【OpenHarmony】鸿蒙 UI开发之MultiType

CIKM 2024 | 京东电商搜索：深度强化学习的探索与落地

理想可能真觉得造车造到头了

云交易技术对接全景

机器学习和前端

Amazon Bedrock 实践 - 利用 Llama 3.2 模型分析全球糖尿病趋势

淘宝杀到日本服这次打的又是什么算盘

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响