AI视频生成崛起 Stable Diffusion万兴科技等密集“秀肌肉”

作者：中关村在线发布时间：2023-11-30

2023-11-30 16:42:29 作者：姚立伟

AIGC爆火“周年庆”之际,这边OpenAI“宫斗”不停,那厢则在上演“猩球崛起”。短短半个月内,从Meta、Adobe到Runway、Stable Diffusion、万兴科技,海内外科技巨头及AI独角兽公司们正在加速驶入AI文生视频赛道。

11月16日,Meta推出两大AI视频编辑新功能。第一个工具名为“Emu Video”,它可以根据字幕、图像、文字描述等自动生成四秒长的视频;另一个工具名为“Emu Edit”,它允许用户通过文本指令更容易地修改或编辑视频。该款工具为用户提供了一种从图片中删除或替换物体和人物的方法,而无需任何专业的图像编辑经验。

11月22日,Stability AI发布了其最新AI模型Stable Video Diffusion,能够通过现有图片生成视频。据介绍,Stable Video Diffusion实际上由两个模型组成——SVD和SVD-XT。SVD可以将静态图片转化为14帧的视频,而SVD-XT则可以将帧数提高到24帧。

同一天,AI视频生成领域的“老牌”企业Runway也官宣了其全新“运动笔刷”功能,用户只需在图片中涂抹一个区域或主体,并为其选择一个方向、添加运动强度,运动笔刷就可以为用户的生成添加受控运动。

Runway的运动笔刷功能可生成受控运动

11月23日,Adobe向外界确认收购AI初创公司Rephrase.ai,后者可以结合文字脚本、用户头像转换为带有用户形象的视频,可以用于市场营销、客户沟通、节日问候等商业场景。值得注意的是,这是Adobe在AI领域的首次收购。

11月24日晚,AIGC软件A股上市公司万兴科技(300624.SZ)在其官方视频号上线一则AI创作的短视频《女孩的一生》,展现其多媒体大模型的视频生成能力。在大模型驱动下,用户只需输入故事梗概或片段脚本就可以控制视频的起始帧内容,并通过大模型能力实现全新视频内容的完整生成。

万兴“天幕”大模型生成视频《女孩的一生》截图

此前,万兴科技已预告过“天幕”大模型。据介绍,“天幕”是国内首个专注于以视频创意应用为核心的多媒体大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力,并在视觉、听觉等多模态关键能力上持续迭代。

作为国内AIGC领域的领跑者,万兴科技正持续深化AIGC布局,已推出万兴爱画、万兴播爆、万兴智演、Wondershare Kwicut、Wondershare VirtuLook等AIGC创意新品;旗下万兴喵影、Wondershare PDFelement、万兴PDF、亿图图示、亿图脑图、墨刀海外版Mockitt等产品均已集成AIGC能力,并持续优化上新。

11月29日,AI初创公司Pika Labs正式推出AI视频生成器的1.0版本。Pika Labs 1.0采用全新的AI模型,能够以3D动画、动漫、卡通和电影等不同风格生成和编辑视频。产品一经推出,便吸引无数AI届大佬“打call”,并迅速斩获5500万美元融资,俨然成为AI视频生成届最新“顶流”。

最新AI视频生成“顶流”Pika Labs

事实上,在本轮AI浪潮中,文生文、文生图一直并行发展,ChatGPT代表了文字生成的率先突破,Midjourney将文生图推到人人可用,并随着时间线的逐渐拉长迎来了无数的新玩家。在“先行者”的指引下,新入局玩家们显然少走了很多弯路,两条赛道的竞争也已渐趋白热化。

与文生文、文生图的直接生成即可使用不同,视频的底层原理是多帧图像的组合,文生视频/图生视频需要在文生图的基础上增加时间维度。这意味着计算成本高昂——一个短视频每秒包含大约30帧图像,单个视频片段有数百数千帧,为确保每一帧之间空间和时间的一致性,需要大量的计算资源。

此外,复杂信息难以处理——视频带有视觉动态信息,添加不同帧之间的时间信息后,对视频内容进行建模变得非常具有挑战性。

最后,算法稳定性的高强度要求——视频对连贯性的高要求,意味着文生视频/图生视频算法需保证每一帧画面的AI生成都需要有高相关性及连续、流畅的变化。

万事都是一体两面的。AI视频生成技术仍在快速迭代、飞速进化中,而其中又将孕育出多少新的机遇,都还是未知数。唯一确定的是,现在已入局的玩家们,显然已抢到了百舸争流的先机。