当前位置:首页|资讯|Sora

68万人排队内测的可灵,对标Sora却难如人意

作者:卫星与网络发布时间:2024-07-18

01

多模态时代

AI视频生成模型崛起

“神说,要有光,于是世界就有了光”——造物主创世用了7天,AI创造一个世界或许只需要几分钟。当Sora开始理解并生成真实世界时,AI技术将迈入一个全新的时代。

在2024年2月16日凌晨,全球人工智能巨头OpenAI再次发布了一款颠覆性的产品——Sora。这是一款基于深度学习的文本生视频模型,可以直接将文本转化为长度达到60秒的高质量视频内容,包括细致的背景、复杂的多角度镜头和丰富的情感角色。

Sora的出现,意味着传统的视频制作方式将面临巨大的挑战。过去,视频制作需要经过剧本创作、拍摄、剪辑等多个环节,耗时耗力且成本高昂。而Sora的出现,将彻底改变这一现状。用户只需输入一段描述性文字,即可得到一个完整的故事画面,大大降低了视频制作门槛,同时也为创作者提供了更多的可能性。

Sora生成视频具有极其逼真的画面和连贯性,有的不仔细看几乎看不出是AI生成的,这并不简单,需要机器懂现实世界的结构、细节、运动足迹、光影变幻等规律,不违反人的认知,之前一些大模型生成让人啼笑皆非的图片,就是明显不符合现实世界事物的运行规律。

所以有人认为Sora懂物理世界,有了“世界模型”的雏形。

Sora与其他主流模型比对

从技术角度出发,Sora使用的是DiT(Diffusion Transformer,以Transformer为主干的扩散模型)模型,这是一种融合Transformer模型与Stable Difusion的-种模型,通过Transformer原理的编码器-解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

Sora将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。

凭借Transformer架构可以随意设置位置编码,Sora可以接受任意分辨率和尺寸的素材,而Runway需要将素材裁剪至相同的大小。Sora引入GTP-4将简短的用户提示转换为更长的详细字幕,然后发送到视频模型,有助于Sora更好理解客户需求;而Runway很难理解细微差别,坚持提示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器,Sora 的自编码器不仅能在空间上压缩图像,还能在时间上压缩视频长度,使时长达到了一分钟,而Runway时长小于20秒。

Sora可以为各种设备生成与其原始纵横比完美匹配的内容

过去一年多,ChatGPT、Midjourney等现象级爆款应用横空出世,AI生成文字、生成图片技术的飞速发展让人兴奋,相比之下,AI生成视频领域虽有Runway、Pika、Meta、谷歌等多个明星公司入局,但因技术难度更大,发展仍处于早期,每次生成的视频只能达到十多秒的时长。

而Sora将视频长度拉长到了60秒,这一突破意味着,由其生成的视频信息承载力更强,内容更丰富,达到了很多短视频平台的内容发布要求。Sora在细节处理、语言理解、视频扩展等方面的表现令人耳目一新,这也是它与其他AI生成视频模型能够拉开差距的重要原因。

总体而言,Sora的出现,在人工智能领域开辟了一条新的赛道,特别是在多模态AI和视频生成领域。Sora是由OpenAI开发的一个突破性模型,它不仅能够生成高质量的视频内容,还能理解和模拟现实世界,这标志着人工智能技术的一个重大进步。

面对Sora的强势崛起,国内大模型企业也看到了新的发展方向,尤其是经过“文生图”领域熏陶后,这一次国产大模型企业在AI视频生成赛道的跟进上显得特别快速。

Vidu官方演示视频之“戴珍珠耳环的猫”,想象力较高

除字节Dreamina、百度UniVG、美图MiracleVision4.0等“含着金钥匙”出生的AI视频生成应用外,打造PixVerse的爱诗科技、拥有清华团队背景的Vidu等初创企业,让国产AI视频生成软件隐隐出现“百家争鸣”的局面。

而在众多主打“AI视频生成”的大模型/应用中,由快手推出的“可灵”AI模型无疑是人气极高的存在。

快手可灵是快手于2024 年6月6 日推出的一款 AI 视频生成大模型

“可灵”采用类似 Sora的DiT技术路线,结合多项自研技术创新,效果对标 Sora。相较早期推出的一众国产AI视频生成模型,“长达2分钟的视频生成”这一宣传亮点让不少国产AI模型的支持者欢呼,单看生成视频时长,“可灵”已经超过了Sora,其他如Runway、Pika等AI视频生成模型更是只能生成3秒到16秒的视频,在视频时长上完全不具备可比性。

然而,“可灵”真能超越Sora吗?

02

低门槛

易用性极佳的国产大模型

深谙“本土化”重要性的国产大模型在易用性上绝对是非常出色的,“可灵”无论是使用方式还是功能设计,都在尽可能低降低用户学习和使用门槛。

对于想要尝鲜“可灵”AI视频生成应用的用户,首先需要下载快手旗下的“快影”App,其本身是快手旗下的视频剪辑应用,此次“可灵”以模块功能的形式被快手整合到“快影”中。安装并启动“快影”后,用户可在首界面顶部看到“AI创作”图标,点进进入后可以看到新界面左上方就是“AI生视频”项,点击“申请体验”即可。

内测阶段的“可灵”需要用户提交申请才可以获得内测资格

作为国内“首个面向用户开放的Sora级文生视频大模型”,“可灵”派对等候的时间较长,记者提交申请后大概一周就收到获得内测资格的通知。这里比较有意思的是“可灵”的内测资格是有时间限制的,限时免费阶段暂推定为30个自然日,不过目前除“快影”App可以体验外,“可灵”Web端也于7月6日上线,用户可根据自己需求灵活选择生成方式。

左为Web端,右为移动端;“可灵”Web端具有更丰富的功能设置项

相较“快影”App端,用户使用“可灵”Web端的文生视频时,可以在“参数设置”项看到可调节的“创意想象力”项,且“可灵”Web端设计了专门的“运镜控制”项,预置水平、垂直、旋转等多种运镜方式,满足用户个性化的需求。

此外,“可灵”Web端还有专门的“不希望呈现的内容”项。进一步提升生成视频内容的准确性。

在视频内容的生成上,“可灵”分“文生视频”和“图生视频”两大类,支持500字(含标点符号)的“创意描述”,图片则支持上传大小不超过10MB、尺寸不小于300px的JPG/PNG格式图片,完成后按提示点击“立即生成”即可。

视频质量分“高性能”和“高表现”两种

“可灵”在内容生成上提供“高性能”和“高表现”两种可选,前者表示“生成速度更快”,后者表示“画面质量更佳”。对于用户而言,两种主要的的区别其实是时长,“高性能”模式下生成的视频时长5s,而“高表现”模式下生成的视频时长10s。

“可灵”采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,用户可以根据自身需要选择1∶1、16∶9或9∶16等多种屏幕比例,

需要注意的是生成时长10s模式下暂不支持运镜控制,且图生视频这块也暂不支持10s视频,显然,一键生成10s视频并不轻松。

03

理想和现实的差异

“拼”出来的2分钟视频长度

“可灵”Web端宣传的实际上是可实现3分钟长度视频的生成,这多少让人有些感叹,如此长度不是两三段就可以生成一部短动画了,可实操时发现,我们的理解的2分钟长度视频和它理解的似乎有较大区别。

不少AI视频生成小白面对60秒、2分钟、3分钟视频时长时,第一反应都是撰写好提示词后,AI可以直接生成一个这样市场的文件,但问题是实际操作我们发现“可灵”其实最长还是只能一次性生成10秒时长的视频,用户想要获得更长的视频时长,需要再生成好内容的基础上做二次创作,即在视频预览界面点选“延长视频”按钮。

通过“延长视频”实现视频时长的增加

这里需要注意的是视频延长的时间只有5秒,这意味着真要实现2分钟甚至3分钟的视频时长,用户需要等待多久?

记者在7月7日晚上8点30左右测试结生成一段长10秒的视频,花费了11分钟时长,而在这个基础上点选“延长视频”,延长5秒耗费了6分钟时间等待(实际上为预估时间,通常会更长一些),再延长5秒视频长度也耗费了5分钟时间等待,即便平均算每延长5秒市场需要5分钟,也意味着生成2分钟视频需要耗费2个小时左右的时间等待。

当然,在同一个提示词、同一个视频基础上进行的拓展,其视频内容画面风格一致性上表现更加,这其实也是DiT算法延长视频时长的模式。

04

算力

AI视频生成对决的关键

AI视频生成内容的时长之所以会成为各大AI视频模型/应用主要的宣传点,在于其本身代表的平台实力。

先进的语言模型、算法模型,能够很好地支持多模态内容的输入,深化语言理解让AI视频生成大模型/应用能够读懂用户需求,这会影响内容生成效果,但长视频生成的基础始终是算力。

第三方机构曾根据Sora 的作者之- Peebles 曾发布论文《Scalable Diffusion Models withTransformers》构造成熟的 Transformer+Diffusion 架构模型用于图像生成;后续中国人民大学等机构发布《VDT:GENERAL-PURPOSE VIDEO DIFFUSIONTRANSFORMERS VIA MASK MODELING》进一步实现该架构用于视频生成,对AI视频生成模型Sora进行算力估算。

在训练端,由于暂无明确算法架构和训练详细数据,本文对《ScalableDiffusion Models with Transformers》论文中 DiT-XL/4 模型进行逆向工程,使得输入对应参数量后能够得到 29.05Gfops,得到训练一张 1024x768 分辨率图片需要算力 324Gflops,根据《Will we run out of data? An analysis of thelimits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》 披露数据,Youtube 上每分钟上传约 500 小时视频,假设视频都为 60 帧每秒;假设全采用英伟达 A100(FP16 算力 312Tflops)且芯片利用率为 80%;得到一个月内训练完 Youtube 全部新增视频约需要 231片 A100,考虑到文中模型都是经过多次训练得到,算力需求仍有较大程度提高的可能性。

而在推理端,推理端算力约等于交互 Patches 数量*2*参数量,假设抖音8 亿日活,平均每人每天使用时长 2h,对应每天 16 个小时视频播放时长。假设每个Patch 尺寸为 60*80,一帧 1920*1280 分辨率的画面有 512 个 Patch,一秒钟30 帧,对应一分钟生成的视频有 92.16 万个 Patches,假设 Sora 模型参数为30亿,则对应1846 万个 A100 需求。

总体而言,Sora架构的训练与传统大语言模型(LLM) Transformer架构的训练算力需求存在近百倍的差距,“可灵”等AI视频生成模型/应用同样也需要庞大的算力来支撑。从这个角度看,无论是需要排队申请内测资格,还是限定内测时间为30个自然日以及单次最长10秒的视频内容生成规则,恐怕很大程度都是受算力制约。

>End

>>>

本文转载自“壹零社”,原标题《68万人排队内测的可灵,对标Sora却难如人意》。

为分享前沿资讯及有价值的观点,太空与网络微信公众号转载此文,并经过编辑。

未按照规范转载及引用者,我们保留追究相应责任的权利

部分图片难以找到原始出处,故文中未加以标注,如若侵犯了您的权益,请第一时间联系我们。

HISTORY/往期推荐

商业火箭,想说爱你不容易——(一)中途夭折的商业火箭起步之旅

商业火箭,想说爱你不容易——(二)难以复制的SpaceX

商业火箭,想说爱你不容易——(三)中国商业火箭未来之路怎么走?

>>>

充满激情的新时代,

充满挑战的新疆域,

与踔厉奋发的引领者,

卓尔不群的企业家,

一起开拓,

一起体验,

一起感悟,

共同打造更真品质,

共同实现更高价值,

共同见证商业航天更大的跨越!

——《太空与网络》,观察,记录,传播,引领。

>>>

·《卫星与网络》编辑委员会

高级顾问:王国玉、刘程、童旭东、相振华、王志义、杨烈

·《卫星与网络》创始人:刘雨菲

·《卫星与网络》副社长:王俊峰

·微信公众号(ID:satnetdy)团队

编辑:艳玲、哈玫,周泳、邱莉、黄榕、娜娜

主笔记者:李刚、魏兴、张雪松、霍剑、乐瑜稻子、赵栋

策划部:杨艳、若㼆、李真子

视觉总监:董泞

专业摄影:冯小京、宋伟

设计部:顾锰、潘希峎、杨小明

行政部:姜河、林紫

业务部:王锦熙、瑾怡

原创文章转载授权、转载文章侵权、投稿等事宜,请加微信:15910858067

商务合作;展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广;企业口碑传播及整体营销传播等,请加微信:13811260603

杂志订阅,请加微信:wangxiaoyu9960

·卫星与网络各分部:

成都分部负责人:沈淮

长沙分部负责人:宾鸿浦

西安分部负责人:郭朝晖

青岛分部负责人:江伟

·卫星与网络总部负责人:农燕

·会议活动部负责人乔颢益、许克新、董今福

· 投融资及战略层面合作:刘雨菲

·本平台签约设计公司:一画开天(北京)文化创意设计有限公司

·航天加(深圳)股权投资基金管理负责人:杨艳


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1