北大快手版Sora发布！可灵新框架VideoTetris，像俄罗斯方块一样生成长视频

作者：量子位发布时间：2024-06-10

北大 Sora

杨灵投稿自凹非寺

量子位 | 公众号 QbitAI

快手可灵大模型刚曝光，他们团队新成果又有了——

联合北大推出新框架VideoTetris，实现跟随复杂指令的文生视频。

就像拼俄罗斯方块一样，轻松组合细节~

在复杂视频生成任务中，超过了Pika，Gen-2等一众商用模型。

这个框架不仅能够直接增强现有模型的组合生成，还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

据说，这一成果后续也将直接赋能「可灵」的生成能力。

首次定义组合视频生成

在文生图领域，RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域，组合生成自然地扩展到时间和空间维度，这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务，包括两个子任务：

1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现，几乎所有开源模型，包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗，右边一只打盹的猫在阳光下小憩”，结果生成的都是融合了两个物体信息的奇怪视频。

而使用VideoTetris，生成出的视频是这样，成功保留了所有的位置信息和细节特征。

在长视频生成中，目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化，或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令：“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定，出现顺序也与Prompt一致，最后两只松鼠还在自然地交换食物。

使用了时空组合扩散方法

这样的效果是如何做到的呢？该团队的 VideoTetris 框架使用了时空组合扩散方法

他们将一个提示词首先按照时间解构，为不同的视频帧指定好不同的提示信息。

随后，在每一帧上进行空间维度的解构，将不同物体对应不同的视频区域。

最后，通过时空交叉注意力进行组合，通过这个过程实现高效的组合指令生成。

而为了生成更高质量的长视频，该团队还提出了一种增强的训练数据预处理方法。使得长视频生成更加动态稳定。

此外，还引入了一个参考帧注意力机制，使用原生VAE对之前的帧信息编码，区别于StreamingT2V，Vlogger，IPAdapter等使用CLIP 编码的方式，这样使得参考信息的表示空间和噪声完全一致，轻松获取更好的内容一致性。

这样优化的结果是，长视频从此不再有大面积偏色的现象，能够更好地适应复杂指令，并且生成的视频更具有动感，更符合自然。

对于这种组合生成的结果评测工作，该团队引入了新的评测指标VBLIP-VQA和VUnidet，将组合生成评价方法首次扩展到视频维度。

实验测试表明，在组合视频生成能力上，该模型的表现超过了所有开源模型，甚至是商用模型如Gen-2和Pika。

据介绍，该代码将完全开源，并将会继续赋能「可灵」的超强生成能力。

论文地址：

https://arxiv.org/abs/2406.04277

项目主页：

https://videotetris.github.io/

GitHub地址：https://github.com/YangLing0818/VideoTetris

—完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

用AI写的俄罗斯方块游戏（含源代码）

前言用到的模型是Claude 3.5 Sonnet，借助其Artifacts功能看到代码的实时效果。虽然是用了AI，但还是会有bug，根据给出的实时效果，描述问题，还是要来来回回修很多次才能得到满意的结果。同时Claude终于能够用LaTeX渲染公式了，而ChatGPT早就有可以显示公式了。Claude在某些问题是更加准确，而GPT会犯数值计算错误，这种是用计算器就能解决的问题。效果图HTML文件——index.html

编程 Claude ChatGPT

星野みや 2024-08-27

玩家测试GPT-4能力瞬间作成网页版《俄罗斯方块》

GPT-4 ChatGPT AIGC职业影响

3DMGAME 2023-04-06

喂饭级教程，看我如何用ChatGPT-4o做一款俄罗斯方块游戏！

好，我们接下来就开始今天的教程，如何用ChatGPT-4o制作一款俄罗斯方块的游戏。这时GPT正在写代码，但我们一时之间也没有头绪，应该设计什么样的方块图片。在这个项目中，我不仅体验到了利用AI进行游戏开发的…

ChatGPT 编程

量子位 2024-05-30

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

整体上，可灵大模型的采用了原生的文生视频技术路线，替代了图像生成+时序模块的组合，这也是可灵生成时间长、帧率高，能准确处理复杂运动的核心奥义。在视频生成上，快手也曾与多个高校或科研机构联手，陆续发布可控运动的…

Sora

量子位 2024-06-11

快手发布视频生成大模型 “可灵”，效果对标Sora#AI

Sora

环球Tech 2024-06-08

近期资讯

余承东赢了！网友热议华为死忠用户标准：敢说你是花粉吗

快科技12月27日消息，你敢说你是花粉吗？如果没有满足以下标准，可能还真不算吧....近日不少网友开始在社交媒体上热议“超级华为用户标准”，如果说之前用上华为手机、平板等就算的

2024-12-27

同档最香！一加Ace 5惊现神车：国补不到1900元闭眼买

快科技12月27日消息，一加Ace 5系列于12月26日正式发布，首发起售价是2299元。在酷安上，不少贵州网友纷纷下单，在国补的基础上，仅需不到1840元就拿下一加Ace 5，堪称是最香的骁龙8 Gen3手机

2024-12-27

比亚迪秦PLUS EV荣耀版发布优惠：限时9.98万元起！

快科技12月27日消息，比亚迪秦PLUS EV荣耀版目前推出限时优惠。即日起至2025年1月26日，购车可享1万元优惠，起售价降至9.98万元。对于在2024年12月31日前完成购车开票的用户，比亚迪提供至高

2024-12-27

iPSE 4领衔！苹果2025上半年新品爆发：共有5款大作

快科技12月27日消息，据媒体报道，尽管iPhone通常在9月份亮相，但在2025年上半年，苹果将带来包括iPhone在内的5款重磅新品，它们分别是M4 MacBook Air、iPhone SE 4、带屏HomePod、iPad 11、App

2024-12-27

《黑神话：悟空》PS5更新解析 PSSR加持画面飞跃

国产动作游戏《黑神话：悟空》前段时间为PS5推出了重大更新，本次更新不仅针对PS5版本身进行了多项优化，更重要的是为PS5 Pro用户带来了期待已久的PSSR（PlayStation Spectral Super Resolution

2024-12-27

249元小米全新120W充电器套装发布：任意C口满血输出

快科技12月27日消息，日前，小米120W GaN四口充电器套装发布，已在小米商城、京东等电商平台上架开售，售价249元，套装内含一根1.5米双USB-C数据线。该充电器采用1A3C接口设计，即1个USB-A接口

2024-12-27

曝小米MIX Flip 2发布时间提档：第一代卖得太好了

快科技12月27日消息，博主数码闲聊站暗示，明年上半年小米MIX Flip 2就会亮相，第一代MIX Flip卖得太好，所以第二代直接提档了。资料显示，小米MIX Flip于今年7月份发布，是小米第一款小折叠机

2024-12-27

70岁董明珠谈从格力退休：股民、员工都不想我退

快科技12月27日消息，日前，格力电器董事长董明珠与新浪财经CEO邓庆旭对话时再次谈及了“明年是否会退休”的话题。邓庆旭表示：“他们总问您退休的问题，我就想说，咱们不能不

2024-12-27

现代汽车宣布即将开始生产全固态电池：2030年前量产

快科技12月27日消息，现代汽车近日宣布，即将开始生产全固态电池，并计划将其应用于电动汽车市场。现代汽车表示，这项技术将带来更长的续航、更快的充电速度和更高的能量密度，是电动汽车行业

2024-12-27

理想同学上架苹果小米应用商店：交互丝滑如真人识物秒懂

快科技12月27日消息，理想同学App今日正式上架苹果App Store和小米应用商店，其他安卓应用商店预计将陆续上架。iOS版大小约91MB，安卓版大小约81MB，这是由理想汽车依托自研大模型打造的一款人

2024-12-27

北大快手版Sora发布！可灵新框架VideoTetris，像俄罗斯方块一样生成长视频

推荐体验

相关资讯

用AI写的俄罗斯方块游戏（含源代码）

玩家测试GPT-4能力瞬间作成网页版《俄罗斯方块》

喂饭级教程，看我如何用ChatGPT-4o做一款俄罗斯方块游戏！

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

快手发布视频生成大模型 “可灵”，效果对标Sora#AI

近期资讯

余承东赢了！网友热议华为死忠用户标准：敢说你是花粉吗

同档最香！一加Ace 5惊现神车：国补不到1900元闭眼买

比亚迪秦PLUS EV荣耀版发布优惠：限时9.98万元起！

iPSE 4领衔！苹果2025上半年新品爆发：共有5款大作

《黑神话：悟空》PS5更新解析 PSSR加持画面飞跃

249元小米全新120W充电器套装发布：任意C口满血输出

曝小米MIX Flip 2发布时间提档：第一代卖得太好了

70岁董明珠谈从格力退休：股民、员工都不想我退

现代汽车宣布即将开始生产全固态电池：2030年前量产

理想同学上架苹果小米应用商店：交互丝滑如真人识物秒懂

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响