事件相机+AI视频生成，港大CUBE框架入选ICIP，无需训练实现可控视频生成

作者：量子位发布时间：2024-10-26

CUBE团队投稿

量子位 | 公众号 QbitAI

在这个信息爆炸的时代，如何让AI生成的视频更具创意，又符合特定需求？

来自 香港大学的最新研究 《基于事件、无需训练的可控视频生成框架 CUBE》带来一个全新的解决方案。

这一框架利用了 事件相机捕捉动态边缘的能力，将AI生成的视频带入了一个新的维度，精准又高效。论文原标题是“Controllable Unsupervised Event-based Video Generation”，

发表于图像处理盛会ICIP并被选为Oral（口头报告），并受邀在WACV workshop演讲。

什么是事件相机？

在深入了解CUBE框架之前，先来认识一下事件相机。

不同于传统相机的定时捕捉，事件相机模仿生物的视觉系统， 只捕捉像素点亮度变化的“事件”，就像是只记录画面的精华部分。

这样不仅可以有效 减少冗余数据，还可以显著 降低耗能。

尤其是在高速动态或光线变化大的场景下，事件相机比传统相机更有优势。而这些独特的“事件数据”正是CUBE框架的核心。

△左：普通相机拍的；右：事件相机拍的

简单说，事件相机和普通相机不同，捕捉的是物体边缘的动态细节，就像你脑中一闪而过的灵感，节省了大量带宽还能省电。

CUBE框架结合了这些“闪现”的边缘数据和文字描述，无需训练就能合成符合需求的视频！这不仅能让你生成的场景更“合胃口”，还能让视频质量、时间一致性和文本匹配度都蹭蹭上涨。

为什么要用CUBE？

其他方法或是需要大量训练数据，或是生成效果欠佳。CUBE框架不仅解决了这些问题，还在多项指标上表现出色。

无论是 视觉效果、 文本匹配度还是 帧间一致性，CUBE都表现优异。

可以这样想：CUBE就像给事件相机配上了智能“滤镜”，让生成的视频不仅生动还符合描述，比如让铁人也能在马路上跳起月球舞步！

CUBE框架是如何工作的？

CUBE的全称是“Controllable, Unsupervised, Based on Events”，直译过来就是 “可控的、无需训练的、基于事件的”视频生成框架。

它通过提取事件中的边缘信息，再结合用户提供的文字描述生成视频。在方法上，CUBE主要依赖扩散模型生成技术。

扩散模型通过向图像添加随机噪声并逐步还原来生成图片，但团队进一步优化了这个过程，能让它根据“事件”提供的边缘数据生成视频。

CUBE的核心方法

1. 边缘提取：事件流记录了物体运动的轨迹，而CUBE的首要任务就是将这些事件转换成边缘信息。团队设计了一个边缘提取模块，把事件数据分成多个时间段，提取出关键的空间位置，从而形成精确的边缘图。这些边缘图不仅保留了运动物体的轮廓，还能让视频生成更流畅。

2. 视频生成：有了边缘数据之后，CUBE结合了文字描述生成视频。通过扩散模型的逐步还原过程，可以生成多个与描述相匹配的图像帧，并用插帧技术让视频更加平滑一致。这个过程不需要大量的训练数据，因为CUBE直接调用了预训练的扩散模型来实现高质量生成。

3. 控制性与一致性：采用了ControlVideo框架，这一框架具有优秀的可控性，通过文字描述来控制生成的视频内容，使每帧的生成都符合特定的要求。ControlVideo和CUBE的组合解决了传统方法中视频生成一致性不足的问题，让内容更生动、更贴合描述。

CUBE的性能表现

在实验中，CUBE的表现远超现有方法。在视频质量、文本匹配度和时间一致性等多个指标上，CUBE都取得了优异的成绩。

定量实验显示，CUBE生成的帧间一致性和文本匹配度都比ControlNet、ControlVideo等方法更优。此外，团队还做了用户偏好测试，结果显示参与者普遍更喜欢CUBE生成的视频。

未来展望

CUBE不仅是一项技术，更是一次在事件相机与AI生成视频领域的新探索。

如果你也对AI生成视频感兴趣，可进一步参考完整论文和开源代码。

论文地址：

代码已开源：

https://github.com/IndigoPurple/cube

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容 ‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

事件相机+AI视频生成，港大CUBE框架入选ICIP，无需训练实现可控视频生成

推荐体验

相关资讯

PAIR发布长视频生成模型StreamingT2V：2分钟超长AI视频生成，最强开源视频生成

微软发布视频生成多AI Agents框架Mora，还原Sora能力

OpenAI首个视频生成模型发布，演示视频生成的东京街景效果惊艳

AIGC：Stable Diffusion 视频生成视频初探

Sora视频生成工具SoraFlows

近期资讯

微软领英已免费实名认证 5500 万会员，11 月将发新徽章

安吉聚立机械取得一种椅脚脚管及组合椅脚和椅子专利，保证良好衔接强度及连接稳定性

青岛雷霆重工申请一种大盘卷步进式输送系统专利，实现盘卷在有限空间内竖向输送

谷歌安卓 16 增强“勿扰”功能：引入多种模式，超 40 款图标选择

格力申请一种物料移载装置专利，具有快速移载物料的优点

谷歌报告称 76% 的开发者依赖 AI 工具完成编写、解释代码等任务

博士有成取得新型学习椅靠背升降结构专利，满足安装靠背的位置调节需求

福建省上睿机械制造有限公司申请用于破竹机的接料装置及方法专利，可实现竹片的稳定夹持

许斐透露小米 15 系列暨澎湃 OS 2 新品发布会时长三个半小时

青岛康帛智能申请巷道堆垛机器人专利，能够提高堆垛的效率

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响