Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

作者：雷峰网leiphone发布时间：2024-03-07

作者：赖文昕

编辑：陈彩娴

自3天前Sora发布以来，由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。

“世界模型”作为Sora的一大核心亮点，被OpenAI写在技术报告中。但Sora是否真的如Open AI所说，是一个世界模型，却引起了行业内的争论。

在Yann LeCun的愿景中，世界模型是一个能够学习世界如何运作的内在规律的内部模型，可以更快速地学习，为完成复杂任务做出计划，并且随时应对不熟悉的新情况，所以它很有可能克服目前限制最先进的AI系统发展的难关。

而在这场争论持续之际， UC Berkeley（加州大学伯克利分校）发布了一项名为“Large World Model（LWM）”的最新研究成果，今日已成功登上GitHub榜首。

值得一提的是，两位华人学者Hao Liu和Wilson Yan为共同一作,指导老师是吴恩达开门大弟子、伯克利人工智能实验室主任Pieter Abbeel与计算机副教授Matei Zaharia。两位教授的谷歌学术引用次数均十分耀眼，分别高达13.8万次与7.4万次。

论文链接：https://arxiv.org/pdf/2402.08268.pdf

为了应对由于内存限制、计算复杂性和数据集有等重大挑战，这个团队构建了一个由不同视频和书籍组成的大型数据集，以Hao Liu先前提出的RingAttention技术为基础，对长序列进行可伸缩训练，并将上下文大小从4K逐渐增加到100万tokens，一次可以分析1小时长度的视频。

100万token，1小时长视频，它还开源

大模型的发展进程快得令人惊叹，但是仍存在不少技术痛点。比如，目前的语言模型无法理解世界上某些难以用语言描述的问题，且难以处理复杂冗长的任务。

针对这个难题，该团队提出了“Large World Model（LWM）”，因为视频序列能提供语言和静态图像中没有的、有价值的时间信息，这使得它们对于语言的联合建模具有特别作用。这样的模型可以更好地理解人类文本知识和物理世界，从而实现更广泛的人工智能能力来帮助人类。

这个“大世界模型”是否确如其名呢？

在研究报告的开篇，团队便自信展示了LWM与GPT-4V、Gemini Pro Vision与Video-LLaVA的对比结果：将长达1小时的油管视频输入并根据视频内容细节提问后，只有LWM能提供准确的答复。

而除了能读懂理解长视频外，LWM在超长文本任务的表现同样亮眼。LWM 可以高精度地检索 1M 上下文中的事实。针对Gemini Pro 和 GPT-4各自的最大上下文长度（32K 和 128K）进行单针检索比较时，LWM在各个指标上的表现均大幅领先。

团队对LWM的研究成果作出了以下总结：

该研究在长视频和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型，从而设立了新的检索任务和长视频理解方面的标杆。

为了克服视觉 - 语言训练带来的挑战，该研究采取了以下措施，包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答数据来处理长序列对话。

通过 RingAttention、掩码序列打包等方法，可以训练数百万长度的多模态序列。

完全开源 7B 参数系列模型，其能够处理超过 100 万 token 的长文本文档（LWM-Text、LWM-Text-Chat）和视频（LWM、LWM-Chat）。

分阶段的渐进式训练，模型能力逐步升级

是什么训练方法让LWM具备如此亮眼的能力呢？

LWM的训练步骤主要分为两个阶段：第一阶段是学习长上下文语言模型（Learning Long-Context Language Models），第二阶段是学习长上下文视觉-语言模型（Learning Long-Context Vision-Language Models）。

第一阶段时，团队将研究重点分为了上下文扩展、训练步骤、聊天微调和语言结果评估四个部分。

在上下文扩展中，他们使用RingAttention技术，通过分块计算和序列并行，理论上可以扩展到无限上下文，仅受限于可用设备数量。

RingAttention作为一个环形结构来组织blocks，这样每个block只需要与其相邻的block进行通信、交换信息，此结构能够大大减少通信开销。

分块计算则是将长序列分割成多个较小的blocks，每个block包含固定数量的tokens。这样，模型只需要计算每个block内的注意力权重，而不是整个序列。

在训练过程中，序列并行的方法可以并行处理多个block，每个block由不同的GPU处理，使模型能在多个设备上同时处理序列的不同部分，从而提高了训练效率。

同时，由于RingAttention 支持渐进式训练，让模型可以从处理较短的序列开始，然后逐步增加序列长度。于是团队就采用了渐进式训练方法，从32K tokens开始，逐步增加到1M tokens，以有效扩展上下文大小。这意味着此方法有助于模型逐步学习处理更长序列的能力，同时保持训练效率。

到了训练步骤的部分，团队会初始化模型参数，然后逐步增加上下文长度，分为32K、128K、256K、512K和1M tokens共5个阶段，且在每个阶段，会使用不同版本的Books3数据集进行训练，这些数据集经过过滤，以适应当前的上下文长度。

针对聊天微调，团队构建了模型生成的问答数据集，通过将文档分割成固定大小的block，然后使用短上下文语言模型生成问题和答案对。而在长上下文长度（如32K tokens）下，则是通过连接相邻的block和在序列末尾添加相关的问答对来构建单个32K tokens的示例。

在第一阶段的最后，团队对于LWM的语言能力进行了单针检索、多针检索、多文本评估和聊天评估。

值得一提的是，此研究还对比了具有 4K 上下文的 Llama2-7B 模型与LWM-Text（从 32K 到 1M）的语言能力。评估涵盖了各种语言任务，证明扩大上下文大小不会影响短上下文任务的性能。结果表明，LWM在32K 到 1M长度下各任务中表现得同样好，甚至更好。

这一证据表明上下文扩展不存在负面影响，突显了模型适应不同任务要求而不会在较短上下文中损失效率的能力。

在完成语言模型的训练后，团队开启了他们的第二阶段——学习长上下文视觉-语言模型。在此阶段中，团队也将研究工作分为三个板块，即视觉架构修改、训练步骤和评估结果。

对于视觉架构修改，他们使用了预训练的VQGAN将图像和视频帧转换为离散tokens，并且引入新的tokens来区分文本生成的结束和视觉生成的开始，以及视频帧的结束。

而在训练步骤中，团队从LWM-Text-1M文本模型开始初始化，然后在大量结合文本-图像和文本-视频数据上进行渐进式训练。他们分别在1K、8K、32K、128K和1M tokens的序列长度上进行训练，同样地，每个阶段都是从先前的较短序列长度阶段初始化。

在最终的评估结果上，团队在长视频理解、图像理解和短视频理解等任务上评估了LWM的模型性能并展示了其在处理长视频和图像生成方面的优秀能力。

结语

Sora在2024年拉响了大模型比拼的第一枪，使得文生视频技术跃为时下焦点，也让“世界模型”变得似乎不再遥不可及。

在应对长文本、视频甚至是多模态技术时，世界模型对物理世界规律的理解与应用，或将成为各家大模型选手能否在角逐中取胜的关键。

雷峰网AI 科技评论将持续关注大模型领域动态，欢迎添加anna042023，交流认知，互通有无

相关资讯

支持100万token「大世界模型」火了，一次能分析1小时视频内容

这项研究为语言模型更好地理解物理世界铺平了道路。最近，谷歌发布的Gemini 1.5多模态模型和OpenAI的视频生成技术Sora引发了科技界的广泛讨论。Gemini 1.5以其处理百万级别上下文的能力受到赞誉，而Sora模型因能够理解物理运动中的世界而被誉为“世界模型”。尽管它们的技术成就令人瞩目，但仍有局限性，例如Sora模型在复现一些复杂场景，比如逆向跑步机上跑步的人时，就显得有些力不足。随着大模型技术的迅猛发展，我们也逐渐意识到了它们的局限性。例如，对于那些难以用语言描述的现实世界内容，

谷歌 OpenAI

格物时间 2024-02-19

视频号AI短视频创业训练营，超级个体新时代，一部手机每天只需1小时轻松创业

课程目录：第1课：账号开通-开通视频号5个步骤.mp4第2课：作品拍摄-AIGC内容创作4大要素.mp4第3课：工具应用-Al剪辑工具应用实操第1节.mp4第3课：工具应用-AI剪辑工具应用实操第2节.mp4…

AIGC

动漫一休哥 2023-05-17

NVIDIA版Sora曝光！每天疯狂爬取80年时长视频

快科技8月6日消息，据媒体报道，NVIDIA正在训练尚未向公众发布，内部命名为Cosmos的AI项目。该项目旨在构建一个集合光传输、物理和智能模拟的先进视频模型，以支持Omniverse3D世界生成器、自动驾驶汽车系统和数字人产品等下游应用。内部文件显示，英伟达正在从Youtube和其他来源抓取视频，收集用于这一AI产品的训练数据。

Sora 自动驾驶汽车数字人英伟达

快科技 2024-08-06

1分钟讲解!导师一对一彩票a

导师一对一彩票《罔Y Ｃ 2 3９●vip》如果你是刚刚玩,我来教教你,如果你已经玩很久了,却不稳,我来拉拉你,如果你已经遍体鳞伤,我来帮帮你。用我们真诚的微笑，换取您对我们的满意。用我们真诚的微笑，换取您对我们的满意。同样即时设计的AI工具即时AI是一种全新的AIGC工具，可以通过自然语言描述在60s内生成高质量、高细节的Mobile/Web页面原型设计，适当的效率之王。即时AI的操作非常简单，只要模型选择完成后，就可以在文本框中输入网页描述，可以是“类似XX的页面”，也可以是“用于XX的页面，包括X

AIGC

爻乂123 2024-02-22

华策影视：目前技术储备已可实现4秒时长的文生视频

华策影视在互动平台表示，公司高度重视各类AI技术的研发和应用，对以Sora为代表的新兴AI文生视频技术平台保持密切关注。公司去年组建了AIGC应用研究院，自研的编剧助手、剧本评估、视频检索、AI剧照等功能已在内部应用或内测。通过对开源技术的学习吸收和消化，目前技术储备已可实现4秒时长的文生视频。

AIGC

证券时报 2024-02-21

Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

推荐体验

相关资讯

支持100万token「大世界模型」火了，一次能分析1小时视频内容

视频号AI短视频创业训练营，超级个体新时代，一部手机每天只需1小时轻松创业

NVIDIA版Sora曝光！每天疯狂爬取80年时长视频

1分钟讲解!导师一对一彩票a

华策影视：目前技术储备已可实现4秒时长的文生视频

近期资讯

年终置业正当时，最值得入手项目攻略

房地产，终于亮出底牌了

北京300亿母基金来了

保利四进中山东区，下半年拿地已超400亿

丰田章男，想靠雷克萨斯在中国翻盘

美国CS女硕士放弃读博，当主播狂赚100万美金，自曝学术界真相全网唏嘘

“同仁堂之争”落幕京津合并牵出百年恩怨

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

文化产业上游驱动力：浪潮中的数字化战略

日本11月对华机床订单额增长33%，欧美低迷

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响