具身智能任务是当前 AI 领域的重要研究方向之一,涉及机器人、自动驾驶等需要与真实世界交互的技术。
视频生成模型的快速发展使得它们在这些任务中发挥着关键作用,但传统评估手段更多侧重于生成视频的视觉质量,而忽略了视频在实际应用场景中的可操作性和物理一致性,尤其是在复杂环境重点中的表现。
为了找到更好的评估方法,来自香港中文大学(深圳)、上海人工智能实验室、北京航空航天大学和香港大学的研究人员提出了一种全新的评估框架,用以考察视频生成模型在具身智能任务中的表现。
日前,相关论文发表于预印本平台 arXiv 上。
图丨相关论文(来源:arXiv)
在论文中,研究团队提出了一个名为 WorldSimBench 的全新评估框架,用以衡量视频生成模型的实际应用能力。
现有的视频生成模型可以生成高度真实的视觉内容,但这些内容能否被用于指导机器人等智能体完成具身任务,这方面的评估还较为欠缺。
研究人员意识到,仅仅依靠视觉效果来衡量模型性能是不够的,生成的视频如果不能反映现实世界的物理规律,将很难应用于复杂的现实世界任务中。
因此,他们设计了显性感知评估(Explicit Perceptual Evaluation)和隐性操作评估(Implicit Manipulative Evaluation)这两个维度,旨在从不同角度考察视频生成模型的性能。
显性感知评估主要依赖于人类反馈,评估视频的视觉质量和物理一致性。
通过引入 HF-Embodied 数据集(一个用于研究和开发多模态人工智能系统的数据集),研究人员设计了一种偏好评估器,该评估器基于大量视频-文本对数据,通过人类打分的方式,衡量视频在视觉表现上的优劣。
隐性操作评估则关注视频生成模型在具身智能任务中的实际应用,即生成的视频是否能够驱动智能体完成任务。
例如,在自动驾驶场景中,生成的视频是否能够反映真实的道路情况,帮助车辆做出正确的决策。
这种双重评估框架使得视频生成模型的评价更加全面,能够更加准确地衡量其在具身任务中的潜在应用价值。
在该论文中,研究人员将现有的视频生成模型划分为四个阶段(S0-S3),依次代表不同程度的具身智能能力:
S0 阶段:模型只关注视觉生成,无具身智能的体现。
S1 阶段:模型生成的视频在视觉上与任务场景相关。
S2 阶段:模型开始生成有一定物理一致性的视频,具有初步的动作生成能力。
S3 阶段(世界模拟器):模型能够生成完全符合物理规则且能够直接用于具身任务的视频。
(来源:arXiv)
其中 S3 阶段被定义为“世界模拟器”(World Simulators),即能够生成完全符合物理规则,并且可用于指导具身任务的高级视频生成模型。
值得注意的是,世界模拟器这一概念早在 2018 年就被提出,反映了研究人员希望将视频生成模型从单纯的视觉生成扩展到具有真实物理环境交互能力的目标,从而为未来的具身智能发展奠定基础。
为了验证 WorldSimBench 评估框架的有效性,他们在多个具身智能任务场景中对多种视频生成模型进行了评估。
分别在 MineRL、CARLA 和 CALVIN 三个仿真环境中测试了模型的表现,对应了开放式具身环境、自动驾驶 和机器人操控三种重要的智能任务。
MineRL 是一款基于“我的世界”(Minecraft)的模拟环境,主要用于测试视频生成模型在复杂、开放式环境中的表现。
智能体的任务是在虚拟环境中完成诸如采集物品、导航等任务。评估框架负责判断生成视频能否有效引导智能体执行这些操作。
CARLA 是一个用于自动驾驶研究的仿真平台,评估视频生成模型在交通场景中的表现。
研究人员通过模拟复杂的城市路况、行人交通等情景,考察模型生成的视频能否帮助自动驾驶系统做出正确决策。评估指标包括路线完成度、碰撞率、违规行为等。
CALVIN 则是一个用于机器人操作的仿真环境,评估视频生成模型能否帮助机器人完成精确的物理操作任务,如抓取物体、搬运等。
该环境的操作复杂度较高,需要生成的视频能够准确反映物体的位置、运动轨迹和速度变化,其评估指标包括成功率和轨迹生成质量等。
在显性感知评估中,研究人员使用了 HF-Embodied 数据集,并训练了一个基于人类偏好反馈(Human Preference Evaluator)的评估器,通过人类反馈对生成视频进行了打分。
图 | 显性感知评估概述(来源:arXiv)
在显性感知评估中:
上半部分是指令提示生成。研究人员使用来自互联网的大量视频字幕和预定义的体现评估维度。它们经过了 GPT 扩展并由人工验证,以创建相应的任务指令提示列表,用于数据生成和评估。
下半部分是 HF-Embodied 数据集生成。使用了大量带有字幕的互联网具身视频训练数据生成模型。然后根据相应的任务指令提示列表,将细粒度的人工反馈注释应用于视频上,涵盖多个体现维度。
在隐性操作评估中,研究人员通过将生成的视频转换为控制信号,并观察其在各种闭环具体任务中的表现来隐性评估模拟器的能力。
图 | 隐性操作评估概述(来源:arXiv)
在隐性操作评估中:
不同场景下的具身任务被分解为可执行的子任务。视频生成模型根据当前指令和实时观察生成相应的预测视频。使用预先训练的 IDM 或基于目标的策略,代理执行生成的动作序列。
在固定的时间步长之后,通过再次从视频生成模型中采样来刷新预测视频,并重复此过程。最后,通过模拟环境中的监视器获得各种具身任务的成功率。
实验结果表明,该评估器在判断视频的视觉质量和物理一致性方面,表现大多优于传统的大型语言模型(如 GPT-4o)。
图 | 人类偏好评估器与 GPT-4o 的整体性能比较(来源:arXiv)
这些数据显示,使用基于两种评估方法的 WorldSimBench 框架,研究人员能够更精确地捕捉到模型在视觉生成中的细微差异,并且能够更好地反映人类对视频生成的实际期望。
尽管 WorldSimBench 框架在视频生成模型评估方面取得了进展,但其依然面临一些挑战。
比如,HF-Embodied 数据集是依赖于大规模人工标注数据,而且现有的评估场景集中在虚拟仿真环境中,如何扩展到更多真实世界的场景仍需要继续探索。
最后,基于整体的显性感知评估和隐性操作评估结果,该课题组得出结论:当前的视频生成模型仍然无法有效捕捉许多物理规则。
作者在论文最后强调,“这表明在它们成为真正的世界模拟器之前,还需要进行很多改进。”
参考资料:
https://arxiv.org/pdf/2410.18072v1
运营/排版:何晨龙