作者 | 山丘
出品 | 焉知汽车
根据文字生成视频(TV,Text-to-Video)是一种令人兴奋的技术,最近大火的Sora就是其中一项颠覆性的TV技术,它允许用户通过输入文字来生成动态视频内容,史诗级的将视频模型生成了物理引擎。随着人工智能技术的不断进步和创新,文字生成视频技术有望在未来发展成为一种强大而多样化的工具,为用户提供丰富、个性化的视频内容体验。
那作为关注自动驾驶这一领域的设计人员,类似Sora这类文字生成视频的AI机器人是否可以对自动驾驶领域带来一些启发呢?
答案是肯定的。实际上,文字生成视频技术与自动驾驶领域可能会有一些启发性的交叉点,尤其是在虚拟仿真和可视化方面。下面我们将一一进行举例说明。
虚拟仿真训练
通常在设计自动驾驶系统时,会先拟定一些文字描述的用例场景,然后通过仿真来验证系统在这些场景下的性能和行为。使用文字生成视频的方式可以帮助将这些文字描述的用例场景转化为更加直观、生动的视频,从而更好地理解和验证系统的行为。
文字生成视频技术可以用于生成仿真驾驶场景的视频,从而帮助自动驾驶系统进行虚拟仿真训练。这些视频可以模拟各种驾驶情况和场景,帮助自动驾驶系统更好地理解并应对现实世界中的复杂情况。至于文字自动生成视频技术能够达到的程度,取决于技术的发展水平和应用场景的需求。目前的文字生成视频的AI技术Sora已经能够生成相当逼真的视频内容,对于实现自动驾驶的场景重现基本完全足够了。
对于这里提到的虚拟仿真的意思是将生成的场景视频注入到模拟仿真软件中,以提供虚拟驾驶训练环境。这意味着利用文字生成视频技术生成的驾驶场景视频可以直接用于虚拟仿真训练中,而无需人工重新搭建场景。这种方法可以节省时间和成本,并且可以更准确地模拟真实驾驶场景,从而提高自动驾驶系统的训练效率和性能。
如上图所示,对于AI Agent 由文字生成自动驾驶相关仿真视频而言,主要包含如下两方面能力:
那么接下来需要针对生成的场景AI视频在自动驾驶中哪些仿真软件中进行泛化训练,从而对开发模型进行仿真训练。大部分人可能会想到Carsim或Prescan这类仿真软件,但是实际上像 Prescan 和 CarSim 这样的自动驾驶仿真软件通常不会直接支持通过输入视频来搭建仿真闭环链路。这些软件通常需要通过其他方式来创建仿真环境,例如使用CAD模型、地图数据、传感器模型等。然而,一些先进的仿真软件正在不断发展,可能会在未来实现这种功能。比如CARLA、Gazebo、Unity3D等几类仿真软件可以实现从场景视频直接泛化出不同的场景并进行仿真测试。
如果通过文字描述让AI机器人生成了一段视频,并且希望在仿真环境中进行更好的场景重现和泛化,那么CARLA、Gazebo和类似的仿真软件可能是更好的选择。这些仿真软件提供了丰富的功能和灵活的定制选项,可以帮助你在虚拟环境中准确地重现生成的视频场景,并进行进一步的测试和验证。
具体来说,可以根据生成的视频场景描述,使用CARLA、Gazebo或类似的仿真软件来构建相应的仿真环境,并设置相关的参数和条件,以模拟不同的道路条件、交通情况和天气状况等。通过这样的仿真测试,可以更好地评估自动驾驶系统在各种场景下的性能和稳定性,从而提高系统的可靠性和安全性。
AI自动生成视频结合以上这些仿真软件所提供了丰富的功能和灵活的定制选项,可以帮助研究人员和工程师在虚拟环境中通过文字定义的用例场景,通过生成AI视频后输入其中,则可以进行各种场景的仿真测试,以评估自动驾驶系统的性能和安全性。基于这样的方式,可以在不同的场景下模拟各种情况,包括不同的道路条件、交通情况和天气状况,从而更全面地评估自动驾驶系统的能力和稳定性。
数据标注和注释
实际上,在自动驾驶领域中,通常需要大量的标注和注释来准备训练数据集,这些数据集用于训练自动驾驶系统。如果对应用场景库生成视频后,对自动驾驶系统的数据进行标注和注释,通过生成具有不同特征的视频,可以帮助标记自动驾驶系统所需要的数据,例如道路标志、车辆行为等,从而提高系统的训练效率和准确性。
那如果在文字描述的本身就告诉Sora我对视频场景中的哪些目标感兴趣,哪些目标是后续就需要人工标注和注释的部分。比如,提前告知需要进行如下标记信息。
那么通过文字生成视频过程中就让Sora给标注和注释出来,是否能做到这种“所见即所得”呢?
个人认为答案是肯定的,虽然现在不一定做到了。实际上,在文字生成视频的过程中,让AI Agent(如Sora的Plus版本)根据描述直接进行目标标注是一种很有潜力的发展方向,且这项技术的实现并不需要在当前的框架上增加多么复杂的运算逻辑。只需要将需要结合自然语言处理和计算机视觉等领域的技术,以实现文字描述和目标标注之间的无缝集成。比如,已经有一些文本到图像的生成模型可以生成包含特定目标的图像,如生成一张包含"道路锥桶"的图像。这些模型可以根据描述生成相关的图像,利用提前给出的需求“即锥桶作为感兴趣物体”对该锥桶的位置和大小都进行精确标注。
系统状态可视化
生成视频可以用于可视化自动驾驶系统的内部状态和决策过程。通过将系统的感知和决策过程转化为视频,这种可视化可以帮助研究人员和工程师更直观地了解自动驾驶系统的运行状态和行为,从而发现潜在的问题并进行优化改进。这种可视化通常是在仿真环境中进行的,因为仿真环境可以提供丰富的数据和灵活的控制选项,以实现对系统状态的准确和全面的可视化展示。可以期待Sora迭代版本实现如下可视化的结果:
这里我们针对性的举例说明在设计文档中如何具象化传感器数据,生成可视化的具体模型,工程师可以通过设计文档中的一些描述和规范来提供对传感器可视化中间模型的指导和说明。有了这样的指导说明对于AI Agent来实现对应的视频可视化指导意义是比较好的。
可以参照如下四个维度对AI Agent提出具体的可视化要求,此方法对于需要深度刻画AI Agent实现为自动驾驶专业度更高品质的文字到视频提供更多的助力。
实际上,虽然AI已经发展到相对惊人的地步,但在专业领域的AI往往又显得不那么智能,当然这跟AI的训练注入样本有关,比如自动驾驶这个行业内的开发或者设计要点还未能有那么多公开的案例注入到Sora这类AI Agent。因此,从全局出发如果要将Sora、ChatGPT更好的应用在自动驾驶这类高精尖领域,则可以考虑如下三方面路径出发:
S1:收集足量的自动驾驶设计示范数据,并定制监督政策。这一过程中需要准备很多自动驾驶相关的Prompt;
S2:搜集比较数据,并训练奖励模型。过程中实际是针对生成的视频模型进行更多的Fine Tuning;
S3:使用强化学习对奖励模型制定优化策略。
用户体验和教育培训
当然,对于销售端而言,很多时候希望能够以更直观和可视化的界面为用户展示更多自动驾驶宣传视频,普及使用率。同时,生成视频可以用于提供更直观、生动的自动驾驶体验,帮助用户更好地理解自动驾驶技术的原理和优势。此外,生成视频还可以用于教育培训,为驾驶员和技术人员提供使用自动驾驶相关的知识和技能培训。
可以预见如果结合AI Agent生成的视频领域在未来可能会实现更加逼真的视频生成,更多样化的场景和效果,也可以生成更多的个性化定制,比如定制多模态整合加入语音及触觉交互,实现应用场景的扩展甚至是深入虚拟现实和增强现实等领域。