为什么说Sora给了自动驾驶一颗重磅炸弹！

作者：科讯天下发布时间：2024-03-02

龙年伊始，AI视频生成迎来里程碑时刻——OpenAI的最新技术Sora问世。

在这个信息爆炸的时代，Sora不仅吸引了科技界的目光，更是得到了行业巨头的认可。他们的观点指出了自动驾驶技术的新方向，这对于整个行业来说是一个重要的转折点。端到端自动驾驶，训练核心就是视频生成，所以与Sora底层逻辑一致，希望打造World Model也就是做一个世界模拟器。

马斯克在推特上直言：“特斯拉拥有世界上最好的现实世界模拟和视频生成能力！”。“特斯拉已经能够用精确物理原理制作真实世界视频大约一年了，只不过，由于训练数据来自汽车，生成的视频并不有趣。这些视频看起来像特斯拉的普通视频，实际上是通过动态生成的。”

毫末智行数据智能科学家贺翔也分享了他对Sora及自动驾驶技术的见解。“像特斯拉、Wayve等研发端到端自动驾驶的公司，训练核心就是视频生成。”他认为，结合驾驶动作生成视频的能力是解决端到端自动驾驶问题的关键。同时，这也会在一定程度上令纯视觉路线更加可靠。

贺翔指出：“特斯拉World Model是基于驾驶行为训练出来的，驾驶行为是视频跟人们能看到的客观世界，所以它会离我们的客观世界更近一些。而Sora是基于文本训练出来的，更倾向于类似偏电影、广告，或是偏创意性的内容生产，这些离我们的虚拟世界更近一些。因此特斯拉生成的视频在客观物理规律上一定会比Sora要好，但是Sora生成的视频的质量一定会比特斯拉好，也就是清晰度和泛化能力会比它强。如果两者能够结合起来，那将会是行业内的一颗重磅炸弹。”

360集团创始人周鸿祎认为，Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大影响——“原来的自动驾驶技术过度强调感知层面，而非认知层面…如果没有对这个世界的理解，很难做出真正的无人驾驶。”

Sora是AI领域的一项创新，也让许多人看到了自动驾驶技术的前景。利用类似Sora这种视频生成技术，自动驾驶系统可以进行场景重建和仿真，促使自动驾驶技术实现显著提升。

长城汽车AI Lab负责人杨继峰给出了这样的观点。“大模型在自动驾驶领域，首先被证实效果的领域是数据重建，基于此诞生了新的场景生成在仿真领域的机会；Sora无疑规模更大也更通用，但是在自动驾驶领域的落地还需要进一步探索，特别是针对空间和语音应用。然后影响到的end to end，以及最近很热的LLM-based driving agent类型的大模型算法架构。”

国泰君安证券发布研究报告称，除了文生视频，Sora有望在纯视觉自动驾驶方向大放异彩。随着Sora大模型的出现和演进，AI对物理世界的理解和模拟能力有望进一步加强，纯视觉方案的优势将更为明显。除了关注Sora模型文生视频本身的能力外，更应关注其对纯视觉自动驾驶方案的优势补强，看好纯视觉自动驾驶方案厂商及车端算力厂商。