龙年伊始,AI视频生成迎来里程碑时刻——OpenAI的最新技术Sora问世。
在这个信息爆炸的时代,Sora不仅吸引了科技界的目光,更是得到了行业巨头的认可。他们的观点指出了自动驾驶技术的新方向,这对于整个行业来说是一个重要的转折点。端到端自动驾驶,训练核心就是视频生成,所以与Sora底层逻辑一致,希望打造World Model也就是做一个世界模拟器。
马斯克在推特上直言:“特斯拉拥有世界上最好的现实世界模拟和视频生成能力!”。“特斯拉已经能够用精确物理原理制作真实世界视频大约一年了,只不过,由于训练数据来自汽车,生成的视频并不有趣。这些视频看起来像特斯拉的普通视频,实际上是通过动态生成的。”
毫末智行数据智能科学家贺翔也分享了他对Sora及自动驾驶技术的见解。“像特斯拉、Wayve等研发端到端自动驾驶的公司,训练核心就是视频生成。”他认为,结合驾驶动作生成视频的能力是解决端到端自动驾驶问题的关键。同时,这也会在一定程度上令纯视觉路线更加可靠。
贺翔指出:“特斯拉World Model是基于驾驶行为训练出来的,驾驶行为是视频跟人们能看到的客观世界,所以它会离我们的客观世界更近一些。而Sora是基于文本训练出来的,更倾向于类似偏电影、广告,或是偏创意性的内容生产,这些离我们的虚拟世界更近一些。因此特斯拉生成的视频在客观物理规律上一定会比Sora要好,但是Sora生成的视频的质量一定会比特斯拉好,也就是清晰度和泛化能力会比它强。如果两者能够结合起来,那将会是行业内的一颗重磅炸弹。”
360集团创始人周鸿祎认为,Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大影响——“原来的自动驾驶技术过度强调感知层面,而非认知层面…如果没有对这个世界的理解,很难做出真正的无人驾驶。”
Sora是AI领域的一项创新,也让许多人看到了自动驾驶技术的前景。利用类似Sora这种视频生成技术,自动驾驶系统可以进行场景重建和仿真,促使自动驾驶技术实现显著提升。
长城汽车AI Lab负责人杨继峰给出了这样的观点。“大模型在自动驾驶领域,首先被证实效果的领域是数据重建,基于此诞生了新的场景生成在仿真领域的机会;Sora无疑规模更大也更通用,但是在自动驾驶领域的落地还需要进一步探索,特别是针对空间和语音应用。然后影响到的end to end,以及最近很热的LLM-based driving agent类型的大模型算法架构。”
国泰君安证券发布研究报告称,除了文生视频,Sora有望在纯视觉自动驾驶方向大放异彩。随着Sora大模型的出现和演进,AI对物理世界的理解和模拟能力有望进一步加强,纯视觉方案的优势将更为明显。除了关注Sora模型文生视频本身的能力外,更应关注其对纯视觉自动驾驶方案的优势补强,看好纯视觉自动驾驶方案厂商及车端算力厂商。