当前位置:首页|资讯|Sora|自动驾驶

2024从Sora看基于多模态大模型的智能驾驶新范式(附下载)

作者:济南宝哥说房产发布时间:2024-03-12

原标题:2024从Sora看基于多模态大模型的智能驾驶新范式(附下载)

今天分享的是:2024从Sora看基于多模态大模型的智能驾驶新范式(报告出品方:兴业证券)

Sora在工程上证明了Transformer做多模态大模型的能力。2024年2月16日,OpenAl推出文生视频模型Som。相比于过去的文生视频模型,Sora的优势主要有三点:(1)视频时长显著提升。(2)可以处理不同分辨率和纵横比的视频。(3)Sora展示了对自然语言(语义语法)和物理世界规律更强的理解能力。Sora本质上是基于Transformer+Diffusion模型,在工程上证明了Transformer做多模态大模型的能力。

1)Transformer是目前国内外车企做智能驾驶主流的架构,自2021年特斯拄AI DAY上展示了基于Transformer的BEV感知方案后,国内外主流车企都用BEV+Transformer将各个摄像头的信息进行特征提取和融合,进一步实现多任务输出,如静态语义地图、动态检测等。2)Diffusion的功能主要是生成图像和视频信息,目前国内外智驾车企不用Diffusion做视觉场景构建,有论文提出可以用Diffusion做智能驾驶模型或驾驶虚拟仿真,目前离产业化落地尚有距离。我们认为Sora最大意义是证明了基于Transformer做多模态大模型的能力。

多模态大模型或是L4般别高阶有能驾驶的新范式,OpenAI投资基于多模态大模型的自动驾驶。目前智驾模型是多个单任务Al模型的叠加,长尾效应导致众多comercase需要持续解决。而多模态大模型在数据,感知和规划层面都更加简洁有效。(1)在数据层面,现有模型首先要大规模采集数据,再用模型进行数据挖掘和标注,而多模态大模型不需要专门的智能驾驶数据标注,而是通过语言接口对复杂问题进行zero-shot泛化,相对而言可能成本更低,同时可以处理未训练的任务。(2)在感知层面,现有模型在感知模块的任务是特征识别和输出,多模态大模型不需要对物体进行识别和分类,仅仅考虑物理层面的光线距离等的物理信息,还有和历史训练视频中车辆和这个物体的关系。(3)在规划层面,现有模型代码库非常庞大,需要手动调试来适应复杂任务。多模态大模型可以把已有的理解的能力直接扩展到驾驶任务,使模型无需显式训练,就能安全自然地驾驭复杂场景,所以可以解决没有见过的场景,即处理“长尾问题”。2023年11月8日,OpenAl投资GhostAutonmy 500万美元,希望将多模态的大语言模型(MLLMs)引入自动驾驶。从经济性角度,多模态大模型也适合智能驾驶。

有能驾驶的终局可能是基于通用大模型World Model的微调。World Model可以理解为世界动态的演化模型,当自动驾驶从世界感知走向通用认知后,智能驾驶的终局可能是基于World Model通用大模型的微调。通过大模型的预训练去学会推理、记忆等能力和道路驾驶等通用知识,再强化场景驾驶行为,把数据闭环变成奖励模型。简单来讲就是,现在的思路是通过采集的数据集训练出一个“司机”,然后教他应对各种特殊场景。通用大模型的思路是先训练出一个“人”,然后教会他开车。我们从Sora和特斯拉2023年CVPR发布的视频看到了构建基础大模型解决智能驾驶场景的可能性,从目前披露的信息看Sora和特斯拉WorldModel共性有三点:(1)都通过输入海量的视频进行训练。(2)都可以保持对象在不同视角下的一致性。(3)都展示了一定的理解和预测能力,基于过去的视频推测未来的三维场景变化。

报告共计: 9页

以下为报告节选内容

报告共计: 9页

中小未来圈,你需要的资料,我这里都有!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1