当前位置:首页|资讯|AIGC|自动驾驶|Sora|人工智能

AIGC专题:从Sora看基于多模态大模型的智能驾驶新范式(附下载)

作者:小猫超可爱发布时间:2024-03-02

原标题:AIGC专题:从Sora看基于多模态大模型的智能驾驶新范式(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题:从Sora看基于多模态大模型的智能驾驶新范式》。

(报告出品方:兴业证券

报告共计:9

海量/完整电子版/报告下载方式:公众号《人工智能学派》

Sora 横空出世,多模态大模型工程化落地再进一步

2024 2 16 日,OpenAI 推出文生视频模型 Sora。相比于过去的文生视频模型,Sora的优势主要有三点:(1)视频时长显著提升,过去 DALL`E等模型只能生成 10 秒以内的视频,Sora 最多可以生成 60 秒的视频,同时在一致性和清晰度等 方面有更好的表现。(2)Sora 可以处理不同分辨率和纵横比的视频,而过去的模型对视频格式有固定的要求。(3)Sora 展示了对自然语言(语义语法)和物理世界规律更强的理解能力,比如 Sora 生成的视频中汽车行驶会扬起尘土。

Sora 的核心模块是 DiTDiffusion Transformer)架构,通过海量的视频训练将 DiT 工程化落地。DiT(Diffusion Transformer)模型是 2022 年底 William Peebles 和 Sain Xie 《Scalable Diffusion Models with Transformers》提出的神经网络架构, 是传统的 Diffusion 扩散模型和 Transformer 架构的结合。传统扩散模型的处理过程是给定输入噪声 patches(类似打马赛克),训练模型来预测噪声(类似去掉马赛克),训练的过程就是依靠 U-Net 模块去估计噪声函数,DiT 做的事情就是用 Transformer 替代 U-Net 模块。

Sora 的时长更长和不限制格式等优势主要系基于 Transformer 架构。Sora 利用 Transformer 架构,将视频分割成多个 patch,再将每个 patch 投影为固定长度的向量作为输入。(1)由于不同尺寸和像素都可以转化成一系列时空 patch,因此 Sora 可以不限制标准尺寸和分辨率。(2)由于 Transformer 有更好的长序列处理能力,因此 Sora 可以做到比传统模型时长更长的视频。(3)由于 Transformer 的多头注意力通过 qkv 的张量计算去捕捉全局的特征与特征之间的关系(详见我们前期发布的《AI 加持+城市 NOA 落地,高阶智能化迎来蝶变时刻》),可以获取更多的关联信息,因此,在海量的视频训练后,可以呈现相对过去模型更好的推理能力。

Sora 本质上是基于 Transformer+Diffusion 模型,在工程上证明了 Transformer 做多模态大模型的能力。(1)Transformer 是目前国内外车企做智能驾驶主流的架构,自 2021 年特斯拉 AI DAY 上展示了基于 Transformer 的 BEV 感知方案后, 国内外主流车企都用 BEV+Transformer 将各个摄像头的信息进行特征提取和融合, 进一步实现多任务输出,如静态语义地图、动态检测等。(2)Diffusion 的功能主要是生成图像和视频信息,目前国内外智驾车企较少用 Diffusion 做视觉场景构建,学界有论文提出可以用Diffusion做智能驾驶驾驶,离产业化落地尚有距离。 我们认为 Sora 最大的意义是证明了基于 Transformer 做多模态大模型的能力。

报告共计:9页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1