当前位置:首页|资讯|AIGC|Sora

AIGC专题:从Sora看多模态大模型发展(附下载)

作者:烟树晚雁发布时间:2024-03-06

原标题:AIGC专题:从Sora看多模态大模型发展(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题:从Sora看多模态大模型发展》。

(报告出品方:浙商证券

报告共计:43

海量/完整电子版/报告下载方式:公众号《人工智能学派》

大模型行业规模持续增长,市场前景广阔

• 预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据,预计2023年全球大模型市场规模达到210亿美元,同比 增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%,根据IDC预测,全球生成式AI计算 市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元,CAGR约为91.34%。

• 预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据,预计2023年中国大模型市场规模达到147亿人民币, 同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币,2022~2028年复合增长率约为60.11%,市场规模快速成长。

• 多模态大模型带来AI全新应用场景,多模态内容市场规模有望快速成长。第一财经数据显示,预计至2025年,中国多模态内容市场规模将达 到832.7亿美元,2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

OpenAI 发布Sora模型,将视觉数据转化为patch

• 过去的视频模型(循环网络、生成对抗网络、自回归Transformer和扩散模型等):只关注特定类型的视觉数据、较短或者固定尺寸的视频;

• Sora:通用的视觉数据模型,能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。借鉴了LLM的思想。

• 视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)

• 潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。

Sora模型灵感:谷歌使用Patchify技术压缩时空变量

• 2023年12月,斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。该方法成功地将 Transformer架构整合到了隐视频扩散模型中。

• 隐扩散模型(LDM)可在源自自动编码器的更低维隐空间中运行,从而降低计算需求。第一阶段,用一个自动编码器将视频和图像映射到一个统一的低维隐空间,可以在图像和视频数据集上联合训练单个生成模型,并显著降低生成高分辨率视频的计算成本。第二阶段,该团队设计了用于隐视频扩散模型的新Transformer块,其由自注意力层构成,这些自注意力 层在非重叠、窗口限制的空间和时空注意力之间交替。首先,使用局部窗口注意力能显著降低计算需求。其次,它有助于 联合训练,其中空间层可以独立地处理图像和视频帧,而时空层则用于建模视频中的时间关系。

• Patchify(图块化)。按照原始ViT的设计,该团队对每个隐含帧分别进行图块化,做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 Transformer 模型的计算和内存成本很高,尤其是对于视频任务。为了 效率以及联合处理图像和视频,该团队是以窗口方式计算自注意力,这基于两种类型的非重叠配置:空间(S)和时空 (ST)

• 该团队在文本-图像和文本-视频对上联合训练了W.A.L.T的文本到视频生成能力。他们使用了一个来自公共互联网和内部 资源的数据集,其中包含约970M对文本-图像和约89M对文本-视频。

Sora核心能力一&二:3D一致性&物体持久性

• 视频生成模型最大的挑战:长视频序列保持时间一致性。

• 源于规模效应,Sora生成的人物和场景在三维空间的 移动十分自然。

• 有效模拟短期和长期依赖关系:物体被遮挡或暂离画面,也可以准确表示它们。

• 长时间序列外观一致性:能够在单个视频中生成同一 角色的多个场景,保持外观一致性。

报告共计:43页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1