当前位置:首页|资讯|人工智能|Sora

人工智能行业报告:从Sora看多模态大模型发展

作者:报告派研读发布时间:2024-03-06

原标题:人工智能行业报告:从Sora看多模态大模型发展

报告出品方:浙商证券

以下为报告原文节选

------

1 多模态AI综述

1.1 AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策

1.2 2024年,有望出现多模态领域类ChatGPT的爆款应用

1.3大模型行业规模持续增长,市场前景广阔

• 预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据,预计2023年全球大模型市场规模达到210亿美元,同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%,根据IDC预测,全球生成式AI计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元,CAGR约为91.34%。

• 预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据,预计2023年中国大模型市场规模达到147亿人民币,同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币,2022~2028年复合增长率约为60.11%,市场规模快速成长。

• 多模态大模型带来AI全新应用场景,多模态内容市场规模有望快速成长。第一财经数据显示,预计至2025年,中国多模态内容市场规模将达到832.7亿美元,2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

1.4多模态AI以融合为核心,基于5大技术环节实现复杂问题解决

1.5OpenAI 发布Sora模型,将视觉数据转化为patch

• 过去的视频模型(循环网络、生成对抗网络、自回归Transformer和扩散模型等):只关注特定类型的视觉数据、较短或者固定尺寸的视频;

• Sora:通用的视觉数据模型,能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。借鉴了LLM的思想。

• 视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)• 潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。

Sora模型核心要点梳理

2 Sora技术路线

2.1 Sora模型底座:Diffusion Transformer

• Sora是一个Diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。

• Sora是一个Diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。

• Sora模型 VS 基础模型:基于Transformer的Sora与基于U-Net的基础模型相比,有提升了一个量级的视频时长(2秒到1分),更强的清晰度(4K到1080P),支持数字世界模拟,在一致性等方面均表现更优。

Sora模型灵感:谷歌使用Patchify技术压缩时空变量

• 2023年12月,斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。该方法成功地将 Transformer 架构整合到了隐视频扩散模型中。

• 隐扩散模型(LDM)可在源自自动编码器的更低维隐空间中运行,从而降低计算需求。第一阶段,用一个自动编码器将视频和图像映射到一个统一的低维隐空间,可以在图像和视频数据集上联合训练单个生成模型,并显著降低生成高分辨率视频的计算成本。第二阶段,该团队设计了用于隐视频扩散模型的新 Transformer 块,其由自注意力层构成,这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先,使用局部窗口注意力能显著降低计算需求。其次,它有助于联合训练,其中空间层可以独立地处理图像和视频帧,而时空层则用于建模视频中的时间关系。

• Patchify(图块化)。按照原始 ViT 的设计,该团队对每个隐含帧分别进行图块化,做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 Transformer 模型的计算和内存成本很高,尤其是对于视频任务。为了效率以及联合处理图像和视频,该团队是以窗口方式计算自注意力,这基于两种类型的非重叠配置:空间(S)和时空(ST),

• 该团队在文本 - 图像和文本 - 视频对上联合训练了 W.A.L.T 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集,其中包含约 970M 对文本 - 图像和约 89M 对文本 - 视频。

Sora模型亮点一:直接在原始图片的大小上训练

• 过去:往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256)。

• Sora:直接在原始素材规格上训练。

Sora模型亮点二:为视频训练素材生成详细字幕

• 方法: Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。

• 技术来源:DALL E3中已经使用过,使用GPT将简短prompt转化为详细说明,这些说明会被输入到视频模型中。

• 优点:增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得Sora能够生产准确遵循用户提升的高质量视频。

2.2 Sora应用一:图片生成视频

• Sora除了可以支持文字生成视频,还可以支持图片或视频作为输入,生成视频。

Sora应用二&三:视频编辑、视频拼接

Sora应用四:图片生成,更高像素

2.3 Sora核心能力一&二:3D一致性&物体持久性

• 视频生成模型最大的挑战:长视频序列保持时间一致性。

• 源于规模效应,Sora生成的人物和场景在三维空间的移动十分自然。

• 有效模拟短期和长期依赖关系:物体被遮挡或暂离画面,也可以准确表示它们。

• 长时间序列外观一致性:能够在单个视频中生成同一角色的多个场景,保持外观一致性。

Sora核心能力三&四:世界交互&模拟数字世界

• 世界交互:模拟简单行为方式影响世界状态,如吃汉堡后留下咬痕。

• 模拟数字世界:如视频游戏。以“Minecraft”为例,Sora能控制玩家角色,以高度逼真方式模拟游戏世界变化。

2.4 Sora模型的局限性

• 但是,Sora还存在不少局限:

虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;

其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;

长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1