当前位置:首页|资讯|AIGC|Sora

AIGC专题:Sora深度:功能优势、发展现状、算力测算、相关影响及相关公司梳理

作者:烟树晚雁发布时间:2024-03-05

原标题:AIGC专题:Sora深度:功能优势、发展现状、算力测算、相关影响及相关公司梳理

今天分享的是ALGC系列深度研究报告:《AIGC专题:Sora深度:功能优势、发展现状、算力测算、相关影响及相关公司深度梳理》

(报告出品方:慧博智能投研)

报告共计:27

海量/完整电子版/报告下载方式:公众号《人工智能学派》

技术路径

Sora 取法 Tokens 文本特征标记,是基于 Patches 视觉特征标记的 Diffusion Transformer 模型。 OpenAI 研究团队从 LLM 中汲取灵感,认为 LLM 范式的成功在一定程度上得益于 Tokens 的使用, Tokens 统一了代码、数学和各种自然语言的文本模式。类似于 LLM 范式下的 Tokens 文本标记,Sora 创新性地使用了 Patches(apart of something marked out from the rest by a particular characteristic; 视觉特征标记)。 鉴于 Patches 之前已被证明是视觉数据模型的有效表示,OpenAI 研究团队进一步研发发现 Patches 是 一种高度可扩展且有效的表示,可以被用于在不同类型的视频和图像上训练生成模型:

采样更灵活

Sora 具备出色的采样能力,无论是宽屏 1920x1080p 视频、垂直 1080x1920 视频,还是介于两者之间 的任何视频尺寸,它都能轻松应对。这意味着 Sora 可以为各种设备生成与其原始纵横比完美匹配的内 容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora 也能以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。

改进构图与框架

实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点, 将 Sora 与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的 模型有时会生成仅部分显示主题的视频。而 Sora 则能呈现出更加完美的帧,充分展现了其在视频生成 领域的卓越性能。

报告共计:27页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1