sora的理解.

作者：程序猿小三发布时间：2024-02-18

1、背景

近期, openai紧跟Runway、 Google、Meta等公司, 发布了视频生成模型Sora, 全面进军视频领域。官网的视频效果炸裂，连贯性优秀，生成视频时长可达60秒，但模拟复杂物理场景仍有瑕疵。相对Pika、Runway的效果还是有进一步提升。考虑到这一技术的风险性，目前sora暂不开放。

2、sora模型的介绍

虽然sora没有公布很多训练细节，基础模型还是基于diffusion模型，然后引入大语言模型transformer架构，形成扩散型变换模型（diffusion transformer)。

（1）、首先将视频作为原始输入，再压缩到一个低维潜在空间中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

（2）、为了解决原始视频的参次不齐的问题，引入patch的概念（灵感来源于大语言模型的），sora还专门为此训练一个视频压缩模型用于降低视觉数据维度的网络。将视频在空间和时间都进行压缩。sora在压缩的数据进行训练和生成视频。最后利用专门的解码器将生成的潜在表示映射回到像素空间。

（3）、使用不同的像素、尺寸、时间长度（内容保持一致）进行大量训练。

（4）、增强视频和图片对语言理解，利用了GPT技术对视频数据进行标注和文本对齐，同时将用户的简短提示转换成更详细的提示，然后发送给视频模型，使得很简单的prompt也可以生产好的视频。

（5）、除了支持语言，还支持图像和视频进行扩容，支持不同视频进行融合。也支持生成图片，因为图像本质上是单帧的视频。

3、sora的影响和未来方向

sora出现，也引发一众人的发表和大佬发言。对于整个科技界影响比较高。从长期来看，对自媒体、广告、电影等影视行业有很大的影响。

普通怎么参与这场科技盛宴，不要只做时代进步的拉拉队呢？

（1）、股票，基金：这个大家接触最快的赛道，但是风险比较高，前段之间英伟达因为AI的大爆发，市值超过了亚马逊。注意关于类似的科技股（amd）。

（2）、注册sora相关的域名和商标等。

（3）、套壳：sora大概率也会开放api的方式，并且国内一般访问不了，先把用户吸引进来。

（4）、ppt，文章等达人，传播一些技术热点文章。

sora的理解.

推荐体验

相关资讯

对话：理解Sora，复现Sora

对话李志飞：理解Sora，复现Sora

Sora普通人理解的原理——帧处理

深入理解Sora技术原理

甲小姐对话李志飞：理解Sora，复现Sora

近期资讯

湖南华中数控机床有限公司取得用于数控机床加工的防护装置专利，能够快速拆卸防护罩方便维修保养

无锡驰航鑫取得组合式风琴护罩专利，解决现有装置不易拆装和无法适用不同长度机床的问题

构建健康的数字习惯：用户体验设计如何缓解技术成瘾

南京铸鑫取得单开型数控机床隔离门专利，降低机床设备停机时间

GPT-5开发超18个月，困难重重或难产？

“玄学”珠宝，拿捏焦虑的年轻人

做好24年度工作总结，回答好这5个问题就够了！

产品架构设计必知：企业数字化演进的5个阶段

本地生活，抖音如何实现流量商业化

青岛鸿亿达广通电气成套设备有限公司取得耐火母线槽加工用削切设备专利，方便废屑收集清理

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响