大家好 我是genji~大家元宵节快乐!
2024刚开始,就被这条爆炸性新闻整的沸腾了——
OpenA推出首款AI视频模型Sora,震惊世界!
如果你还不知道Sora是什么——
Sora是OpenAI最新发布的文本生成视频(Text to Video)大模型,能生成长达60秒的视频
Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景,对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。
Sora是基于DALL·E 3和ChatGPT模型的研究成果。它采用了DALL·E 3中的recaptioning technique,为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。
除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。
各种常规解读视频,大家都刷到了七七八八,但是不是依然一头雾水?
本着饭要喂到嚼碎了嘴边的精神
Up我不吃不睡,把关于Sora的一切都集合在本文里
让你一口气搞明白Sora是咋回事
本文包括以下五个部分,同学们可以按需学习~
一、Sora如何申请
二、Sora呈现能力
三、Sora提示工程
四、Sora原理剖析
五、Sora应用展望
首先是你们最关心的问题,国内咋用?
截至我发布这篇文章的此时此刻,Sora还没有面向大众开放测试,只有少数人有Sora的测试权限
当然有试用申请通道,但申请通过率不会高
一、登录官网:https://openai.com/form/red-teaming-network
二、右上角点击research,输入apply,进入Red Teaming申请通道
三、接下来就是填写申请表
你要严格填写一堆信息,*为必填项,包括你的学历、公司、专业强项、计划如何使用Sora等等,事无巨细。
这些信息一必须真实,二必须有含金量,不是某个领域的专家能人,很难申请上。
四、总之提交之后你就静待佳音。
PS:
我身边很多朋友申请都被拒了,只有一个人申请上了——只有一个二线导演朋友申请到了,我在找他要账号,想看真实测评SORA使用的请多多点赞哇 :)
如果你有过硬的人工智能或是导演艺术背景,可以去申请试试!~
实在申请不上也没关系!
Sam Altman还亲自下场为网友生成视频:你给我prompt,我给你出图!
去推上评论艾特他,说不定你就是那个被选中的人!💯
Sora凭借“60秒一镜到底”出场即巅峰
提示词: 一位时髦的女士穿行在东京的街头,街道充满了温暖的霓虹灯光和动感的城市标志。她穿着一件黑色皮夹克,一条长红裙和黑色靴子,手拿一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道潮湿且能反射,创造出彩色灯光的镜面效果。许多行人来来往往。
Sora拥有很强大的底层技术,可能生成具有人物和场景一致性的长达60s的视频。
对比Runaway、PIKA、Pixverse这些AI视频领域的老牌玩家,还在对几秒几十秒的视频摩拳擦掌时,单个视频长达1分钟已是碾压级的存在!
在AI视频领域,2秒的视频和1分钟的视频之间,有着你难以想象的巨大技术鸿沟。
按照这个发展速度,AI辅助制作的3A游戏大作或许指日可待了!定制化的主角外形、定制化声音,可能比现在的捏脸更带感哦~
Sora实现了运动镜头的丝滑无缝衔接
无论镜头怎么运动,人物、场景和视觉风格,都能保持神一般的一致性和稳定性!
在这条Sora生成的视频中,我们仿佛跟随无人机拍摄的视角,时而俯瞰整个东京,时而穿梭在樱花遍开的东京,和熙熙攘攘的人群擦肩而过,跟着手拉手的小情侣漫步街头,而街道的布景、行人、樱花以及其他种种场景元素,也随着空间自然运动。
令人惊叹的是,这些镜头并不是指令词要求拼在一起的,也不是后期人工实现的,而是Sora自己一气呵成的创造。
对比Runway 和Pika,目前生成的视频时长都只有几秒,需要通过后期拼接完成一段长时间视频,Sora可谓是AI视频领域的降维打击!
物理世界模拟器!?
Sora还展现出超强的语义理解力,能深刻理解物理世界的存在规律与运行方式,包括特殊材质的反射与倒影,光影的变换,特定物品的运动轨迹……并将这个世界模拟出来。
OpenAI官网这样写:我们正在教AI去理解和模拟物理世界运动的模型,从而帮助人们解决需要现实世界交互的问题。
比如这个Sora生成的电影预告片,无论是自然风光、机甲装备、人物的羊毛头盔、太空服、皮肤肌理、神态动作,都极其逼真,转场也无比自然:
动物毛发这种对于好莱坞动画工厂都曾是难题的细节,也不在话下:
就连玻璃球在不同光线下的反射与倒影效果,以及玻璃球里小人的机械运动方式,Sora也研究的透透的:
无论场景变化得有多离谱,汽车都稳稳行进:
Sora可以让视频「变形」
Sora可以把两个风格迥异的视频,无比流畅地拼接在一起,让它们自然过渡,融为一体,真正做到了丝滑无缝!
比如,变色龙到维多利亚冠鸽:
前一秒还是无人机探索废墟,下一秒就是蝴蝶探索海底,你根本察觉不到啥时候切换的!
阿马尔菲海岸到冬季村:
加州淘金热到纽约市:
这是《我的世界》视频与摩托车的融合,相信这个功能出现,能激发更多内容创造的脑洞~
文生图,吊打Midjourney!?
是的,Sora 的图片生成能力也非常厉害,在写实照片生成上的表现和细节已经比 Midjourney V6 要强了,表现上还不如MJ。以下几组样图是Sora 生成图片与midjourney的对比:
和ChatGPT、Midjourney这些AI文本、AI绘画工具一样,Sora这种AI视频也是通过输入Prompt生成的,也就是我们俗称的「咒语」
Sora不仅听得懂「咒语」,还能精准捕捉「魔法师」的真实需求,洞察这些「咒语」在物理现实世界中的存在方式,并创造出充满生命力、情感丰富的角色。
下面开始「施咒」——
「一群冒险小狗探索空中废墟的电影预告片」:
「一群萨摩耶幼犬学习成为厨师的电影预告片」:
「一个由水组成的行走人偶在艺术馆中游览,馆内有许多风格各异的精美艺术作品」:
「一只大鸭子走在波士顿的街道上」:
「一座巨大的教堂里到处都是猫,一个人走进教堂,向坐在宝座上的巨大猫王鞠躬」:
「两艘海盗船在一杯咖啡中航行时的逼真特写视频」:
Sora和过去的AI工具有一个极大的不同,
它能自己去“发散思维”,去“扩充”提示词!
比如,简单一句「有中国龙元素的新年庆祝影像」,Sora就能创作出上街舞龙的热闹景象:
7分47-57秒:https://www.youtube.com/watch?v=HK6y8DAPN_0&t=118s
OpenAI 最新推出的Sora,最大的特点是用Transformer生成视频,其中的核心技术就是Transformer+Diffusion
所谓Transformer+Diffusion,就是把Transformer对序列的处理能力(包括时间序列)将一张图片分成无数个小的patch,组成新的token,作为Decoder的block放到Diffusion框架中
在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。
Patch 的概念相对不那么好理解。
什么是patches?我们可以简单理解为一张完整的图片,被拆成NxN 的小方格,被分割成一块块的「补丁」。
这与大型语言模型中的“token”概念相似,token是文本数据的基本处理单元。
比如下面这张 224x224 的小狗图片,我们可以把它打碎成 196 张 16x16 的小图,这就叫做 Patches
我们可以想象一下《黑暗骑士》的电影胶片,将一卷胶片绕在一个金属盘上,然后挂在一个老式电影院的投影机上。 你把电影胶卷从盘中展开,然后剪下最前面的 100 帧,再挑出每一帧的图像,比如某一帧是小丑疯狂大笑,另一帧是蝙蝠侠痛苦的表情。
接下来进行以下不太常规的操作: 你拿起一把像X光一般精细的刻刀,在第一帧电影胶片上剪出一个变形虫状的图案。你像处理精密仪器一样小心翼翼地用镊子提取这片形似变形虫的胶片,然后安全地保存起来。然后开始再处理下一帧:在接下来的胶片上切出同样位置、同样形状的变形虫图案。你再次用镊子小心地取出这个新的变形虫形状的胶片,形状与前一个完全相同——并将其精确地放置在第一个之上。
如此这般重复操作,直到完成所有的 100 帧。 于是现在有了一个色彩斑斓的变形虫,沿着竖直方向的Y轴(这里对应的是时间轴)堆叠扩展。这样就得到了一座可以通过投影机播放《黑暗骑士》的小片段的胶片塔,就好像有人在投影机前握着拳头,只让电影的一小部分影像从拳心通过。
然后,这座胶片塔被压缩并转化为所谓的“Patch”——一种随时间变化的色块。最后从每一个存在的视频中剪出的 Patch 堆叠成无尽的胶片塔,再输入到模型中进行训练,想象一下这样的场景就会感到让人震撼。
但如果只是将二维的图像打碎变成patches图像块,对于视频生成任务还不够。因为视频是由包含时间序列的多张图片构成的,处理时必须考虑这些长时间范围patches序列的上下文关系,因此patches必须包含原始视频数据中的时间序列信息,因此OpenAI将patches升级成了包含时间信息的spacetime patches(时空补丁)。Spacetime patch就代表了视频中一小块特定时间和空间范围内的信息。
当我们理解了spacetime patches的概念之后,再来看待视频生成任务就非常好理解了。这就像chatGPT这种LLM做文本生成任务一样,从输入一段prompt开始,模型会采用的自回归的方式来预测接下来的每一个token。对于下图一系列视频帧的左上角而言,便是已知当前spacetime patches,这就如同我们给LLM输入的prompt,然后sora推测下一个spacetime patches,最后通过自回归的方式预测出组合视频画面中各个位置的spacetime patches,然后在组合起来,便得到了整个视频画面的持续运动过程。
Sora 之所以显得如此强大,在于以前的文本转视频方法需要训练时使用的所有图片和视频都要有相同的大小,这就需要大量的预处理工作来裁剪视频至适当的大小。而由于 Sora 是基于“Patch”而非视频的全帧进行训练的,它可以处理任何大小的视频或图片,无需进行裁剪。这就让 OpenAI 能够在大量的图像和视频数据上训练 Sora。因此,可以有更多的数据用于训练,得到的输出质量也会更高。例如,将视频预处理至新的长宽比通常会导致视频的原始构图丢失。一个在宽屏中心呈现人物的视频,裁剪后可能只能部分展示该人物。因为 Sora 能接收任何视频作为训练输入,所以其输出不会受到训练输入构图不良的影响。
Sora掀起的新一轮风暴将带来哪些影响呢?
首先,视频创作成本会大幅下降,很多需要训练动物演员、跟拍运动镜头、卡通特效制作、航拍空镜的画面,未来可以用Sora替代。
影视、娱乐、广告、设计、游戏等行业或将全新洗牌,
刚刚抵制完一轮AI的好莱坞,或许又将迎来新一轮罢工……
但是,Sora能完全取代这些行业的从业者吗?
从目前的一些不足来看,不会。
虽然Sora已经极力模拟物理世界,但还是还是会犯许多不符合物理规律的错误。
比如,摔落的玻璃杯掉在地板上,Sora不会生成出玻璃碎片;如果是让玻璃杯原地爆炸,散落到地上的碎片也不会是呈正态分布。
Sora也似乎不擅长再现多个对象和角色之间的“复杂交互”。
比如,即使两次指示“吹灭蜡烛以将其熄灭”和“蜡烛的光熄灭”,火也没有熄灭。
Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。
它必须理解游戏引擎的概念,才有可能生成工业生产级别的视频。
所以,很多人宣称的电影特效、影视拍摄、短视频等工作岗位失业危机,我认为短时间内并不会到来,大家不必太过焦虑。
我们普通人更加要注意的是:
未来可能会出现,铺天盖地的假消息、假新闻,以及防不胜防的AI诈骗!
眼见也不一定为实!
未来,人工智能究竟会不会成为讲故事者的终极武器呢?
让我们拭目以待!