当前位置:首页|资讯|OpenAI

OpenAI文生成视频大模型Sora面世,2024会是“AI视频生成元年”吗

作者:神经童非童发布时间:2024-02-19

OpenAI近日发布了一款名为Sora的全新视频大模型,实现了从文字描述到高质量视频的直接生成,突破了以往仅限于动画的限制。Sora以其出色的表现被誉为出道即巅峰,能够迅速响应用户的简单指令,创作出长达一分钟的高流畅度、高稳定性的视频作品。

目前,官方网站已展示48个精彩的视频demo,充分展现了Sora对细节的精准把握、对物理世界存在的深刻理解和丰富情感角色的创造能力。


此外,Sora还可根据文本提示、静态图片或补充现有视频的缺失帧生成视频内容。相较于其他AI视频模型,Sora生成的视频在质量上更为出色,避免了常见的“人工智能怪异”现象,为观众带来更加舒适的观看体验。

更令业内惊叹的是,Sora身上似乎开始出现“世界模型”的雏形。通过大量观察训练,它学会了许多关于真实世界的物理规律。

要知道,原先动画影视公司为让动物的数百万根毛发、皮肤纹理、衣物等细节在3D建模中表现得如现实场景般真实,为此专门成立研究部门,且投入了不菲的成本和时间才得以实现。而如今,Sora只需要一行描述、几次提示便能自动完成。现在,AI与现实之间的界限可能越来越模糊了。

比如,AI想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。


又如:一位24岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70毫米拍摄的电影,景深,鲜艳的色彩,电影效果。


还有:一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。


OpenAI的掌门人奥特曼(Altman)通过X网站邀请用户们向Sora投递他们的文字构想。随后,他公开展示了Sora依据这些文字描述创作的精彩视频片段。


连马斯克亦对Sora的能力表示赞叹,并预言:在接下来的几年中,人类将携手AI共同缔造出令人瞩目的杰作。数字经济应用实践专家骆仁童博士对此表示,Sora的诞生标志着人工智能技术的一大飞跃。它不仅展现了AI在解析和创造复杂视觉内容上的超凡实力,更对内容创作、娱乐产业以及影视制作等领域带来了前所未有的冲击与契机。

虽然OpenAI并非文生视频赛道的唯一的玩家,但该领域竞争激烈,众多参与者纷纷涌现。自去年下半年起,谷歌、Meta以及一些AI创业公司开始积极涉足这一市场。国内字节跳动也发布了Pixel Dance文生视频模型。阿里云的Animate Anyone和百度文心大模型也推出了类似的内测功能。

然而,尽管入局者众多,实际效果却不尽如人意。在Runway Gen2、Pika和PixVerse等AI视频工具仍在努力实现数秒内的连贯性时,Sora已经成功地将视频生成时长提升至1分钟,大大提高了视频的实用性。

Sora是如何实现其卓越性能的?OpenAI发布了一份关于Sora的技术报告,详细介绍了其技术原理和应用。

Sora的突破得益于LLM的成功经验,OpenAI通过引入视觉块嵌入代码(patches),这种高度可扩展且有效的视觉数据表示形式,大大提高了生成模型处理多样化视频和图像数据的能力。

在高维空间中,OpenAI首先将视频数据压缩到一个低维潜在空间,再将其分解为时空嵌入,将视频转化为一系列编码块。接着,OpenAI训练了一个专门用于降低视觉数据维度的网络,该网络将原始视频作为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩后的潜在空间中进行训练,并生成视频。

此外,OpenAI还训练了一个解码器模型,可以将这些潜在表示还原为像素级的视频图像。通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空patches,这些patches在模型中类似于Transformer Tokens的角色。采用基于patches的表现形式,Sora能够适应不同分辨率、持续时间和宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的patches按照需要的大小排列成网格,来控制最终视频的大小和形式。

虽然原理听起来复杂,但OpenAI所使用的新技术——视觉块嵌入代码(简称视觉块)实际上就像将一堆杂乱无章的积木整理好放入一个小盒子中。这样,即使面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。

由于视频数据被转化为了一个个小方块的形式,当OpenAI向Sora提供一个新的视频任务时,他们会首先从该视频中提取出一些包含时间和空间信息的小方块,然后交给Sora让其根据这些信息生成新的视频。这样就可以像拼拼图一样,把视频重新组合起来。

这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。随着Sora的训练越来越深入,OpenAI的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。

训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI将在DALL·E 3中引入的重新标注技术应用到视频上,利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得Sora能够生成高质量的视频。

除了可以从文字转化而来,Sora还能接受图片或已有视频的输入。这项功能让Sora能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。

形成“SORA”字样的逼真云朵图像。

在一个装饰华丽的历史大厅里,一道巨大的海浪正准备冲击而来。

Open AI利用其大语言模型优势,将LLM和Diffusion结合训练,通过学习视频,理解现实世界的动态变化规律,并模拟、创造出新的视觉内容,由此产生的视频真实感十足。360董事长周鸿祎指出,现在所有文生图、视频的模型都在2D平面上对图形元素进行操作,并未适用物理定律。


Sora技术虽然具有模拟现实世界的强大能力,并能模仿摄影师和导演的创意手法来生动呈现AI视频,但仍然面临一些挑战。OpenAI坦诚,Sora在处理空间问题和复杂场景的物理原理上存在局限性,可能会误解因果关系,混淆空间细节,或者难以精确描述随时间变化的事件。

Sora目前正在向部分用户开放,以便评估其潜在的风险。OpenAI意识到Sora可能被用于制造虚假信息和煽动仇恨内容,特别是在即将到来的2024年总统大选期间。

为了应对这一风险,OpenAI正在组建专家小组,研究Sora可能被滥用的途径,并寻求加强系统安全性的建议。同时,公司还在开发能够识别和分类由Sora生成的误导性内容的技术工具。


回顾历史,文生视频之所以能够在全球范围内引发关注并成为新一轮AIGC竞赛的焦点,主要是因为人们嗅到了短视频在全球直播电商、内容创作等新兴行业的巨大潜力。

周鸿祎认为,Sora可能会对广告业、电影预告片以及短视频行业产生深远影响,并成为激发创造力的工具。数字经济应用实践专家骆仁童博士也认为,Sora的真正价值在于赋予大众创作的能力,而不仅仅是替代摄影或艺术创作。这种潜力预示着全新的商业模式的出现。

Sora在展示其视频制作技能的同时,也揭示了大型模型日益增长的现实世界理解及模拟能力,预示着未来将有更多令人瞩目的创新和成功。

业界专家普遍认为,应用层面的最终目标将是真正通用人工智能(AGI)时代的到来。Sora的技术文档指出,“我们的结果表明,视频生成模型有望向构建通用物理世界模拟器迈进”。这与Sam Altman筹集7万亿美元打造全球AI芯片基础设施的宏伟蓝图相呼应。

因为要实现通用人工智能,必须具备巨大的算力支持。近期有投资界人士透露,Open AI正在讨论新一轮融资,估值高达千亿美元。作为AI行业的领头羊,拥有重塑全球AI芯片行业雄心的Open AI,无疑将继续借助资本的力量不断壮大。《突发巨变!OpenAI开除CEO奥特曼,精心设计的股权经不住管理层内讧?》

在这场AI公司和资本交织的游戏中,技术迭代始终是跳跃式的,不会给人们太多的时间适应。然而,OpenAI坚信Sora目前的实力表明,持续扩展视频模型是朝着开发能够模拟物理世界和数字世界及其内部物体、动物和人类的模拟器的一条充满希望的途径。

未来的世界和AI行业将驶向何方?现在还无法断言。但可以肯定的是,2024年必将是充满刺激和变革的一年。


商道童言(Innovationcases)欢迎点赞和分享哦!~~

免费电子书:结构化思维 | 荆棘商途 | 年度十词 创新企业案例 | 区块链金融



数字经济应用实践专家 骆仁童主讲课程

人工智能:《AI趋势》《ChatGPT》

数字应用:《区块链》《元宇宙》《大数据》

数字中国:《智慧城市》《数字政府》《智慧建筑》《智慧交通》

数字化转型:《制造业数转》《零售业数转》《中小企业创新》

产业数字化:《烟草数转》《银行金融科技》《电力能源互联网》

宏观与趋势:《数字经济》《2024宏观》《双碳》

思维与技能:《数字化思维》《组织变革》

创新与创业:《创业导师》《商业模式》




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1