北京时间2月16日,OpenAI CEO 山姆·奥特曼(Sam Altman)在公布刷屏业界的文生视频产品Sora后,在社交平台X上发文称:“OpenAI所有关键资源均已到位,专注于打造AGI(通用人工智能),你或许应该考虑加入我们。”
“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”
2月16日,360创始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
OpenAI,又出“大招”
文字直接生成视频
今日OpenAI在Runway、Pika、谷歌、 Meta之后,正式加入AI 视频生成领域的竞争,推出AI视频生成产品Sora。OpenAI官方介绍称:如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的 1080P场景,包含多个角色、不同类型的动作和背景细节。1080P是一种视频显示格式,是目前美国电影电视工程师协会(SMPTE)制定的最高等级高清数字电视的格式标准。
OpenAI官方表示:“Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现AGI的重要里程碑。”
OpenAI演示视频片段截取
今日,OpenAI发布了基于Sora生成的60秒视频效果,提示词为:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
需注意的是,该60秒视频并非一镜到底,而是在第37秒切换特写镜头。
另外,截至发稿,奥特曼连发9条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。
技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer 架构,但为了解决Transformer 架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion 的图像与视频生成器同样基于扩散模型。
同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。
据第一财经,中科深智创始人兼CEO成维忠对记者表示,Sora目前还存在因果关系推理问题,但这个问题不是Sora自身的问题,而是目前所有类似模型均存在的问题——文生视频过程中,模型搞不清楚人与环境的关系,搞不清楚前后逻辑关系等情况,该问题会导致模型在实际应用的时候,达不到使用者设想的完美程度,但从个人工具的角度来说,Sora已经比此前行业内推出的文生视频好很多了。未来随着训练的加强,该问题也会逐步得到解决。
对于文生视频工具Sora的技术实力,英伟达科学家DrJimFan评价称,Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。“如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练,我不会感到惊讶,它也必须如此。”DrJimFan表示。
一位人工智能领域人士评价称,视频生成居然引入了物理引擎模拟,这样来看再升维进入3D生成应该就指日可待了。趣丸集团副总裁庄明浩认为Sora的面世影响的不仅是文生视频领域,下一步将是过去一年各家游戏物理引擎厂商们一直在尝试的自然语言改造生产流程,以及3D素材生产这个战场。
OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
会让哪些人失业?
科学家们关心算法和数据的演化,但对于绝大多数人来说,我们关心的问题首先当然是——它会不会取代一部分人的工作、会不会导致更多人失业?
事实上,“机器换人”并非是一个新命题——自汽车诞生以来冲击了马车夫的生意,这种争议就一直存在。比如自动化的“黑灯工厂”出现之后,人们也担心是否会冲击工人岗位,再比如在去年ChatGPT和Midjourney出现时,就有消息称一大批插画师因为AI而失去工作。这一次Sora出现之后,失业会轮到影视圈吗?
科技创新的扩散进程固然会因为人类的一些反对而存在短暂的停滞,甚至对于科学家来说,他们也存在类似的担忧。面对新科技的出现,我们真的准备好了吗?从OpenAI去年开除CEO的公司“政变”来看,显然在最顶尖的那一批大脑中,他们也没有确切的答案。要不要约束技术的快速迭代,这也是当时的核心命题。
在去年11月经历了“超级对齐”和“有效加速”管理层争议的OpenAI,在短时间内就拿出了新的可以媲美ChatGPT的重磅应用。这也反过来意味着,在这家全球最顶尖的人工智能公司内部,已经形成了共识——我们无法阻挡新技术的涌现,但我们可以更好地利用它,为人类带来更新的想象空间。
当文字、图像、视频都开始可以通过提示词一键生成,未来将会有越来越多行业将被AI重做一遍。这一次,感觉OpenAI真的要开始改变世界了。
其实,从Sora的应用来看,与其担忧它会对更多职业造成冲击,更值得期待的反而是,有更多的创造力和想象力未来有望被进一步解放出来。试想,一个优秀的编剧可能就不再需要依赖演员、导演、预算等一系列因素,只要他的剧本足够好,AI就可能以极低的成本生产出优秀的作品。从这个角度来说,AI的出现是在替代机械的劳动、进一步解放作为人的价值。
从历史的经验来看,当一种新工具已经出现,抵抗没有太大的意义,更优的选择是接受它并学习如何更好地利用它。其实,回顾过去百年来的变化,想象中的失业浪潮并没有如人们一开始担心的那样出现,相反,科技红利让更多人找到了新的工作机会。当然,这一切的前提是,作为个体的我们,要保持持续学习的能力,这样才能避免被时代的列车甩下。
来源:第一财经、红星新闻、每日经济新闻
本期编辑:刘锦平
浏览更多精彩内容
欢迎关注华夏时报视频号
推荐阅读
春节档“热辣滚烫”,这部电影突然宣布退出
春节反向旅游再受宠!
春节餐饮消费旺!