【科学强国】Sora横空出世,有多少人面临失业?
近日,OpenAI突然发布首个视频生成模型Sora,大幅刷新现阶段AI视频生成技术极限,一时间成为全网刷屏的火爆话题。
Sora生成视频:中国龙年舞龙
目前,Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均4s的视频生成长度。
当所有人都在为Sora惊叹狂欢时,在无人在意的角落,是大量AI视频创业者和投资人的一夜无眠。
Sora横空出世
美国当地时间2024年2月15日,OpenAI正式发布文生视频模型Sora,并发布了48个文生视频案例和技术报告,正式入局视频生成领域。
Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频,视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景” 。
Sora生成视频:雨后的东京街头
此外,Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真等。
Sora以静态图片生成视频
由此可以看出,Sora让“一句话(prompt)生成视频”成为可能。这种能力的震撼之处在于,Sora在模拟物理世界时,能够更准确地反映出现实世界的复杂性和多样性。有了提示词,Sora就“知道”如何用镜头语言讲故事。
在此之前,AI视频生成领域的明星产品比如Runway和Pika,只能做3或4秒长的模糊视频,角色形象也很扭曲,还得用户输入图片。
而在Sora横空出世后,这些公司都瞬间黯然失色,遭到降维打击后不得不去重新审视未来的发展道路。毕竟,大家如今都可以随意生成60秒的高清大片了,谁还会为你那4秒的动图拍手称赞呢?
它有哪些技术
Sora背后拥有两大技术革新:时空补丁(Spacetime Patch)技术和扩散型Transformer(Diffusion Transformer,简称DiT)架构。OpenAI发现训练计算量越大,样本质量就会越高,特别是经过大规模训练后,Sora展现出模拟现实世界某些属性的“涌现”能力。
虽然Sora公布的视频效果令人惊叹,但由于目前仅开放给了一小部分人进行实测,因此其真实的效果如何我们还不得而知。毕竟此前Runway和Pika等同类型平台都出现过Demo做得无比精良,实操却出现种种问题的情况。
此次,就连OpenAI自己也提前给大家打好了预防针。在关于Sora官方博客的最后,OpenAI明确表示目前Sora的模型还并不完美,仍然属于世界模型研究应用的初期。特别是在模拟复杂的物理环境下,还会出现明显的逻辑和因果关系推理错误,比如跑步时方向搞反、人吹蜡烛火光不灭、塑料椅子会变形飘起来、小狼仔变形等情况。
提示词为“考古学家在沙漠中发现了一把普通的塑料椅子,正小心翼翼地挖掘和除尘”,Sora生成的视频出现了椅子变形、自动行走等诡异的场景。
但Sora的作品达到了惊人的高清照片级真实感,“运镜”手法更令人难忘——围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。这已经表明,通过大量数据的分析,机器能够推断出一些物理世界的规则,这无疑是向现实世界模拟迈出的重要一步。
有多少人面临失业?
中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋认为,短视频时代,Sora既然可与人工媲美,制造短视频的专门团队可能就面临下岗危险。要知道,短视频的摄影、导演、剪辑等任务,Sora“一个人”费点电就全包了。
此外,Sora这一颠覆性的AI生成技术的到来无疑对新闻业领域会带来影响。尤其当下的主流媒体都有“视频记者”这一工作种类,Sora的到来对其影响较大。
Sora将给多个行业带来深远的影响,不同行业都感受到Sora带来的的冲击。
首当其冲的是影视制作行业,一旦视频的准确度、连贯性问题被解决,群演、布景、特效等大量内容则都可以用AI去帮助完成。其次是广告和短视频行业,如果未来大量的广告和短视频由AI生成,视频创作的门槛和经费会大大降低,对设计师、摄影师、后期制作岗位的需求会大量减少。还有游戏行业,比如游戏公司育碧就视其为一次巨大的飞跃。华大集团CEO尹烨将其比作开启了AI发展的“牛顿时代”。不过,Meta的首席人工智能科学家、图灵奖得主LeCun则批评Sora无法真正理解物理世界。
人工智能背后的挑战
从ChatGPT到Sora,从自动生成文字、图片,再到自动生成视频,人们惊叹于人工智能的突破性进展,同时也伴随着质疑和担忧。
不少业内人士担心,Sora将为“深度伪造”(Deepfake)技术推波助澜。加利福尼亚大学伯克利分校信息学院副院长法里德就表示:“当新闻、图像、音频、视频——任何事情都可以伪造时,那么在那个世界里,就没有什么是真实的。”
针对造假顾虑,OpenAI称在真正面向公众推出产品时,将确保生成视频包含来源元数据,并推出检测视频真伪的工具。OpenAI还承诺,在产品中使用Sora前将采取安全措施,包括由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试来评估危害或风险;核查并拒绝包含极端暴力、性内容、仇恨图像、他人IP等文本输入提示等。
即便如此,OpenAI也承认,尽管进行了广泛的研究和测试,“我们仍无法预测人们将使用我们技术的所有有益方式和滥用我们技术的所有方式”。
此外,AI可能在处理复杂的情节、细腻的情感表达或者文化特定的元素时遇到困难。而AI生成的视频可能缺乏人类艺术家独特的创意。
Sora也很贵。小冰CEO李笛曾算过一笔账,如果把全中国所有媒体的撰稿工作全部由大模型来完成,颠覆掉了一个市场、端掉了很多撰稿人的饭碗,AI公司获得的也不过是200万左右的市场规模。大力出奇迹,但不是每家公司都有OpenAI的实力。
人工智能技术日新月异,伦理规范和监管制度难免存在滞后性。加之伦理问题的复杂性,各个国家和地区规范存在差异,许多规定过于原则性,缺乏可操作性,难以有效落地实施。因此,完善细化相关伦理规范,加强审查和监管,以及相关伦理教育和宣传,更显迫切。只有正视Sora带来的伦理挑战,并加强伦理治理,才能确保人工智能技术造福人类,而不是成为威胁。
(中国小康网综合中国经济网、中国财经报、新京报、光明网、舜网、百度百科等)
END
来源:中国小康网
作者:风华
审核:龚紫陌
关注“科学强国”是你今天做出的最棒决定!
武器科技 2024-11-02
腾讯科技 2024-11-02
武器科技 2024-11-02
武器科技 2024-11-02