2月16日,Open AI推出了一款新的AI大模型:Sora。这是一个视频大模型,可以迅速通过文本提示创建逼真和富有想象力的60秒视频。
业内普遍认为,AI多模态能力飞跃式发展,将会令智能算力资源更为稀缺。360创始人周鸿祎在表达对Sora看法时就提到,Open Al训练这个模型应该会阅读大量视频。在业内看来,多模态的训练及推理将进一步提升对算力基础设施的需求。
Sora引爆科技圈
2月16日,OpenAI发布了一个新模型Sora,据了解,Sora能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵循。
简单来说,Sora可以根据简单的提示和静态图像,生成包含多个角色的视频画面。此外,Sora还可以自己“脑补”、“扩展”现有视频片段。
用词语总结Sora,那就是:“60s超长长度”“单视频多角度镜头”“充满情感的角色”“高度拟真的细节”和“世界模型”。
不过目前Sora尚未对公众全面开放,仅邀请部分测试者进行体验。
从目前Open AI展示的信息来看,Sora实现了AIGC领域的里程碑式进展。
Sora可以让用户仅通过输入一句句子,就可生成与好莱坞画面相媲美的视频,且长度最多可达1分钟,这让不少科技大佬折服。
Sora的问世也引爆了中国科技圈。
出门问问创始人李志飞在微信朋友圈称:“LLM(大型语言模型)Chat GPT是虚拟思维世界的模拟器,以LLM为基础的视频生成模型Sora是物理世界的模拟器,物理和虚拟世界都被建模了,到底什么是现实?”
Lepton AI公司创始人贾扬清认为,Sora的问世可能会给对标OpenAI的公司带来一波被大厂收购的机会,他称这类收购为“FOMO”,中文意思是“害怕错过机会而导致的收购”。
贾扬清在微信朋友圈预测,大模型市场长期仍将呈现闭源寡头的格局,开源大模型仍然需要一段时间才能追赶上。他同时表示,Sora这类文生视频大模型的出现无疑将会推动AI基础设施的需求猛增。
周鸿祎:有望缩短AGI实现的时间
犹如Open AI在2022年底将ChatGPT-3.5公之于众一般,Sora在发布当日也立刻引起全球关注。
360创始人周鸿祎火速发布微博,提到自己对Sora的看法。周鸿祎对Sora给予了极高的评价。他认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。
“很多人担心Sora对影视工业的打击,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。而一个视频或者电影是由无数个60秒组成的。”周鸿祎直言,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。”
谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。“但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。”
他表示,这次Open AI利用大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力。“这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”
Sora是否会改写影视行业?
如果说ChatGPT重塑了文本相关行业,那视频模型Sora是否会改写视频行业,甚至是电影产业?
澜码科技CEO周健表示,生产力会大大提升,就如之前的文生图,对游戏、广告行业起到的作用是不再靠初级的绘图师通过画来表达创意。但Sora对复杂的交互还是有问题,比如,敲碎一个杯子它就做不到,因为杯子可能通过一定的物理规律进行拆碎,很多碎片弹出来,每一片碎片其实都得遵循物理规律。
韬蕴资本合伙人常惠芳告诉记者,Sora对小屏短视频制作可能产生一定影响,小屏图像视频需要处理的数据量不大,网速和普通电脑硬件配置能达到要求的情况下,如果AI有成本优势,某些场景可以替代人工拍摄。在大银幕方面,受制于算力等基础设施的限制,还做不到替代。从投资角度来看,外界会对AI视频类的产品更为关注,例如此前推出的Runway、Pika、Google和Meta等产品。
暴走游戏CEO张均认为,从行业影响来看,对基础性的画师人才需求会有很大影响,但涉及到艺术和创意类,实际上AI的作用还是非常有限的,Sora可能只能应用于非常有限的重复性制作场景。
周健也持有类似观点,“不管是《热辣滚烫》还是《流浪地球》,电影里有价值观,有一致性,你现在把剧本拆成1000段prompt,对生成视频‘不一致’的地方,你再靠人去修整,这是很难的事情。但是我也相信,虚拟和现实肯定会融合在一起,肯定会有很多创意出现。”周健认为,对游戏行业会有一些影响,原本的游戏视频要花很大的力气,现在用这个工具变得简单。
电影导演和视觉特效专家Michael Gracey在接受外媒采访时表示,以后或许不再需要一个由100名-200名艺术家组成的团队来用3年时间完成动画长片,像Sora这样的人工智能工具将使电影制作者能够仔细控制他们的输出,从头开始制作各种视频。
不过,也有影视后期从业者告诉记者,AI生成视频技术要真正应用到影视行业制作,要求还是很高,例如要做到能对细节之处随时调整,并且生成的视频具有一定稳定性,不能有变化,目前Sora都不能做到。但该人士也指出,从成本来看,目前专业3D的后期处理,3分钟的视频总价格约为30万元,初步估算一分钟价格约10万元,其中主要是人力成本,需要3人团队投入一个月时间才能制作完成。如果未来Sora真的能投入影视行业商业应用的话,确实有广泛的空间,但现在还有一定差距。
多模态大模型将成为生成式AI的重点发展方向
随着文生图、图片对话技术的成熟,文生视频已成为多模态大模型下一步发展的重点。展望2024年,机构人士认为,大模型领域的竞争将进一步白热化,多模态大模型将成为生成式AI的重点发展方向,并有望推动本轮AI行情进一步扩散。
在国盛证券看来,AI文生视频是多模态应用的下一站。文生视频即根据给定的文字提示直接生成视频。随着文生视频技术的日趋成熟和广泛应用,或将为当下热门的短剧市场带来变数。该技术有望极大降低短剧制作的综合成本,为解决“重制作而轻创作”的共性问题提供解决方案,短剧制作的重心有望回归高质量剧本创作。
中信证券表示,多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步,持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变,继续关注算力、算法、数据、应用等环节的领先厂商。
东吴证券判断,多模态是AI商业宏图的起点,有望真正为企业降本增效,且企业可将节省下来的成本用于提高产品、服务质量或者技术创新,推动生产力进一步提升;同时,也可能出现新的、空间更大的用户生成内容平台。