新智元报道
编辑:Aeneas 好困
【新智元导读】国产Sora来了!这家公司的AI视频已经实现了15秒4K 60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。
OpenAI的Sora,现在是彻底把AI视频的场子给热起来了。
不仅Stable Video立马上线了公测,而且Pika也随即拿出了给视频对口型的Lip Sync,以及可以根据内容自动生成声音的音效生成功能。
LTX Studio则另辟蹊径,上线了电影制作平台,把视频生成、编辑、剪辑、旁白一条龙全包了。
而国内的脚步,也正紧紧跟随。
就在3月5日的超讯通信X七火山大会上,一段高清4K文生视频,让在场观众惊呼连连。
而作为背后工具的Etna,不仅在视频长度上达到了破纪录的15秒,并且还实现了60 FPS的超高帧率,大大提高了视频的流畅性和观看体验。
相比之下,其他的AI视频最高也只有每秒30帧。
无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟,还是冲浪者、划潜艇的人、滑雪的人,都做到了细节高清、动作连贯,甚至达到了3840x2160的超高分辨率。
这只美丽优雅的维多利亚冠鸽,头上羽冠的羽毛花边精致可见,眼睛栩栩如生,羽毛的质地和颜色都很细腻地还原出来了
夜色中的女郎,眼神魅惑地看向镜头
Etna的问世,意味着现有的国产文生视频技术的一次重大突破。现有的短视频创作模式,很有可能会被彻底颠覆!
一大波4K AI视频来了!
Etna的这波演示,让我们可以充分放飞想象力,把脑海里最奇特的想象给还原出来。
维多利亚冠鸽对着镜头展示自己的羽毛,头顶的壮丽彩冠blingbling地闪光。
一个酷酷的女生,戴着墨镜站在街头,带着墨镜。
穿着比基尼的金色长发美女,站在海浪中。
黑夜的丛林中,一位女郎穿过,只留下神秘的背影。
两艘海盗船在一杯咖啡中航行时,忽然狭路相逢。
阳光透过热带雨林的斑驳树影洒下来。
一个精灵在魔幻森林中,周边环绕着发光的植物。
两只哈士奇开心地戴上泳镜,潜到海底打卡,它们开心地冲着镜头微笑合影,右边那位眼神还透着一股得意。
而小熊猫们居然出现在了鱼缸上面,整个画面构成一幅令人眼前一亮的的生态奇景。
如何抢先复现Sora?
从上图可以看出,相较于市场上的现有模型,Etna在时长、高清晰度、丰富生动细节和强语义理解上,都保持着较大优势。
为什么七火山能成为国内率先复现出Sora的公司?
Sora的关键创新,是一个可以灵活地处理不同维度数据的Diffusion Transformer:
1. 时空压缩器会把原始视频转映射到潜空间中。
2. 视觉Transformer(ViT)模型会对已经被分词的潜表征进行处理,并输出去除噪声后的潜表征。
3. 一个与CLIP模型类似的系统根据用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。
在相关领域技术积累的基础上,Etna模型迅速抓住了Sora的精髓,另外还引入了几项创新。
技术架构创新
由于视频的时空特性,在这一领域应用DiT所面临的主要挑战是:
(1)如何从空间和时间上将视频压缩到潜空间,以实现高效去噪;
(2)如何将压缩潜空间转换为patches,并将其输入到Transformer中;
(3)如何处理长距离的时空依赖性,并确保内容的一致性。
为此,Etna模型在主干网络上Diffusion架构,同时,在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。
因为融合了Diffusion模型和Transformer模型的优势,通过这种结合,Etna就形成了一种高效且先进的新型模型架构。
这不仅提升了模型的生成效率,还保证了生成内容的高质量和高一致性。
时空理解能力
其次,Etna模型在语言模型和图像模型中插入时空卷积和注意力层,能够处理视频数据,即考虑图像序列中的时间连续性。
而这也就意味着,Etna拥有了一定的时空理解能力,从而能够理解并生成具有时间维度的视频内容。
视频时长与帧率优化
Etna模型支持生成视频时长达到8-15秒,且视频流畅度极高,每秒可达60帧。
这一特性使得Etna生成的视频不仅内容丰富,而且视觉效果流畅自然,极大提升了用户观看体验。
深度语义理解能力
文本提示对于指导文本到视频模型,制作既具有视觉冲击力,又能精确满足用户创建视频需求至关重要。
以Sora为例,提示中,包含了人物的动作、设定、角色出场,甚至是所期望的情绪,以及场景氛围。
而这样一个精心制作的文本提示,也确保了Sora生成的视频与预期的视觉效果非常吻合。
无独有偶,Etna模型背后的技术架构,也特别强调了对输入文本的深度理解。
借鉴了Sora模型的成功经验,Etna能够更准确地捕捉和转化文本信息为视频内容,使得生成的视频不仅忠实于原文意图,还能丰富展现文本的细微情感和场景。
比如,开头那只冠鸽的prompt就是:
这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王的威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。
可以看到,Etna生成的冠鸽不仅非常忠实于prompt,而且鸟首微颔、帝王般的威严感,也都还原得十分到位,表现出了细腻的控制能力。
高清晰度与丰富细节
与早期的视频生成模型相比,Etna在视频清晰度和图像细节方面取得了显著进步。
这意味着Etna能够产生高质量的视频内容,每个场景的细节都被精细呈现,为观众带来身临其境的视觉享受。
高质量的训练数据
最后,Etna模型特别注重训练数据的质量,采用视频而非静态图片作为主要训练材料,通过高效的处理方法优化了学习效率。
传统模型主要采用的是静态图像作为训练数据,而Etna模型的方法,更符合其生成目标的本质。
通过优化的patch处理方法,Etna模型在训练过程中能更有效地理解和模拟动态场景,从而提升最终视频的自然度和真实感。
具体来说,Etna模型在一个大型视频数据集上进行了充分训练,过程采用了先进的深度学习技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。
改造短视频全产业链
要说2024年最火的是什么?短剧无疑是一个高赞答案。
对此,手握多年技术积累的七火山,也有了全链路的布局。
现在大家已经切实地感受到,AI多模态大有可为,而七火山已成为头部平台的AI内容战略合作伙伴。
它的产品形态兼具toB和toC模式,整合了AI系统能力,全面进军AI短剧制作领域。
七火山的AI多模态布局,除了有Etna之外,还包括Lava、miniTV和Bromo。
其中,Lava是一个短剧AI译制系统,可以完成角色换脸、对白配音、字幕翻译。
miniTV是一个AI短剧出海分发平台。
它聚合了AI短剧内容,与平台共同探索内容出海新模式。
Bromo是一个图片超分工具。它的图生图可达最高10K的超高分辨率,满足商业海报的水准。
左右滑动查看
AI视频,将颠覆整个行业
目前,七火山已经获得了来自上市公司超讯通信的战略投资,后者由此成为持股30%的单一大股东。
从去年初开始,超讯通信就开始寻找AIGC垂类新锐企业进行布局,在跟一系列AI多模态、AI应用落地公司接触后,确定了投资七火山。因此,七火山在算力上也能得到充分支持。
短剧爆火海内外的这一年,七火山也获得了几家大厂的青睐。
首先,七火山已经与小米就AI视频达成合作,发挥自己在短视频创作、短剧出海本地化、剧本创作、视频优化等方面的丰富经验优势。
此外,七火山和快手海外SnackVideo也有合作,将通过前沿AI技术,实现内容本地化,为海外用户带来各种琳琅满目的短剧。
随着TikTok、Instagram Reels和Snapchat等平台的兴起,短视频近年来人气迅速飙升,成为当今的数字生态系统中最受欢迎、最重要的内容之一。
无论是在快节奏的现代生活中,轻松吸引人们注意力的优势,还是病毒式传播的可能性,都让它的影响日渐扩大。
许多业内人士公认,短视频就是在线内容的未来。其中短剧这一形态,更是创造了一个又一个爆款奇迹,今年的市场规模将超过500亿。
而在去年,中国的出海短剧就已经在海外「杀疯了」,成为掘金蓝海新赛道。根据国海证券的调查,短剧出海的长期空间可达360亿美元。
这么看,七火山妥妥是潜力股了,前景无限。
参考资料:
https://arxiv.org/abs/2402.17177
https://arxiv.org/abs/2212.09748
https://etna.7volcanoes.com/