国产Sora来了，4K 60帧15秒视频刷新纪录！500亿美元短剧出海市场被撬动

作者：书圈发布时间：2024-03-20

Sora

新智元报道

编辑：Aeneas 好困

【新智元导读】国产Sora来了！这家公司的AI视频已经实现了15秒4K 60帧的超逼真效果。而且，它和小米、快手都已展开战略合作，瞄准了500亿美元的短剧出海市场。

OpenAI的Sora，现在是彻底把AI视频的场子给热起来了。

不仅Stable Video立马上线了公测，而且Pika也随即拿出了给视频对口型的Lip Sync，以及可以根据内容自动生成声音的音效生成功能。

LTX Studio则另辟蹊径，上线了电影制作平台，把视频生成、编辑、剪辑、旁白一条龙全包了。

而国内的脚步，也正紧紧跟随。

就在3月5日的超讯通信X七火山大会上，一段高清4K文生视频，让在场观众惊呼连连。

而作为背后工具的Etna，不仅在视频长度上达到了破纪录的15秒，并且还实现了60 FPS的超高帧率，大大提高了视频的流畅性和观看体验。

相比之下，其他的AI视频最高也只有每秒30帧。

无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟，还是冲浪者、划潜艇的人、滑雪的人，都做到了细节高清、动作连贯，甚至达到了3840x2160的超高分辨率。

这只美丽优雅的维多利亚冠鸽，头上羽冠的羽毛花边精致可见，眼睛栩栩如生，羽毛的质地和颜色都很细腻地还原出来了

夜色中的女郎，眼神魅惑地看向镜头

Etna的问世，意味着现有的国产文生视频技术的一次重大突破。现有的短视频创作模式，很有可能会被彻底颠覆！

一大波4K AI视频来了！

Etna的这波演示，让我们可以充分放飞想象力，把脑海里最奇特的想象给还原出来。

维多利亚冠鸽对着镜头展示自己的羽毛，头顶的壮丽彩冠blingbling地闪光。

一个酷酷的女生，戴着墨镜站在街头，带着墨镜。

穿着比基尼的金色长发美女，站在海浪中。

黑夜的丛林中，一位女郎穿过，只留下神秘的背影。

两艘海盗船在一杯咖啡中航行时，忽然狭路相逢。

阳光透过热带雨林的斑驳树影洒下来。

一个精灵在魔幻森林中，周边环绕着发光的植物。

两只哈士奇开心地戴上泳镜，潜到海底打卡，它们开心地冲着镜头微笑合影，右边那位眼神还透着一股得意。

而小熊猫们居然出现在了鱼缸上面，整个画面构成一幅令人眼前一亮的的生态奇景。

如何抢先复现Sora？

从上图可以看出，相较于市场上的现有模型，Etna在时长、高清晰度、丰富生动细节和强语义理解上，都保持着较大优势。

为什么七火山能成为国内率先复现出Sora的公司？

Sora的关键创新，是一个可以灵活地处理不同维度数据的Diffusion Transformer：

1. 时空压缩器会把原始视频转映射到潜空间中。

2. 视觉Transformer（ViT）模型会对已经被分词的潜表征进行处理，并输出去除噪声后的潜表征。

3. 一个与CLIP模型类似的系统根据用户的指令（已经通过大语言模型进行了增强）和潜视觉提示，引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后，会得到生成视频的潜表征，然后通过相应的解码器映射回像素空间。

在相关领域技术积累的基础上，Etna模型迅速抓住了Sora的精髓，另外还引入了几项创新。

技术架构创新

由于视频的时空特性，在这一领域应用DiT所面临的主要挑战是：

（1）如何从空间和时间上将视频压缩到潜空间，以实现高效去噪；

（2）如何将压缩潜空间转换为patches，并将其输入到Transformer中；

（3）如何处理长距离的时空依赖性，并确保内容的一致性。

为此，Etna模型在主干网络上Diffusion架构，同时，在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。

因为融合了Diffusion模型和Transformer模型的优势，通过这种结合，Etna就形成了一种高效且先进的新型模型架构。

这不仅提升了模型的生成效率，还保证了生成内容的高质量和高一致性。

时空理解能力

其次，Etna模型在语言模型和图像模型中插入时空卷积和注意力层，能够处理视频数据，即考虑图像序列中的时间连续性。

而这也就意味着，Etna拥有了一定的时空理解能力，从而能够理解并生成具有时间维度的视频内容。

视频时长与帧率优化

Etna模型支持生成视频时长达到8-15秒，且视频流畅度极高，每秒可达60帧。

这一特性使得Etna生成的视频不仅内容丰富，而且视觉效果流畅自然，极大提升了用户观看体验。

深度语义理解能力

文本提示对于指导文本到视频模型，制作既具有视觉冲击力，又能精确满足用户创建视频需求至关重要。

以Sora为例，提示中，包含了人物的动作、设定、角色出场，甚至是所期望的情绪，以及场景氛围。

而这样一个精心制作的文本提示，也确保了Sora生成的视频与预期的视觉效果非常吻合。

无独有偶，Etna模型背后的技术架构，也特别强调了对输入文本的深度理解。

借鉴了Sora模型的成功经验，Etna能够更准确地捕捉和转化文本信息为视频内容，使得生成的视频不仅忠实于原文意图，还能丰富展现文本的细微情感和场景。

比如，开头那只冠鸽的prompt就是：

这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的，而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜，给人一种帝王的威严的印象。背景是模糊的，吸引人们注意到这只鸟引人注目的外表。

可以看到，Etna生成的冠鸽不仅非常忠实于prompt，而且鸟首微颔、帝王般的威严感，也都还原得十分到位，表现出了细腻的控制能力。

高清晰度与丰富细节

与早期的视频生成模型相比，Etna在视频清晰度和图像细节方面取得了显著进步。

这意味着Etna能够产生高质量的视频内容，每个场景的细节都被精细呈现，为观众带来身临其境的视觉享受。

高质量的训练数据

最后，Etna模型特别注重训练数据的质量，采用视频而非静态图片作为主要训练材料，通过高效的处理方法优化了学习效率。

传统模型主要采用的是静态图像作为训练数据，而Etna模型的方法，更符合其生成目标的本质。

通过优化的patch处理方法，Etna模型在训练过程中能更有效地理解和模拟动态场景，从而提升最终视频的自然度和真实感。

具体来说，Etna模型在一个大型视频数据集上进行了充分训练，过程采用了先进的深度学习技术策略，包括LDS大规模训练、复杂HPO超参数优化和DPO微调，确保了模型的强大性能和生成能力。

改造短视频全产业链

要说2024年最火的是什么？短剧无疑是一个高赞答案。

对此，手握多年技术积累的七火山，也有了全链路的布局。

现在大家已经切实地感受到，AI多模态大有可为，而七火山已成为头部平台的AI内容战略合作伙伴。

它的产品形态兼具toB和toC模式，整合了AI系统能力，全面进军AI短剧制作领域。

七火山的AI多模态布局，除了有Etna之外，还包括Lava、miniTV和Bromo。

其中，Lava是一个短剧AI译制系统，可以完成角色换脸、对白配音、字幕翻译。

miniTV是一个AI短剧出海分发平台。

它聚合了AI短剧内容，与平台共同探索内容出海新模式。

Bromo是一个图片超分工具。它的图生图可达最高10K的超高分辨率，满足商业海报的水准。

左右滑动查看

AI视频，将颠覆整个行业

目前，七火山已经获得了来自上市公司超讯通信的战略投资，后者由此成为持股30%的单一大股东。

从去年初开始，超讯通信就开始寻找AIGC垂类新锐企业进行布局，在跟一系列AI多模态、AI应用落地公司接触后，确定了投资七火山。因此，七火山在算力上也能得到充分支持。

短剧爆火海内外的这一年，七火山也获得了几家大厂的青睐。

首先，七火山已经与小米就AI视频达成合作，发挥自己在短视频创作、短剧出海本地化、剧本创作、视频优化等方面的丰富经验优势。

此外，七火山和快手海外SnackVideo也有合作，将通过前沿AI技术，实现内容本地化，为海外用户带来各种琳琅满目的短剧。

随着TikTok、Instagram Reels和Snapchat等平台的兴起，短视频近年来人气迅速飙升，成为当今的数字生态系统中最受欢迎、最重要的内容之一。

无论是在快节奏的现代生活中，轻松吸引人们注意力的优势，还是病毒式传播的可能性，都让它的影响日渐扩大。

许多业内人士公认，短视频就是在线内容的未来。其中短剧这一形态，更是创造了一个又一个爆款奇迹，今年的市场规模将超过500亿。

而在去年，中国的出海短剧就已经在海外「杀疯了」，成为掘金蓝海新赛道。根据国海证券的调查，短剧出海的长期空间可达360亿美元。

这么看，七火山妥妥是潜力股了，前景无限。

参考资料：

https://arxiv.org/abs/2402.17177

https://arxiv.org/abs/2212.09748

https://etna.7volcanoes.com/

近期资讯

如何轻松解压7z文件：详细步骤与工具推荐指南

好了，今天我们聊一聊如何解压缩一个7z文件。也许你已经遇到过这种情况，朋友或者同事给你发了一个7z格式的压缩包，结果你一头雾水，不知道该怎么打开它。别担心，接下来我会一步一步教你怎么搞定这个问题。首先，什么是7z文件呢？7z是一种由7-Zip软件创建的压缩文件格式，通常它的压缩率比较高，能把文件压得更小。

新报观察 2024-12-29

掌握图片设置技巧，提升视觉效果与使用体验的实用指南

不过，很多人在使用图片时，可能会遇到一些问题，比如怎么设置图片的大小、格式、清晰度等等。如果你在做一个PPT或者博客，图片太大可能会导致加载缓慢，影响观众的体验；而如果太小，可能会模糊不清，让人看不清楚细节。

新报观察 2024-12-29

如何通过电脑高效操作手机的多种方法与技巧

在现代社会，手机和电脑几乎是我们生活中不可或缺的工具。手机让我们随时随地保持联系，而电脑则提供了更大的屏幕和更强的处理能力。有时候，我们可能会想，能不能用电脑来操作手机呢？答案是肯定的！接下来，我就来聊聊如何通过电脑来操作手机，帮助你更高效地使用这两种设备。最直接的方法就是通过USB线将手机连接到电脑。

新报观察 2024-12-29

手机测量长度功能的实用性与注意事项解析

手机测量长度的功能越来越受到大家的欢迎，尤其是在日常生活中，很多人都希望能用手机来代替传统的尺子或者卷尺。毕竟，手机是我们随身携带的工具，能随时随地帮助我们解决问题，测量长度也不例外。现在，很多手机都内置了测量应用，或是通过下载其他软件来实现这一功能。接下来，就来聊聊手机是怎么测量长度的，以及我们在使用过程中需要注意些什么。

新报观察 2024-12-29

手机颜色不对怎么调整

在我们的日常生活中，手机几乎成了必不可少的工具。这种情况不仅让人感到困扰，也影响了我们使用手机的乐趣。那么，手机颜色不对的时候该怎么调整呢？

新报观察 2024-12-29

如何轻松安装小米摄像头内存卡，保障家庭安全

在现代家庭中，智能摄像头已经成为了很多人安全防护的首选。不过，很多新手在安装和使用过程中，常常会对内存卡的使用感到困惑。今天，我们就来聊聊小米摄像头内存卡怎么安装，这个过程其实并没有想象中那么复杂。

新报观察 2024-12-29

如何轻松查看vivo手机上的WiFi密码，实用方法全解析

在日常生活中，WiFi已经成为我们不可或缺的一部分。无论是在家里、办公室，还是在咖啡馆，WiFi都为我们提供了便捷的网络连接。不过，有时候我们可能会忘记WiFi密码，尤其是当我们需要连接其他设备时。这时候，如何查看vivo手机上的WiFi密码就成了一个很实用的问题。接下来，我就来和大家聊聊这个话题。

新报观察 2024-12-29

掌握打字技巧：提高效率与舒适度的全面指南

在这个信息爆炸的时代，打字已经成为了我们日常生活中不可或缺的一部分。无论是工作、学习，还是闲暇时的聊天，键盘都是我们和世界沟通的桥梁。但是，很多人可能会觉得打字是一件很简单的事情，实际上，掌握好打字的技巧，不仅能提高工作效率，还能减轻手部的疲劳感。

新报观察 2024-12-29

如何顺利绑定微信账号，享受便捷生活的全面指南

在这个信息化的时代，微信已经成为我们生活中不可或缺的一部分。无论是聊天、购物、还是支付，微信都能为我们带来很多方便。而绑定微信账号是使用这个应用的第一步，让我们来聊聊怎么绑定微信吧。首先，下载微信应用是必须的。如果你是安卓用户，可以在应用商店中搜索“微信”，然后点击下载。

新报观察 2024-12-29

如何在WPS Office中轻松调整行间距提升文档美观性

在日常办公中，WPSOffice是一个非常常用的办公软件，它的功能强大，操作简单，深受用户喜爱。如果你选择“多倍行距”，你可以输入一个小数，比如“1.2”，这样行距就会根据你输入的倍数进行调整。

新报观察 2024-12-29

国产Sora来了，4K 60帧15秒视频刷新纪录！500亿美元短剧出海市场被撬动

推荐体验

相关资讯