智谱AI版Sora来了！人人免费不限次，有手机就能玩，API也开放了

作者：量子位发布时间：2024-07-31

Sora 提示词

金磊发自凹非寺

量子位 | 公众号 QbitAI

就在刚刚，智谱AI版的Sora横空出世，名曰清影。

话不多说，直接来看一下通过清影生成的一部短片。

在文生视频方面，例如给清影一段Prompt，可以挑战一下它的想象力：

在霓虹灯闪烁的赛博朋克风格城市夜景中，手持跟拍的镜头缓缓推近，一个机械风格的小猴子正在用高科技工具维修，周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格，气氛神秘，4K高清。

赛博朋克、未来感味道十足，是比较贴近我们脑海中想象的那种画面了。

而除了文生视频之外，清影这次把图生视频的能力也一道发布了出来。

现在，让我们一同来比较一下你的想象力，和清影的创造力，到底谁更胜一筹。

请看第一张图——洞穴文明：

然后下面这段视频便是清影用AI Power创造并配乐的版本：

视频的最后，清影竟然还学会了在关键帧处晃动下镜头，让视频更具神秘的味道。

接下来，我们再来Round 2，依旧是先一起来看图——火龙吐息：

清影根据这张图所制作视频的打开方式是这样的：

是能想象到这条龙准备喷火，但是却没想到是烧了地上的村庄，不过也是合情合理的那种。

但纵观智谱AI的整活发布活动，高清、画面一致性的效果还仅仅是亮点中的一隅，更重要的是它把福利值给拉满了！

全民免费，不用排队，不限次数！

而且效果上，更是直接把自家视频生成大模型CogVideo的能力马力全开，不搞饥饿营销。

据智谱AI介绍，仅需30s的时间，就能生成出6s的1440x960视频，模型推理的速度足足提高了6倍之多。

不仅如此，现在在智谱轻言的PC版和APP上，文生视频/图生视频的功能都已经开放；小程序方面，目前则是暂时只支持图生视频。

对开发者来说也有个利好的消息，这次视频生成大模型的API也已经全面开放了，是国内首个哦！

不得不说，便捷和高效这块，智谱AI这次也是拿捏到位了。

那么接下来，是时候用智谱AI的视频生成功能来搞事情实测一波了。

实测智谱AI版Sora

我们先来测一波文生视频的效果。

打开智谱轻言APP或PC版，文生视频的入口就在主对话里了。

以APP为例，界面是这样的：

然后万事俱备，只差输入Prompt了。

但需要注意的是，这却是决定视频生成效果成败关键中的关键。

一个最重要的原则就是：结！构！性！公式如下：

简单公式：[摄像机移动]+[建立场景]+[更多细节]
复杂公式：[镜头语言] + [光影] + [主体 (主体描述)] + [主体运动] +[场景 (场景描述)] +[情绪/氛围/风格]

那么效果会差多少呢？

例如如果只输入：小男孩喝咖啡，生成的结果是这样的：

中规中矩，但却是一眼AI的感觉。

但如果把提示词按照公式丰富一下，那么打开方式就截然不同了：

摄影机平移，一个小男孩坐在公园的长椅上，手里拿着一杯热气腾腾的咖啡。他穿着一件蓝色的衬衫，看起来很愉快，背景是绿树成荫的公园，阳光透过树叶洒在男孩身上。

这不，电影感一下子就出来了。

但除了刚才的公式，还有几个重要的原则也可以参考一下。

首先，重复就是力量。

在Prompt的不同部分重复或强化关键词有助于提高输出的一致性。例如，摄像机以超高速镜头快速飞过场景（其中的“超高速”、“快速”就是重复词）。

其次，尽量让你的Prompt集中在场景中应该出现的内容上。例如，你应该提示晴朗的天空，而不是没有云的天空。

有了这些公式和原则之后，我们就可以大展拳脚地尝试一番了。

小王子和狐狸在月球一起看星空，狐狸时不时看向小王子。

写实描绘，近距离，猎豹卧在地上睡觉，身体微微起伏。

除此之外，根据智谱AI的介绍，多试几次，说不定会出现意想不到的效果（反正是免费的

）。

在文生视频之后，我们就再来测试一波图生视频。

这里也有两个比较关键的技巧。

首先就是上传的图片要尽量清晰，比例最好是3:2，格式方面则是jpg或png。

其次依旧是Prompt，一定要有主体，然后可以根据“[主体]+[主体运动]+[背景]+[背景运动]”这样的公式来撰写Prompt。

当然如果没有Prompt也是可以的，但AI就会根据自己的想法天马行空地生成视频了。

例如我们“喂”一张唐僧的照片：

然后根据刚才给的公式技巧，Prompt如下：

唐僧伸出手，戴上墨镜。

由此，玩法（搞事情）就变得多起来了

。

例如让甄嬛和沈眉庄“破壁”相拥：

甄嬛眉庄跨屏拥抱。

老照片复活也不在话下：

胡适，转身离开。

从种种效果来看，智谱AI的清影，是一个可以拿来直接上手用的那种类Sora了。

那么接下来的一个问题是：

怎么做到的？

在视频生成这个领域中，输出内容的一致性和连贯性，是决定最终效果的关键因素。

为此，据智谱AI所述，团队自研了一个高效的三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，大大减少了视频扩散生成模型的训练成本及训练难度。

在模型结构方面，智谱团队则是采用因果三维卷积（Causal 3D convolution）为主要模型组件，移除了自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。

与此同时，在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性，这么做的目的是方便通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度，智谱AI是基于时间维度上的序列并行（Temporal Sequential Parallel）对变分自编码器进行微调及部署，使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

但除了内容的一致性和连贯性之外，视频生成还存在的一个问题是——现在的视频数据大多缺乏对应的描述性文本或者描述质量低下。

为此，智谱AI自研了一个端到端的视频理解模型，用于为海量的视频数据生成详细的、贴合内容的描述。

如此一来便可以增强模型的文本理解和指令遵循能力，让生成的视频更符合用户的输入，能够理解超长复杂Prompt指令。

最后，智谱AI还自研的一个将文本、时间、空间三个维度全部融合起来的Transformer架构。

它摒弃了传统的cross attention模块，而是在输入阶段就将文本embedding和视频embedding concat起来，以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异，团队通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异，这样可以更有效地利用扩散模型中的时间步信息，使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制，先前的研究通常使用分离的空间和时间注意力或者分块时空注意力，它们需要大量隐式传递视觉信息，大大增加了建模难度，同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

以上便是智谱是如何炼成清影背后的关键技术实力了。

One More Thing

除了这次免费版之外，智谱AI还推出了付费版本，价格是这样的：

5元：解锁24小时的高速权益
199元：解锁一年的高速权益

年费换算一下，也就是每天仅5毛4。

嗯，着实有点香。

体验链接放下面了，感兴趣的小伙伴可以去试试喽~

https://chatglm.cn/video

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

【喷雾除尘设计，现场效果视频】自动喷雾降尘系统采用PLC采集粉尘传感器参数，在触摸屏上设置粉尘浓度上下限，粉尘浓度在触摸屏上实时显示，当粉尘浓度超过一定值时自动开启喷雾降尘系统，当粉尘浓度下降到设定值时自动停止喷雾除尘系统。喷雾降尘粉尘监测传感器布置合理，能做到全覆盖，重要区域可交叉覆盖，在任意粉尘浓度下启动喷雾除尘系统10分钟可见到明显的粉尘浓度降低。智能喷雾降尘系统可同时叠加温度采集设置模块，当温度与粉尘浓度任何一个达到设定值均可开启喷雾。【喷雾除尘设计，使用场所介绍】储煤仓，由于目前储煤仓都为封

山东艾蓝环保 2024-12-28

【原创】筱晓小课堂 | DAS光纤传感系统搭建演示

随着科技的不断进步，光纤传感技术逐渐在多个领域得到广泛应用。其中，分布式声波传感技术(DAS)以其独特的优势和性能，成为了研究的热点。本文将重点介绍DAS光纤传感技术的原理以及我们的研究进展。分布式光纤声波传感(DAS)技术主要是一种利用激光在光纤中的后向瑞利散射来获取沿线环境物理量变化的先进感知技术，具有环境适应性强、传感范围大、信道间光速同步、时空分辨精度高等优势。当光在光纤中传播时，会与光纤中的分子发生相互作用，产生散射。根据弹光效应和胡克定律，外界扰动变化会改变光纤长度和折射率，调制光波传输的光

筱晓光子 2024-12-28

美国H2W Technologies 音圈定位台 VCS05-060-CR-001 、单轨定位平台 H2W进口代理许经理 I800I942024 VCS05-060-CR-001 音圈定位台 Voice Coil Positioning Stage – VCS05-060-CR-001 VCS05-060-CR-001音圈定位台使用H2W音圈电机NCC05-18-060-2X产生6.0 lbs [26.7 N]/18.0 lbs [80.1 N]的持续/峰值力，总行程长度为0.50 in [12.7mm

皕赫国际18001942024 2024-12-28

智谱AI版Sora来了！人人免费不限次，有手机就能玩，API也开放了

推荐体验

相关资讯

【Bing Chat全面开放】ChatGPT 4.0 免费 + 不限次数

30s 生成视频，免费不限次数，中国版 OpenAI 今天发布的「智谱清影」被玩疯了

讯飞星火--免费无需魔法不限次数的AI来了！！！

免费不限次数的中国“Sora”——清影，AI视频生成神器

30s生成视频，免费不限次数，中国版OpenAI今天发布的「智谱清影」被玩疯了 | 附体验指南

近期资讯

高中政治答题术语，实在不会就抄吧！

Diazo Biotin-PEG3-azide |cas1339202-33-3

地理考了全班第一！我的满分答题模板

【喷雾除尘设计】-山东艾蓝设计-哪家好

【原创】筱晓小课堂 | DAS光纤传感系统搭建演示

东方圣人盘古　　山林子东方圣人系列组诗之一

高中物理“必修一知识梳理”，就凭它，物理也能冲上90+！

美国H2W 音圈定位台 VCS05-060-CR-001

让“锂”程更远，伺服系统硬核助力锂电池生产

用5分钟换你政治选择题满分很亏吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响