当前位置:首页|资讯|Sora|提示词|OpenAI|艺术

7000字超全拆解|Sora提示词秘籍及竞品效果对比

作者:人人都是产品经理发布时间:2024-02-29

原标题:7000字超全拆解|Sora提示词秘籍及竞品效果对比

OpenAI 发布文本到视频生成模型 Sora,让互联网再一次沸腾了起来。本文就 Sora 生成视频来拆解提示词秘籍公式,并对其竞品效果进行比对,一起来看看吧。

2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型 Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。

目前 Sora 并未开放,只向少数导演艺术家开放邀请码。

至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦!

今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。

一、AIGC 视频模型效果对比

首先让我们看看,目前主流的AI 视频工具 Runway、Pika、Stable Video Diffusion 与 Sora 基本参数对比。包括发布时间、特点风格、生成时长、每秒帧数和分辨率,如下图所示。

受制于AI文本到视频生成的物理和时空推理局限,目前主流的 AI 视频工具 Runway、Pika、Stable Video Diffusion 生成视频通常在4S左右,单个连贯性视频的最大长度为16秒。这次,Sora 最大生成长度为60s ,直接秒杀全场。

案例一

接下来,先来看一段 Sora 生成的视频效果吧,以下是提示词。

提示词:「几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。」

生成的是一段9秒视频,我把整个视频进行了拆解:

可以看到,在0秒的时候画面上有两只完整的大象在行走,并且有一只被遮挡的大象在行走,0~5秒的时候这只大象被遮挡且继续前进行走,在第5秒时,这只大象开始显示出来,慢慢走出来,身体很完整。

可以看出 Sora 在复杂的场景、多角色表情以及镜头连贯性上表现的很突出。

Runway 和 Pika 对比

接下来用相同提示词在 Runway 和 Pika 中看看效果吧。

可以看到在大象走路时背后雪飘扬物理世界的真实性上、大象身体运动地连贯性上、画面复杂性上,Sora 直接碾压其他两款视频软件生成效果。

案例X来源:https://twitter.com/keitowebai/status/1758384152670577136

案例二

提示词:「美丽的、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。美丽的樱花花瓣随着雪花在风中飞舞。」

生成的是一段17秒视频,我把整个视频进行了拆解:

可以看到整个视频是一镜到底,高空跟随俯拍,在0~2秒镜头是动态地高空拉到人物,3秒开始两位主角进入,镜头跟着主角的脚步向前,街道和店铺路面都符合逻辑的向前运动,且画面中物体都高度统一,第5秒我都担心女主会撞到前面的摊位,最后完美避让。在第9秒两位主角还对在对视聊天,第3秒和第11秒周围的路人消失的时候还是比较诡异的。

视频中的整个街道来的店铺完全没有变形,Sora 在复杂的场景以及镜头连贯性上表现真的很突出。

Runway 、 Pika 、Stable Video 对比

接下来,使用以上相同的关键词在 Pika、Runway、Stable Video 中进行了测试,可以看到以下效果。Sora 在生成时长、画面连贯性和人物走路细节对视等方面也直接碾压。

案例X来源:https://twitter.com/gabor/status/1758282791547232482

二、Sore 优势与局限 1. Sora 的优势

对比 Runway、Pika、Stable Video 这些主流AI视频工具, Sora 的优势很明显:

能够生成具有多个角色、特定类型动作和主题背景的复杂视频,时长可达到 60秒;

可以在单个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格;

最重要的是,它不仅理解用户在 prompt 中要求的内容,还能自己理解这些事物在现实世界中的存在方式;

🔗 更多技术:https://openai.com/sora

2. Sora 的劣势

Open AI 研究人员也提到 sora 仍存着一些缺点,比如可能无法精确描述随着时间推移发生的事件。例如“五只灰狼幼崽在一条偏僻的碎石路上玩耍”,小狼的数量会发生变化,玩耍的狼会出现混淆或消失。

比如可能无法精确描述物理世界运动特征。例如“篮球穿过篮筐然后爆炸”,篮球没有正确被篮筐阻挡。

三、Sore 提示词拆解

在拆解四十八个 Sora 视频案例后,我将提示词进行分类归纳,总结出提示词的五大维度包括:主体描述、场景设定、视觉细节、情感氛围、摄影技术,这五大维度。

主体描述:涉及人物、动物或物体的详细描述,包括年龄、服装、动作、表情、和与场景的互动。

场景设定:描述地点,如东京的街头、海底世界;时间,如日落时分、蓝色时刻;环境:如城市、自然景观;特定的场景氛围:如温馨、神秘。

视觉细节:包括颜色、光影、天气条件、纹理和任何特别的视觉效果,比如大象长长的毛、飞舞的樱花花瓣。

情感氛围:描述场景所要传达的情绪、情感状态或氛围,利用视觉元素和场景设置加以强化,比如温暖的感觉、神奇浪漫的感觉。

摄影技术:特定的摄影或影片拍摄技术,如70mm胶片、无人机拍摄、倾斜移位。

1. 举例子

把提示词「几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。」进行拆解如下:

主体描述:几头巨大的长毛象,在雪地中踏步,长毛在风中轻轻吹动。

场景设定:雪地,远处有被雪覆盖的树木和雪山,午后,有稀疏的云和远处的太阳

视觉细节:长毛在风中的轻轻吹动,光线和云层形成温暖光芒。

情感氛围:自然之美和壮观

摄影技术:低相机视角,景深

2. 案例拆解

这边我把四个案例视频进行了详细的拆解,方便查看,可以看到视频每秒画质都很高清,画面物体都很完整符合逻辑。

案例一

提示词:Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

几头巨大的长毛象踏着雪地走近,它们长长的长毛在风中轻轻地吹着,远处是白雪皑皑的树木和引人注目的雪山,午后的光线与稀疏的云层和远处的太阳形成了温暖的光芒,低相机的视野令人惊叹,用美丽的摄影和景深捕捉到了这只巨大的长毛哺乳动物。

案例二

提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

美丽的、白雪皑皑的东京城熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。美丽的樱花花瓣随着雪花在风中飞舞。

案例三

提示词:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。

案例四

提示词:Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.

一位24岁女性的眼睛在马拉喀什的魔法时刻进行极端特写镜头的眨眼,以70毫米的电影胶片拍摄,具有景深,鲜艳的颜色,电影般的效果。

3. Sora 秘籍公式

按照主体描述、场景设定、视觉细节、情感氛围、摄影技术,这五大维度讲以上提示词进行分类可以得到如下提示词秘籍公式。

4. 小技巧:利用 AI工具快速得到上述表格

使用 ChatGPT 可以快速完成。首先把四个案例的提示词文件放到输入框,输入指令「按照以上以下五个维度把上面4个案例进行拆解,并使用表格的形式展示出来。」就可以得到如下表格啦。大家可以利用 ChatGPT 对日常工作进行提效。

四、提示词大全

根据提示词五大维度,汇总了一些关键词如下。后期我也会及时整理更多资料发布到AIGC知识库,欢迎加我微信了解更多,欢迎小伙伴加入一起学习。

主体描述 (Subject Deion)

职业(Occupation):教师(Teacher), 艺术家(Artist);兴趣(Interests):阅读(Reading), 旅行(Traveling);气质(Temperament): 优雅(Elegant), 粗犷(Rugged);服饰细节(Clothing Details): 复古(Vintage), 现代(Modern)。

场景设定 (Scene Setting)

建筑风格(Architectural Style): 现代(Modern), 古典(Classical);城市特色(City Characteristics): 繁华(Bustling), 古老(Ancient);自然景观(Natural Landscape): 湖泊(Lakes), 山脉(Mountains);社会背景(Social Background): 科技未来(Futuristic), 史前时代(Prehistoric Era)。

视觉细节(Visual Details)

明暗对比(Light and Dark Contrast): 强烈(Strong), 微妙(Subtle);视角(Perspective): 第一人称(First Person), 第三人称(Third Person);光影变化(Light and Shadow Changes): 日出(Sunrise), 夜晚(Night);空间感(Sense of Space): 开阔(Open), 压抑(Oppressive)。

情感氛围(Emotional Atmosphere)

情绪变化(Emotional Change): 从忧郁到喜悦(From Melancholy to Joy);故事情节(Plot): 冒险(Adventure), 成长(Growth);人物关系(Character Relationships): 友情(Friendship), 竞争(Competition);心理描写(Psychological Deion): 坚定(Determined), 犹豫(Hesitant)。

摄影技术(Photographic Techniques)

技术手段(Technical Means): 蒙太奇(Montage), 深焦点(Deep Focus);摄影风格(Photographic Style): 纪实(Documentary), 抽象(Abstract);画面处理(Image Processing): 色彩饱和度(Color Saturation), 明暗调整(Light and Dark Adjustment);特殊效果(Special Effects): 慢动作(Slow Motion), 倒叙(Reverse Chronology);

五、Sore 模型原理

OpenAI 公布了sora详细的技术报告。

总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。

🔗 技术报告链接:https://openai.com/research/video-generation-models-as-world-simulators

英伟达AI科学家Jim Fan则认为:Sora应该是一个数据驱动的物理引擎。Sora是对现实或幻想世界的模拟,它通过一些去噪、梯度下降去学习复杂渲染、“直觉”物理、长镜头推理和语义基础等。

纽约大学助理教授谢赛宁认为:Sora将改写整个视频生成领域。Sora应该是建立在DiT这个扩散Transformer之上的。简而言之,DiT是一个带有Transformer主干的扩散模型,它= [VAE 编码器 + ViT + DDPM + VAE 解码器]。

谢赛宁猜测,关于视频压缩网络,Sora可能采用的就是VAE架构,区别就是经过原始视频数据训练。而由于VAE是一个ConvNet,所以DiT从技术上来说是一个混合模型。

(1)视觉数据处理方式

Sora 创新性地采用“Patches(补片)”技术处理视觉数据,区别于大语言模型的 token 处理方式。通过将视频内容压缩到低维潜空间,进一步解构为时空补片,实现将视频转化为易于处理的补片形式。

(2)视频格式的灵活性

Sora 能够生成多种格式的视频,支持不同的分辨率、时长和宽高比,优化了视频的构图和布局。与常见的将视频裁剪为正方形不同,Sora 能够完整捕捉场景,得益于在视频的原始尺寸上进行训练。

(3)图像生成的能力

除了视频,Sora 同样具备生成图像的能力。通过在空间网格中排列高斯噪声补片,并设置时间范围为单帧,Sora 能够生成不同尺寸的图像,最高支持 2048×2048 分辨率。

六、后记

总体而言,Sora 的出现预示着视频创作领域的一次重大变革,无论是广告行业、影视行业、短视频从业者还是普通人,都提供了新的创作路径,使大家能以更低的成本和更高的效率创作高质量视频内容。

在AI技术日益成熟的今天,我们需要了解更多画面构图知识,摄影知识,沉淀自己,来拥抱 AI 将为我们带来更多的机会。

本文由 @yaoyao 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Sora文生视频官网


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1