相信大家最近几天都被Sora这个新玩意吸引了目光,众多大佬惊呼AI视频变天了!那么Sora到底是什么?
Sora 是OpenAI最新发布的文本生成视频模型,其强大之处在于可以生成长达一分钟的视频,且能按照提示词 Prompt创造出真实梦幻的场景。不管是一镜到底还是镜头切换,人物角色的风格和连贯性都保持得非常优秀。Sora不仅仅能文生视频,还能够根据输入的图像和提示生成视频,甚至还可以将视频向前或向后延长时间。可以说,Sora足以让很多影视动画设计者失业,相关从业者真的要瑟瑟发抖了。
Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.
我们可以看到短短八秒的视频,但是每个镜头都能捕捉到猫咪与主人之间的情感交流。
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
提示词:一部电影预告片,讲述了这位30岁的太空人的冒险故事,他戴着红色羊毛针织摩托车头盔,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩生动。
可以看到这17秒的视频中Sora简直就和造梦机器一样,蓝色的天空下,帅气的男主角头戴红色羊毛编织的33号摩托车头盔,在由盐组成的沙漠中出现。视频中有近景特写有远景推进,且全程镜头都保持了手持的摇晃感,不得不惊呼Sora牛逼。
:Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记,将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。
视频压缩网络:Sora训练了一个网络,该网络将原始视频压缩到一个低维空间,并将该低维空间表示分解为时空片。Sora 在这个压缩的空间片中进行训练,并生成视频。
扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。
语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
模拟能力
开通ChatGPT Plus(ChatGPT4.0)账号
截止2024年2月16日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。
虽然Sora目前还未正式上线,但后续会覆盖ChatGPT Plus用户。
那么,如何升级为ChatGPT Plus用户呢?
ChatGPT升级费用为每月订阅费 20 美元,这是 OpenAI 官方收费,可以按月订阅。订阅方式有两种:
①美区ID买礼品卡,过程复杂繁琐,想尝试的可以找教程试试;
②使用WildCard虚拟信用卡,平台开卡费用为9.99美金(一年)或13.99美金(两年),按每天计算也就一毛钱,除此之外还能订阅Midjourney,onlyfans等付费服务。
注册链接:https://bewildcard.com/i/GPT40
gpt开通具体实操可以看这篇文章:https://gptmaster.shop/2024/01/28/ChatGPT4.0开通保姆级教程