谁能料到,OpenAI的王炸留到了这个时候,但是以阿尔特曼迄今为止的表现和公开态度来看,Sora是否为最后的底牌仍不可知。
Sora是一个能以文本描述生成视频的人工智能模型,由知名人工智能研究机构OpenAI开发。
Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。模型的训练数据既包含公开可用的视频,也包括了专为训练目的而获授权的版权视频,但OpenAI没有公开训练数据的具体数量与确切来源。
在Sora之前,该领域已经有了其他几种文生视频模型,包括Meta的Make-A-Video、Runwa的Gen-2和Google的Lumiere,其中最后一个模型截至2024年2月已发布还处于研究阶段。Sora其开发公司OpenAI于2023年9月发布了DALL•E 3,这是其第三版DALL-E文生图模型。
Sora背后的技术基于DALL•E3模型。根据OpenAI的说法,Sora是一个扩散变压器——一种去噪潜在扩散模型,使用一个Transformer作为降噪器。通过对 3D“补丁”进行去噪,于潜在空间生成视频,然后通过视频解压器将其转换为标准空间。重新生成的字幕用于通过使用视频到文本模型在视频上创建详细的字幕来增强训练数据集。
OpenAI于2024年2月15日向公众展示了由Sora生成的多个高清视频,称该模型能够生成长达一分钟的视频。同时,OpenAI也承认了该技术的一些缺点,包括在模拟复杂物理现象方面的困难。《麻省理工科技评论》的报道称演示视频令人印象深刻,但指出它们可能是经精心挑选的,并不一定能代表Sora生成视频的普遍水准。
由于担心Sora可能被滥用,OpenAI表示目前没有计划向公众发布该模型,而是给予小部分研究人员有限的访问权限,以理解模型的潜在危害。Sora生成的视频带有C2PA元数据标签,以表示它们是由人工智能模型生成的。OpenAI还与一小群创意专业人士分享了Sora,以获取对其实用性的反馈。