当前位置:首页|资讯|OpenAI|Sora

定档年内发布!OpenAI CTO披露Sora细节,拟支持生成音频、视频编辑功能

作者:格隆汇发布时间:2024-03-14

原标题:定档年内发布!OpenAI CTO披露Sora细节,拟支持生成音频、视频编辑功能

OpenAI似乎已经在为Sora降世预热了。

日前,OpenAI 公司首席技术官 Mira Murati 接受媒体视频专访,访谈围绕着Sora的项目展开,当被问及Sora何时面向公众推出时,Murati回答:“我想肯定是在今年,但可能是几个月后。”

Murati还透露,OpenAI将在Sora中支持配备音效,并允许用户编辑Sora生成的视频内容。此前Sora的测试资格只开放给了视觉艺术家、设计师和电影制作人。

以下是一些采访关键信息:

1、Sora发布时间:

Sora将于“今年”面市,而且“可能还有几个月”。目前还在打磨,外部测试资格主要发给了电影行业的创作人;

2、技术性能:

和传闻中生成视频需要数个小时的说法不同,目前生成一段20秒720p分辨率的视频耗时几分钟,并且尚未集成音频,但公司计划在未来添加声音

Sora能够根据用户输入的文字描述生成流畅、高度逼真的视频内容,具备良好的连续性,但并非完美无瑕,文生视频的最大问题有两个,一个是抽卡结果不可预知,可控性不佳,另一个是画面连续性依然存在疏漏,只不过Sora比其他同类产品做得相对更好而已

3、安全性与透明度:

至于对于“现实不存在”的恐惧,即人们将难以区分真实与AI内容,Murati回答这正是OpenAI还未部署Sora的原因。

目前,Sora生成的视频都会打上水印,但这似乎还不够好。Murati透露,Sora的视频将包含元数据来表明来源。OpenAI也用安全人员测试Sora,试图引出漏洞、偏见及其他有害结果。

4、使用政策与限制:

穆拉蒂表示,OpenAI目前还没有明确决定Sora可以生成的视频范畴,但Sora的提示政策预计将借鉴文生图模型DALL-E的做法,比如不会生成政治人物的形象。

当主持人问及涉及敏感话题的提示,如“东欧城镇中行走的士兵”或涉及裸露的内容时,Murati表示不确定,艺术家可能会希望有一些可以调控的创作选项,目前OpenAI正在与不同领域的艺术家和创作者合作,试图搞清楚Sora应该提供什么水平的灵活度。

5、与人力的关系:

针对Sora可能对视频制作职业造成的影响,Murati强调了OpenAI推行该技术的慎重和渐进式方法,允许视频制作行业的工作人员提前试用并提供反馈,以便共同塑造其发展方向,已经有好莱坞的动画工作室在使用Sora之后停掉了扩建计划,认为这项技术可以节省巨大的制作成本

6、计算成本与优化:

Sora的运行成本“要高得多”。OpenAI正在尝试使这个工具在公开发布时的成本与公司的AI文本到图片模型DALL-E“相似”。

7、技术原理与训练数据:

Sora采用扩散模型技术,通过分析大量视频资料学习识别物体和动作,根据文字提示构思场景并逐帧生成视频。

在被问及 Sora 使用的训练数据时,Murati 的态度则有些躲闪。OpenAI 最近面临版权侵权诉讼,指控该AI公司在未经许可的情况下抓取内容来训练 ChatGPT。

她先是宣称,据她所知除了“公开可用的数据及许可数据”之外,应该没有使用其他数据来训练 AI。但 Murati 也承认,她并不确定有训练期间有没有使用过来自 YouTube、Facebook 或者 Instagram 的视频素材。同时她坦言,确实有使用 Shutterstock的媒体内容进行训练。(Shutterstock 与 OpenAI 之间属于合作伙伴关系,也许这就是 Murati 愿意确认这一素材来源的理由。

对于训练数据的来源问题,OpenAI保持谨慎在意料之中。

8、比较与竞争:

当与另一款AI视频生成工具Runway对比时,Sora基于同样的文本提示生成的视频在视觉质量、细节表现等方面明显优于Runway,这在一定程度上得益于OpenAI的庞大计算能力和广泛的训练数据集

9、伦理考量与行业影响:

尽管Sora展现了显著的优势,但OpenAI在推广过程中非常重视伦理问题,密切关注新技术对传统视频制作行业可能带来的冲击,同时认识到人类在艺术决策等方面的不可替代性。

作为OpenAI最重要的高管之一,穆拉蒂的话自有其分量。

而就在前几天,Sora的三位核心团队成员也出现在科技播客WVFRM中,接受了专访。

不过有网友吐槽,看了下原视频,没有透露什么新的信息,约等于什么都没说,场面神似发改委马科长讲话就像镜头外有一个律师拿着枪对着这帮人。

而现在看来,OpenAI似乎在一点点释放更多信息,或许已经在为Sora降世预热了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1