当前位置:首页|资讯|OpenAI

OpenAI首个文生视频模型亮相,你觉得咋样?

作者:新闻910发布时间:2024-02-20

原标题:OpenAI首个文生视频模型亮相,你觉得咋样?

2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型甚至还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。

例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

已关注

关注

重播分享

关闭

观看更多

更多

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格,采用35毫米胶片拍摄,色彩鲜艳。

    已关注

    关注

    重播分享

    关闭

    观看更多

    更多

      退出全屏

      视频加载失败,请刷新页面再试

      刷新

      视频详情

      AI想象中的龙年春节,红旗招展人山人海。有儿童紧跟舞龙队伍抬头好奇观望,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

      竖屏超近景视角下,这只蜥蜴细节拉满:

      Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。该模型对语言有深刻理解,能准确解读提示,并生成表达丰富情感的引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,使角色和视觉风格保持准确一致。

      比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。

      一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

      对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

      例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,有的狼崽凭空出现或消失。

      该模型还可能混淆提示词的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

      如根据提示词“篮球穿过篮筐然后爆炸”生成的视频中,篮球撞到篮筐边缘竟然没有反弹而是直接穿过。

      OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

      同时OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。

      如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。

      来源:央视网、每日经济新闻、界面新闻、OpenAI官网


      Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1