只要轻轻松松输入文字,马上就能变成视频,还特别逼真。最近,美国OpenAI放出的Sora视频神器,让全球都激动了一把。
专家说,Sora可能彻底改写游戏规则,但同时,它把“假的太像真的”这事儿推到了前台,让大家心里咯噔一下。Sora到底是个什么魔法?会对咱的日子有啥影响?记者找了专家来聊聊。
【体验中国版Sora公众号搜:索啦AI创意】
你看那些在社交平台上疯转的Sora视频,无论是春节龙舞、穿雪原的猛犸象,还是海上自行车大赛的动物选手,全都让人眼前一亮。
OpenAI官方说,给Sora一段文字,它能拍出来60秒的视频。这视频不仅场景转换自如,还能搞定复杂情绪和细节,简直比导演还厉害。
比如,给句话“东京街头,一位时髦女士自信漫步,身穿黑皮夹克红长裙,脚蹬黑靴,手拿黑包,墨镜加红唇,走路带风。”Sora马上能拍出60秒高清视频,那质感、细节,让人分不出真假。连马斯克都说,人类服了。
【体验中国版Sora公众号搜:索啦AI创意】
不过,有的视频就显得不太对劲,比如“黑衣黑客狗狗敲键盘”那个,狗狗虽然键盘敲得溜,但屏幕反光怎么照到屏幕背后去了?还有个追踪丛林蚂蚁的视频,技术感十足,但蚂蚁怎么就四条腿了?
尽管Sora还有不少瑕疵,但跟别的视频AI比,它已经领先一大截。有人说,Sora代表着AI制视频进入了新纪元。
Sora背后的秘密,就是深度学习这一套。用了个叫Transformer的架构,训练Sora理解文字,把描述变视频。
从ChatGPT到Sora,AI怎么就能从文字变成图像,再到视频呢?浙大的吴飞教授说,关键在于把内容的小单元组合起来,让它们有意义地连接。像是把单词连成有深意的句子,把图像碎片拼成完整图片,把视频片段串成连贯故事。
OpenAI公开的示例中,一个SUV在盘山路上行驶的视频就展示了Sora的能力。吴飞告诉记者,只要数据够,Transformer就能学会单词间的关系,然后基于这个,把话说得通顺。
一旦AI掌握了这种技巧,就能用它来拼句子、组图像、串视频。Sora先是把文字和视觉信息对应起来,然后在这基础上反复加噪去噪,学习它们之间的联系。吴飞比喻说,就像学造桥,拆了再装,通过不断实践掌握各个部分的关系。
Sora的出现,不仅加速了AI的步伐,还打开了一扇新门。
一些大佬觉得,生成式AI的应用前景无限。工信部的刘兴亮说,Sora开启了内容创作的新时代。中央财大的陈端认为,长远看,Sora不只是生产工具,它构建的数字世界强引擎会对产业造成深远影响。
“Sora只是个开始,展示了理解真实世界后的AI能力。”360的周鸿祎说,有了大模型,再加上人类知识,就能创造各行各业的超级工具。“一旦AI学会看电影、浏览社交媒体,对世界的理解将远超文字,这离真正的通用AI不远了。”
但也有人不这么看。图灵奖得主杨立昆就说,Sora并不懂物理规律,它只是在拓展图像而已。“生成逼真视频不代表理解世界,这和真正的世界模型预测大不相同。”
“我们甚至还没搞清楚AGI是啥。”吴飞说,人类对自己的意识和能力都一知半解,想要达到真正的AI,还是遥远的梦。
在AI领域,中国企业虽有所成就,但跟国际顶尖还有差距。科大讯飞在MWC上展示的星火认知大模型,就展现了国产AI的实力。清华大学和北京宣武医院的无线微创脑机接口试验,也是国内AI技术的一大突破。