转载自:英国那些事儿公众号(侵权必删)
去年四月,纽约一家名为Runway AI的公司推出了一项技术,让人只需在屏幕上输入一个句子就可以生成视频。
当然彼时的效果仍不尽如人意,一眼就能看出是AI。
没想到仅仅过去10个月,类似的技术就已经来到了全新的高度。
AI,又进化了。
今天OpenAI官宣了新产品Sora,号称可以生成“最长60秒的视频,其中包括高度丰富的场景、复杂的运镜、感情鲜活的多个人物”。
从目前OpenAI给出的演示视频看,这宣传词还真没多夸张......
1.“大雪天,美丽、繁华的东京。镜头越过繁华的街景,跟随至几个人,他们享受着美丽的雪景,在附近的商摊购物。漂亮的樱花瓣和着雪随风飘落。”
细看仍然能看出一些问题:人体比例过于细长、两位主人物走的是个死胡同、有些樱花没有树枝飘在天上......
但讲实话,这都是看第二遍之后才能发现的细节。第一眼看上去已经相当可信了。
估计再优化优化,就已经可以给那些不会画画的导演做分镜用了......
2.“几头巨型长毛猛犸踏着积雪的草地走向镜头,随着踏步,它们身上的长毛在微风中飘扬。远处是白雪覆盖的树木和壮观的雪山。”
“午后的光线伴随着几缕云和远处高悬的太阳,发出温暖的光晕。较低的机位、优美的摄影和景深,捕捉到了这群巨大且毛茸茸的哺乳动物。”
这个除了“AI味儿”比较明显之外甚至挑不出什么毛病。
3.“一位时尚女子走在东京街头,道上到处都是暖色的霓虹和动态的城市标志。她身穿黑色皮夹克、红色长裙、黑色靴子,手拿黑色皮毛,戴太阳镜,涂红色唇膏。”
“她走得自信而随意。街道潮湿,反射出五颜六色的灯。镜头里还有许多行人走来走去。”
这可能是最震撼的一个,时长来到了一分钟,证明宣传语所言非虚。
配上一段小提琴,再加个红红黄黄的滤镜,旁白再来段什么“某年某月某日,东京。街头很冻,霓虹一直在闪,好似永远不会熄灭.......”
直接王家卫了。
这一分钟能找到的最大瑕疵在15~16秒处,人物左右脚突然交换了,但瑕不掩瑜。它很轻松就解决了“拍镜面怎么能不拍出摄影机”这一千古难题。
4.“一段电影预告片。讲述一位30岁太空人的冒险故事,他头戴红色羊毛织成的摩托车头盔。头顶蓝天,脚下盐碱沙漠,影院风格,以35mm胶片拍摄,色彩鲜艳。”
这一段是OpenAI故意整活,设计了一个针织帽头盔,搞得很出戏。但这段真的挺牛的,你甚至能看出一些镜头语言.......
一开始的越肩接怼脸特写用来介绍主角,飞船内外交替呈现,后面越切越快传达紧张感——它都会蒙太奇了......
最离谱的是提示词只给了故事梗概、风格上的限定,上面这些拍摄手法全是它自己“悟”出来的,太科幻了.......
5.“一个渲染得很华丽的珊瑚礁+纸艺的世界,到处都是五颜六色的鱼和海洋生物。”
6.“一段动画场景,一个矮小、毛茸茸的怪物跪在一根融化的红烛旁,近景。”
“画面应该是3D写实风,重点在灯光和材质上。情绪基调是好奇、奇妙,小怪物要张大眼睛和嘴巴,凝视着蜡烛的火焰。”
“它的姿势要传达出一种天真和俏皮的感觉,好像是第一次探索周围的世界。暖色调和夸张灯光的使用,进一步加强了画面的舒适温馨感。”
5和6一样,都是非写实风,感觉纯是OpenAI在秀肌肉,告诉人们“Sora不光能生成真实画面,还能做动画”。
也是,反正对于AI来说写实和动画没啥区别,反正都是从0开始生成的.......
以上就是OpenAI在推特上公布的6个演示视频,但他们官网上还有更多,篇幅所限就不再一一列举,感兴趣的话也可以自己去搜搜看。
其实除了开头提过的Runway AI之外,谷歌、Meta这两个大公司也尝试过“文本转视频”技术,但效果没有一个能接近Sora的。
其他公司的技术都只能生成大概十几秒,只有Sora能达到一分钟。
另外,Sora是一次性生成整个视频,而不是一帧一帧的生成。
这很大程度上保证了画面的连贯性,也就是说一个东西暂时出画面了,再回到画面来,还是同一个东西,而不是像下面这样连续变化,变着变着就诡异得没法看了:
据OpenAI的工程师说,Sora这个名字来源于日语的“天空”,寓意差不多是“创造力突破天际”,现在看来,他们的期望多半要成真了。
目前Sora还是个测试版,可用性已经肉眼可见,天知道正式版会强成什么样.......
今天外网已经炸了,诸多媒体都已经报道了此事,“OpenAI”和“Sora”也已经登上了推特热搜:
但由于近一两年AI造成的各种骚乱:模仿声音诈骗、无成本造谣、版权问题、挤压工作岗位......大多数网友对Sora持比较悲观的态度。
不是嫌它不好用,是怕它太好用了。
“这太可怕了,还会偷走人们的工作,更不用说它可以用来干各种各样的坏事。”
“喔天哪,以后到底啥才是真的......”
“真是想不到它能用来干什么坏事呢呵呵”
“你们这些科学家太忙于想着‘能不能’的事,却忘了停下来想想‘该不该’......”
“下一个十年,将会是彻底疯狂的。”
甚至目前的Youtube一哥Mr.Beast也出来半开玩笑地表示:
“Sam(指OpenAI的CEO Sam Altman)请别让我成流浪汉了...”
另一位Youtube头部数码博主MKBHD也表示:
“我.....我有好多好多疑问”
再加上美国大选已经近在咫尺,很多人担心Sora会成为谣言的温床,干预到本次大选.....
“安息吧。本次大选。”
网友的担忧不是没有道理的。毕竟很多中老年人是真的会相信“视频不能P”。
再说就凭演示视频这个质量......它真的只能骗到中老年人么?
Sora还有一个功能是基于一张图生成整个视频,往好处想,这可以用来填充老视频缺失的帧;
但往坏处想,就真可以“开局一张图,剩下全靠编”了。
早在2023年5月时,推上就曾经有人发过一张“五角大楼炸了”的AI图,当时传播范围挺广,很多人信了,最后还被CNN报道了:
现在的Sora生成的视频比这一张图更“可信”,潜在的引发骚乱的能力也更强了。
不过我们也不必太过担忧,OpenAI表示Sora也不是没有缺点,它最大的毛病有两个:
第一是理解不了因果关系,比如让它生成一个人咬饼干的视频,但咬完饼干可能没有咬痕;
第二则是缺乏空间意识,有时会混淆左右,不理解人和物体如何与场景交互。
等正式版发布,也许这些问题能得到解决,但相应地,引发骚乱的可能也会变大。
OpenAI也清楚这一点,所以他们目前还没有把Sora放出来,而是找了一群学者专家合作,想法设法地找寻Sora可能被滥用的点。
然而从过去几年发生的事看,他们恐怕很难把所有口子都彻底堵上,总会有人尝试给AI越狱,不是想防就能防得住.......
所以下面这位网友预想的场景,也许真有实现的一天:
“我被抓了,法庭上展出了‘视频证据’,里面是我在犯罪,一件我这辈子都没犯过的罪。”
就在两天前,OpenAI对我们最熟悉的ChatGPT做出了改动,现在它的“记性”更好了。
比如在《纽约时报》的这篇报道中,记者跟GPT聊天说他有个女儿叫Lina,马上五岁了,她喜欢粉色、喜欢水母。
等下次再跟GPT聊天,记者让GPT为女儿生成一张生日贺卡,它就直接调用了以前的信息:
这说明它记住了以前的聊天,变得更像个“人”了......
似乎来到2024之后,OpenAI加快了推进AI的脚步,Sora的出现就是一个明证。
一方面,Sora的前景让人十分期待,用来“拍电影”不行,但一分钟之内的短视频它足以胜任;
另一方面,超低成本的造谣也是明摆着很难解决的问题。
OpenAI究竟是在创造科技进步还是在打开潘多拉魔盒,也许最终就只能交给时间来评判了......
ref:
https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html
https://twitter.com/OpenAI/status/1758192957386342435
版权所有 :英国那些事儿公众号
声明 :我们致力保护作者版权,如涉及版权问题,请及时与我们联系,我们将第一时间做出处理。
钛媒体视频 2023-06-07
wild_farmer 2023-04-09
安在软件 2024-11-18
A草莓酱666 2024-11-18
金舟音频大师 2024-11-18