北京时间本周二,被万众期待将近一年的 Sora,终于正式官宣。不再是几个 demo 片段,不再是 Sam Altman 时不时打的哑谜,而是一个完整的视频生成产品。
由于太过火爆,上线没多久就流量爆炸,OpenAI 不得不暂停新用户注册,等候队伍能长得能等上一整天。
但有一群人,不仅是 Sora 的「老用户」,还参与着这个产品的塑造过程,见证了它的迭代与更新——他们就是不久前曾传出叫板 OpenAI 的 Sora Alpha Artist。
为了获得创作者们的反馈和建议,也为了观察 Sora 在他们手上所能激发的创造力, Sora 跟一群艺术家们保持着密切联系,实时收集他们的反馈,也把他们的精彩创作作为案例分享。
在 Sora 发布之际,APPSO 独家对话 Sora 首位合作的国内艺术家 Junie Lau。她是 AI导演,也是 Stable Diffusion 首届 AI 短片全球冠军。作品曾获得有「AI 奥斯卡」之称的 Runway AI 电影节银奖,并参与到了全球首部 AI 长片电影「Our T2 Remake」的制作当中。不久前,她作为 Runway 中国社群的负责人,完成了 Runway 中国社区的落地与推广。
在对话中,她不仅用实际的生成片段阐释了自己高强度使用 Sora 的感受,还分享了与 Sora 团队合作互动的体验。更重要的是与我们探讨了,生成式视频工具快速发展的一年多以来,走过的弯路有哪些、可能的未来在哪里。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
现在还没碰到 Sora 的天花板
APPSO:Sora 正式发布了,好看的样片你肯定见过不少,网上的负面声音是你想象过的吗?
Junie:我预想到有蛮多人会吐槽的,其实现在发的是一个 turbo 版本,算是一个改良版,需要的算力更少,可以让更多人使用。但是在效果上面,我个人感觉有一点不同。我把同样的 prompt 放进去,现在这个版本其实是没办法跑出来的。
APPSO:是模型层面就不一样了吗?
Junie:应该是模型不一样,相当于改良了,变成现在这个模型。 目前的 Sora 是一个阶段性的产品。
APPSO:所以它成了一个在使用上,体验没那么好的东西?
Junie:那不是,这一点我要反驳一下。我的逻辑是这样的:它的可控性其实不那么强,反而就可以给出各种各样的东西。我并不会只是跟它说一个我脑海里的画面,而是一个想法。我在它的基础上去拓展我的一些想法,这样一来一往,是我非常享受的一个过程。
APPSO:可以理解为抽卡的过程反而成了一个互动的过程?
Junie:我不知道是不是还要用「抽卡」这个词。我认为抽卡的概念在于,你已经有一个图片,把图片送进去然后看基于这张图片的动态,哪个更顺畅哪个更贴近。但 Sora 完全是基于提示词,因为我们是无限 credit,所以我疯狂点击,每一次都能给不一样的东西。
(编者注:Sora 为艺术家账户开设无上限的 credit 额度,不受付费计划影响)
这个是在工作流上很大的一个改变。过去的工作流是你有一个创意,先去 Midjourney,或者 Stable Diffusion 或者 Flux 里面,去把想法变成图片,再放到可灵、Runway 或者海螺里面,把这个图片变成一个视频。现在我在 Sora 上不用这一套了,它直接就可以出我想要的画面,不再需要经过之前的那一套流程。
我已经把 Midjourney 的套餐,从每月 36 美元降档到每月 10 美元,因为我觉得不那么需要它,Sora 已经能满足很多我在艺术上的需求。
APPSO:这个变化是技术架构层面的不同,还是背后使用到的数据不同所带来的?
Junie:确实某些算法上面的东西是不太一样。 我到现在说实话还没感觉到 Sora 的天花板在哪里。我平时用 Runway 比较多,用多了就能看出来它的天花板在哪里,比如说有一些三维质感的东西,有一些特殊视效的东西,你能大概感觉到它喂了哪些数据进去。其它的视频生成工具也会给我类似的感受。但是 Sora 用到现在,我都还不敢说它背后的数据量有多大。
比如我做时尚类的短片比较多,Sora 跑出来的镜头,像上面这个鞋子,它的质感非常不一样。
下面是同样的 prompt 放进 Midjourney 里面的效果。
我为什么说没有碰到它的天花板,举个例子,比如我要一个美女,一个很简单的 prompt,(其它产品)可能会给出比较符合主流审美的、刻板印象的美女形象,我需要很细节的改词,才会拿到一些新的东西。
APPSO:最近比较流行的 AI 生成工具,得到好评都是因为「没有 AI 味儿」,或者味道不太重,你觉得 Sora 也是胜在 AI 味不重吗?
Junie:过去的一些 AI 工具,怎么说呢,是有一种很塑料感,有种不真实感。但 Sora 不能说是很「真实」,而是很「不一样」。AI 生成的一个重点是让它做出不存在的东西——不存在的东西怎么说得上真实不真实呢?可是 Sora 会比之前我接触过的工具,更接近真实。
比如这个视频里,这个逆光时发丝的质感,这是一个很感受化的东西。还有她背后的光影变化了,这些头发丝也跟着变化。
APPSO:像不像实拍是一个衡量标准吗?
Junie:这也是 Sora 和 Runway 不一样的地方。很多工具会有「你有什么我也要有什么」,而且会纠结于用 AI 做传统影视在做的东西。Sora 和 Runway 虽然也涉及到传统影视,比如 Runway 背后的团队,有华纳影业出来的成员。
但是在另外一个维度上,他们是想做一些新东西,这些创新就来自于和艺术家的密切合作。 艺术家在提出想要什么样的功能的时候,他们就会考虑去开发这些新功能。他们并不是要说把一个生成视频,做成很像传统影视出来的质感,而是更愿意探索什么是 AI 可以实现的,怎么样可以拓展艺术表达。
APPSO:对于物理运动的表现呢?算是一个标准吗?
Junie:我觉得因人而异。对我来说 Sora 的优势在于,能满足我很多奇奇怪怪的艺术表达,模型的艺术性对我来说是更重要的,物理表现反而没那么重要。那肯定会有一部分人的需求就是对口型、稳定性、主体一致性等等,那可能其它的工具会更适合用来满足对可控性的追求。
和 Sora 合作是怎样一种体验?全员活人
APPSO:聊聊你们和 Sora 团队的合作吧,你们的工作模式是怎么样的?
Junie:我们有一个三百多人的大群,里面 Sora 的工作人员有三十多个,剩下的都是艺术家,各行各业的都有,有画画的、做建筑的等等,整个氛围比较年轻。每周我们都要一起开会,还会有当周的主题挑战活动,有点像内部的电影节这样。这些挑战不是强制参与的。
我这次发出来的片子《What if,Mother》其实是给一个挑战活动做的,那个活动还没有官宣,但 Sora 说片子可以发出来。我在刚刚拿到 Sora 就知道有这个挑战活动,但我需要从零开始学起,从最开始接触算起到把这个片子做出来,前前后后大概花了两周的时间吧。
没有做得很好,只能说是做多少发多少,我觉得 Sora 还是存在一些学习成本的,不太能直接上手就用。比如人物的可控性其实是通过 storyboard 实现的,其中又涉及到用 prompt 来实现对场景和人物的控制,不是简单地把图复制进去跑一跑,它需要新的工作流。
APPSO:这个片子里最花功夫的部分是什么?
Junie:后面有一段有很多水的镜头,这个当时是得一边学一边做,水的物理表现我当时也不确定能不能实现。他们内部给了很多教程,而且每个星期的周会,都会有答疑环节,也会有不同的艺术家来分享他们的工作流,他们是怎么用 Sora 的。
APPSO:Sora 官方跟你们的来往多吗?
Junie:很多。使用上有什么问题,他们会立刻回复,比如说有个 prompt 跑不出来,或者画面显示不出来发到群里,马上就会有工作人员说「你把问题发来我看一下是怎么回事」,真的是 24 小时技术支持。
我们的群「活人感」很强,Sora 团队技术的、产品的人都在群里,平时也会跟我们聊天。Sora 发布会前还有工作人员在群里说他们一直在为了发布会加班,还拍照给我们看,一群人在会议室干活。
发布会中出现的 Sora 产品负责人,日常在艺术家社群中非常活跃. 图片来自:OpenAI 官网
我觉得他们是真的把我们当自己人,很像一个大家庭。群里一般最多的还是讨论作品,会互相点赞支持。然后就是对产品的讨论。产品的人之前也有来找我,问用起来感觉如何,有没有碰到什么问题。他们团队不大,架构很扁平,不同职能不同部门之间不会很分散。
APPSO:有什么具体的例子吗,比如你们提出的反馈后,在产品更新里得到呈现?
Junie:日常的反馈还是很多的,非要说的话可能是图生视频的功能。现在这个是不太好用,之前也有艺术家提过反馈。但这里有一个版本的问题,他们可能没有在目前发布的版本上体现出改良,现在的图生视频是挺难用。
APPSO:所以当时艺术家们「反水」是怎么一回事?
Junie:其实在群里,日常也是会有一些负面反馈和批评的。但是我记忆里这个艺术家 (编者注:指牵头发起抗议 Sora 的艺术家),平时也不怎么讲话,好像突然之间就爆炸了。后续参与公开信签名的,也不全是 Sora 的合作艺术家。
我们每周都有挑战活动嘛,有一些是有现金奖励的。但这些活动不是强制参与的,你可以参加也可以不参加,另外还会有一些线下的活动,见面会啊,社群活动啊这些,他们跟电影节也有合作。然后像是艺术家做的片子,他们发在官方的社媒上,也是一种曝光跟宣传的方式。这确实是一个很看个人取舍的问题吧。
AI 还算不上具备创作能力
APPSO:你觉得 Sora 目前的功能里,最能体现艺术性的是什么?
Junie:有一个风格预设的功能,你只要定义了你自己想要的风格之后,你输入什么提示词都是预设的的风格。在我的短片的前半段全部都是黑白,我用了它的八十年代的预设,然后再在提示词里说,我要一个第一人称视角,在一条街面上走,然后看到些什么。在这个预设之后我跑一百条视频,都是这个黑白的风格。
Sora 提供的风格预设
另外像 remix,re-cut 这些功能,我觉得还是有改变一些跟 AI 工具交互的方式、创作的方式。像下面的镜头是来自马上要发的新作品,也是 Sora 帮我把脑子里一个大概的想法,给完全具象化。
不过我当时从零开始也花了不少时间来搞清楚怎么用,可能大家都需要花时间了解吧。
APPSO:从你的描述来看,似乎 Sora 已经具备一些创作能力了是吗?
Junie:这个创作能力具体是指什么呢?我们现在已经有比如说机器人画画、下围棋,还有很多说是 AI 原生、没有人工干预的创作,这个是你说的创作能力吗?
APPSO:随机组合、把元素像捏泥巴一样捏在一起只能算第一阶段的,但如果是呈现出来的画面、镜头,有潜在的审美逻辑,可以算是具备一定的创作能力了。尤其是「没有 AI 味」,是能体现模型对于素材和语义的合理理解的。
Junie:我个人觉得,还是要有所表达,无论是用剪辑的方式,还是镜头切换的方式。表达是指我的想法,或者是我脑子里的一个疑问,(从这个疑问出发)来有所表达,这是我所定义的创造力。在这个维度上,我觉得 AI 还不具备。
但现在来说,没有一个 AI 产品是百分百完美的,这条路大家都在探索。