就像时间倒流回2023一样。去年头,ChatGPT让大众炸了锅,随后全球的AI界就开始了一场你追我赶的疯狂赛跑。
龙年伊始,OpenAI又来搅局了,这回搞出了个名叫Sora的视频大杀器。2月16日深夜,OpenAI把Sora扔给了世界,这货能根据文字指令捏出视频,延伸视频故事,甚至从照片里蹦出场景。
体验中国版Sora公众号搜:索啦AI创意
这技术以前也见过,但Sora这一出绝对是让人眼前一亮,视频主角稳如老狗,角度切换随心所欲,视频长度也能打破天际,最长能撑到60秒。
不愧是OpenAI的大手笔。虽然Sora还只是个娃娃,但它的出世无疑宣告了生成式AI的一个新纪元。
同时,钱景也传来喜讯。OpenAI在最新的一轮融资后,估值已经飙升到了800亿美元。这次是Thrive Capital出的高招,搞了个要约收购。
虽然OpenAI和Thrive Capital对此三缄其口,但小红书上的Shannon昨天发的帖子激动人心,“明天所有的投资会议上都得聊聊OpenAI的Sora”。
只是,相比去年,投资者的心态已经大变。虽然不是谁都能投到OpenAI,但OpenAI的边界拓展无疑对一大波创业团队和背后的投资人产生了影响。
“水到渠成”和“令人发指”这两句话用在这里再合适不过。
得先搞清楚,这个“视频大模型”并不是什么新鲜玩意。在OpenAI大展拳脚之前,市面上的大佬们差不多都抱着自家的视频大模型玩,比如Google的Lumiere和Stability AI的SVD(Stable Video Diffusion),甚至还有专攻多媒体内容创作的独角兽,像是视频制造机器Gen-2的Runway,2023年6月就在Google、Nvidia、Salesforce的加持下完成了C轮融资,估值直逼15亿美元。
更关键的是,这些现成的“视频大模型”已经开始显露出生产力工具的雏形。
拿Runway来说,不像那些拿着锤子到处找钉子的“技术推动型”创业团队,Runway的三驾马车来自纽约大学的艺术院校,他们看中了AI在创造力上的无限潜能,于是一拍即合,开发出了服务于电影制片人、摄影师的神器。
这股基因,让Runway的成长史更像是“横店影视城的奋斗史”:他们先是开发了一大堆专业到不能再专业的创作者辅助工具,专门满足视频帧插值、背景移除、模糊效果、运动追踪、音频整理等需求;然后跳进图像生成大模型Stable Diffusion的开发,积累了在静态图像生成方面的技能,并且还参与了《瞬息全宇宙》等大片的制作——这些片子的出品人都大加赞赏,说Runway的加入让后期团队保持了超乎常规的小规模,影视界的人也惊呼,很多复杂的特效制作(比如《瞬息全宇宙》里的对话石头),制作时间从几天缩短到几分钟。
等到2023年2月,Runway放出了第一代产品Gen-1,普通人通过iOS就能玩,功能从“真图变黏土”“真图变素描”到“文字变视频”应有尽有,让Gen-1成为了首批商用的视频大模型;到了6月,第二代产品Gen-2出炉,训练数据涨到了2.4亿张图和640万段视频剪辑。
2023年8月,B站上火的不行的AIGC作品《流浪地球3预告片》就是Gen-2造的。根据作者@数字生命卡兹克 在社媒上的吹水,这段视频的制作分为两步——用MidJourney生成分镜,用Gen-2扩散成4秒的视频片段——最后收集了693张图、185段备用剪辑,搞了5天。半年后,@数字生命卡兹克 又用“MJ V6画分镜-Runway跑视频”做了个3分钟的短片《The Last Goodbye》,参加了Runway Studios(Runway为企业客户提供定制服务的部门)组织的第二届AI电影节Gen48。
换句话说,至少一年前,“视频大模型”就已经火了,现在的用户规模被严重低估了。
Runway的联合创始人Valenzuela在C轮融资后透露,除了New Balance这样的大客户,他们还服务了“数百万个人创作者”。
而Sora展示的“精准物理世界复刻技术”,也不是OpenAI独家的玩意儿。就在Sora发布后两天半,也就是2月18日,马斯克在一个科技播客里留言说,“这种精准复刻现实世界物理规律的能力,特斯拉差不多玩了快一年了……只不过因为素材来自车载摄像头,所以视频没那么好玩”。
OpenAI同时发布的技术论文也明确表示,Sora更像是“数据驱动的物理引擎”,通过不断的大模型扩散来高效模拟物理世界或数字世界中的人、动物和其他物体,但也面临着“行业共有”的局限,比如难以精确模拟复杂场景的物理原理,也搞不懂因果关系,比如Sora生成的人咬饼干视频,饼干可能不会有咬痕。
真正压人的,可能是Sora的不可思议的进步速度。
从技术角度看,无论是“精准物理规则的真实世界”、“支持60秒视频生成”还是“多机位视频”,都可以说是水到渠成。但就像之前提到的,现在看起来笨拙、只能生成“4秒视频”且“掉帧严重”的Gen-2,实际上是2023年6月的产物,距离Sora发布只有8个月。
到了2023年11月,Meta放出的视频大模型Emu Video在Gen-2的基础上进一步,能支持512×512分辨率、每秒16帧的“精细化创作”。但三个月后的Sora已能生成任意分辨率和长宽比的视频.
体验中国版Sora公众号搜:索啦AI创意
极客力量 2024-12-24
上海理涛自动化 2024-12-24
WorkWin局域网监控软件 2024-12-24