今天，所有VC的会上都在谈Sora，背后的故事让人大跌眼镜！

作者：AI视频生成Sora发布时间：2024-03-14

Sora

就像时间倒流回2023一样。去年头，ChatGPT让大众炸了锅，随后全球的AI界就开始了一场你追我赶的疯狂赛跑。

龙年伊始，OpenAI又来搅局了，这回搞出了个名叫Sora的视频大杀器。2月16日深夜，OpenAI把Sora扔给了世界，这货能根据文字指令捏出视频，延伸视频故事，甚至从照片里蹦出场景。

体验中国版Sora公众号搜：索啦AI创意

这技术以前也见过，但Sora这一出绝对是让人眼前一亮，视频主角稳如老狗，角度切换随心所欲，视频长度也能打破天际，最长能撑到60秒。

不愧是OpenAI的大手笔。虽然Sora还只是个娃娃，但它的出世无疑宣告了生成式AI的一个新纪元。

同时，钱景也传来喜讯。OpenAI在最新的一轮融资后，估值已经飙升到了800亿美元。这次是Thrive Capital出的高招，搞了个要约收购。

虽然OpenAI和Thrive Capital对此三缄其口，但小红书上的Shannon昨天发的帖子激动人心，“明天所有的投资会议上都得聊聊OpenAI的Sora”。

只是，相比去年，投资者的心态已经大变。虽然不是谁都能投到OpenAI，但OpenAI的边界拓展无疑对一大波创业团队和背后的投资人产生了影响。

“水到渠成”和“令人发指”这两句话用在这里再合适不过。

得先搞清楚，这个“视频大模型”并不是什么新鲜玩意。在OpenAI大展拳脚之前，市面上的大佬们差不多都抱着自家的视频大模型玩，比如Google的Lumiere和Stability AI的SVD（Stable Video Diffusion），甚至还有专攻多媒体内容创作的独角兽，像是视频制造机器Gen-2的Runway，2023年6月就在Google、Nvidia、Salesforce的加持下完成了C轮融资，估值直逼15亿美元。

更关键的是，这些现成的“视频大模型”已经开始显露出生产力工具的雏形。

拿Runway来说，不像那些拿着锤子到处找钉子的“技术推动型”创业团队，Runway的三驾马车来自纽约大学的艺术院校，他们看中了AI在创造力上的无限潜能，于是一拍即合，开发出了服务于电影制片人、摄影师的神器。

这股基因，让Runway的成长史更像是“横店影视城的奋斗史”：他们先是开发了一大堆专业到不能再专业的创作者辅助工具，专门满足视频帧插值、背景移除、模糊效果、运动追踪、音频整理等需求；然后跳进图像生成大模型Stable Diffusion的开发，积累了在静态图像生成方面的技能，并且还参与了《瞬息全宇宙》等大片的制作——这些片子的出品人都大加赞赏，说Runway的加入让后期团队保持了超乎常规的小规模，影视界的人也惊呼，很多复杂的特效制作（比如《瞬息全宇宙》里的对话石头），制作时间从几天缩短到几分钟。

等到2023年2月，Runway放出了第一代产品Gen-1，普通人通过iOS就能玩，功能从“真图变黏土”“真图变素描”到“文字变视频”应有尽有，让Gen-1成为了首批商用的视频大模型；到了6月，第二代产品Gen-2出炉，训练数据涨到了2.4亿张图和640万段视频剪辑。

2023年8月，B站上火的不行的AIGC作品《流浪地球3预告片》就是Gen-2造的。根据作者@数字生命卡兹克在社媒上的吹水，这段视频的制作分为两步——用MidJourney生成分镜，用Gen-2扩散成4秒的视频片段——最后收集了693张图、185段备用剪辑，搞了5天。半年后，@数字生命卡兹克又用“MJ V6画分镜-Runway跑视频”做了个3分钟的短片《The Last Goodbye》，参加了Runway Studios（Runway为企业客户提供定制服务的部门）组织的第二届AI电影节Gen48。

换句话说，至少一年前，“视频大模型”就已经火了，现在的用户规模被严重低估了。

Runway的联合创始人Valenzuela在C轮融资后透露，除了New Balance这样的大客户，他们还服务了“数百万个人创作者”。

而Sora展示的“精准物理世界复刻技术”，也不是OpenAI独家的玩意儿。就在Sora发布后两天半，也就是2月18日，马斯克在一个科技播客里留言说，“这种精准复刻现实世界物理规律的能力，特斯拉差不多玩了快一年了……只不过因为素材来自车载摄像头，所以视频没那么好玩”。

OpenAI同时发布的技术论文也明确表示，Sora更像是“数据驱动的物理引擎”，通过不断的大模型扩散来高效模拟物理世界或数字世界中的人、动物和其他物体，但也面临着“行业共有”的局限，比如难以精确模拟复杂场景的物理原理，也搞不懂因果关系，比如Sora生成的人咬饼干视频，饼干可能不会有咬痕。

真正压人的，可能是Sora的不可思议的进步速度。

从技术角度看，无论是“精准物理规则的真实世界”、“支持60秒视频生成”还是“多机位视频”，都可以说是水到渠成。但就像之前提到的，现在看起来笨拙、只能生成“4秒视频”且“掉帧严重”的Gen-2，实际上是2023年6月的产物，距离Sora发布只有8个月。

到了2023年11月，Meta放出的视频大模型Emu Video在Gen-2的基础上进一步，能支持512×512分辨率、每秒16帧的“精细化创作”。但三个月后的Sora已能生成任意分辨率和长宽比的视频.

体验中国版Sora公众号搜：索啦AI创意

今天，所有VC的会上都在谈Sora，背后的故事让人大跌眼镜！

推荐体验

相关资讯

测试了3个AI生成VBA代码结果竟然大跌眼镜！

OpenAI的CEO都在谈的 AI Agent，到底是什么？

“VC吃饭都在研究ChatGPT”

今天全世界都在看的新闻 2024.1.19

微软与 OpenAI 合作背后的故事

近期资讯

Excel数据随机排序方法详解：函数、功能与VBA多种技巧解析

如何轻松将照片转换为JPG格式的多种方法与注意事项

如何将AirPods与安卓手机连接：详细步骤与常见问题解答

如何在手机上创建文件夹，提升使用效率与整洁度

如何正确格式化手机：步骤、注意事项与数据备份技巧详解

如何在Windows 10中顺利进入安全模式的多种方法解析

长虹电视安装第三方软件的详细步骤与注意事项

轻松上手微信使用指南：聊天、购物与社交的全能平台

如何轻松将软件拷贝到U盘的详细步骤与注意事项

了解电脑配置信息的重要性及查看方法详解

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响