追不上 Sora 的同行有难了

作者：砍柴网发布时间：2024-02-26

Sora 公布第 10 天，同行已经坐不住了。

2 月 16 日，中国大年初七，OpenAI 公布了全新的生成式人工智能模型 Sora：输入自然语言指令，输出至多 60 秒的视频。

从文本到视频的生成式 AI 模型并不新鲜，但 Sora ——就像 ChatGPT ——一样，因其断崖式的质量提升，登时点燃了互联网。高清的画质，流畅的画面，乍看之下颇为自然的物理轨迹，和一年前近乎鬼畜的 " 威尔 · 史密斯吃意大利面 " 视频看起来像隔了一个世纪，同行去年才发布的 AI 产品与之相比也黯然失色。

10 天很短，但在 AI 领域却足以生变。

至少有两家 AI 界 " 当红炸子鸡 " 站了出来：2 月 22 日，StabilityAI 正式开放 Stable Video 的公测，该产品背后的模型 Stable Video Diffusion 去年 11 月就已经发布。几乎同时，另一家在文生图领域颇有建树的 Midjourney 也透露，可能会在下一次迭代时包含视频功能。

昔日 " 炸子鸡 " 站在阴影中，追不上 Sora 的同行有难了。

一

在接受了 Sora 演示视频的直接冲击之外，人们立刻开始做纵向和横向的比较。

纵向比较，人们拿出了一年前 " 威尔 · 史密斯吃意大利面 " 的 AI 视频。这位好莱坞明星脸部变形严重、面的形态千变万化，分分钟触发恐怖谷效应，越看越诡异。

来源：由 AI 生成

一年之后，Sora 已经可以做出一个女人在东京街头漫步的视频，不管是画面质量、连续性和稳定性，还是女人的步态与神情，都已经几乎可以以假乱真，让人连连称赞：文本到视频的进步也太大了。

来源：由 Sora 生成

可惜的是，尽管无数网友在 OpenAI CEO 山姆 · 奥特曼（Sam Altman）的社交媒体账号下求 Sora 版本的 " 威尔 · 史密斯吃意大利面 "，并没能得偿所愿。倒是史密斯本人跑出来整了个活儿，真人拍摄，" 伪造 " 了一个新版本。你别说，还真差点给人骗过去——真人都能拍视频假装是 AI 生成的了，倒也足见 Sora 视频的高质量。

横向对比，同行就有点尴尬了。OpenAI 把每一个 Sora 演示视频的文本指令都公布了，虽然人们不能直接用 Sora，但是可以拿着指令去市面上已有的产品里试，看看有什么差别。

不试不要紧，一试吓一跳：看到 Sora 视频的时候就觉得厉害，看了同行的表现更对 Sora 的威力有了新的认知。

同样是女人在东京街头漫步的指令，Runway 生成的视频暂停看还都像那么回事，连起来就只能用 " 千变万化 " 形容，女人的形象并不能随着时间的推移保持稳定。要知道 Sora 的演示视频中还有机位的变化，从远景到脸部特写，女人的形态始终如一。Runway 生成的视频更像是很多张图片的动态融合。

由 Runway 生成

StabilityAI ——就是那个开源了文生图 Stable Diffusion 的公司——的 Stable Video 生成的画面清晰度和美观度都很不错，但是女人的脸变形严重，看起来很像一个骷髅头，诡异感拉满。

由 Stable Video 生成

Pika 则有些取巧，其画面相对流畅，但比较模糊，且并非写实风格。

由 Pika 生成

此外，打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比，Sora 并非和同行打得有来有回，而是碾压了同行。

二

一朝之间，文生视频当红 " 炸子鸡 " 发现自己站在了 OpenAI 投下的阴影中。

从文本到视频的 AI 工具并不是新鲜事物。在 2023 年，多个文本到视频 AI 工具问世，Runway、PikaLabs（下称 Pika）、StabilityAI 等初创公司在这个赛道都备受瞩目，热钱不断，估值暴涨。

其中 Runway 成立于 2018 年，3 月开放 Gen-2 内测，6 月正式对外发布。此前有 Gen-1 图像到视频 AI 工具。Runway 同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

Runway 的 CEO 兼联合创始人克里斯托瓦尔 · 巴仑苏埃拉（Crist ó bal Valenzuela）说：" 我们已经看到了图像生成模型的爆发。我相信，2023 年将会是视频之年。"

在 5 月时，Runway 已经完成了 1.41 亿美元的 D 轮融资，投资方包括谷歌、英伟达等，估值暴涨三倍，达到 15 亿美元，

Pika 去年 4 月刚刚成立，A 轮融资达 5500 万美元，估值登时超过 2 亿美元，11 月就发布了第一个文本到视频产品 Pika1.0。到了 12 月时，其用户已有超过 50 万，每周生成近百万视频内容。

而 StabilityAI 则因其文本到图像工具 Stable Diffusion 名声在外，早在 2022 年获得 1 亿美元融资后，估值就已经超过了 10 亿美元，成为独角兽企业。去年 11 月，Stable Video Diffusion 发布，注意后面还有一个 "Diffusion" 后缀，这是一个基于 Stable Diffusion 的生成式视频基础模型，需要用户自己部署使用，还不算面向大众发布的产品。

三家初创公司，2023 年三个重要生成式视频产品 / 模型，突然就被 Sora 会心一击。

在 OpenAI 兴冲冲向世界展示 Sora 之后，Runway 的 CEO 巴仑苏埃拉在社交平台 X 上发帖：" 游戏开始（Game On）。" 而 StabilityAI 的 CEO 兼创始人莫斯塔克（Emad Mostaque）则将奥特曼称作 " 巫师大人 "。

从演示视频来看，Sora 的确有改变游戏格局的威力，跟不上 Sora 的同行有难了。

参照 ChatGPT 发布之后，虽然 AI 浪潮让投资人热情高涨，AI 初创公司如雨后春笋般冒出来，新晋独角兽一个接着一个。但这是一个冰火两重天的故事，不少 AI 创业公司走上下坡路，或寻求收购，或大幅裁员，甚至就此寿终正寝。据智东西梳理，仅 2023 年 11 月到 2024 年 1 月，全球就有 AI 新闻初创企业 Artifact、AI 医疗公司 Olive 等 4 家 AI 初创企业宣布关停。

The Infoemation 称，至少有 7 家开发生成式视频的 AI 公司，共筹集了至少 5.5 亿美元的资金。有投资人私下对 The Information 表示，之前刚刚错过某热门 AI 视频初创企业的融资，看到 Sora 的视频后 " 感到庆幸 "。

三

人工智能赛道热度高，但门槛也高，厮杀之中刀光剑影，掉队就可能掉入坟墓。

知名 AI 初创企业 Huggine Face 在一篇博文中，提到了文本到视频的三大挑战：算力挑战，确保跨帧空间与实践的一致性伴随着高计算成本，使得大多数研究人员无法负担这类模型的训练费用；缺乏高质量数据集，用于文本到视频生成的多模态数据集非常稀少，而且经常缺乏注释；指令模糊性，如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚跟的 StabilityAI 都麻烦不断。去年 6 月，福布斯发布一则长新闻，超过 30 位 StabilityAI 前员工和投资人细数创始人兼 CEO 莫斯塔克的 9 大罪证，包括：窃取 StableDiffusion 成果融资 10 亿；隐瞒融资困难；夸大公司收入；拖欠员工工资；学历和工作经历造假。

抛开其他不谈，硅谷 " 当红炸子鸡 " 却又融资困难、公司收入被夸大的问题，着实令人意外。知情人士称，StabilityAI 每个月的开销大概是 800 万美元，而莫斯塔克却曾自爆公司 8 月的营收大概在 120 万美元，有机会超过 300 万美元。莫斯塔克很快就删除了该帖，但从这个数字不难闻到烧钱的味道。

11 月，也就是其发布 Stable Video Diffusion 模型的同月、公司完成 1 亿美元融资的一年后，StabilitAI 传出多位高级管理人员辞职、公司财务状况脆弱的消息，并一度传闻考虑出售，这一消息随后被莫斯塔克否认。

入不敷出、人才流失，StabilityAI 的危机暴露了光鲜的热门创企的软肋。

巨头的加入也会让战事更加激烈。在 AI 视频的赛道，巨头早有布局。2022 年 10 月，Meta 和谷歌相继发力。Meta 先发布了 Make-A-Video 模型，仅一周后，谷歌 CEO 桑德尔 · 皮查伊（Sundar Pichai）亲自安利他们在这一领域的两个最新成果，Imagen Video 和 Phenaki，分别强调视频品质和长度。

来源：Meta AI

但不管是 Meta 还是谷歌，目前都尚未向公众开放其文本到视频 AI 工具。谷歌官方认为用于训练 AI 视频模型的数据仍包含有问题的内容，可能会导致 Imagen Video 产生图形暴力或色情剪辑，造成不良影响。巨头的保守操作大家也都熟悉了，在自然语言聊天机器人的赛道，谷歌也是早早就手握模型但未向 C 端推出产品，原因也是安全问题。但 ChatGPT 与微软的联手让巨头走出保守，Sora 未尝不能做同样的事。

已经有巨头有新动作。在 Sora 公布的一周前，字节宣布人事变动，原抖音集团 CEO 张楠宣布辞去集团 CEO 一职，未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士，张楠亲自带队寻求在 AI 辅助创作上突破，并即将推出一个 AI 生成视频的产品。

面对新开的 " 游戏 "，Sora 的同行只能全力向前。

就在 Sora 公布的几天之后，2 月 22 日，StabilityAI 正式开放了 Stable Video 的公测，从模型走向人人可以方便上手的产品。虽然视频长度还是比较短，只有 7 秒，但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚，表示开放的原因是：" 我们想要创造类似 Sora 的大型开放的 Stable Video2，但需要更多的数据和计算。"

此外，在文生图领域有超高口碑的 Midjourney 也跑步入场，创始人大卫 · 霍尔兹（David Holz）在 Office Hours 中透露，下一个版本，也就是 Midjourney V7" 可能包含视频功能 "。

OpenAI 现阶段还在对 Sora 进行评估，距离 Sora 正式对外公开可能还有几个月的时间。好消息是，同行还有时间应变。坏消息是，留给同行的时间不多了。

来源：字母榜

追不上 Sora 的同行有难了

推荐体验

相关资讯

追不上Sora的同行有难了

抖音追不上Sora

抖音的剪映，追不上OpenAI的Sora

炸场的Sora和冷静的同行

Sora出手后，它的同行们都咋样了？

近期资讯

洛阳隆中重工取得一种超声波擦洗机专利，拆卸维护更方便

镇江金裕精密零件取得一种针孔件加工清理组件专利，提升装置的清理效率

益阳仪纬科技取得铝合金件铸造用清洗装置专利，有效提升铝合金件清洗效率和质量

研究显示AI可能会被用来操控用户的选择相关用户数据将被出售

苏州辰旭取得超声波清洗机的吊架结构专利，解决下料不便及噪音问题

安凯微：已量产的0.5T OPS和2T OPS算力的视觉SoC适用于家用摄像机等

西安华兴搏发光电科技取得镜片清洗设备专利，使镜片装夹死角得到充分清洗

西安热工研究院有限公司取得多场复合的活性炭深度清洗设备专利，提高活性炭的清洁度

中孚生物取得超声波粗洗机专利，提高药瓶清洁效率

镇江金裕精密零件取得一种针孔件加工清洗槽专利，避免杂质和污染物引入，提高清洗环境洁净度

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响