来源丨投中网
作者丨刘燕秋 蒲凡
封面图来源|文心一格
今年,不论是创业者还是投资人都成熟了。
先讲两个非常「中国特色」的荒诞段子:
小红书上,一位投资领域的博主称,一天内已经有三个项目方找过来说要做中国版 Sora,但听起来,心态都是「看看能不能骗点钱」;
另有一图,昨日广为流传,图上标「中美两大 AI 巨头」。美方代表是 OpenAI 的 CEO 奥特曼,中方代表则是卖 AI 课赚了上亿的博主李一舟。
怎么说呢,前者未经证实,但代表了一部分人对 AI 创业者,乃至整个创业者群体的「刻板」印象;到了李一舟这,这种「刻板印象」终于有了明确的指摘对象,没办法,谁让人家赚钱了呢。不过到底是虚晃一枪,瞧不上的是中国 AI。(具体参见《“李一舟何许人也” | 底片》 )
调侃归调侃,当我拿这消息问几位投资人朋友时,反馈是,还没人碰到过打着中国版 Sora 旗号的离谱项目。我想,这可能是因为,大家还处在震惊之中,需要一点反应的时间。也可能因为,和去年 ChatGPT 搅动的热潮相比,今年的情况相似又不同。
对世界丧失掌控感的心态大体是相似的,不同在于,经历过去一年的洗礼,到今年,不论是创业者还是投资人都成熟了。一部分人清醒地意识到,热闹归热闹,但热闹大都是 OpenAI 的。
「霸权创业」
「我们之后大概率不会投文生视频类项目了,因为 OpenAI 太强了。」一家主流投资机构的朋友这样回复我。
很难说这种心态是悲观,还是认清现实后的冷静。如果回溯,类似的言论最早从去年 3 月 GPT4 发布插件便开始了。
在《第一批投AIGC的VC开始后悔了》 一文中,我写过当时典型的担忧是:是不是所有垂类的应用公司都会被基于 GPT4 插件的生态取代?之前投的项目会不会黄了?今后还要不要看?
别怪写稿的人絮叨,因为类似的事情总在不断发生。去年年底,奥特曼在 YC 的一场演讲,又给生成式 AI 领域的创业者浇了一盆冷水。
他建议,应该以通用人工智能的实现为前提进行技术开发。因为 GPT5 可能会相对于 GPT4 有指数级的跳跃,这个进展将会给初创企业和现有公司带来许多挑战。反过来说,他不建议的是,创建那些产品业务致力于解决当前 GPT4 限制的内容,因为大多数限制将在 GPT5 中修复。
这份给创业者的指南,既诚恳,又傲慢,杀伤力极大。AI 巨无霸的掌舵者在提醒创业者,不要瞎折腾,OpenAI 自身的迭代很快会覆盖一批公司。
我更想到了另外一段话,来自一年前的另一个「大模型」选题,当时 ChatGPT 给了世界一个「小小的震撼」,也带来了一阵密集的投资风口,几乎所有人都在努力寻找能交付出类似产品的创业者,并且不吝于将寻找到的创业者塑造成神。
我本能地对当时的氛围感到警惕,于是设计了一份简单问卷,向超过 30 个人工智能赛道内的创业团队发出 QA 邀请,试图搞清楚舆论是否过热并且严重拔高了行业现状,然后收到了一份这样的答案:
「我们认为人工智能这一轮的发展是不断集成人类智能的过程,在这个过程中很多流程、环节、都会吞噬,形成端到端、自动化的解决方案,最后会不可避免地形成超级智能——这些环节在上一代互联网的时代是存在独角兽公司的(所以互联网时代是一个「平权」的创业时代),但是现在没机会了——比如 GPT4 出现之前很多企业做视频和图片处理,但 GPT4 出来以后对他们是一个重大打击,模式是否成立都是问题。」
这个答案来自集智魔方创始人徐大大。简单概括,他认为人工智能这一次的热潮很难留下太多机会,反而可能即将面临一个「霸权式创业」的时代。
而这种「霸权创业」的感受也正在完整地通过创业者传递给投资人。徐大大和很多 VC 接触后,发现大家目前形成的共识是创业规划要有「战略提前量」,而不是寻求「时间提前量」,因为「如果方向错了,早晚被足够的算力追上」。
具体到视频生成领域,AI 投资人 Magic(化名)跟我分享了一个真实案例。去年他们团队反复讨论过要不要布局一家文生视频公司,最终还是没投。
当初纠结的点在于,他们看到的国内公司现有的方案明显有性能上限,同时知道 OpenAI 在用更 fundamental 的方式解决问题,只是不知道什么时候能做出来。「说白了就是知道 OpenAI 会做,觉得其他公司没有戏,但没想到来得这么快。」
现有的能想到的场景 OpenAI 一定能想到,还能有什么新的场景出来?OpenAI 的超能力令 AI 投资人陷入迷惘,不确定究竟该在应用层面投些什么。
谈追赶,Magic 没那么乐观。他认为,国内公司与 OpenAI 的差距,本质在于视野、认知和工程化能力的不同,当中的差距不是任何一家公司能在短时间内弥补的。
更不用说,国内一部分公司对外宣扬的和实际情况多少存在一些水分。比如,我在某公司去年的通稿里看到如下描述——「视频生成能实现可控的内容改写与风格迁移,效果优于 Runway 等在内的主流模型。」
国内的「类 Sora 产品」
放眼我国近几年的科技行业,创业者们对于「类 Sora 产品」的尝试一直没有停止。从技术路线来看可以分为两类:
一类是由剪辑工具衍生出来的「文生视频」产品。与 Sora 相同,这类产品的使用逻辑十分「自然语言」,用户只需要输入文本内容,产品就能匹配上对应的视频素材生成成片,只是这类产品并不会根据文本内容原生视频素材,而是在素材库内进行调用。
时间线上,早在 2020 年 10 月知乎就推出了「一键图文转视频」,配合当时同期推出的「海盐计划」,内容视频化战争打响;2021 年 4 月,剪映也上线了「图文成片」功能,大量创作者使用后,得出的一致结论是「感觉会干死一堆营销号」。
可以说,也正是这条技术路线的成熟,催生了这几天 Sora 的一个衍生话题——Sora 会「杀死」剪映吗,我的编辑也建议,将「梁茹波在字节年度大会上反省了公司内部的技术讨论直到 2023 年才有 GPT 相关议题」和「张楠在年初辞去抖音集团 CEO 职务,宣布将专注于剪映」联系在一起,进而得出「AI 视频生成」或许是字节跳动找到的最现实也最直接的「第二增长曲线」的结论。
前字节跳动算法工程师「像素炼金师」持类似的观点。他在知乎问题「OpenAI 的视频模型 Sora 能否颠覆影视创作」的回答里写过这样一段话:
「不要怀疑视觉模型的能力……ChatGPT 的上限可以质疑,大语言模型的训练可能面临着数据的匮乏,高质量的数据早就已经全部纳入到 GPT4 的训练集里了。但视觉的数据和文本不一样,我们可以几乎无限的从世界当中采集。」
第二类是由多模态大模型衍生出来的「文生视频」产品,此前让郭德纲说英语、让川普说山东话而大火的 HeyGen 就是其中的代表。类似的产品还包括 FancyTech、Wondershare、腾讯智影,这些产品都具备用户通过「输入自然语言」生成一段视频,并且针对性地原生一部分素材的能力。
如果以更冰冷的技术视角来看,Sora 又似乎有被「神化」的嫌疑,许多 AI 界大鳄指出,其技术壁垒似乎一定程度上被高估了。
2022 年 10 月,谷歌曾经宣布过开发文本转视频产品 Imagen Video。根据同步公开的技术论文,当时的谷歌工程师们就已经开始计划以 24FPS 的帧数输出 1280x768 高清视频,并且尝试在保留对象结构的同时「让对象结构能够完成 3D 旋转以及更多的画面形式」。
此时距离 OpenAI 发布著名的 DALLE-2,仅仅只有半年的时间。
而针对 OpenAI 宣称 sora 是「世界模拟器」,图灵奖得主、Meta 首席 AI 科学家杨立昆(YannLeCun)认为,根据提示词生成的大部分逼真视频,离「AI 理解物理世界」还差得远,刷屏的视频仍有很多 bug,生成视频的过程与基于世界模型的因果预测完全不同。
而同日发布的谷歌多模态模型 Gemini 1.5,能持续运行 100 万 tokens,「1 小时视频、11 小时音频、超过 3 万行代码」,我大胆揣测,由于 sora 以视频的方式呈现太过惊艳,才让谷歌成了汪峰,痛失头条。
今年 1 月,北京大学、斯坦福大学、Pika Labs 联合发布了一套全新的文生图框架 RPG-Diffusion Master,旨在解决文生图常常「货不对版」背后的两大难题:缺乏画面的空间引导,并且难以处理重叠的对象;基于反馈的方法需要收集高质量的反馈数据,并产生额外的训练成本。
所以很大程度上,真正让「中美 AI 角逐」看起来略显吃力的地方,不是创业者不努力,而是一是努力不过「钞能力」,二是如那位 OpenAI 的天才谢赛宁所言,人才、数据、算力,三者之间的差距,很难弥补。
由剪辑工具衍生出来的「文生视频」产品,往往背靠着巨大的内容生态。作为创作者生态的一环,这层属性的一体两面,是第三方「文生视频」产品在商业化上存在巨大的问题。
两年前我曾经收到过一份「文转视频」产品的 BP,第一页旗帜鲜明地写着「做内容赛道的基建产品,成就中国最大的泛知识内容创作者平台」,核心竞争力是「行业率先的中视频素材库」「独创的智能文本区」「云协作」,融资目标相对保守地定在了 500 万美元。
这几天重新聊起 Sora 的时候,才发现他们没有挺过 2023,当初发 BP 给我的朋友发了一个哭脸 emoji,说:「一开始我们就错了」。
我忍不住追问他们的复活计划:「文生视频这一段一定要和 Sora 对比吗?就像文艺片存在的同时不影响爆米花电影的卖座,只要成本够低、操作门槛够低,文生视频工具似乎是有一定市场的,并不一定需要『太智能』。」
朋友的对话框开始漫长地停留在「对方正在输入」状态。半晌,他决定回复这样两段话:「老板不看好中视频赛道,觉得 XX 就那水平,我们还给他们的创作者做工具就更没前途了……泛知识类视频的商业天花板可能只是亿级,而影视广告行业的商业天花板是万亿级的。」
同样的「出身困境」,也体现在多模态大模型衍生出来的「文生视频」产品中。这些产品所提供的「文生视频」功能,大部分都为明确的应用场景设计,例如电商虚拟主播、服装设计展示,进而导致他们最终输出的成品通常呈现出「半 AIGC 状态」——帮助用户在有限的模板下进行一定的原生。
还没看到产业化的可能
也不是没有乐观的声音。
「现在是整个行业技术不成熟啊,我觉得这个方向可以再跑跑,虽然 Sora 是 SOTA 的算法,但我觉得差距没大家想象的那么大,到今年年底的时候估计会接近文生图。」
当我问及文生视频在国内的前景,投了大模型公司的 James(化名)这样告诉我。SOTA,全称「state-of-the-art」,用于描述机器学习中某个任务上当前最优效果的模型。
乐观或悲观,不过是大家基于自己看到的论据得出的主观结论。如果文生视频在国内有机会,不妨把问题提得再具体一点,那会是谁的机会?随着融资军备竞赛的白热化,会是现有这些大模型头部玩家之间的竞争吗?
头部大模型创业公司里,月之暗面、MiniMAX、百川智能等都在年后传出了最新一笔大额融资的消息。弹药充足,为的是应对模型迭代持续烧钱的现状,而多模态模型正是当下国内大模型的竞争点之一。
据我了解,腾讯、智谱 AI 等都已经在研发视频生成大模型。月之暗面也被媒体披露出正在研发通用多模态模型。
投资人的观点仍然没有定论。James 判断,还是大模型公司机会大一些。Magic 认为,看上去似乎是这样,变量在于国内这些大模型公司把核心任务放在了追赶 GPT4 和 5 上,而文生视频是另一条线,肯定会做,但能给多少资源还不一定。
「如果产品能立住,不排除有独立模型开发的公司也能跑出来。」
而当着眼于实际应用,只能说,不管是国内公司,还是 Sora、Runway、Pika,他们的产品距离产业化应用还有一段距离。有投资人告诉我,文生视频这件事要在中国落地,还是要关注商业化的问题,或者公司有出海的能力。
再讲一个现实的创业故事吧。出海,正是 AIGC 创业者吴立素给公司规划的路径。
几年前我认识他时,他还在做网剧和网大,如今他公司的主要业务放在短剧和 AI,利用人工智能生成三维和平面内容。2022 年夏天,他成立了人工智能机构 SOLART TECH(素鳞科技),并在随后一年加入英伟达 inception program、Google cloud for AI startup 和 Amazon 的加速计划。
出于自身业务需求,而不是开一场发布会,吴立素的团队去年尝试过自研视频生成大模型,数据来源是自有版权的电影和动画片。花了几百万,他得出的结论是,投入巨大,结果却差强人意,距离产业化应用比较远。
「基于工程文件去做数据标注的精准度高,但我们数据量不大,所以生成的内容比较有限。动画部分和 Pika 1.0 的效果相近,但真实人物会有恐怖屋效应。」
「我们团队基本上都是会写代码的影视艺术工作者,所以开始还会有一点优势。」在他看来,去年包括 Pika 在内的很多团队进行画面推理还只是基于图像学研究,而今年 Sora 团队里的成员,有越来越多的跨专业人才能进行交叉学科研究。
架不住 OpenAI 大力出奇迹。吴立素决定放弃自研视频生成大模型,转向基于大模型做一些小模型。他希望结合其他技术和工具,推动产品实际落地。「国内做全视频生成的公司方向都不太一样,但多是以科研的形式在做,目前没看到有商业化或产业化的可能性。」
产业应用更多的要求是精准度,而即使是 Sora 的呈现也有很大的不稳定性。他打了个比方,「数学公式大家都会,但不一定所有人都能用那套公式把应用题解出来。」
至于文生视频对影视动画产业的影响,也许没想象中那么大。吴立素有计算机背景,又在中传读了数字媒体专业,此后在影视行业摸爬滚打十几年。他的判断是,文生视频目前适用于不太有特定需求的内容填充和背景画面丰富。
「传统影视动画产业里比较讲究精准度的场景和角色情绪表达,纯文字直接生成比较难得到结果,通过图像(分镜故事版)生成会更准确一点。」随着 Vision Pro 的上市,他也更看好未来 3D 市场以及 3D 内容和 AI 的结合发展的机会。
吴立素做出的另一个决定是,今年公司要出海。「因为国内用户需求增长比较慢,现在更多是卖课的人能赚到钱。」他无奈道。
「向钱看」,是不少人瞧不上中国 AI 的原因。一位投资人朋友对我表示,从互联网时代开始,美国的科技公司就代表科技与商业的双重突破,而国内则把重心更多放在了跟随和应用,曾经我们似乎看到了平起平坐甚至超越的可能,但到了 AI 时代,才发现一切都是幻觉。
去年此时,很多人问,为什么中国没有产生 ChatGPT,到了今年问题又变成了,为什么中国没有产生 sora,在天才科学家史蒂芬·沃尔弗拉姆那本《这就是 ChatGPT》的导读序中,作者建议我们把问题换成,「为什么全世界只有 OpenAI 能做出 ChatGPT」。
我认为方向无关对错,只跟现实土壤有关。2022 年中旬,曾经有一位美元基金投资人,强烈建议我关注 AI 发展趋势,当时就提到了 GPT 等,而我却一知半解,国内更是鲜有报道,现在他转身加入一家国外的科技创业公司,按他说法,「出来躺躺」。
在那本书中,史蒂芬·沃尔弗拉姆提到了「计算不可约性原理」,「人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在『收获惊喜的可能』。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。」
那么不妨问问,对这种不可预测的「收获惊喜的可能」,我们到底凭什么?
九成投向新公司,阿里巴巴 2023 年的投资之路越走越宽 沪上阿姨获亿元新融资;欧莱雅再投资国产香氛品牌丨IT桔子周报 新年新发现—— IT桔子还能这么用之「IT桔子的n多用法」 新年新发现—— IT桔子还能这么用之「我用IT桔子找工作」 新年新发现—— IT桔子还能这么用之「我用IT桔子管理客户」 新年新发现—— IT桔子还能这么用之「我用IT桔子做招商清单」 为造车保驾护航,小米系这两年投了几十家汽车产业链公司 2023 年,这些曾被资本狂投的明星公司们,倒了(下) 2023 年,这些曾被资本狂投的明星公司们,倒了(上)
↓↓↓看更多深度文章,关注IT桔子↓↓↓
微信又双改版了,如果不标星,容易错过我们的推送,也无法看到封面图片。还请点击星标,及时接收每篇新鲜出炉的推文,我们期待与你的每一次见面。