当前位置:首页|资讯|Sora|元宇宙

Sora之后,视频生成公司如何生存?| 对话魔珐创始人柴金祥

作者:光锥智能发布时间:2024-03-20

Sora之后,视频生成公司如何生存?| 对话魔珐创始人柴金祥

文|郝 鑫

爆火于元宇宙,转而销声匿迹,又在大模型来临后死灰复燃,眼看着一波波创业公司倒在黎明前,一波波新生力量又在风口爆发后崛起,风险与机会齐飞。

想要在曲折而不确定性的虚拟人赛道找寻发展的确定性,通过虚拟人来穿越技术和经济的发展周期成为一件极其困难的事情。

魔珐科技,这家从元宇宙开始到现在始终坚持3D虚拟人方向的公司,用每个阶段不同的技术探索以及对虚拟人的认知更新来回答“如何穿越周期”这个问题。

不管行业如何变化,自成立至今,魔珐一直在探索3D虚拟人的生成路径。

2018年成立初期,魔珐将构建元宇宙的基础设施为核心目标,并提出了“虚拟+X”的概念,掌握了全栈式的虚拟内容智能化制作技术,打造了虚拟直播和线下实时互动产品以及三维AI虚拟人能力平台。

2023年,大模型和AIGC技术让虚拟人实现突破,魔珐重新定义AIGC时代的虚拟人,并发布了虚拟人直播 AIGC 平台 “ 魔珐有光”、虚拟人视频 AIGC 平台 “ 魔珐有言 ”和虚拟人服务 AIGC 平台 “ 魔珐有灵 ”,三款超写实 3D 虚拟人产品。

魔珐CEO柴金祥表示:“3D虚拟人具有高质量超写实形象,能表达,可互动,且是AIGC生成的”,要同时具备超写实3D形象、生动的表达能力和垂直领域的专业能力。

从更宏观的角度,柴金祥认为,“文生文、文生图、文生视频都只不过是AIGC的能力,而AIGC演进的终极形态一定是3D虚拟人。”

2024年开年,Sora炸翻了天,令国内的创业公司和投资人感到震惊和恐慌。在这样的背景下,手握3D虚拟人AIGC视频生成平台且已经开始产品化的魔珐,显得格外冷静。

柴金祥认为,Sora的路线不一定适合中国企业,Sora走2D视频生成路线,更适合创意类视频生成;魔珐选择走3D视频生成路线,满足企业对信息复杂度、精准性输出的需求。

回顾魔珐的发展,其核心能力是在3D虚拟人的核心能力上做加法,以前是3D虚拟人+元宇宙,现在是3D虚拟人AIGC+图文、视频,再加电商直播、教育、文旅等千行百业。变的是整个时代发展脉络,不变的是核心技术能力和产品能力。

在与行业结合的过程中,柴金祥形成了自己对科技公司商业化的思考。他认为,对魔珐在内的所有科技企业来说最重要的还是PMF(Product Market Fit 产品市场匹配度),即能不能找到更契合市场的产品,多长时间能得到验证。此外就是,在这款产品的增长过程中,能不能实现规模化。

柴金祥介绍,魔珐从早期做项目再到产品化就是在不断寻找规模化的突破点,“现在3D虚拟人视频生成产品的成本基本是GPU的成本”,如果有一天达到了PMF,后面的任务就是持续保持用户增长。

带着这样的视角,光锥智能对话魔珐创始人兼CEO柴金祥,深入理解魔珐穿越技术周期的思路以及对虚拟人产品化的实践。

核心观点如下:

1、文生视频存在两条路径:一条是Sora,用大规模视频数据训练大模型,生成2D视频内容;一条是3D内容的AIGC,通过3D物理引擎渲染生成视频。

2、魔珐要做的是3D超写实虚拟AIGC+X,每家企业都能有一个AIGC 3D虚拟人,这个虚拟人有形象、会表达且够专业。

3、3D视频生成的核心难点是缺乏高质量的3D数据,其次才是算力、算法。

4、对科技企业来说最重要的还是PMF(Product Market Fit 产品市场匹配度),即能不能找到更契合市场的产品,多长时间能得到验证。

5、在OpenAI的延长线上的公司都很危险,Sora更适合创意类视频生成。

以下为对话实录:

Q:Sora的爆火点燃了 AI 视频赛道的战火,Sora就是最佳路径吗?魔珐选择的是哪条技术路径?

A:文生图片、文生视频、文生3D从视频的AIGC角度来说,有两条核心路径:一条路径就是最近比较火的Sora路径,它生成的是2D视频,从互联网上获取大量的视频数据来训练大模型,然后输出生成视频。像Pika、Runway这些美国公司以前都是走同一个路径,只是效果做得相对较差,中国现在想完全照搬也不一定能学成。

还有一条路径,就是3D内容的AIGC,这也是魔珐现在选择的道路。无论国内外,三维内容AIGC大家多多少少都有听过,但是没见过产品,也没见过好的Demo,导致对3D内容的AIGC其实缺乏一定的概念。

Q:什么是3D虚拟人AIGC产品?

A:我们定义里的3D虚拟人,我自己认为它是一种最高级的内容形态。意思是说,通过虚拟人可以复制无穷个自己,从而打破时间、空间的限制,也能和任意的节点产生联系和互动,达到一种随时在线的状态。我们认为它是比图文、比视频更高级的形态,因为它是把所有东西都结合起来,本质上是一个智能体。

我们的AIGC体现在哪里?视频里人物的所有表达都是AIGC生成的,包括他的表情、眼神、手势、动作、声音等等。现在,AIGC的功能体现是文本脚本生成,我们3月底的下一个版本,大家会看到把我们自己的大模型、文本大模型结合进去,用户直接输入prompt 就能完成操作。

Q:虚拟人赛道的厂商和企业众多,魔珐如何定位自身,差异性体现在哪里?

A:魔珐要做的是3D超写实虚拟AIGC+X,从我们的愿景来讲,希望每家企业都能有一个AIGC 3D虚拟人,这个虚拟人有形象、会表达且够专业。视频就是“+”的一种方式,直播也是“+”,一对一互动也是“+”,各个行业也是“+”。3D 虚拟人不是个单体,比如做视频,不能只有 3D 虚拟人,要做综合性的产品,做直播的时候也不能只有个虚拟人,做一对一交互的时候也是,核心就是通过产品去赋能千行百业。

值得一提的是,大概在半年以后,我们可能把3D超写实虚拟人AIGC全栈能力开放出去,打造一个像 ChatGPT一样的开放平台,无论C端还是B端用户,都可以通过调用API,来使用魔珐的技术能力。

我们把魔珐定位为一家产品驱动的公司,思考和做抉择都围绕着:技术有没有用,能不能落地到产品中,产品能不能给用户和客户带来价值等几个关键性问题。

Q:您觉得3D视频生成的难点有哪些?魔珐有哪些能力是Sora所不具备的?

A:最核心的难点是缺乏高质量的3D数据。虽然理论上讲文生图、文生视频的训练数据可以从网上获得,但这跟3D训练数据根本不是一回事儿,即使是国内外的动画公司和游戏公司所训练的3D内容数据质量也是非常差的。解决了3D数据来源的问题,才能在这基础上拼算法和算力。

魔珐3D的AIGC产品能覆盖到Sora不能涉及的场景。Sora现在所能呈现的视频基本上全是创意类的视频,当用户想去生成内容信息密度高、又要求精准表达的视频时,它是无法做到的,比如知识分享、发布会、教育培训类的场景。而我们所针对的恰恰是这类场景,在这里面,我们希望能做到准确传递信息、精准控制内容生成、内容可控和可编辑。

Q:针对3D数据匮乏这个难点,魔珐是怎么解决这个问题的?

A:在过去五六年,我们一直在坚持两件事情,一是底层根技术的提升,以前PGC时代,你可能要找十个人,干几个月才能做一个3D虚拟人,或者找两三个人做几周,才能完成场景的搭建,但现在可能几分钟就能实现。

二是3D美术质量的提升,大家可以看我们虚拟人整体的质量,包括场景、人物、美术,整个都在不断地提升。同时我们也在服务B端企业的过程中,做了很多数据的沉淀,这个数据不是说我今天一下子做的,而是在过去五六年过程中不停地积累。

Q:对于科技公司而言,前期投入成本很大,在虚拟人这个行业同样存在这个问题,魔珐是如何理解盈利问题的?

A:对魔珐在内的所有科技企业来说最重要的还是PMF,即能不能找到更契合市场的产品,多长时间能得到验证。此外就是,在这款产品的增长过程中,能不能实现规模化。

科技跟其他所有公司属性不一样的点就是爆发力,一家科技公司的壁垒应该很高,假如找到了市场契合的产品,后面应该得以爆发。但是不幸的是,我们看过去十年的AI公司,即使上市也存在持续亏损的状态,原因在于其没有找到一款爆发性的产品,所以没有看到它在某一个点,实现指数性的增长。但在产品行业,爆发性增长的例子比比皆是,在国外,不一定非得是AI,ChatGPT、Canva、Figma 都是在产品和市场匹配后,实现了快速的增长。

魔珐的早期一直在做项目,这意味着在某一点很难去规模化,这就是为什么从两年前开始,下定决心要做产品化。像我们现在的这款产品,所有的成本都是GPU的成本,C端也好,B端也好,不管有多少用户,对我们成本都是一样的。如果有一天我们达到了PMF,后面要做的事就是保持用户增长即可。

Q:元宇宙时期虚拟人的造价成本非常高昂,随着AIGC技术的落地,虚拟人成本降低了多少?

A:最早时候,企业定制形象成交价在60万以上,落实到我们自己成本也要几十万。而现在,你能看到的企业的形象定制化虚拟人,成本已经降至很低的价格。再往后,发展到今年的6、7月份,当普通用户都能用AIGC生成图片、捏脸时,我们的成本基本趋近于零。

在整个过程中,技术的进步使得内容生产变得越来越简单,将经历PGC、UGC再到AIGC的发展曲线。无论是文本、图片、视频还是3D,AI的价值就在于使内容制作门槛越来越低,企业成本越来越低,内容生成质量越来越好。

Q:您提到3D虚拟人终点是一个智能体,需要把最好的经验去复制。那魔珐是怎么实现各个行业的结合和复制的?

A:虚拟人要有形象、会表达、有技能,当把虚拟人定义成一个赚钱工具时,企业在意的是ROI和转化率。想要效果好,就需要最佳实践。

以电商直播场景为例,我们虚拟人训练的所有声音、动作都找了演员去模拟。AI的方式就是复制最优秀的,这里面包括了主播的声音、表达方式、话术。要是深入研究,你就会发现,主播大促,淘宝和抖音不同平台以及不同品类的话术表达都是不同的,讲品过程逻辑也是不同的。所以看似ChatGPT 也能做同样的事情,但要和具体产业结合仍然需要很长的时间。

Q:Sora的升温也让国内视频生成赛道的初创企业受到了关注,您如何看待未来的竞争格局?

A:从路径上分化,就是刚才提到的以Sora为代表的2D视频生成路线,和魔珐选择的3D视频生成路线。

一个很残酷的事实是,在OpenAI的延长线上的公司都很危险。你可以去问一些投资人,在年前Sora还没出来的时候,尽管一些创业公司还在demo阶段,投资人可能已经有意向去投资,甚至部分协议都签完了。但是,Sora一出来就全部不投了。这个事已经证明,创业公司但凡在OpenAI的延长线上,都可能会面临被颠覆的命运,现在的Pika、Runway在市场竞争处境也变得很艰难。

目前Sora产品没有公开,且不可编辑、时长也有限制,未来它也可以弥补这些不足。但到底技术迭代发展的曲线是陡峭还是平缓?还是不确定的,你今天说他很陡峭,难道他一直会很陡峭吗?Sora这条路,我认为如果做出来,更适合创意类视频生成。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1