出品 | 搜狐科技
作者 | 梁昌均
作为今年大模型最卷的赛道,国内外狂卷AI生成视频工具,但共性问题也不少。
一般来说,生成视频需要具备一致性、可控性、稳定性,但不少产品表现不佳。搜狐科技此前测评的多款产品,多多少少都均在类似问题。
清华系背景的“国产Sora”Vidu试图解决这一问题。9月11日,这家产品背后的公司生数科技举办媒体开放日,CEO唐家渝宣布上线主体参照功能。
简单来说,Vidu通过这一功能,可以锁定参考图片的主体形象,根据描述词任意切换场景,输出主体一致的视频。以人物为例,不仅能实现面部一致,还能保持整体形象,如衣着、风格等方面的一致。
唐家渝在与搜狐科技等媒体的沟通中提到,目前视频模型存在不可控的局限性,包括连续性弱、输出结果随机性大等,主体参照将是解决AI视频一致性生成问题的关键。
不过,他表示,一致性生成方面还有进一步提升空间,如对比较复杂的图案或结构,更复杂、更动态化的场景,生成成功的概率不高,同时还需要更好理解世界物理的规律。
“最主要的还是要让模型具有更强的通用智力,通过更大的参数量和更细节的算法技巧去提升。”唐家渝表示,这需要从模型底层去解决,而不是只靠上层微调之类的方案。
生数科技成立于2023年3月,核心团队成员来自清华大学人工智能研究院,该院副院长朱军即为公司首席科学家。目前,这家公司已获得百度、蚂蚁集团等机构融资。
这家公司在全球最早提出视觉生成模型的Diffusion与Transformer融合架构,2022年9月其早期团队成员就发布了以此为基础的U-ViT架构,早于Sora采用的DiT架构。
唐家渝认为,视觉类的生成架构,国内外的技术路线均已收敛到这一融合架构,目前还没有探索出特别好的方案。
但他强调,技术路线同质化并不代表能力相同。在架构基础上,中间还涉及到非常多的算法技巧、算法难点,包括工程化的难点,这些会带来差异性。“我认为还不能说国内已经完全领先,国内外头部玩家都属于第一梯队。”
目前,国内生成视频产品的时长多数都在10秒左右或更短。唐家渝认为,拓展视频生成时长,需要提升模型对世界的抽象理解能力、信息压缩能力和信息放大能力。
“时长产品化的难度,在于如何给用户一个比较好的体验。”他表示,视频时长在生数科技产品化的优先级中不是特别高。目前,Vidu模型支持最长生成32秒,但尚未上线。
对视频生成的商业化探索,唐家渝透露,主要有两种模式,一个是C端的SaaS订阅付费模式;二是API,即向B端输出模型能力(MaaS),公司已收到数万个API接入申请。
“目前我们的B端市场的收入更大,但C端的增长曲线也非常高。”他判断,B端会有比较明确、比较直接、比较稳定的需求,将是长期重点的方向。
从应用层面来看,目前AI生成视频仍主要是专业的视频创作者或爱好者,更广泛的非专业用户其实并未真正规模用起来。
唐家渝认为不会一直如此。“现在的AI视频来到了一个节点,我们正在努力降低创作者的门槛,加速创作过程。达到大众都很愿意去用的比较好的阶段,我预估就是今年底的时间。”
以下是对话精编:
一、视频生成技术已收敛,多模态的理解加生成还处于探索阶段
Q:Vidu底层是基于U-ViT架构,和Sora的DiT架构有何异同?现在有哪些新的技术架构出现?
唐家渝:都是Diffusion和Transformer的融合,底层的部分技术细节也相同。我们做了更多面向落地的优化设计,训练同一个模型时,相同时间下所需的算力更少。
目前视觉类的生成架构,比较公认技术路线已经收敛。行业也在探索一些新架构路线,看能否把多模态的生成和理解做结合,但目前为止还没有特别好的方案出现。
Q:现在国内视频大模型基本都是类Sora路线,这是否意味会处于同质化状态?
唐家渝:技术路线同质化并不代表能力都相同。在架构基础上,中间有非常多的环节,比如怎么有效地进行Scale up,视频如何有效压缩,生成的速度等,涉及到非常多的算法技巧、算法难点,包括工程化的难点,这些是导致差异性的主要原因。
商业方面,大家选择比较类似,Sora、Runway都在积极地拥抱好莱坞或广告,这些是天然比较好落地的领域。AI生成视频还在发展的前期,需要大家齐头并进,共同扩大市场。
Q:目前国内视频产品的时长都不长,时长突破上需要解决那些关键技术点?
唐家渝:生成时长的能力有多强,更本质地与模型对物理世界的理解和语义输入的理解能力相关。拓展生成时长,需要提升模型对世界的抽象理解能力、信息压缩能力和信息放大能力。
时长产品化的难度在于如何给用户一个比较好的体验,可能试好多次才能生成比较好的内容,做产业化就要做相关优化。目前视频时长在我们产品化的优先级中不是特别高,目前我们模型最长可以生成32秒,有计划将其扩展到更长。
Q:Sora当时出来后自称世界模拟器,但杨立昆不认为它能理解物理世界,他提出了实世界模型,您怎么看?
唐家渝:现在是数据驱动,同时也在加入知识,使得模型更好去理解世界。我觉得世界模型理论上大概就能达到,但前提是要定义世界模型到底是什么。
在我看来,世界模型应该如同人一样,能够很好地感知世界、预测世界,与环境直接、准确地交互。世界模型可以达到的状态,可以分为两个层次,第一个层次是具备对于复杂环境的理解和适应能力,但不一定确切地理解为什么。
第二个层次就是能够科学地、精确地理解和预测世界,能够推演出它完全没有见过的场景和变化。这里还会有更具有哲学层面的深层讨论空间,就是到底具备哪种层次对世界的抽象能力,才能被认定为“如同人类一样”。
Q:您对模态统一方面有怎样的预判?未来这些多模态会收敛吗?
唐家渝:我们现在是在多模态生成方面做到统一,未来能否有多模态的理解加生成统一的模型,无论是工业界还是学术界,都面临着很多难点。一派觉得会有,另一派认为目前应该更好地运用实际能力,所以它仍然处于探索的阶段。
我们最终目标是做通用大模型,我们底层大模型可以做文本、图像,包括3D、音视频的生成,只是目前重点放在视频。我们希望通用大模型能够精确地模拟世界,做到多模态的准确生成,视频生成算是中间的一个里程碑或节点。除了视频,我们也在做其它模态的生成能力。
二、B端会有比较确定性的需求,年底或能实现大众应用
Q:Vidu的商业化模式如何考虑?行业落地推进情况如何?
唐家渝:我们的商业模式有两种,一种是SaaS订阅模式,更多需求或使用更高级的能力,需要支付费用。第二种是API形式,即输出模型能力(MaaS),现在有很多客户需要有视频生成的能力,他们希望直接调用模型,目前在全球范围内已收到数万个API接入申请。
我们会看和视频的相关性,例如视频内容创作,以及天然与视频内容相关的领域,广告、游戏、短剧和影视等。我们还有一大批用户是海内外的C端应用公司,需要接入比较好的基础模型能力去支撑设计出来各种各种的玩法。
Q:目前C端和B端的收入占比是多少?哪部分的增长潜力更大?
唐家渝:目前阶段我们B端市场的收入更大,C端的增长曲线非常高。我们判断,B端有比较明确、比较直接、比较稳定的需求,是长期重点的一个方向,C端也会不断探索。
Q:国内不少视频产品都有出海,出海之后用户偏好和商业模式与国内有何不同?国内是否已经处于领先地位?
唐家渝:我认为还不能说国内已经完全领先,国内外头部玩家都属于第一梯队。从用户活跃度和覆盖人群来看,我们和Runway、快手比较类似。一方面面向专业创作者或本身有创作热情的爱好者,另一方面是偏更广泛的互联网用户。
Q:今年大模型公司还可以依靠技术和团队吸引融资,后面想要留在牌桌上,您觉得重点是什么?
唐家渝:技术仍是关键因素。目前的视频生成只是初步符合物理规律,还有很高的天花板需要突破,比如更强的模型能力以及更多模态的协同生成。从融资上来讲,我们的技术具有原创性和未来潜力,现阶段也已经开启良好的商业化前景。
Q:现在做AI视频的都是艺术家或专业人士,您预计什么时候可以普及到普通人?
唐家渝:我认为不会一直如此。就像拍照设备一样,从胶片开始玩,到现在主要使用手机拍摄。这个过程中,设备作为工具逐渐变得更加易用,使得更广泛的人能够使用。
现在的AI视频来到了一个节点,我们正在努力降低创作者的门槛,加速创作过程。达到大众都很愿意去用的比较好的一个阶段,我自己预估就是今年底的时间。
Q:专业的创作者通过剪辑较短的生成视频成片,但C端用户剪辑水平可能不够好,应该从哪个方向扩大应用性?
唐家渝:我们整体策略是将自己的长板做到足够长。现阶段我们不会设置剪辑工具,重点还是把专业性工具做的事情简化,去提升易用性。我们也会从底层模型更强的生成能力出发,比如通过端到端视频片段,实现中间自动化过渡。