陈沛/文过去一年ChatGPT为OpenAI带来了大量聚光灯关注,而Meta AI、Google DeepMind等科技大厂的优秀AI团队在追赶推出大语言模型的同时,他们也在多模态模型、机器人操控等领域持续发力,希望开辟人工智能应用于真实世界的新战场。
就在最近OpenAI发布Sora模型生成流畅长视频结果引发新一轮热潮的时候,Meta的AI领军人物、图灵奖获得者Yann LeCun也在同期牵头发布了视频模型V-JEPA的研究论文。不过,由于论文内容不像OpenAI展示生成视频那么直观,因此没有在社交媒体上获得广泛关注。
但是考虑到Meta在多模态AI领域的长期研究积累,我认为近期推出的V-JEPA模型仍值得关注。
V-JEPA是采用Yann LeCun 2022年提出的JEPA架构(联合嵌入预测架构)所推出的视频(视觉)版本模型,体现了Meta在实现高级机器智能愿景中的不同发展思路。
这种不同的发展思路源自Yann LeCun的学术路线选择。他一直对OpenAI所采用的Transformer架构和自回归方法嗤之以鼻,认为这种方法只是投入了海量的计算资源和人类反馈工作量来训练模型更好地预测下一个token,但是通过这种训练方式得到的生成式AI并不能理解真实世界。
而要让机器理解真实世界,必须让机器采用人的学习方法,自行观察真实世界的事物运行规律,在直观上理解抽象的概念,从而更高效的完成学习过程,并逐步演化出制定计划和完成复杂任务的能力。
回到V-JEPA模型本身,在它的架构中并不依赖于常见的图像编码器、文本和负样本或其它监督学习输入,而是完全采用自监督学习来预测特征目标。在训练中,V-JEPA也没有只是让模型预测随机遮蔽的少量像素,而是直接将输入图像的一大半都遮蔽掉,让模型自行学习和预测遮蔽部分的图像特征,提升模型的抽象概念理解能力。
在运作方式上,类似于Meta之前对大语言模型Llama进行开源的做法,Meta这次也提供了V-JEPA的代码和配置文件下载渠道。
虽然目前V-JEPA生成的分辨率还达不到Sora或主流AI视频模型的水平,但是考虑到Meta旗下Facebook、Instagram平台上具备的海量视频数据资源,预计Meta将会推动开源V-JEPA快速迭代,加快追赶Sora,回应市场对Meta的AI生成视频应用的期待。
从之前开源Llama到Llama 2语言生成能力快速迭代的过程来看,我预计再过6个月左右,Meta迭代后的新版开源视频生成模型,也将成为AI视频模型市场的主流选择之一。