这只是开始的结束

作者：经济观察报发布时间：2024-03-04

陈永伟/文

当地时间2月15日，美国科技公司OpenAI、Meta和谷歌不约而同地选择在这一天发布了自己的新模型（OpenAI的Sora、Meta的V-JEPA、谷歌的GeminiPro1.5），这让本已高度“内卷”的AI市场的竞争达到了白热化的程度。

三款模型中，Sora可以根据文本生成远比过去同类产品惊艳的视频；V-JEPA虽然在视频生成上的表现略逊于Sora，但却号称应用了非生成式的世界模型；而GeminiPro1.5作为一个多模态模型，其支持的上下文竟达到了惊人的1000万token（计算机运行中，文本处理的最小单位）。在如此集中的时间，AI技术竟然在三个不同的方向上取得了如此巨大的突破，实在令人惊叹。

在惊叹之余，一些老生常谈的问题又再次出现在了各大媒体。比如：这一场AI大战的终局会是如何？AI能力的突飞猛进，是否意味着“通用人工智能”（Artificial General Inteligence，简称A－GI）已经近在咫尺？在AGI到来之后，人类的命运又会走向何方？

这些问题十分重要，但是，如果我们对这些问题的讨论仅仅只是基于科幻式的想象，那么讨论本身也就会最终沦为空谈。相比之下，一种更为科学的讨论方式或许是：在思考这些新模型会带来什么影响之前，先从技术的角度弄清楚，这些模型究竟意味着什么。下面，我们就从这个理念出发，开始我们的探究之旅。

天空背后的秘密

尽管Sora、V-JEPA和GeminiPro1.5都十分亮眼，但从原创性角度看，前两款模型的重要性似乎是更为突出的，因为它们几乎可以被视为是通向AGI的两种主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5虽然也非常出色，但它本质上是其前作GeminiPro的升级，其突破性要稍逊一些。因此，如果要讨论新模型的影响，我们不妨将重点放在Sora和V-JEPA上。

那么，让我们先从外界关注度最高的Sora开始吧。从OpenAI公布的视频上看，这款以日文“天空”（空，そら）命名的模型表现确实非常突出：过去，文生视频模型通常只能生成几秒的视频，而Sora生成的视频则长达一分钟。不仅如此，它还可以在一定程度上呈现出因果关系和物理规律。比如，在一个视频中，画师下笔之后，纸上就出现了朵朵桃花；在另一个视频中，随着食客的一口咬下，原先完整的汉堡就缺了一角。对于类似的这些物体互相作用后改变形状的现象，过去的文生视频模型很难生成，而Sora却很好地实现了这一点。

出于维护其商业秘密的考虑，Ope－nAI在发布ChatGPT之后，就不再公布其产品的相关论文，这让完全破解Sora的秘密几乎成了不可能。好在OpenAI为Sora附上了一份简要的技术报告，对于了解技术概况，这份报告其实已经足够了。

按照报告，Sora在原理上可以被概括为“扩散模型+Transformer架构”的应用。

（1）扩散模型

说到扩散模型，相信很多人对这个词并不陌生。虽然这个模型的详细原理必须用数学公式才能说明，但简单来说，它可以被理解为一个降噪生成的过程。

喜欢看电视的读者想必都会有这样的经验：当电视信号遇到干扰时，原本的电视画面上就会出现一层不规则的雪花点。干扰信号越强，雪花点就越浓密。当干扰强到一定的程度，屏幕上就会只剩下雪花点。用数学的语言讲，这种在原本的图像上加入雪花点的过程就是“加噪”。

一开始，这种满是雪花点的画面会让人非常不适应。但只要看得多了，干扰的影响就会越来越小。即使电视屏幕上遍布雪花，人们也可以通过像素的运动，配合画外的声音，自动“脑补”出一幅幅清晰的画面。这样，他们的脑中就完成了一个“降噪”的过程。

为什么人脑可以开发出这样的“脑补”功能呢？归根到底，这还是一个训练的过程。当信号干扰不严重的时候，图形上的雪花并不多，这时人们可以很容易地结合先前的观看经验，联想出清晰的画面是什么样的。当人们对轻微干扰习以为常后，就可以进一步去适应更为严重的干扰——在脑中，他们可以先把被重度干扰的画面还原为轻度干扰，再将其还原为清晰画面。这样，只要观看经验足够，人们就可以在脑中训练出自动还原雪花点的功能。需要指出的是，在还原的过程中，额外信息的提示很重要。比如，面对一团模糊的雪花点，如果配上《敢问路在何方》，人们就很容易“脑补”出唐僧师徒四人跋山涉水的图像；而如果配上钢琴曲《TomandJer－ry》，他们“脑补”出的就可能是猫在追逐老鼠的场景。

上面这种从雪花点中“脑补”出图像的做法，我们也可以用AI来实现。具体来说，人们可以将大批的图片“投喂”给AI模型，然后再将这些图片“加噪”。机器通过将加噪前后的图片进行对比，就可以训练出从带噪的图片中还原出清晰图片的功能。当然，AI不可能完美复现出原图，只能根据它从样本中学习到的经验来尽可能对干扰进行修补。这时，它就已经在一定程度上具有了创作的能力。人们可以在此基础上不断加入更多的干扰，让模型从干扰中还原出图像的能力变得越来越强。最终，他们就可以得到一个能在完全由无规则雪花图上还原出图像的模型。由于还原的起点是彻底随机的，所以所谓的“还原”就变成了一种彻底的创作。要让AI明确应该往什么方向还原，就需要告诉它一定的提示词（prompt）。其道理就好像我们要从遍布雪花点的电视中“脑补”图像，需要有画外音的帮助一样。

上述这个降噪还原的过程，就是扩散模型的基本原理。随着生成式AI的火爆，它已经得到了十分广泛的应用。像MidJourney、StableDiffusion等文生图模型，Runway、Pika等文生视频模型，本质上都是扩散模型的应用。

在Sora之前，虽然已经有了不少基于扩散模型的文生视频的模型，但这些模型生成的视频时间都很短，呈现角度也比较单一。之所以会出现这样的问题，很大程度上是由于其训练数据导致的。受算力等因素的限制，目前用来训练文生视频的数据主要是一些时长较短的视频，这就导致了由此训练出的模型只能根据这些短小的视频来进行外推，其“脑补”能力也就受到了很大的限制。如果要生成长视频，就需要额外采用计算量巨大且速度缓慢的滑动窗口方法，从经济角度看，这是得不偿失的。

那么，Sora又是如何克服这些困难的呢？其奥秘就在于它很好地将Transformer和扩散模型结合了起来。

（2）Transformer架构

得益于GPT模型的火爆，作为其基础架构的Transformer的大名也早已被人们熟知。对于语言模型而言，Transformer是具有革命性的。过去，语言模型一直面临着一个很大的困难，即所谓的“长期记忆难题”。我们知道，一句话究竟是什么意思很大程度上取决于其上下文。比如，当某人说“我想买512G的苹果”时，他究竟是想要买一个内存为512G的苹果手机，还是想买512克的苹果，就需要看这句话出现在什么语境之中。因而，至少在理论上，要理解一句话是什么意思，就需要对其所在的整个文本进行解读。对于计算机来说，这是非常麻烦的。因为这意味着在处理文本时，只能用一种串行的方式来逐字进行解读，而难以采用并行的处理办法，处理的效率会被锁死在一定的水平。

如何才能打破这个瓶颈呢？一个思路是将句子拆分成一个个的词，分别识别出它们的含义。在完成了这些工作后，再将各词的意思整合起来，就可以得到这个句子的意思。但是，怎样才能保证对词的含义识别精准呢？那就要看一下它的相对位置。一般来说，距离一个词很近的几个词对其含义的影响是最大的。比如，如果在“苹果”这个词的附近，出现了“手机”、“芯片”等词，那么它多半就是指手机；而如果在它的附近，出现了“果汁”、“榨汁机”等词，那么它指的就多半是水果。对于一个特定的词，临近词对它的影响大小是不一的。比如，其前一个词对其含义的影响权重为0.5，其后一个词对其含义的影响为0.3。在AI中，这个权重就叫做“注意力”（attention）。通过对大样本数据的学习，AI模型可以对每一个词都给出一个完整的“注意力”表格。这样，当它再面对一个词的时候，就可以根据其在语段中与其他词的相对位置很快地识别出其最可能的含义，而不用在读完整个文本后再得出某个词的含义。通过这样的处理，AI模型就可以实现对语言模型的并行处理，从而让其处理效率得到大规模的提升。所谓的Transformer模型，就是基于以上注意力机制设计的机器学习架构。

（3）Sora是怎样工作的

虽然文生视频并不同于语言处理，但它们两者也有很多相似之处。在某种意义上，人们过去采用的文生视频技术有一点儿类似早期的语言处理，大致上是从一个画面出发，逐步根据初始的图去扩展后续的画面。很显然，这样的效率是相当有限的。怎么才能对其进行改进呢？一个现成的思路就是仿照Transformer的思路，将提示词的文本拆分，从每个词中去识别出相关的信息，并根据这些信息去标识出视频需要的空间和时间信息，即视频需要在什么时候出现什么样的图像。基于这些信息，再调用扩散模型来生成所需要的画面。在Sora当中，采用的就是这个思路。

具体来说，Sora在训练过程中会先用视频压缩技术将大量的视频材料进行压缩。经过这一步操作，庞大的视频资料就被还原成了一堆矩阵的特征值。尽管它们看起来杂乱无章，但其中却包含了关于视频变化的最重要信息。通过机器学习，模型可以将这些特征值与标识视频的文字建立起联系。这样一来，当它再看到某一个词的时候，就会猜出这个词意味着应该在哪个时间点出现怎样的画面。在Sora的技术文档中，这种标识时空信息的快照被称为“时空补丁”（Spacetimepatches）。在根据文字生成视频的过程中，Sora并不和早期的文生视频模型那样直接生成视频，而是先根据提示词翻译成一系列关于时空的信息。比如，“玫瑰逐步绽放”就可能被其解读为“在视频第一帧，出现一朵玫瑰；在下一帧，这朵玫瑰的花瓣长大了一些……”当然，这些信息都是由“时空补丁”来表现的。当有了这一系列的“时空补丁”后，就相当于为有待生成的视频搭起了框架。随后，再利用扩散模型，就可以在这些时空补丁的提示之下完成每一帧的图像。而这些图像加总在一起，就构成了完整的视频。

当然，为了保证生成视频的质量，Sora还在训练时对模型进行了很多的限制。比如，为了保证视频不违背物理规律，它专门植入了相关的知识图谱。但大致上，我们可以将Sora理解为扩散模型和Transformer结合的产物。

（4）或许算力才是重要的

通过以上介绍，我们可以看到，至少在原理上，Sora并不复杂。由于我之前对生成式AI下过一些功夫，所以在阅读它的技术报告时，也基本没有遇到什么困难。

不过，在读这份报告的过程中，我却总感觉报告中阐述的技术原理和之前读过的某篇论文十分相似。很快，我就在报告的参考文献中找到了这篇文章，就是OpenAI团队在去年3月发表的《基于Transformer的可扩展扩散模型》（ScalableDiffusionModelswithTransformers）。有很多网友也在第一时间发现了这一点，为此，一些人还将这篇论文的作者之一——谢赛宁，误认为了Sora的主要开发者之一，最后闹得谢赛宁本人不得不亲自出来辟谣。

在这篇论文中，早已提出了用Transformer架构来运行扩散模型的思路，即所谓的DiT。从原理上看，这几乎和Sora技术报告中公布的信息如出一辙。然而，从这篇论文给出的案例看，当时用DiT生成视频的效率和质量都完全无法和今天的Sora相比。那么，问题出在哪儿呢？凭借我个人的知识，实在是百思不得其解。直到几天之后，我在微信上看到了著名AI科学家李沐的一段评论，才恍然大悟。

李沐认为，Sora和一年前的DiT的关系，可能就好像GPT-3和GPT-2的关系。从模型的角度看，GPT-3和GPT-2并没有本质的差别，但不同的是，GPT-3的参数量要比GPT-2大得多，并且在训练GPT-3的时候，投入的算力也要比训练GPT-2时高出百倍。所谓“大力出奇迹”，很多研究已经表明，似乎正是在这种海量算力的投入导致了“涌现”现象的发生，让模型的性能出现了质的变化。有消息透露，Sora在训练时投入的算力也比之前训练几个DiT模型时高出了几百倍。如果这个消息属实，那么我们就可以猜想，此次Sora表现出的卓越性能其实也是涌现的后果——或许，这就是隐藏在天空背后的秘密。

生成模型还是世界模型？

（1）Sora真的懂它在干什么吗？

在对Sora模型进行了深入分析之后，我们可以得出结论：虽然Sora的性能确实比之前的模型有了巨大飞跃，但是，这种飞跃并非源自于原理上的变革，而是由巨大算力堆出来的另一个工程奇迹。

事实上，在最初的一轮热潮退去之后，不少更为中立的分析都表明，先前人们对Sora的革命性评价似乎有些过于高估了。比如，虽然根据Sora发布的画面，它已经拥有了一定的因果识别能力，但这种表现似乎更像是来自开发者对其事先设定的知识图谱，而并非来自模型自身能力的改进。正是因为这个道理，所以不少用Sora生成的画面还会出现很多不合逻辑之处。比如，在一个老妇人吹生日蜡烛的视频中，面对吹过的气流，蜡烛上的火焰竟丝毫没有受到影响；而在另外一个投篮的视频中，篮球竟在穿过篮筐之后发生了爆炸。很显然，这些情况在现实中是不可能发生的。这只能说明Sora模型本身还并没有能力自行判断出这些简单的道理。只要人们没有人为地植入知识图谱来进行引导，它就可能犯错误。如果这些判断是正确的，那么Sora模型所代表的技术路径可能就不那么乐观。因为在现实中，经验的规则是无穷无尽的，人们几乎不可能有能力将所有的规则都设定到模型当中。

相比于中立的评论，以图灵奖得主、Meta首席人工智能专家杨立昆（YannLeCun）为代表的一些专家对Sora的批评则更为激烈。在Sora发布之后，他就在社交媒体上对其进行了痛批，并断言Sora代表的技术路径必定失败。在圈外人士看来，杨立昆的这个批判完全是无理取闹，甚至多少有点儿有辱斯文。然而，圈内人对杨立昆的这个态度早已是见怪不怪了。从ChatGPT横空出世开始，他就在多个场合表示GPT模型，甚至更广义上的生成模型都不会是通向AGI的正确道路，最终注定不能成功。

（2）世界模型

那么，杨立昆眼中的AGI会通过怎样的技术路径实现呢？他给出的答案是“世界模型”（WorldModels）。

所谓“世界模型”，通俗地说，就是一种让机器能够像人类一样对真实世界有全面而准确的认知的模型。这个概念最早来自于德国的人工智能专家于尔根·施密德胡伯（JürgenSchmidhu－ber）。

在阐述“世界模型”的开创性论文中，他用了一副漫画来对这类模型的基本理念进行刻画。在漫画中，一个人正在骑车，而在他的脑海中，也在想象着一个骑车的人。事实上，这就是人们在日常生活中的行动方式。正所谓“意动形随”，我们在做出某个动作（不包括下意识的动作）之前，都会先在脑海中对这个动作进行模拟，然后再根据模拟的后果来行动。显然，要实现这一切，人们就必须对其所处的世界有相当的了解。类比到AI的语境中，这就要求在AI智能体中嵌入关于外部世界的内部模型，并以此来驱动其行为。

世界模型有何优势呢？

第一，从理论层面看，它才是可以真正做到理解事物的模型。尽管现在的很多大模型在功能上已经非常强大，可以在很大程度上模拟世界的运作，但从其运作机制上看，它们并不能真正地“懂”这个世界。虽然它们可以顺畅地和用户进行交互，并根据用户的要求完成各种任务，但它们所生成的内容本质上是基于和问题之间的概率关联产出的。例如，当你向ChatGPT说“你好”时，它会礼貌地回敬你一句“你好”，这让它看起来就像一个有礼貌的老伙计。但从底层程序看，它其实并不懂这个回应的含义，只是由于它从先前学习的数据中发现，人们在被人问好时会大概率选择以“你好”作为回应。在很多AI研究者看来，想要真正达到AGI，既需要“知其然”，更需要“知其所以然”。

第二，与生成模型相比，世界模型可以用更小的成本进行训练。我们知道，模型的训练是需要耗费大量的资源的，尤其是在训练AI去完成各种任务时，就需要让它不断重复完成这个任务。比如，要训练一个文生图模型，就需要让它不断地生成图片，再对这些图片的毛病进行纠错；要训练一个能自动打游戏的AI，就需要让它不断地打游戏，然后根据每场的得分状况进行复盘。但是，这样的训练都是必须的吗？对比一下人类的学习，就会发现情况可能并不是这样。以学习写作为例，我们当然需要写作一定量的文本，但在我们已经窥得一定的写作门径之后，在多数时候就未必把文章真的写出来，而只需要在脑中对文字不断地进行打磨。所谓的“打腹稿”，就是这个意思。容易看到，这种学习方式是要比不断写成文字要更为经济和高效的。

在世界模型的倡导者中，类似的过程被冠之以一个更为通俗的名字——“做梦”（dreaming）。当一个世界模型通过对样本数据的学习，总结出了一定的规律性知识后，它就可以抛开样本，通过“做梦”的方式来进行学习，从而让模型的效率得到提升。举例来说，施密德胡伯就在其论文中训练过一个会打《毁灭战士》（Doom）游戏的AI智能体。他首先对这个智能体输入了游戏的相关规则，并让其通过游戏训练建立了一定的游戏经验。这样，他就让这个智能体初步建立了关于游戏世界的认识。然后，他让智能体基于这些知识，通过“做梦”的方式进行训练。最终的测试结果表明，这确实可以让智能体获得不错的游戏表现。更为重要的是，其训练成本和训练时间都要比让智能体不断打游戏低得多。

第三，相比于生成模型，世界模型更易于调试，也可以做更好的外推。为了理解这一点，我们可以考虑一个例子，相信大家小时候画过画，比如，我小时候就特别喜欢画各种昆虫。然而，当我把画的虫子拿给大人看时，大人们经常会指出，我画的虫子的腿的数目不对——昆虫的腿有六条，但我有时会画成八条，有时会画成十条。在多次被大人指出这个错误后，我通过对昆虫进行了大量的观察，才终于悟出了原来昆虫的腿应该是六条，后来再画时，就再也没有画错昆虫的腿数。现在回想起来，我这个观察昆虫、自己总结规律，然后将它们画出来的过程，其实就类似于现在生成式AI的运作过程。虽然这也可以让我最终总结出正确的规律，“生成”出正确的内容，但这个过程是非常漫长和低效的。并且，这种基于经验和概率的知识非常容易出错。比如我在领悟出昆虫应该有六条腿这个道理后，就曾把蜘蛛画成六条腿。因为在我看来，蜘蛛和昆虫太像了，既然原来的昆虫都是六条腿，那么它也应该是六条腿。到后来上了学，学了生物的分类知识，才知道蜘蛛和昆虫并不是同类生物这些知识。如果将这个过程用AI的语言表示，那就是因为我已经掌握了世界模型，并用它来替代了原本的生成模型。

（3）Meta的世界模型

由于世界模型有上述的诸多优点，不少学者认为它才是通往AGI的正确道路。在主张世界模型的学者中，杨立昆就是最为坚定的代表。在实践中，他不仅极力对生成模型这种他眼中的“异端”大加批判，而且利用其在Meta的地位大力推动非生成式的世界模型的开发，并已经取得了一定的成就。

比如，在去年6月，杨立昆就带领其团队发布了一款名为I-JEPA的图形生成模型。所谓I-JEPA，是“基于图像的联合嵌入预测架构”（ImageJointEmbeddingPredictiveArchitecture）的简称。根据随模型发表的论文，I-JEPA模型放弃了被广泛采用的生成模型思路，转而用一种类似婴儿的方式来认识和理解世界，并基于这些学习到的认识来指导内容的生成。如前所述，生成模型的机理是将文字和像素之间的特征加以对应。举例说，如果要生成“一只正在晒太阳的大橘猫”，它们就需要先把这段文字进行拆解，找到每一个词最可能对应的像素颜色和位置，然后根据这些信息来拼接出一副图画。

然而，对于人来说，想象的过程并不是这样的。在看到“一只正在晒太阳的大橘猫”这段文字后，人们在脑海里首先浮现的是一只猫的形象，然后在这只猫的身上填上颜色，再调整其形态，最终形成对应的图像。类似的，I-JEPA模型在生成图片时，会根据它所理解的要求，将每个文字对应出一个抽象的形象，比如“猫”对应出一个猫的形象，“橘”对应出橘色，然后将这些信息组合起来，生成相关的内容。容易看到，相比于生成模型，I-JEPA模型的运作机理其实是更接近人类的，而这也是杨立昆本人最为自豪的。

在I-JEPA发布之后，杨立昆和Meta团队又进一步对视频生成模型进行了研发。本文开头提到的V-JEPA模型（它是“基于视频的联合嵌入预测架构”即VideoJointEmbeddingPre－dictiveArchitecture的简称）就是其最新结果。如前所述，客观上V-JEPA模型的表现也非常不错。但正所谓“不怕不识货，就怕货比货”，不知道是否是出于巧合，这个模型的发布时间正好选在了和Sora同一天，而Sora在视频生成方面的表现显然要比它更优。这款被杨立昆寄予厚望的模型不仅没有获得预想的好评，反而成了被群嘲的对象。

面对人们的嘲讽，这位高傲的图灵奖得主显然被激怒了。他在社交平台X上回应道：“我从未预料到，那么多从未对人工智能或机器学习做出任何贡献的人，其中一些人在达克效应（Dun－ning-Krugereffect，一种认知偏差）上已经走得很远，却告诉我，我在人工智能和机器学习方面是错误、愚蠢、盲目、无知、误导、嫉妒、偏见、脱节的……”

从这番回应可以看出，以杨立昆为代表的世界模型支持者并没有因当前的挫折而放弃自己的主张。恰恰相反，这可能会更加激发他们的创新动力，沿着他们相信的道路加速前进，从而让这个技术路线实现更多的突破。

坦然面对“奇点”

在通往AGI的道路上，生成模型和世界模型究竟谁会最终胜出？坦白说，在现在这个阶段，我们还很难得出结论。事实上，在AI发展史上，已经上演了很多次落后技术路径的赶超。不过，无论是哪种模型胜出，AGI的到来似乎都已经是非常近的事情了。

在2005年出版的《奇点将近》一书中，库茨维尔（RaymondKurzweil）曾预言人类将在2045年前后迎来“奇点”，届时AI的智能将全方位超越人类。而在最近即将出版的一部新书中，他已经将这个时间提前到了2029年。从目前技术发展的趋势看，这个预测似乎还算是比较客观的。而这对于人类而言，确实不算是一个好消息。

幸运的是，我们还有五年左右的时间。即使“奇点”到来无法避免，至少我们还能利用这段时间来为即将到来的新时代做一些准备。在这个过程中，我们有很多需要做的，而在这些待办事宜中，有两件是特别重要的：

第一件是要重新挖掘人本身的价值。通过前面的技术拆解，我们已经看到，虽然AI模型看似强大，但归根到底，它们都是由一些十分基本的原理支配的。支配生成式模型的是概率原理；世界模型虽然可以在一定程度上了解规律，并按照规律“做梦”，但它的想象空间在本质上还是受限于训练数据和预先设定的规则。相比之下，人的想象力则要自由得多。可以预见，当人的其他能力被AI赶超后，这种自由的想象力将会变得更为宝贵。当然，除了想象力之外，像情感、意志力、决断力等，也都是AI所不具有的。关于这些品质，我们应该更为珍惜。

第二件是要教好AI。无论AI会是以生成模型，还是以世界模型来实现AGI，它们的行为特点都在很大程度上受制于人们对其的输入。人们给它学习怎样的数据，设定怎样的规则，都会最终影响AI的行为。遗憾的是，现在我们看到，很多人出于各种目的，将暴力、种族歧视、极端思想等教给了AI，并在很大程度上带偏了AI的价值观。很显然，这并不是我们愿意看到的。

或许，“奇点”即将到来，但这绝不是人类的结束，甚至也不是结束的开始，这只是开始的结束。我相信，只要我们准备得当，人类必将会在AI的帮助下，迎来一个更美好的新时代。