“AI教母”李飞飞：Sora仍是二维图像，只有三维空间智能才能实现AGI｜钛媒体AGI独家

作者：钛媒体APP发布时间：2024-08-03

钛媒体App 8月2日消息，日前斯坦福大学举办的Asian American Scholar Forum论坛的一场闭门会上，有着“AI教母”之称的斯坦福大学教授李飞飞对钛媒体App独家表示，尽管美国OpenAI公司的Sora模型可以文生视频，但就本质而言，它仍属平面二维模型，没有三维立体理解能力，只有“空间智能”才是AGI未来方向。

李飞飞是在针对钛媒体创始人赵何娟提出的关于“空间智能”模型和大语言模型关系的问题讨论时，做出上述回应。她进一步解释称，现在的多数模型如GPT4o和Gemini 1.5，都依然还是语言类模型，即输入语言，输出语言，虽然也有多模态模型，但仍局限于语言，即便有视频，也是基于二维的平面图像。但未来要实现AGI的关键一环是“空间智能“，需要三维视觉模型。

她以Sora展示的“日本女性走过霓虹闪烁东京街头”的 AI 视频做例子。

“如果你希望算法换个角度，来展现这个女子走过街头的视频，比如把摄像机放在女子背后，Sora无法做到。因为这个模型对于三维世界并没有真正的深刻理解。而人类可以在脑海中想象女子背后的情景。”李飞飞表示，“人类可以理解在复杂的环境下如何活动。我们知道如何抓取，如何控制，如何造工具，如何建造城市。根本而言，空间智能是几何形状，是物体间的关系，是三维空间。空间智能是关于释放在三维空间生成（视觉地图）并推理和规划行动的能力。其应用是广泛的，比如用于AR 和VR，用于机器人，App的设计也需要空间智能。”

李飞飞向钛媒体App强调，“自然进化使动物理解三维世界，在三维空间生活、预判并互动。这种能力已有5.4亿年的漫长历史。当三叶虫第一次在水中看到光，它必须在三维世界中‘导航’。如果不能在三维世界中‘导航’，它将很快成为其他动物的大餐。随着进化的推移，动物的空间智能能力加强。我们理解形状，我们理解深度。”

现年48岁的李飞飞，是著名计算机科学家、美国国家工程院院士、美国国家医学院院士，并且在美国斯坦福大学以人为本的AI研究所担任负责人。她于2009年领导研发的ImageNet图片数据库和视觉识别大赛，对海量图片进行精准标注和分类，推动了计算机视觉的识别能力的进步，也是促成 AI 突飞猛进发展的关键因素之一。去年，她公布的VoxPoser成为具身智能（Embodied AI）发展中关键技术方向。

今年7月，李飞飞创办的AI公司 World Labs宣布完成两轮融资，投资方包括a16z（Andreessen Horowitz）等，公司最新估值已达10亿美元（约合72.6亿元人民币）。

7月底这场亚裔美国科学家论坛闭门会上，李飞飞的演讲也让更多人了解到Word Labs和她的“空间智能”发展理念到底是什么，即要让AI真正“从看到，到做到”。

如何实现从“看到”到“做到”

所谓“空间智能”，是指人们或机器在三维空间中的感知、理解和交互能力。

这一概念最早由美国心理学家霍华德·加德纳（Howard Gardner）在多元智能理论中提出，让在大脑中形成一个外部空间世界的模式，并能够运用和操作。实际上，空间智能让人有能力以三度空间的方式来思考，使人知觉到外在和内在的影像，也能重现、转变或修饰影像，从而能够在空间中从容地游走，随心所欲地操弄物件的位置，以产生或解读图形的讯息。

从广义上看，空间智能不仅包括对空间方位的感知能力，还包括视觉辨别能力和形象思维能力。而对于机器而言，空间智能则是指其在三维空间中的视觉数据处理能力，能够精准做出预测，并基于这些预测采取行动。这种能力使得机器能够像人类一样在复杂的三维世界中导航、操作和决策，从而超越传统二维视觉的局限。

今年4月举行的TED演讲上，李飞飞坦言，视觉能力引发了寒武纪大爆发，神经系统的进化带来了智能。“我们想要的不仅仅是能看会说的 AI，我们想要的是能做的 AI。”

在李飞飞看来，空间智能是“解决 AI 技术难题的关键法宝”。

7月底这场闭门活动上，李飞飞首先回顾了自10年前开始的现代 AI 三大驱动力：算法构成的“神经网络”，即“深度学习”；现代芯片，主要是英伟达GPU芯片；以及大数据。

自2009年以来，计算机视觉领域进入爆炸式进展。机器可以迅速认出物体，和人类的表现不相上下。但这只是冰山一角。计算机数视觉不仅可以识别静止的物体，跟踪移动的物体，而且可以将物体分成不同部分，甚至可以理解物体之间的关系。因此，基于图片大数据，计算机视觉领域突飞猛进。

李飞飞清晰地记得，大约10年前，她的学生Andrej Karpathy参与建立图释算法研究。他们给计算机展示一张图片，接着通过神经网络，计算机可以输出自然语言，比如说：“这是一只猫咪躺在床上。”

“我记得告诉Andrej，让我们反转一下。比如给一个句子，让计算机给出一张图片。我们都笑了，觉得可能永远不会实现，或者将在很远的未来实现，”李飞飞回忆说。

过去两年，生成式 AI 技术迅猛发展。特别是几个月前，OpenAI发布了视频生成算法Sora。她展示了她的学生们在谷歌研发的类似产品，质量非常好。这个产品在Sora发布以前几个月就存在了，而且所用的GPU（图形处理器）规模比Sora少很多。问题是，接下来AI将走向何方？

“多年来，我一直表示，‘看到’即为‘理解世界’。但是我愿意将这个概念推进一步，‘看到’不仅仅是为了理解，而是为了做到。自然界创造了像我们这样有感知能力的动物，但实际上从4.5亿年前，就存在这样的动物。因为这是进化的必要条件：看到和做到是一个闭环，” 李飞飞表示。

她用她最喜欢的猫咪作为例子。

一只猫咪、一杯牛奶、还有植物在桌子上的照片。当你看到这张照片时，你脑海里其实出现一个三维视频。你看到了形状，你看到了几何。

事实上，你看到了几秒钟前已经发生的事情，和几秒种后可能发生的事情。你看到了这张照片的三维空间。你在计划接下来做点什么。你大脑在运转，计算如何做才能拯救你的地毯，特别是这只猫咪是你自己的，地毯也是你自己的。

“我把这一切称作空间智能，也就是将三维世界做成模型，就物体、地点、事件等在三维空间和时间内等进行推理。在这个例子里，我谈的是真实世界，但也可以指虚拟的世界。但是空间智能的底线是将“看到”和“做到”联系在一起。有一天，AI将可以做到这一点，“李飞飞表示。

其次，李飞飞展示了基于多张照片重建的三维视频，然后她给出基于一张照片做的三维视频，这些技术都可用于设计中。

李飞飞表示，具身智能AI或者人形机器人，可以将把“看到”与“做到”形成闭环。

她表示，斯坦福大学的同事们和芯片巨头英伟达正在联合进行名为BEHAVIOR的研究，将家庭活动构建一个基准的动态空间，从而评估各种机器人在居家环境中的表现。“我们正在研究如何将语言模型与大型视觉模型相连接，从而可以指挥机器人制定计划并开始行动，“她说。她给出三个例子，一个是机器人在打开抽屉，另一个是机器人在将手机充电线拔掉，第三个是机器人在做三明治。所有指令均通过人类的自然语言给出。

最后，她给出一个例子，认为未来属于“空间智能”世界，人类可以坐在那里，带上一顶有传感器的EEG帽子，不用张嘴说话，仅靠意念远程告诉机器人：做一顿日式大餐吧。机器人收到意念后，解密意念，即可搞出全套大餐。

“当我们将‘看到’与‘做到’通过空间智能联系在一起后，我们即可做到。”她表示。

李飞飞还表示，过去20年，她见证了AI激动人心的发展。但是，她认为AI或者AGI的关键一环就是空间智能。通过空间智能，看到世界、感知世界、理解世界并让机器人做事，从而形成良性闭环。

机器人将接管人类吗？

李飞飞在会议上表示，今天人们对于AI未来可以做什么太过夸张。她警告，人们不要将野心勃勃的、勇敢的目标与现实混为一谈，人们听到太多这样的论调。

事实上，当前AI已经到达拐点，特别是大语言模型。“但是，它仍然是充满错误的、有限的技术，仍需要人类深度参与其中，需要人类理解它的有限性。现在非常危险的论调是所谓的人类灭绝的风险，即AI正在成为人类的机器主宰。我认为，这对社会非常危险，此类言论将带来很多意外后果。AI的局限性没有被人类充分理解。我们需要深思熟虑的、平衡的、没有偏见的关于AI的交流和教育，“李飞飞强调说。

李飞飞认为，AI应该扎根于人类。人类创造了它，人类正在发展它，人类正在使用它，人类也应该管理它。

李飞飞表示，在斯坦福大学“以人为本的AI “研究所，他们采取了三个对待AI的方式，包括个人、社区和社会三个层面：

在个人层面，必须参与并拥抱AI。这是一个文明的科技。AI改变孩子们如何学习，改变了医生如何使用诊断方法，改变了艺术家如何设计，改变了老师如何授课。不管是否为科技人员，均可以发挥自己的作用，用负责任地态度使用AI。
在社区层面，AI可向社区赋能，可满足社区的环境保护需求，或者农业需求。有些农业社区使用机器学习技术来检测社区水质。艺术家社区不仅在使用AI，而且表达了他们的担忧，以及如何解决问题、减轻风险的想法。
在社会层面，政府、研究机构、企业、联邦机构和国际机构均应该认真对待这项科技。存在能源问题，这会影响到地缘政治。仍有开源与非开源的大讨论，这影响到经济和生态。仍有管理的问题，比如AI的风险与安全等。必须采取积极的方式，一个多方参与的方式，一个全社会的方式。现在已经没有回头路，李飞飞表示。她2017至2018年在谷歌领导AI项目，在2020年至2022年担任推特的董事会成员，目前是美国白宫的AI顾问。

关于AI对于工作的影响，李飞飞分享了她的看法。

李飞飞指出，在斯坦福大学以人为本AI研究所内，有个数字经济实验室，由Erik Brynjolfsson教授领导。这个非常复杂的问题有很多层面。她特别强调，“工作”与“任务”是两个不同的概念，因为实际中每个人的工作都由多项任务组成。

她以美国护士作例子。据估计，在护士8个小时的班次中，任务数以百计。因此，当人们讨论AI接管或者取代人类的工作时，必须分清是在取代任务还是在取代工作？

李飞飞认为，AI改变了一个工作内的多项任务，因此也会逐渐改变工作的性质。在呼叫中心场景中，新手的工作质量被AI提高了30%，但是熟练人员的工作质量并未因AI而有所提升。斯坦福大学数字经济实验室的一篇文章呼应了李飞飞的观点，该文章的标题是：“AI不会取代经理的工作：使用AI的经理正在取代不使用AI的经理。”

李飞飞强调，科技会带来生产力的进步，但是生产力的进步并不会自动转化为社会的共同繁荣。她指出，历史上曾多次发生这样的事件。

（本文首发于钛媒体App，作者｜Chelsea_Sun，编辑｜林志佳）