李飞飞：押注“空间智能”是因看到了数据变化，世界的三维本质应成为表示核心

作者：搜狐科技发布时间：2024-09-23

出品｜搜狐科技

作者｜郑松毅

近日，“AI教母”李飞飞接受了美国风险投资公司a16z的采访，谈及AI发展现状、下一阶段挑战，以及自己为何押注“空间智能”。

李飞飞表示，“AI正处于‘寒武纪大爆发’阶段，自己已经从事这个领域超过20年，见证了AI从寒冬走向春天。”

“现在除了文本，还看到像素、视频、音频都开始与AI结合，这是一个令人非常兴奋的时刻。”

她回忆，自己是从物理学进入到AI领域的，物理学中对世界未解之谜大胆求解的训练让她对“智能”之谜产生了研究兴趣。

随后，李飞飞将大部分时间花在对数据和算法的研究上，尤其是在图像分析和处理领域。令她欣慰的是，正是这些方面的工作加速了生成式AI的诞生。

如今，已经颇有名气的李飞飞并未停止对前沿技术未解之谜的探索。

这一次，她押注“空间智能”领域，联合创办了“AI独角兽”企业World Labs。不到一年的时间，该公司估值已超10亿美元。

在她看来，无论是人类还是机器，学会如何看待这个世界、如何推理、如何与世界互动是至关重要的，而“空间智能”都在其中扮演着重要角色。

李飞飞坚信，“空间智能”将成为AI下一发展阶段的前沿技术方向，现在正是解锁这颗“北极星”潜力的最佳时机。

以下为精炼版访谈内容（经整理编辑）：

主持人：不是所有人都了解您进入AI领域的研究经历，能否给大家介绍下？

李飞飞：我是从物理学进入到AI领域的，物理是一门教你大胆思考的学科，比如对世界未解之谜求解，这些问题通常与原子世界、宇宙相关。

这些训练让我对另一个问题产生兴趣——智能。因此，我在加州理工学院做了 AI 和计算神经科学的博士研究。

主持人：具体是做什么研究？

李飞飞：在我读博时，AI在很多人眼里正处于寒冬，但在我眼中，这更像是春天前的冬眠时期，一切正在积蓄能量。

机器学习是深度学习的前身，我们实验了各种模型，直到后来我们发现有一个被忽视的AI因素在驱动着泛化能力，那就是数据。

我们当时专注于贝叶斯模型等复杂模型，而忽略了让数据驱动模型的重要性。这就是我们当初押注 ImageNet（视觉数据集）的主要原因。

当时所有领域的数据集规模都很小，计算机视觉和自然语言处理的标准数据集都是几千或几万条数据，但我们意识到需要提升到互联网规模。

幸运的是，那时也迎来了互联网的成熟期，我乘着浪潮到了斯坦福。

主持人：也许我们可以谈谈是什么关键因素让生成式AI得以实现，它和之前技术的不同之处在于什么？

李飞飞：这很有趣。实际上在我读研究生时，生成模型就已经存在了。

当时生成的概念更多存在于数学理论领域中，并没有起到任何作用，没有什么令人感到惊艳的作品。

我想用一位博士生的学习经历，来描述这个领域发展的轨迹。

他的第一个研究课题有关数据，尽管他没那么喜欢，但我强迫他继续做。

后来，我让他把研究方向转到深度学习，核心研究问题是如何根据图像中生成文字，概括来说有三个研究阶段。

第一阶段是将图像和文字匹配，看已存在的文字和图像之间的关联度，尝试从像素中生成文字。

中间阶段时看到一个非常著名的工作，一篇叫《神经算法的艺术风格》的论文由 Leon Gatys 领导发表，能将任何图片转换为梵高风格的图片，这令人吃惊。

在接下来的时间里，我们尝试复现这种算法，它的确最后能生成很多漂亮的图片，但我们不断改进算法希望提升它的生成效率。

最后在他博士毕业前，我们一起成功实现用自然语言生成完整图像，这可以说是最早的生成式AI工作之一。

从数据匹配到风格转换，再到图像生成，我们逐渐看到了一个完整的转变。对于大众而言，这个转变确实很具冲击力。

主持人：你正在做的World Labs项目与“空间智能”相关，能讲讲为什么要做这个吗？

李飞飞：空间智能是我的激情所在。我坚信，对于每一个有智能的存在，比如人类、机器人，或者其他形式的存在，学会如何看待这个世界、如何推理、如何与世界互动是至关重要的，空间智能都在其中扮演着基础性角色。

它和语言一样，都是基础能力。因此，World Labs的“北极星”，就是解锁空间智能，而现在是最佳时机。

如今，我们有更强的计算能力，并且对数据有更深度的理解。与之前相比，现在的我们更加成熟。

主持人：“空间智能”是如何定义的？

李飞飞：“空间智能”是智能体在三维空间中感知、推理、和行动的能力，了解物体在三维空间中的定位，从而让机器对三维、甚至四维物理世界有更好的理解。

主持人：所以它的作用不仅限于对真实物理世界的理解，还可以应用在虚拟世界的构建？

李飞飞：是的，这是我们的愿景。

主持人：为什么说现在是解锁“空间智能”的最佳时机？

李飞飞：除了刚才提到的，我想着重说说数据的变化。

我从长时间观察得出的结论是，过去十年主要是在理解已经存在的数据，而接下来的十年将会是理解新的数据。

过去的数据，是指网络上已经存在的图片和视频，而随着智能手机、智能传感器等新智能设备的出现，未来我们研究的数据将是全新的，并且可以在三维世界中定位。

这样来看，未来的图像识别和处理就不再是判断一张图是小猫还是小狗这么简单了，我们希望通过它帮助我们更好地理解物理世界。

主持人：能否再详细说说，“空间智能”和现在正火热的语言模型及多模态大模型的区别是什么？

李飞飞：语言模型和多模态大模型的底层表示都是“一维”的。不管是上下文长度、Transformer、序列、还是注意力机制，这些说到底都是基于一维的标记序列。

而“空间智能”是朝着另一个方向发展，我们认为世界的三维本质应该成为表示的核心。

你可以说多模态大模型也可以用来查看图像，但我认为它们在处理图像时没有将三维的本质置于其方法的核心。

主持人：“空间智能”的应用场景会有哪些？

李飞飞：我们设想的空间智能模型能做很多事情，不仅仅是生成一段文字或图片，而是生成一个完整的三维世界，可以用于游戏，也可以用于虚拟现实，应用领域极其广泛。

另一个巨大的应用空间是在机器人领域，从学习到行为，将机器人大脑与现实世界大脑搭建起来的桥梁只能是“空间智能”。

事实上，真实世界就是3D的，所以在数字世界中必须要有3D表示才能与真实世界融合，不能只用2D或1D与真实的3D世界交互。

我想，前沿技术的魔力就在于开辟了更多未知和可能性。我们会继续努力，把可能性不断扩大。

近期资讯

年轻人要警惕！19岁高中生患上阿尔茨海默病

9月20日消息，微博话题“19岁高中生患上阿尔茨海默病”冲上热搜榜。据媒体报道，首都医科大学宣武医院曾接待了一位19岁的阿尔茨海默病患者。据医生介绍，这名学生上课时难以集中注

振亭 2024-09-20

腾讯提醒勿为实况图重装微信：不小心会丢失微信聊天记录

快科技9月20日消息，微信昨天正式宣布，朋友圈支持实况照片了。不过目前并没有全量覆盖所有用户，依然在逐步覆盖中，导致很多想要晒图的用户并没有该功能。部分用户甚至为了发实况照片，重

建嘉 2024-09-20

卷轴屏迎战三折叠！三星祭出全新手机形态

近年来，手机市场的竞争愈发激烈，各大厂商纷纷推出创新产品，试图在市场中占据一席之地。自华为全球首发三折叠屏手机以来，科技圈掀起了一股折叠屏热潮，三折叠手机成为了年度最耀眼的科技创

2024-09-20

豪华大五座SUV！极氪7X上市发布会

豪华大五座SUV极氪7X将正式上市！

落木 2024-09-20

海拔3569米！国产大飞机C919首次从西藏起飞

快科技9月20日消息，据媒体报道，今日，中国商飞国产大飞机C919从海拔约3569米的拉萨贡嘎国际机场起飞，这是C919飞机首次从西藏起飞。9月19日，中国商飞一架C919从四川成都双流国际机场起飞，

拾柒 2024-09-20

30天无忧退换：亚光纯棉毛巾4.9元/条大促（京东9.9元）

天猫滨州亚光家纺旗舰店，亚光纯棉毛巾3条日常售价24.9元，下单领取10元优惠券，到手价14.9元，折合每条约4.9元。尺寸有30*60和32*70两款可选，克重有65、70、85g可选。另有115g款到手价为8

小晖 2024-09-20

超百人死亡！日本小林制药问题保健品损害健康原因已确认

快科技9月20日消息，据新华社报道，日本厚生劳动省18日证实，经实验确认，小林制药公司含红曲成分保健品原料中检出的软毛青霉酸是导致消费者肾功能障碍的原因，另两种当初“意想不到&rdquo

落木 2024-09-20

福岛核污水排海中国、日本达成4点共识！

9月20日，据中国外交部官网发布，中日双方就福岛第一核电站核污染水排海问题达成共识。2023年8月24日，日本政府单方面启动福岛第一核电站核污染水排海。中国作为最重要的利益攸关国之一，坚决

上方文Q 2024-09-20

销量坐火箭第20000辆吉利银河E5交车：李书福亲自交付

快科技9月20日消息，吉利汽车销售公司总经理范峻毅官宣，第20000台吉利银河E5今日交付，吉利汽车董事长李书福亲自出席交车仪式并交付新车给用户，此时距离该车上市仅过去了45天。同时其还表示

落木 2024-09-20

游戏科学声明：大量《黑神话》周边产品未获授权败坏口碑

快科技9月20日消息，今天是《黑神话：悟空》满月日，上个月20日游戏正式上线。根据VG Insights最新数据显示，《黑神话：悟空》在Steam平台上的销量已经达到了2000万份，总收入超过9.61亿美元（

建嘉 2024-09-20

李飞飞：押注“空间智能”是因看到了数据变化，世界的三维本质应成为表示核心

推荐体验

相关资讯

“AI教母”李飞飞：Sora仍是二维图像，只有三维空间智能才能实现AGI

“AI教母”李飞飞：Sora仍是二维图像，只有三维空间智能才能实现AGI｜钛媒体AGI独家

OpenAI员工相继离职，是看到了AGI的什么？

当ChatGPT接入siri，我终于看到了贾维斯的影子

“安全智能”的背后，Ilya 究竟看到了什么？

近期资讯

年轻人要警惕！19岁高中生患上阿尔茨海默病

腾讯提醒勿为实况图重装微信：不小心会丢失微信聊天记录

卷轴屏迎战三折叠！三星祭出全新手机形态

豪华大五座SUV！极氪7X上市发布会

海拔3569米！国产大飞机C919首次从西藏起飞

30天无忧退换：亚光纯棉毛巾4.9元/条大促（京东9.9元）

超百人死亡！日本小林制药问题保健品损害健康原因已确认

福岛核污水排海中国、日本达成4点共识！

销量坐火箭第20000辆吉利银河E5交车：李书福亲自交付

游戏科学声明：大量《黑神话》周边产品未获授权败坏口碑

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响