当前位置:首页|资讯

李飞飞:押注“空间智能”是因看到了数据变化,世界的三维本质应成为表示核心

作者:搜狐科技发布时间:2024-09-23

出品|搜狐科技

作者|郑松毅

近日,“AI教母”李飞飞接受了美国风险投资公司a16z的采访,谈及AI发展现状、下一阶段挑战,以及自己为何押注“空间智能”。

李飞飞表示,“AI正处于‘寒武纪大爆发’阶段,自己已经从事这个领域超过20年,见证了AI从寒冬走向春天。”

“现在除了文本,还看到像素、视频、音频都开始与AI结合,这是一个令人非常兴奋的时刻。”

她回忆,自己是从物理学进入到AI领域的,物理学中对世界未解之谜大胆求解的训练让她对“智能”之谜产生了研究兴趣。

随后,李飞飞将大部分时间花在对数据和算法的研究上,尤其是在图像分析和处理领域。令她欣慰的是,正是这些方面的工作加速了生成式AI的诞生。

如今,已经颇有名气的李飞飞并未停止对前沿技术未解之谜的探索。

这一次,她押注“空间智能”领域,联合创办了“AI独角兽”企业World Labs。不到一年的时间,该公司估值已超10亿美元。

在她看来,无论是人类还是机器,学会如何看待这个世界、如何推理、如何与世界互动是至关重要的,而“空间智能”都在其中扮演着重要角色。

李飞飞坚信,“空间智能”将成为AI下一发展阶段的前沿技术方向,现在正是解锁这颗“北极星”潜力的最佳时机。

以下为精炼版访谈内容(经整理编辑):

主持人:不是所有人都了解您进入AI领域的研究经历,能否给大家介绍下?

李飞飞:我是从物理学进入到AI领域的,物理是一门教你大胆思考的学科,比如对世界未解之谜求解,这些问题通常与原子世界、宇宙相关。

这些训练让我对另一个问题产生兴趣——智能。因此,我在加州理工学院做了 AI 和计算神经科学的博士研究。

主持人:具体是做什么研究?

李飞飞:在我读博时,AI在很多人眼里正处于寒冬,但在我眼中,这更像是春天前的冬眠时期,一切正在积蓄能量。

机器学习是深度学习的前身,我们实验了各种模型,直到后来我们发现有一个被忽视的AI因素在驱动着泛化能力,那就是数据。

我们当时专注于贝叶斯模型等复杂模型,而忽略了让数据驱动模型的重要性。这就是我们当初押注 ImageNet(视觉数据集)的主要原因。

当时所有领域的数据集规模都很小,计算机视觉和自然语言处理的标准数据集都是几千或几万条数据,但我们意识到需要提升到互联网规模。

幸运的是,那时也迎来了互联网的成熟期,我乘着浪潮到了斯坦福。

主持人:也许我们可以谈谈是什么关键因素让生成式AI得以实现,它和之前技术的不同之处在于什么?

李飞飞:这很有趣。实际上在我读研究生时,生成模型就已经存在了。

当时生成的概念更多存在于数学理论领域中,并没有起到任何作用,没有什么令人感到惊艳的作品。

我想用一位博士生的学习经历,来描述这个领域发展的轨迹。

他的第一个研究课题有关数据,尽管他没那么喜欢,但我强迫他继续做。

后来,我让他把研究方向转到深度学习,核心研究问题是如何根据图像中生成文字,概括来说有三个研究阶段。

第一阶段是将图像和文字匹配,看已存在的文字和图像之间的关联度,尝试从像素中生成文字。

中间阶段时看到一个非常著名的工作,一篇叫《神经算法的艺术风格》的论文由 Leon Gatys 领导发表,能将任何图片转换为梵高风格的图片,这令人吃惊。

在接下来的时间里,我们尝试复现这种算法,它的确最后能生成很多漂亮的图片,但我们不断改进算法希望提升它的生成效率。

最后在他博士毕业前,我们一起成功实现用自然语言生成完整图像,这可以说是最早的生成式AI工作之一。

从数据匹配到风格转换,再到图像生成,我们逐渐看到了一个完整的转变。对于大众而言,这个转变确实很具冲击力。

主持人:你正在做的World Labs项目与“空间智能”相关,能讲讲为什么要做这个吗?

李飞飞:空间智能是我的激情所在。我坚信,对于每一个有智能的存在,比如人类、机器人,或者其他形式的存在,学会如何看待这个世界、如何推理、如何与世界互动是至关重要的,空间智能都在其中扮演着基础性角色。

它和语言一样,都是基础能力。因此,World Labs的“北极星”,就是解锁空间智能,而现在是最佳时机。

如今,我们有更强的计算能力,并且对数据有更深度的理解。与之前相比,现在的我们更加成熟。

主持人:“空间智能”是如何定义的?

李飞飞:“空间智能”是智能体在三维空间中感知、推理、和行动的能力,了解物体在三维空间中的定位,从而让机器对三维、甚至四维物理世界有更好的理解。

主持人:所以它的作用不仅限于对真实物理世界的理解,还可以应用在虚拟世界的构建?

李飞飞:是的,这是我们的愿景。

主持人:为什么说现在是解锁“空间智能”的最佳时机?

李飞飞:除了刚才提到的,我想着重说说数据的变化。

我从长时间观察得出的结论是,过去十年主要是在理解已经存在的数据,而接下来的十年将会是理解新的数据。

过去的数据,是指网络上已经存在的图片和视频,而随着智能手机、智能传感器等新智能设备的出现,未来我们研究的数据将是全新的,并且可以在三维世界中定位。

这样来看,未来的图像识别和处理就不再是判断一张图是小猫还是小狗这么简单了,我们希望通过它帮助我们更好地理解物理世界。

主持人:能否再详细说说,“空间智能”和现在正火热的语言模型及多模态大模型的区别是什么?

李飞飞:语言模型和多模态大模型的底层表示都是“一维”的。不管是上下文长度、Transformer、序列、还是注意力机制,这些说到底都是基于一维的标记序列。

而“空间智能”是朝着另一个方向发展,我们认为世界的三维本质应该成为表示的核心。

你可以说多模态大模型也可以用来查看图像,但我认为它们在处理图像时没有将三维的本质置于其方法的核心。

主持人:“空间智能”的应用场景会有哪些?

李飞飞:我们设想的空间智能模型能做很多事情,不仅仅是生成一段文字或图片,而是生成一个完整的三维世界,可以用于游戏,也可以用于虚拟现实,应用领域极其广泛。

另一个巨大的应用空间是在机器人领域,从学习到行为,将机器人大脑与现实世界大脑搭建起来的桥梁只能是“空间智能”。

事实上,真实世界就是3D的,所以在数字世界中必须要有3D表示才能与真实世界融合,不能只用2D或1D与真实的3D世界交互。

我想,前沿技术的魔力就在于开辟了更多未知和可能性。我们会继续努力,把可能性不断扩大。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1