当前位置:首页|资讯|Sora|AI大模型

科学家开发下一代视觉理解,有效性在Sora等模型中得到验证

作者:DeepTech深科技发布时间:2024-08-22

近几年,AI 大模型的诞生与发展,驱动智能化程度较高的文本聊天机器人切实地进入到人类生活和生产的方方面面,并给各行各业带来了崭新的变化。

然而,智能无法脱离感官,未来的 AI 也离不开视觉和感知能力的发展。因此,视觉智能有望成为引领 AI 的下一个突破点。

从目前来看,以 OpenAI 发布的 Sora 为代表的视频生成模型,已经成为新一代范式的开端。

但这只是起点。只有当视觉智能与虚拟现实、无人驾驶等一系列科技行业成功结合以后,其才能真正成为助推 AI 改变世界的关键一环。

美国纽约大学计算机科学助理教授谢赛宁,多年来一直致力于通过深度学习和机器学习技术,推动视觉智能领域的前沿研究。

他曾联合诸多合作者,在图像、视频、多模态等领域打造出多种具有影响力的模型和算法,例如下一代神经网络模型 ConvNeXt 和 DiT、可扩展插值 Transformer 模型 SiT,以及视觉多模态大模型 Cambrian-1 等。

凭借开发出下一代视觉理解和生成的基础架构,其有效性在 OpenAI 的 Sora 等模型应用中得到了验证,谢赛宁成为 2023 年度《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者之一。

从大卫·马尔的《视觉》一书说起

相较于视觉智能,计算机视觉是许多人更为熟悉的字眼。

不管是在计算机科学领域,还是在 AI 领域,后者都是一个较早出现的方向。它涉及到帮助计算机学会识别和处理图像数据,从而更好地执行面部识别、物体检测、图像分类等任务。

视觉智能这一概念更加宽泛,不仅涵盖计算机视觉技术及其应用,还包括如何让机器基于视觉数据做出智能决策。

简单来说,计算机视觉是实现视觉智能的基础技术之一。

要回顾计算机视觉的发展史,就不得不追溯到 1982 年,由计算神经科学创始人大卫·马尔(David Marr)撰写的《视觉》一书的面世。

在这本经典著作中,马尔更多地从编码科学和神经系统科学的角度出发,阐述人类视觉的运作机制和工作原理。

正是在该书的影响下,计算机视觉正式成为一门独立学科,而该领域的很多研究者也基于此提出各种各样的模型,尝试利用它们来解释人的视觉形成和运作原理。

而后,计算机视觉的发展开始以应用为主,出现了许多实际应用场景,包括人脸识别、无人驾驶、医疗保健等。

但那时的计算机视觉算法,既不能实现可扩展,也没有办法规模化,所以研究人员一直没有得到一个真正可应用的产品。

但这仍未阻止越来越多的研究人员继续研究计算机视觉。

2012 年,“ImageNet 时刻”的出现,让计算机视觉的发展迎来了一次重要转折。

需要说明的是,ImageNet 作为一个由美国斯坦福大学李飞飞教授等人创建的大规模图像数据库,包含大于 1400 万张标注过的图像,涵盖 21841 个类别。

在该数据集的影响下,以卷积神经网络为代表的深度学习算法,推动计算机视觉领域走向一个崭新的时代。

但是,因为真实的视觉世界是五彩缤纷且纷繁复杂的,所以通过人工标签进行学习的神经网络存在一个很大的缺陷,那就是无法实现对一个物体的真正理解。

例如,神经网络不能理解一把椅子之所以被称为椅子,究竟需要满足什么属性。其要想识别某物体是否为椅子,只能基于此前学习过的所有椅子的图片来进行判断,一旦遇到没有“见”过的椅子的样子,就无法给出正确的回答。

因此,让 AI 系统拥有和人类一样的真正智能,使其既能像人一样感知世界,又能在这个世界里进行复杂的推理和交互,是目前包括谢赛宁在内的研究者,正在探索的方向之一。

深耕视觉智能领域十余年,提出多种有影响力的模型和算法

谈及与视觉智能的最早结缘,谢赛宁表示是在大学时期。

2009 年,他通过学科竞赛被保送至上海交通大学计算机科学班(ACM 班)。

大二时期,他进入仿脑计算与机器智能研究(BCMI,Brain-like Computing and Machine Intelligence)实验室,开始接触基本的科研工作。

“BCMI 实验室里有很多书,大部分是神经科学方面的,其中就包括视觉智能。我随手抓了几本去看,然后对其中的内容产生了巨大的兴趣。”谢赛宁说。

譬如,一张照片的好与坏由什么来决定?照片中的信息是以什么方式存储的?为什么我们在观看照片时会产生相应的共鸣?

后来,在同实验室侯晓迪学长的鼓励和带动下,谢赛宁开始进一步了解视觉智能。

2013 年本科毕业后,谢赛宁来到美国加利福尼亚大学圣迭戈分校,并在这里先后取得硕士和博士学位,师从屠卓文教授。

在博士阶段,他主要参与了 ResNeXt[1] 和 HED[2] 的开发。

对于前者,他重点研究如何通过模块化设计增强模型的可扩展性和效率。该成果不仅优化了网络结构,显著提高在多个标准数据集上的性能,也成为了一些大规模视觉应用的基础架构。

其中,值得一提的是,ResNeXt 是谢赛宁在 Facebook AI Research(FAIR)实习期间完成的工作,而他也是知名 AI 科学家何恺明供职于 FAIR 时指导的第一个实习生。

HED 模型则专注于视觉领域的经典问题,即图像中的边缘检测。在该研究中,他与合作者探讨了如何在神经网络中得到多尺度特征,进而为后续的图像处理和分析提供更准确的基础。

博士毕业后,谢赛宁全职加入 FAIR 担任研究科学家。

期间,他参与 MoCo[3] 和 MAE[4] 两种自监督学习方法的开发。

MoCo 通过搭建动态字典来进行对比学习;MAE 利用自编码重构机制,从大规模未标记数据中学习有效特征,能够显著提高视觉学习效率和预测精度。

另外,他还与实习生共同开发下一代神经网络模型 ConvNeXt[5] 和 DiT[6]。

其中,ConvNeXt 作为一种纯粹基于卷积神经网络的设计,具有无注意力机制、分阶段结构等优点,无论是在准确性、可扩展性还是鲁棒性方面,都能与 Transformer 架构相媲美。

该成果也说明,即便是在 Transformer 主导视觉识别任务的当下,精心设计的卷积神经网络仍然具有强大的竞争力。

DiT 是一种高效率可扩展的图像生成框架,将 Transformer 应用于扩散模型中,可以有效提升图像生成的质量和效率。最终,该框架也在 Sora 的基础架构中获得应用。

前不久,谢赛宁还与团队基于 DiT 主干构建了可扩展插值 Transformer 模型 SiT[7]。

相较于标准的扩散模型,该模型能以更加灵活的方式实现两个分布之间的连接,从而模块化地研究各种设计选择对基于动力学传输构建的生成模型的影响。

实验结果证明,在 ImageNet 256x256 基准测试中,SiT 在使用完全相同的基底网络、参数数量和每秒浮点运算次数的条件下,性能全面超越 DiT。

从工业界转向学术界,助力 AI 系统惠及全人类

2023 年,谢赛宁从工业界来到学术界,并入职纽约大学担任计算机科学助理教授。

谈及做出这一决定的背后原因,他表示有多个方面,但最主要是因为 OpenAI 和大模型的出现,让工业界研究实验室的整个运作模式发生了转变。

“比如,在过去,像 FAIR 这样的机构,非常鼓励科学家进行独立且自由的探索,而 OpenAI 和它的 GPT 系列模型的成功,不可避免地给前者带来了一些压力,让其更倾向于通过更高效的方式分配资源。”谢赛宁表示。

在他看来,这种转变对公司来说是必然,但相比于跟随 OpenAI 的成功路径,他个人更希望在广阔的研究空间里,专注更多探索性的研究课题。

同时,他也非常喜欢与学生或年轻一代的研究者共同合作,能得到更多启发和满足感,但这对于工业界研究者来说是难以获得的。

此外,他认为,在学术界开展合作更加容易。

“我相信未来的 AI 研究一定不是一个单独的领域,它会连接世界上所有的东西,包括科学、艺术、创作、机器人等万事万物,并延伸至人类生活的方方面面。从这个角度来说,在学术界开展 AI 研究,有着得天独厚的优势。”谢赛宁说。

当下,谢赛宁主要致力于改进计算机视觉领域中的多模态理解和生成能力,以及探索这两者之间的联系。

一方面,多模态理解需要整合来自不同信息通道,如视觉、语言、听觉和触觉信息,以提升机器对复杂环境的理解能力。

另一方面,生成模型需要研究如何让机器自主生成高质量的图像和视频,以及探索如何才能学习到真实世界的客观规律。

“这些研究无疑是世界性的,因为它们所涉及的技术和解决方案,在全球范围内具有广泛的应用前景。所以,我希望通过研究它们来推动技术的边界,并为解决一些更具体的区域性问题提供技术基础和思路。”

而前不久他与图灵奖得主杨立昆(Yann LeCun)等人合作打造的视觉多模态大模型 Cambrian-1[8],正是该方面具有代表性的成果之一。

参考资料:

1.Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks.Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.https://doi.org/10.48550/arXiv.1611.05431

2.Xie S, Tu Z. Holistically-nested edge detection.Proceedings of the IEEE international conference on computer vision. 2015: 1395-1403.https://doi.org/10.48550/arXiv.1504.06375

3.He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning.Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 9729-9738.https://doi.org/10.48550/arXiv.1911.05722

4.He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners.Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.https://doi.org/10.48550/arXiv.2111.06377

5.Liu Z, Mao H, Wu C Y, et al. A convnet for the 2020s.Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 11976-11986.https://doi.org/10.48550/arXiv.2201.03545

6.Peebles W, Xie S. Scalable diffusion models with transformers.Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.https://doi.org/10.48550/arXiv.2212.09748

7.Ma N, Goldstein M, Albergo M S, et al. Sit: Exploring flow and diffusion-based generative models with scalable interpolant transformers. arXiv:2401.08740. https://doi.org/10.48550/arXiv.2401.08740

8.Tong S, Brown E, Wu P, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms.arXiv:2406.16860.https://doi.org/10.48550/arXiv.2406.16860

运营/排版:何晨龙


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1