创造37项最强性能记录，港中大团队提出全模态预训练范式

作者：DeepTech深科技发布时间：2024-10-01

近年来，大语言模型受到了人们的广泛关注，例如 GPT-4o、LLaMA、Stable Diffusion 等。近期OpenAI 还发布了新模型 o1。

大规模预训练成为实现通用智能的、具有前景的途径之一。除了文本之外，多模态大模型（包括图像、音频、视频），是大模型最前沿的技术之一。

然而目前，学术界对于如何从仅包括文本-图像的预训练，到引入视频、音频具有四个模态预训练发展，还没有比较明确的解决方案。

发展大规模的图文音视频预训练，需要解决一系列挑战，例如多模态数据对齐、预训练范式和整体结构设计等。

从领域进展来看，此前，OpenAI 已开发多模态学习框架 CLIP，其通过大规模的图文配对数据进行训练，以学习视觉概念和文本描述之间的关联，并收集逾 4 亿个高质量的文本-图像对。

此外，Google 和 Meta 也分别开发了 SigLip 和 MetaCLIP。

然而，开发大规模的音视频预训练框架需要庞大的计算计算资源，学术界少有人研究，由于这一“深水区”里技术往往高度重要也极具商业价值，工业界对这部分的研究往往“三缄其口”。

其中，不可忽视的问题在于：

数据方面，图文与音频、视频或深度等多模态信息配对时，如何来收集数据并对其有效整合？

算法方面，多模态输入情况下，如何解决 Transformer 的计算效率？

香港中文大学和中国科学院等团队合作，受人脑从基础感知、认知到通用技能过程的启发，他们提出了一种名为多模态上下文（MiCo，Multimodal Context）的大规模全模态预训练范式。

它以人类学习知识的过程作为模型的通用训练思路，使 MiCo 能够在预训练过程中得以引入更多的模态、数据量和模型参数。

图丨大脑中的多模态认知过程启发了该研究中的设计（来源：arXiv）

基于 MiCo 预训练的模型在多模态学习中，表现出卓越的性能。

研究人员对 MiCo 进行了一系列测试，包括：10 种不同模态的单模态感知基准、25 种跨模态理解任务和 18 种多模态大模型基准。

结果显示，MiCo 共取得了 37 项最强性能（SOTA，State of the Art）的记录，与此同时，MiCo 全模态预训练的 1B 模型可以轻松超越图文预训练的 Intern-VL-6B 模型。

基本上可以认为 MiCo 是最强的开源预训练范式，涵盖最广泛数据模态，展示最强性能。

其通过大规模全模态预训练的模型可作为感知领域通用的编码模型，从而有望为多模态生成领域，提供一种更加合理、更加有效的评估量化指标。

日前，相关论文以《探索全模态预训练的局限性》（Explore the Limits of Omni-modal Pretraining at Scale）为题，发表在预印本网站 arXiv[1]。

香港中文大学博士生张懿元和中国科学院博士生李翰东是共同第一作者，中国科学院自动化所刘静教授担任通讯作者，香港中文大学岳翔宇教授是论文尾作。

图丨相关论文（来源：arXiv）

从人类感知和认识世界的过程来看，人眼能够看到连续的、持续的具有对应物理信息和物理规律的视频；耳朵能听到和解析对应的各种音频。

与此同时，人类将文字作为记录和传递信息的工具，并通过触摸、运动等能够对距离和形状具有天然的感知先验。

基于这些特性，得以学习和提升相关知识，从而逐渐具备各方面常识和通用技能。

AI 对于图片、音频等不同模态虽然能提供互补的信息，但由于具有模态的差异，基于通用框架让其对不同模态的理解充满挑战。

图丨全模态预训练（来源：arXiv）

研究人员将人类认知和认识世界的过程，“复刻”到对大模型的多模态训练中。

MiCo 通过构建多模态上下文，实现了不同模态之间的有效对齐和融合。这种上下文关系不仅增强了模型对单一模态数据的理解，还促进了跨模态的深入学习。

“我们将每种模态的特点与优势整体混合，来引导预训练模型，从而能够更清晰、更明确地理解不同类别信息之间的交互，以及其相互作用。最终，在整体上促进了对全模态的理解。”张懿元说。

图丨张懿元（来源：张懿元）

文本、图像、音频等不同的模态可以像人类那样提供互补信息，正因为这样，其对于多模态上下文的学习能够更全面、细致地理解数据。

此外，还可以利用每种模态的优势，引导模型理解不同类型信息之间的交互。

在该研究中，全模态数据量达到 3 亿，模型预训练的整体规模达到 10 亿参数级别规模。

张懿元表示，在该范式作用下，大模型会整体变得更加通用和更加类人。未来的研究中，将争取得到更高的算力和更高效的算法等资源支持，并探索多模态的尺度规律，以发现更多突破的可能性。

MiCo 中多模态上下文预训练算法是 AI 模拟人脑多模态认知的一次重要尝试，未来有望基于此开发出更强大的全模态基础模型。

该课题组希望在下一个研究阶段中，将模型参数量提升 10 倍，以与主流使用的商用大模型进行比较和提升。

“希望能够早日开发出中国自研的商用大模型，这也是国际科技竞争中重要的一环。”他说。

参考资料：

1.https://arxiv.org/pdf/2406.09412

2.https://invictus717.github.io/MiCo/

3.https://github.com/invictus717/MiCo

排版：朵克斯

相关资讯

生物世界 2023-07-24

如何把物理知识塞给AI？EIT和北大团队提出「规则重要性」概念

编辑 | ScienceAI深度学习模型因其能够从大量数据中学习潜在关系的能力而「彻底改变了科学研究领域」。然而，纯粹依赖数据驱动的模型逐渐暴露出其局限性，如过度依赖数据、泛化能力受限以及与物理现实的一致性问题。例如，美国OpenAI公司开发的文本到视频模型Sora因深刻理解事物在现实中的存在方式而受赞誉，被视为AI领域的飞跃。尽管能利用大量视觉数据生成逼真图像和视频，Sora却被认为未掌握物理定律，如重力和玻璃破碎等。面对这一问题，将人类知识融入深度学习模型是一个潜在的解决方案。将先验知识与数

北大深度学习 OpenAI Sora

MS杨站长 2024-03-16

专业回血大团队

专业回血大团队《罔f c 5 8 .v i p》【企鹅Q176-5485】如果你是刚刚玩,我来教教你,如果你已经玩很久了,却不稳,我来拉拉你,如果你已经遍体鳞伤,我来帮帮你。用我们真诚的微笑，换取您对我们的满意。用我们真诚的微笑，换取您对我们的满意。同样即时设计的AI工具即时AI是一种全新的AIGC工具，可以通过自然语言描述在60s内生成高质量、高细节的Mobile/Web页面原型设计，适当的效率之王。即时AI的操作非常简单，只要模型选择完成后，就可以在文本框中输入网页描述，可以是“类似XX的页面”，也

AIGC

koIw2q2nXR 2024-02-27

近期资讯

深入浅出React中的refs

React 的众多优点之一是它抽象了处理真实 DOM 的复杂性。现在，我们无需手动查询元素、绞尽脑汁思考如何为这些元素添加类又或者是添加样式等，也无需为浏览器兼容性而苦恼，只需编写组件并专注于用户体验

夕水 2024-09-26

【css】隐藏页面元素

前端在CSS中，隐藏页面元素怎么实现，每种方式都有其特定的用途和效果。display，visibility、opacity方法。

半花 2024-09-26

深入探索 Vue 的响应式系统：实现原理与应用场景

### 前言 Vue 作为一个现代化的前端框架，其核心竞争力之一是 **响应式系统**，通过数据驱动视图的更新，使得开发者可以更高效地构建用户界面。然而，Vue 的响应式系统背后的原理却常常被忽视或

lucifer311 2024-09-26

Spring Boot 接入 Payoneer 支付

前言 Payoneer 是一个全球支付平台，支持多种支付方式，包括信用卡、借记卡、电子钱包等。在本文中，我们将介绍如何在 Spring Boot 应用程序中集成 Payoneer 支付，并实现常用的支

JustinNeil 2024-09-26

浏览器是否支持webp

WebP 格式简介 WebP 是由 Google 开发的一种现代图像格式，旨在提供更高效的图像压缩，同时保持较高的图像质量。WebP 支持有损压缩和无损压缩两种模式，并且还支持透明度和动画，使其成为

Struggle_zhu 2024-09-26

LBS 开发微课堂｜点聚合插件全新上线：聚合形式更多样，可视化表达更丰富

地图点聚合技术在多个行业有着广泛应用，它能将大量的地理数据点聚合成簇，能够有效提提升数据的可视化效果和用户体验。

百度地图开放平台 2024-09-26

Vue “sass-loader” 版本问题导致编译错误

项目开发前期需要花大量时间构建我们的项目，其中安装项目依赖就是其中比较重要的一个环节。通过官网推荐的cil方式快速的构建项目框架，剩下就是需要安装我们所需要的依赖包，Vue2构建项目在初始化时需要安装

我不是那个谁谁 2024-09-26

Android源码分析：系统进程中事件的读取与分发

之前分析的是从InputChannel中读取Event，并且向后传递，进行消费和处理的过程。本文继续来分析在系统进程侧，IMS如何启动，如何读取事件，以及如何将事件分发给客户端的。

码农明明 2024-09-26

Android14 WMS/AMS 窗口层级结构解析

0. 理解图层（图片来自 https://www.jianshu.com/p/b0ef7c04486d）在很多的图形相关的软件中都有图层的概念，那什么是图层呢？简单的说，可以将每个图层理解为一张

阿豪讲Framework 2024-09-26

Telegram收不到验证码怎么解决8个处理方式

在使用Telegram时，许多用户可能会面临一个烦恼的问题，那就是“Telegram收不到验证码”。如果您也在困扰于这个问题，不妨看看以下的8个处理方式，帮助您顺利解决“Telegram收不到验证码”

AokSend邮件API珠 2024-09-26

创造37项最强性能记录，港中大团队提出全模态预训练范式

推荐体验

相关资讯

港中文团队提出大模型元推理范式，革新大模型的评价体系

将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

MIT团队提出生成式AI模型，无需预训练，可从头生成新蛋白质

如何把物理知识塞给AI？EIT和北大团队提出「规则重要性」概念

专业回血大团队

近期资讯

深入浅出React中的refs

【css】隐藏页面元素

深入探索 Vue 的响应式系统：实现原理与应用场景

Spring Boot 接入 Payoneer 支付

浏览器是否支持webp

LBS 开发微课堂｜点聚合插件全新上线：聚合形式更多样，可视化表达更丰富

Vue “sass-loader” 版本问题导致编译错误

Android源码分析：系统进程中事件的读取与分发

Android14 WMS/AMS 窗口层级结构解析

Telegram收不到验证码怎么解决8个处理方式

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响