当前位置:首页|资讯|AI大模型|人工智能

AI大模型专题:多模态,AI大模型新一轮革命(附下载)

作者:烟树晚雁发布时间:2024-02-20

原标题:AI大模型专题:多模态,AI大模型新一轮革命(附下载)

今天分享的是AI大模型系列深度研究报告:《AI大模型专题:多模态,AI大模型新一轮革命》。

(报告出品方:华福证券

报告共计:28

海量/完整电子版/报告下载方式:公众号《人工智能学派》

多模态或成为 AI 大模型主流

相比单模态,多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智 能助手,推动 AI 迈向 AGI:

1)多模态更符合人类接收、处理和表达信息的方式。 人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。

2) 多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输 入的支持,用户可以更灵活的方式与智能助手进行交互和交流。

3)多模态提升任务 解决能力。LLM 通过可以执行 NLP 任务,而多模态通常可以执行更大范围的任务。

目前,多模态大模型已成为大模型发展前沿方向。2022 年及之前,大模型处于 单模态预训练大模型阶段,主要探索文本模式的输入输出。2017 年,Transformer 模 型提出,奠定了当前大模型的主流算法结构;2018 年,基于 Transformer 架构训练的 BERT 模型问世,参数规模首次突破 3 亿;随后 GPT 系列模型推出,2022 年底至今 ChatGPT 引爆全球大模型创新热潮。步入 2023 年,大模型发展从文本、图像等单模 态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公 司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。 例如,2023 年 9 月,OpenAI 推出最新多模态大模型 GPT-4V,增强了视觉提示功能, 在处理任意交错的多模态方面表现突出。

多模态发展路径逐步清晰,底层技术日臻成熟

目前,多模态大模型发展路径逐步清晰。发展思路主要有三:

1)利用单模态模 型如 LLMs 来调动其他数据类型的功能模块完成多模态任务,典型代表有 Visual、 ChatGPT、Hugging GPT 等;

2)直接利用图像和文本信息训练得到多模态大模型, 典型代表有 KOSMOS-1 等;

3)将 LLMs 与跨模态编码器等有机结合,融合 LLMs 的推理检索能力和编码器的多模态信息整合能力,典型代表有 Flamingo、BLIP2 等。

多模态大模型底层技术日臻成熟,支撑实现多类信息融合与转换。

从技术架构来看,多模态大模型一般包括编码、对齐、解码和微调等步骤,逐 步整合多模态关联信息,输出目标结果。

1)编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态;

2)对齐:解决不同模态 编码器可能不能直接融合的问题,建立共同表示空间,将不同模态的表示统一,实现多个模态信息的有效整合;

3)解码:编码的反向过程,把模型的内部表示转化为 物理世界的自然信号,即输出人类可识别的信息;

4)微调:针对个性化如垂直行业大模型,重新训练大模型消耗算力成本较高,便可在预训练模型的基础上,通过在自有小数据集上的训练来适应新的任务,更好地提升大模型在下游特定领域能力。

文生图为最先成熟的多模态技术领域,其代表技术为 OpenAI 于 2021 年推出的 CLIP 模型。CLIP 使用约 4 亿从网页中爬取的图像-文本对数据进行对比学习,采用图像和文本双编码器,用于评估给定图像与给定文本描述的匹配程度,成为连接文 本和图像的桥梁。

目前,多模态底层技术不再局限于文本与图像两层信息,Meta-Transformer 可 同时理解 12 种模态信息。2023 年 7 月,香港中文大学多媒体实验室联合上海人工智 能实验室的 OpenGVLAB 研究团队提出一个统一多模态学习框架 Meta-Transformer, 实现骨干网络的大一统,具有一个模态共享编码器,并且无需配对数据,即可理 12 种模态信息, 并提供了多模态无边界融合的新范式。相比 CLIP、BEiT-3、Imagebind, 模态数目大幅增加,并且摆脱了多模态训练过程中对于配对数据的依赖性,为多模态学习提供了新路径。

报告共计:28页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1