随着人工智能技术的不断发展,机器学习作为其中的核心分支,已经取得了令人瞩目的成果。然而,传统的机器学习主要依赖于单一模态的数据,如文本、图像或音频等,忽略了不同模态数据之间的丰富信息和互补性。为了充分利用多模态数据中的信息,多模态机器学习应运而生,成为了人工智能领域的一个研究热点。
北京中烟创新科技有限公司(简称:中烟创新)是一家行业领先的人工智能科技公司,以通用人工智能为基础,专注于生成式人工智能大模型与人机协同应用场景深度融合,赋能智慧金融、智慧烟草、智慧电力、智慧零售、智慧制造等应用场景,为客户提供数字化、智能化的人工智能服务,为千行百业的客户群体提供以人工智能技术为核心的行业解决方案。
什么是多模态学习?
首先我们要了解什么是“模态”?模态是指一些表达或感知事物的方式,每一种信息的来源或者形式都可以成为一种模态。如人体有触觉、听觉、嗅觉;信息的媒介有语音、视频、文字;多种多样的传感器,如雷达、红外、加速计等。多模态,亦即从多个模态表达或感知事物。通常主要的研究模态为文本、语音和视觉。
相较于单模态,多模态有什么优势呢?首先,在相同条件下收集的多模态数据使得后续的分析预测更加鲁棒。其次,多模态数据相较于单模态数据提供了更加完备互补的信息。最后,多模态系统能够处理部分模态数据缺失的状况。单模态系统在模态数据缺失时会失去功能,例如在人物不说话的时候,单模态的语音情感识别模型无法分析人的情感;在面部被遮挡的时候,单模态的表情情感识别模型无法分析人的情感,而融合语音和面部表情的多模态分类器可以解决以上两种状况。
多模态涉及多模态学习、多模态交互、多模态搜索等多个方面,本文中主要探讨多模态学习。
多模态学习是指利用来自不同模态的数据进行机器学习,这些数据可以包括文本、图像、音频、视频等。多模态学习的目标是结合不同模态的数据,挖掘出它们之间的内在联系和互补信息,以提高机器学习模型的性能和泛化能力。
多模态学习的原理?
多模态学习主要分为模型无关和模型相关。模型无关的划分不依赖于特定的机器学习算法,主要关注模态的融合阶段;模型相关的划分则关注特定类型的机器学习算法。
模型无关多模态学习是最早的研究内容,优点在于可以使用任意单模态分类器或者回归器实现。模型无关的多模态学习分为早期融合、后期融合以及混合融合三类。早期融合通过利用模态之间的相关性和交互性从特征层出发进行表示学习,常见方法有串接和主成分分析。早期融合在训练阶段只需要一个模型,相较于后期融合和混合融合更简单。然而当模态存在缺失或者模态不配对时,早期融合无法很好利用该模态信息。后期融合在模型决策阶段进行融合,为每一个模态训练一个模型,可以轻松处理模态缺失的问题。然而后期融合忽略了模态之间低层语义的相关关系。混合融合结合早期融合和后期融合,可以解决模态缺失和利用模态低层语义的相关关系,在多媒体事件检测等领域取得的成功应用。
由于模型无关的多模态学习很容易使用单模态方法实现,没有针对多模态数据进行方法研究,因此并不能很好的捕捉多模态的联合表示方式。模型相关的多模态学习从模型角度入手对多模态数据进行研究,主要有三类方法:基于核方法的、基于概率图模型的和基于神经网络的方法。这三类方法的原理不在此细究。
多模态学习的优点?
Jeff Dean在2019年年底NeurIPS大会上提到机器学习趋势:多任务和多模态将成为突破口。多模态是未来机器学习的趋势,因为它具有以下优点:
信息丰富性:不同模态的数据提供了丰富的信息,如文本描述了事物的概念和属性,图像展示了事物的外观和结构,音频则反映了事物的声音和节奏。结合这些信息,可以更全面地了解事物的本质和特征。
互补性:不同模态的数据在某些情况下可能存在噪声或缺失,而多模态学习可以利用其他模态的数据进行补充和纠正,从而提高模型的鲁棒性和准确性。
泛化能力:多模态学习可以帮助模型学习到不同模态数据之间的共同规律和模式,从而增强模型的泛化能力,使其能够处理更多样化和复杂的数据。
多模态机器学习的挑战与解决方法?
虽然多模态学习具有巨大的潜力,但在表征和特征融合等方面仍存在一些问题,我将其分为了五大挑战:
特征表达。通过多模态特征的互补性,有针对性选择和设计相应的模型和算法来表达多模态数据。但多模态数据的异构型使得构造这种语义统一的表达具有较大的挑战性。例如,纯文本大多形式是助记符,但音频和视觉数据表达形式却是信号。
映射。它实现将数据从一种模态关联到另一种模态。不仅数据异构,在大多情况下不同模态之间的关联是通过人的主观从语义角度认定的关联。因此这种人为认定的关联,常被按照人为理解的方式关联在一起,而这种关联方式未必是最优的。
同步。将来自两个不同模态数据中的相应部分的同步,难以对齐。例如,希望将视频与需要同步的字幕文本对齐。为了解决这个对齐问题,需要考察不同模态之间的相似性,而选择合适的相似性度量标准也是一个挑战。
融合。将多个模态的信息融合起来完成预测。因不同模态的数据可能具有不同的信息量和噪声,带有不同信息量的数据之间的融合可能导致预测能力下降。
协同学习。这个挑战主要在于模式、表达和预测模型之间传递知识。协同学习有助于在一个不同的的模态上计算另一个模型。
为了解决这些挑战,我们需要不断优化数据获取与处理流程、涉及高效的融合策略、充分利用深度学习技术,以解决多模态学习在表征、对齐、融合等方面的难题
多模态学习的应用前景?
多模态学习能够应用在具有同源不同视角数据的应用场合:视听语音识别、 图像标注、行为检测、跨模态检索、跨模态哈希、视频跟踪等。
视听语音识别:最早的多模态学习应用是视听语音识别,现在最新的应用是视频标注,它可以根据视频,生成视频对应的文本描述。
跨模态检索:随着文本、图像、视频、音频和三维模型等多媒体数据的快速增长,跨媒体检索越来越具有吸引力,用户可以通过这些数据获得不同的结果。通过输入众多媒体类型的任一种类型输入作为查询条件,检索得到同一类型或者不同类型但语义匹配的异构的媒体数据。
总结
多模态机器学习作为人工智能领域的一个重要分支,具有广阔的应用前景和巨大的发展潜力。随着技术的不断进步和应用场景的不断拓展,多模态学习将在未来发挥更加重要的作用,推动人工智能技术的不断创新和发展。