封面新闻记者 欧阳宏宇
AI大模型技术已全面落地一年多,人工智能在感知人类情感方面发展到什么程度了?
近日,在2024年国际人工智能联合会议大会上,第二届多模态情感识别挑战赛(MER24)落幕,在参赛队伍最多且难度最高、竞争最激烈的SEMI(半监督学习)中,Soul Al、BZL arc06以及北邮和北理工(BUPT-BIT)三个研究团队的多模态AI大模型分获前三名。
据介绍,该赛事主要通过文本、音视频等多模态数据来进行AI情感识别测试比拼,旨在推动相关技术在真实人机交互场景中的落地应用。比赛设置了SEMI(半监督学习)、NOISE(噪声鲁棒性)、OV(开放式词汇情绪识别)三个赛道,共吸引了来自知名高校、科技企业等近百支参赛队伍。
一直以来,多模态情感识别在人工智能领域都是一个活跃的研究课题,主要目标是整合多种模态来识别人类的情绪状态。让AI“理解”人、实现有情感的人机交互已经成为学界、科技领域关注的焦点。
以SEMI赛道为例,参赛队伍需要利用少量有标签和大量无标签数据视频数据来训练自己的模型,并对模型在无标签数据集上的表现和泛化能力进行评估。该赛道获胜的关键在于通过改进半监督学习技术来提高模型情感识别性能,比如预测情绪类别的准确率。
作为AI界追逐的新热点,人工智能多模态情感识别主要体现在能读懂情绪并传达情感。优胜团队相关技术负责人透露,该技术基于目前平台自研大模型部分模块,包括提出微调模型EmoVCLIP,用于适应视频的情感识别;使用Self-training策略,通过循环对无标签数据打伪标签与训练模型之间相互迭代从而提升模型的泛化性能;针对模型不同模态之间融合存在的竞争效应,在多模态情感识别领域使用Modality Dropout,提高模型情感识别准确率等。
“特别是在社交领域,多模态情感识别技术更是重要的一环。”赛事评委组相关负责人表示,社交的本质是情感的流动,只有能够实现情感的识别,才能让AI更好的理解人性、情绪和情感,实现理想的人机互动。“AIGC在社交场景落地的探索中,有望进一步利用多模态情感识别技术能力,让AI辅助社交、提升关系建立的质量和效率的同时,构建人机交互新场景,让用户可以与AI进行更加有温度、沉浸、趣味的互动交流。”