【头部导读】
「让失明者重新“看见”世界,多模态模型立大功,浪潮信息又预判了今年最火AI技术」
获取信息的能力,直接关联着生存能力。
远古以来,人类就通过五感捕捉获得信息,进而及时做出正确决策应对外部环境。
科学研究表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%。若视觉信号丧失,人类对外界的感知与交互将变得非常艰难,在当下信息主导的社会。
如今AI的各项感知能力逐渐可以做到与人类水平媲美,甚至超越。科技低垂的硕果理应惠及每个人,覆盖到这些丧失视觉的群体,更何况这一群体数量远比想象中庞大。
据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%。
用AI让数亿失明者重新“看见世界”已经成为AI赛道上的热门话题。与其说是“看见”,不如说是通过其他感知,使盲人对世界的理解更精准、获取信息的效率更高效。
这些通过其他感知获得的信息能否弥补视觉丧失带来的缺憾呢?以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,越来越多的失明者正在借助AI的能力,以一种新的方式“看见”世界。
视障人群所问、AI所见、AI所答,这是完全不同的事情
填补上人类丧失的功能,这无疑是最直接高效的方法。
利用AI构建机器视觉系统,可以帮助视障人群拥有对外界环境的视觉感知与视觉理解能力。但实际操作起来却着实不易。
让AI拥有这一能力意味着,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,构建信息无障碍的交互界面。
与人类相同,感知、意图推理、信息呈现的能力不能仅依赖一个感官训练生成。尽管现在某些单模态人工智能,如计算机视觉技术,在图像识别等任务上已经超越了人类水平,但这类技术目前只能实现视觉模态内的识别及理解,难以完成与其他感觉信息交叉的跨模态学习、理解与推理。
多模态算法在AI助盲潜力巨大,其中盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一。
于视障人群而言,这项研究具备很高的实用价值,全球不少视障人群参与其中,并上传了自己拍摄的图像数据和相应的问题文本,形成了真实的模型训练数据集。
但视障人群所拍、视障人群所问、AI所见、AI所答……这四者是完全不同的事情,尽管理想状态下,这四者应该指向同一个答案,但它们的信号产生、分析和信息解构都各自独立,这也为基于多模态算法的盲人视觉问答任务带来了诸多挑战。
由于视觉信号缺失,盲人提出的问题类型往往更复杂,涉及范围也更广,例如分辨冰箱里的肉类、选衣服的时候询问颜色、咨询药品成分等等。
现存的大部分视觉问答模型是基于封闭环境下的问答数据训练实现的,受样本分布限制严重,难以泛化到开放世界下的问答场景中,需要融合外部知识进行多段推理。
同时,盲人在拍照获取视觉信息这一环节,因为感知交互主体的特殊性,拍摄照片经常会出现虚焦的情况,或者没有拍到涉及询问的关键部分,甚至拍摄的对象本身就是错误的。例如,拿起一瓶醋来询问酱油的生产厂商。
以上种种都对AI提取有效特征的准确性增加了难度,视觉问答会遭遇到样本精度模糊、噪声干扰的衍生问题,因此如何准确提升样本识别精度,定位噪声并完成智能推理,是模型需要具备的能力。
从高糊照片推理真实意图,浪潮信息AI助盲靶向消灭痛点
如同导盲犬一样,没有困难的工作,只有勇敢的狗狗。
AI助盲尽管困难重重,但到了技术无一例外都是消灭痛点。
此前为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。
盲人视觉问答数据
在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出基本判断,例如 “这本书书名是什么?”。
首先,鉴于之前提到过的图片拍摄角度、清晰度的问题,浪潮信息多模态算法研究团队提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的理解问题。
浪潮信息多模态算法前沿创新团队提出的算法,将答案驱动视觉定位与大模型图文匹配结合,Ø并提出多阶段交叉训练策略:
推理时,将交叉训练后的视觉定位和图文匹配模型用于推理定位答案区域;同时基于光学字符识别算法确定区域字符,并将输出文本传送到文本编码器,最终通过图文匹配模型的文本解码器得到最终答案。
多模态视觉问答模型解决方案
如此哪怕是拍摄画面模糊、不完整,具备更丰富常识能力的盲人视觉问答模型依然可以根据残缺信息推理用户真实意图。
目前浪潮信息前沿研究团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
多模态AI领域首个带噪视觉定位,让AI混乱中练就“火眼金睛”
对于噪声的智能化处理,视觉定位研究应用落地的最大障碍之一。
真实场景中,文本描述往往是有噪声的,这个噪声并非传统字面意义上的、类似于尖锐喇叭音的噪声,而是指人对文本描述的准确度。
视障人群拿起醋说成是酱油,对AI来说这种文本描述就是带噪的,人类的口误、歧义、修辞等都属于噪声。
但文本噪声会导致现有AI模型失效。在接受头部科技的采访时,浪潮信息的研究人员解释道:现有的多模态模型实际上对于这种带噪的样本鲁棒性是比较低的,模型需要具备更强的多模态的语言或者说语义理解能力才能拥有这种抗噪能力。
在问答交互噪声定位领域,浪潮信息多模态算法前沿创新团队首次提出视觉定位文本去噪推理任务FREC,并构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。
FCTR结构图
同时为了支撑这一任务,浪潮信息提出了这个行业第一个相关的定位数据集,Further-RefCOCOs,3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。
上述研究成果已登顶会ACM Multimedia 2022,该会议为国际多媒体领域最顶级会议、该领域唯一CCF推荐A类国际会议。
探寻多模态未来:不止满足想象力的AIGC,还是更有温度的AI
盲人与世界之间相差的只是一个黎明,而AI之光,不会只照到某类人,而是所有人。
AI的潜力不止于此,得益于多模态算法技术的突破,以AI绘画为代表的AIGC(AI-Generated Content)成为年度热点,被大众追捧。
多模态AI技术也随之走进大众视野,也拥有无限潜力。相比AI绘画的多模态技术——先进行语义输入、语义理解、AI输出图象,其本质是模态之间的转换,盲人视觉问答所用的多模态算法更复杂,但落地应用的实用价值可能更高。
在接受头部科技采访时,浪潮信息的研究人员解释称:AIGC更多倾向于解码器生成模态信息的相关研究,理解部分通常依赖已有的大规模的模型去解析语义,其难点在于实现模态之间的转换。但是视觉问答所使用的多模态技术目前来说更倾向于文本、图象多模态的语义融合理解,需要从多种模态的信息中提取特征、融合、筛选、推理,完成复杂的理解等多种能力。
浪潮信息多模态算法前沿创新团队不断探索AI在图像和文本的基础上进行思维联想的能力,通过建立逻辑链在庞大的知识库中进行检索,对图像和文本的已有内容实现扩展。
在联想交互研究上,团队给业界提出了一个全新的探索方向,构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE(encoder- decoder model for alternative reason and explanation),为更多科研工作者开展相关研究探索提供了基础数据集和基础模型。
ARE结构图
目前,团队构建了AI-VQA的开源数据集,包含超过14.4万条大型事件知识库、全人工标注1.9万条交互行为认知推理问题,以及关键对象、支撑事实和推理路径等可解释性标注。
团队提出的ARE预训练模型首次端到端实现交互行为定位和交互行为影响推理,基于多模态图像文本融合技术与知识图谱检索算法,实现了具备长因果链推理能力的视觉问答模型。
该研究项目未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。
AI如同一束光,若没有阻碍,便能无限发散、传播。人工智能发展经历三起两落,每次新技术点的突破与进步,都让光束变得更强烈,而研究人员寻找一个又一个的落地场景就是不断扫除阻碍光束传播的壁垒,让光束照亮每个人。