摘要: 基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。
http://www.jsjkx.com/CN/10.11896/jsjkx.201100176
随着现代科技的发展,以及多媒体传感器的相继出现和 大规模运用,不同媒介的信息覆盖了人类生活的方方面面,如 气味、语音、文本、图像、视频等,每一种模态都承载了不同的信息.跨媒体的信息交互往往能够传递更为丰富的信息,人 类的生活也因为多种视听媒介信息的交互而变得绚丽多彩, 其中尤其以视觉和语言的交互内容为主,如图像配以标题或 文章、视频配以字幕等.随着计算机处理能力的提升和人工 智能技术的进步,基于计算机视觉和自然语言处理的研究分别帮助计算机学会了如何去“看”和如何去“读”.由于视觉内 容细腻丰富,语言内容精炼准确,二者表达信息的能力各不相 同,存在一定的模态差异,因此研究基于视觉和语言的跨媒体 交互成为跨媒体智能的一个重要研究方向.
智能问答最早可追溯到人工智能诞生的时期.阿兰图 灵于1950年提出了著名的“图灵测试”,通过测试机器是否具 备正确回答问题的能力,来验证机器是否具有人类智能[1]. 基于视觉和语言的跨媒体问答与推理是智能问答系统的扩 展,要求问答系统在回答问题的同时考虑视觉信息和语言信 息,然后推理出正确答案.根据视觉媒介的不同,通常可分为 基于图像的问答与推理[2G3]、基于视频的问答与推理[4]和基于 视觉常识的问答与推理[5]3种常见的任务. 基于视觉和语言的问答与推理作为一个极具挑战性的研 究方向,涉及了计算机视觉技术、自然语言处理技术以及视觉 和语言的融合技术.对于基本的问答系统[6],通常包括了对 于视觉和语言两种模态的表征、跨模态融合和问答推理3个 步骤.得益于深度学习的快速发展,单一模态表征技术不断 更新完善[7G8],跨媒体问答任务的核心挑战在于跨模态融合和 问答推理两个部分.特别地,为了促进多模态特征间元素的 充分交互,本文提出了一种双线性融合的方法[9]来得到视觉G 语言的联合表达.相比常用的融合算法,即对应元素相加、对 应元素相乘和特征拼接等算法,所提方法能够获得充分包含 各模态信息的融合表示,从而提升了视觉问答任务的性能. 另外,注意力机制[10G11]是一种常用的解决视觉问答的推理方 法.通过捕捉与答案相关的视觉及语言信息,该方法提升了 视觉问答的性能并提高了其可解释性.除了基于自然图像和 视频的视觉问答与推理,目前已经开展了对于医疗图像问答 系统[12]及视觉对话系统[13G14]的研究.
本文系统地梳理了当前基于视觉和语言的跨媒体问答与 推理的相关工作,具体介绍了基于图像的视觉问答与推理、基 于视频的视觉问答与推理以及基于视觉常识推理模型与算法 的研究进展,同时总结了常用的视觉问答与推理的数据集,并 给出了代表性的方法在这些数据集上的实验结果.最后,本 文展望了基于视觉和语言的跨媒体问答与推理的未来发展 方向.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“VLQR” 就可以获取《基于视觉和语言的跨媒体问答与推理研究综述》专知下载链接