【IEEE Fellow何晓东&邓力】多模态智能论文综述:表示学习,信息融合与应用,259篇文献带你了解AI热点技

【导读】自从2010年以来,深度学习技术对语音,语言,视觉等子领域的推动,在语言和视觉跨模态交叉学科领域我们也取得了很多激动人心的进展,包括跨语言与图像的理解、推理和生成。多模态智能旨在融合多种模态的信息进行处理实现智能应用,在5G时代将会是重要的热点技术之一。最近IEEE Fellow何晓东和邓力等作者撰写关于多模态智能的综述论文《Multimodal Intelligence: Representation  Learning, Information Fusion, and Applications》,详述了多模态智能研究进展,涵盖259篇参考文献,本文从学习多模态表示、多模态信号在不同层次上的融合以及多模态应用三个新角度对多模态深度学习的最新研究成果进行了综合分析。




作者介绍:



何晓冬博士是京东人工智能研究院常务副院长,深度学习及语音和语言实验室的负责人。他还在华盛顿大学(西雅图)、香港中文大学(深圳)、同济大学、及中央美术学院任兼职教授和荣誉教授。在加入京东集团之前,他曾担任微软雷德蒙德研究院深度学习技术中心的首席研究员和负责人。他的研究主要集中在人工智能领域,包括深度学习,自然语言处理,语音识别,计算机视觉,信息检索和多模态智能。他与合作者在这些领域发表了100多篇论文,谷歌学术统计引用数超过13000次,并多次获得优秀论文奖及赢得重要的人工智能方面大赛。他与合作者发明的深层结构化语义模型(DSSM/C-DSSM),分层注意力网络(HAN),CaptionBot,SAN,AttnGAN,BUTD Attention等广泛应用于语言,视觉,IR和人机对话等任务。基于其在自然语言和视觉技术及多模态信息处理方面的贡献,他于2018年入选IEEE Fellow。




邓力,1977年考入中国科学技术大学生物系,曾获首届郭沫若奖学金,1987年获威斯康辛大学麦迪逊分校博士学位,IEEE Fellow,ASA Fellow,加拿大国家工程院院士。曾任加拿大滑铁卢大学电子与计算机工程系教授、微软人工智能首席科学家、微软人工智能学院总负责人,现任对冲基金公司Citadel首席人工智能官。




Multimodal Intelligence: Representation Learning, Information Fusion, and Applications



【摘要】自2010年以来,深度学习已经使语音识别、图像识别和自然语言处理发生了革命性的变化,每种方法在输入信号中都只涉及一种模态。然而,人工智能的许多应用涉及到多种模态。因此,研究跨多种模态的建模和学习的更困难和更复杂的问题具有广泛的意义。本文对多模态智能的模型和学习方法进行了技术综述。视觉与自然语言的结合已成为计算机视觉和自然语言处理研究的一个重要领域。本文从学习多模态表示、多模态信号在不同层次上的融合以及多模态应用三个新角度对多模态深度学习的最新研究成果进行了综合分析。在多模态表示学习中,我们回顾了嵌入的关键概念,将多模态信号统一到同一个向量空间中,从而实现了多模态信号的交叉处理。我们还回顾了许多类型的嵌入的性质,构造和学习的一般下游任务。在多模态融合方面,本文着重介绍了用于集成单模态信号表示的特殊结构。在应用方面,涵盖了当前文献中广泛关注的选定领域,包括标题生成、文本到图像生成和可视化问题回答。我们相信这项综述可促进未来多模态智能的研究。


文献地址:https://arxiv.org/abs/1911.03977

https://www.zhuanzhi.ai/paper/efe8f986342d215a8179d447624801ee


 便捷下载论文获取,请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“多模态智能” 就可以获取论文的下载链接~ 


引言


近年来,随着深度学习[1]-[6]的快速发展,机器学习领域取得了长足的进步。追溯到大型自动语音识别使用完全连接深层神经网络(DNN)与自编码器的准确性大幅提高(ASR)[7]-[17], 和紧随其后的是计算机视觉(CV)使用深卷积神经网络(CNN)模型[18]对大规模图像分类在2012[19]-[22]和大型目标检测[23]-[25]取得进展。在单输入模式识别方面已经取得了一系列重要的进展。随后,在自然语言处理(NLP)中,基于递归神经网络(RNN)的语义槽填充方法[26]在口语理解方面达到了新的发展水平,同时,基于注意机制[27]的rnn编码器-解码器模型也达到了新的水准。序列模型在端到端方式的机器翻译中产生了卓越的性能,[29][30]。对于其他NLP任务没有多少训练数据,如问答(QA)和机器阅读理解,预训练语言模型使用无监督或自我学习然后再微调小在域的数据集,实现了破纪录的结果[31]- [33]。


尽管在视觉、语音和语言处理方面取得了进步,但人工智能的许多问题涉及到不止一种模态,比如智能个人助理(IPA),它不仅应该理解口头语言中蕴含的人类交流意图,还应该理解身体语言和图像语言[34]中蕴含的人类交流意图。因此,研究多模态[35]的建模和学习方法具有广泛的意义。得益于先进的图像处理和语言理解[36], 结合图像和文本的任务都备受关注,其中包括视觉等任务是理解和表达短语本地化[37]-[39], 图像字幕[40]-[42],视觉QA(VQA)[43]- [45],text to-image生成[46]-[48],和视觉语言导航[49]等。在这些任务中,自然语言在帮助机器理解图像内容方面起着关键作用,而理解意味着捕捉语言中嵌入的语义与从图像中获得的视觉特征之间的潜在相关性。除了文字,视觉还可以与语言结合。这些任务包括声像语音识别[50]-[52]、说话人识别[53]-[55],以及语音记录[56]、[57]、分离[58]、分离[59]和增强[60],这些任务主要集中在利用视觉特征来提高纯音频方法的鲁棒性

本文对多模态智能的模型和学习方法进行了技术综述。主要的研究重点是CV和NLP的结合,这已经成为涵盖许多不同任务和技术的研究领域的一个重要领域。为了提供一个更结构化的视角,我们根据三个关键主题(表示、融合和应用)来组织本文中选择的方法。

  • 输入数据的学习表示是深度学习的核心问题。对于多模态任务,在所有模态之间收集并行数据可能非常困难,并且利用具有所需属性的预先训练的表示形式(例如适用于零样本或少样本学习)通常是这个问题的有效解决方案。本文综述了基于监督和非监督训练的多模态表示学习方法


  • 单一模态的特征或表征的融合无疑是任何多模式任务的中心问题。不同于之前的研究,通常归类相关工作进入早期,中期和后期阶段方法基于融合过程中发生的阶段,我们分类根据实际操作中使用的融合,关注和双线性等合用,因为很难分类最近的一些复杂的方法分为几个阶段。


  • 本文综述了三种类型的应用,即图像字幕、文本到图像的合成和VQA。这是如何表示学习和融合可以应用到具体的任务的想法,并提供了一个观点,目前的发展情况的多模态应用,特别是那些集成视觉与自然语言。最后讨论了VQA的可视化推理方法。


表示学习


深度学习是表示学习中的一个特殊领域,研究利用具有多个隐层的人工神经网络(artificial neural networks, ANNs)从原始数据中自动发现适合于特定任务的表征或特征[61]。在实践中,经常发现更好的表示可以简化后续的学习任务,因此具有很大的价值。在过去的十年中,由于大数据的可用性和深度学习的发展,对于单一模态,如文本[31]-[33],[62]-[69]和图像[19]-[25],学习有效和健壮的表示是可行的。对于多模态表示,尽管受到越来越多的关注,但由于其复杂的跨模态交互作用和各模态训练数据与测试数据之间可能存在的失配问题,仍然是一个具有挑战性的问题。


在这一节中,我们首先回顾了常用的单模态表示法,如文本和图像,它们通常是学习多模态表示法的基础。然后介绍了学习多模联合表示空间的监督方法和非监督方法。为了使该模型能够处理某些缺失模态的数据样本,研究了零样本学习问题,以提高所涉及模态的表示空间的相似性。最后,在成功地将预先训练的LMs用于NLP的下游任务的启发下,讨论了利用大型单模数据集来改进多模态表示学习的方法。

信息融合


融合是多模态研究中的一个关键问题 ,它将从不同单模态数据中提取的信息整合到一个紧凑的多模态表示中。融合和多模态表示之间有着明显的联系。如果一种方法的重点是集成特定任务的单模表示的体系结构,那么我们将其归类为融合类别。


传统的融合方法是根据融合过程中出现的阶段来划分的。 早期的融合,即特征级融合,直接将从各类单模态数据中提取的特征组合在一起 ,以强调模态间的相互作用,从而抑制模态间的相互作用。另一方面,后期融合是指模型级的融合,为每种模态建立单独的模型,并将它们的输出结合起来[116]-[120]。晚期融合方法对模态间的相互作用具有较强的建模能力,但由于模态间的相互作用较为复杂,其输出值组合能力有限。最近的研究集中在中间或中间水平的方法,允许融合发生在深层模型的多层。


在本节中,我们将重点介绍中间融合技术——不仅因为它更加灵活,而且由于使用了来自预先训练的骨干模型的单模特征,各阶段之间的边界也不那么清晰。主要用于融合文本和图像特征的三种方法包括:基于简单操作的方法、基于注意力的方法和基于张量的方法


应用


在本节中,将讨论结合视觉和语言的多模态智能的选定应用程序,包括图像描述、文本到图像的生成和VQA。值得注意的是,还有一些其他的应用,如基于文本的图像检索[94]、[164]、[165],以及视觉和语言导航(VLN)[166] -[174],由于篇幅的限制,我们没有将它们包括在本文中。
  • 图像到文本描述(image-to-text / image captioning)

        理解图像的内容,生成自然语言来描述图像内容

  • 视觉-文本问答 (visual question answering) 

            基于对图像的理解回答相关的文本问题 
  • 文本到图像生成(text-to-image synthesis)

            基于对文字描述的理解以生成相应的图像 
  • 语言-视觉导航,视觉对话,跨模态信息检索 …



结论


本文综述了基于深度学习的多模态建模和机器学习领域,特别是视觉和自然语言的结合。我们特别提出从多模态表示、多模态信号融合和多模态智能应用三个方面来组织语言视觉多模态智能领域的众多工作。在表示部分,在嵌入的关键概念下,回顾了单模态和多模态表示。对于一般的下游任务,多模态表示将不同模态的相关信号统一到同一个向量空间中。在多模态融合中,讨论了特殊的结构,如注意力机制和双线性汇聚。在应用部分,提出了三个广泛关注的领域,包括图像标题生成、文本到图像的合成和可视化问题回答。讨论了一套用于VQA的可视化推理方法。我们的综述涵盖了任务定义、数据集规范、常用方法的发展,以及问题和趋势,因此可以促进我们社区在这个新兴的多模态智能领域的未来研究。

更多请下载论文查看
https://www.zhuanzhi.ai/paper/efe8f986342d215a8179d447624801ee


-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,注册使用 专知 ,查看5000+AI主题知识资料
展开全文
Top
微信扫码咨询专知VIP会员