NLP+CV《桥接视觉与语言的研究综述》,带你全面了解视觉+语言最新应用和方法

2019 年 7 月 24 日 中国人工智能学会
NLP+CV《桥接视觉与语言的研究综述》,带你全面了解视觉+语言最新应用和方法

转自 专知 

【导读】由于深度学习、计算机视觉和自然语言处理等多学科领域的兴趣激增,视觉和语言任务的结合得到了显著的发展。比如大家熟知的:Visual Description Generation、Visual Storytelling、Visual Question Answering、Visual Dialog、Multimodal Machine Translation等等。近期德国Saarland大学计算机视觉专家Aditya Mogadala博士等人近期发布了《Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods》,本综述重点研究了10种不同的视觉和语言桥接任务,包括它们的问题定义、方法、现有数据集、评估指标,以及与相应的最先进方法的结果的比较。


题目:Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

作者:Aditya MogadalaMarimuthu KalimuthuDietrich Klakow



【摘要】近年来,由于深度学习、计算机视觉和自然语言处理等多学科领域的兴趣激增,视觉和语言任务的桥接得到了显著的发展。在本综述中,我们重点研究了10种不同的视觉和语言桥接任务,包括它们的问题定义、方法、现有数据集、评估指标,以及与相应的最先进方法的结果的比较。这超越了早期的一些综述,这些综述要么是特定于任务的,要么只专注于一种类型的视觉内容,即图像或视频。最后,我们讨论了视觉与语言研究未来可能的整合方向。


参考链接:

https://arxiv.org/abs/1907.09358

 请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“桥接视觉与语言的研究综述论文” 就可以获取最新论文的下载链接~ 


引言


近年来,深度学习的发展使得计算机视觉(CV)和自然语言处理(NLP)领域在多项任务中取得重大进展。


最近很多研究都热衷于解决这些传统独立领域的语言和视觉信息相结合的挑战。应对语言和视觉结合挑战的方法应提供对视觉或文本内容的完全理解,并期望(1)生成关于视觉内容的可理解但简洁且语法良好的描述,反之亦然,其中给定文本描述生成视觉内容返回(2)识别视觉内容中的对象并推断它们与原因的关系或回答关于它们的任意问题(3)通过利用视觉和自然语言指令的输入来进行浏览(4)翻译文本从一种语言到另一种语言的内容,其视觉内容用于消除歧义(5)生成有关视觉内容的故事等。这些方法的设计可以处理和关联来自多种形式的信息(即语言和视觉信息),通常被称为多模态学习模型的一部分(Mogadala,2015)。


然而,在这篇文章中,作者不仅提供了十个不同任务的全面概述,还提供了驱动当前视觉和语言研究集成的方法、数据集和评估指标。在第2节中,首先介绍了视觉和语言集成的10个重要任务及其方法,并在第3节中概述了用于每个任务的数据集。然后,在第4节中,我们分别描述了视觉和语言的表示,并进一步讨论了将视觉和语言结合起来实现任务的主要方法。在第5节中,我们给出了用于所有10个任务的评估指标。此外,在第6节中,还比较和讨论了通过相应方法实现的每个任务的基准结果。在第7节中,我们讨论了可能的未来方向,最后第8节结束了我们的综述,并讨论了对结果的一些见解。


然而,在综述中,我们超越了单词并提出了那些将可变长度大于单词的文本作为语言输入的任务。这些任务中的大多数被视为对CV、NLP或这两个问题的扩展。图1总结了不同的任务。然而,为了了解这些任务如何被视为CV,NLP或两者中问题的自然延伸,我们简要地发现它们与其各自研究中解决的类似任务之间的相关性。

图1:十种不同的语言和视觉集成任务。



图2:给定一张图像,标准图像描述生成模型生成一个全局文本描述。


表1:生成图像全局描述的方法摘要。


图3:给定一个视频(表示为帧序列),视频描述生成模型生成单个全局标题。


图4:给定图像序列,图像叙事模型按顺序生成文本故事。


图5:给定视频帧(摘自(Li et al., 2018)),视频叙事模型按顺序生成文本故事。


图6:给定一张图像和问题,图像问答模型产生答案。


图7:给定一个视频(由TV Q&A数据集中的帧序列表示)和问题,视频问答模型从多个选项中找到正确的答案。


图8:给定一张图像,问题和对话历史记录,图像对话模型基于它生成答案。


-END-



专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询

请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~

专知《深度学习:算法到实战》课程全部完成!550+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程



登录查看更多
23

相关内容

Integration:Integration, the VLSI Journal。 Explanation:集成,VLSI杂志。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/journals/integration/

尽管在深度学习方面取得了最近的进展,但大多数方法仍然采用类似“筒仓”的解决方案,专注于孤立地学习每个任务:为每个单独的任务训练一个单独的神经网络。然而,许多现实问题需要多模态方法,因此需要多任务模型。多任务学习(MTL)旨在利用跨任务的有用信息来提高模型的泛化能力。在这个综述中,我们提供了一个最先进的在深度神经网络的背景下MTL技术的全面观点。我们的贡献涉及以下方面。首先,我们从网络架构的角度来考虑MTL。我们包括了一个广泛的概述,并讨论了最近流行的MTL模型的优缺点。其次,我们研究了解决多任务联合学习的各种优化方法。我们总结了这些工作的定性要素,并探讨了它们的共性和差异。最后,我们在各种数据集上提供了广泛的实验评估,以检查不同方法的优缺点,包括基于架构和优化的策略。

https://arxiv.org/abs/2004.13379

概述

在过去的十年中,神经网络在许多任务中都显示了令人印象深刻的结果,例如语义分割[1],实例分割[2]和单目深度估计[3]。传统上,这些任务是单独处理的,即为每个任务训练一个单独的神经网络。然而,许多现实世界的问题本质上是多模态的。例如,一辆自动驾驶汽车应该能够检测场景中的所有物体,定位它们,了解它们是什么,估计它们的距离和轨迹,等等,以便在它的周围安全导航。同样的,一个智能广告系统应该能够在它的视点上检测到人们的存在,了解他们的性别和年龄,分析他们的外貌,跟踪他们正在看的地方,等等,从而提供个性化的内容。与此同时,人类非常擅长同时解决许多任务。生物数据处理似乎也遵循多任务处理策略: 不同的处理过程似乎共享大脑中相同的早期处理层,而不是将任务分开单独处理。上述观察结果促使研究人员开发了多任务学习(MTL)模型,即给定一个输入图像可以推断出所有所需的任务输出。

在深度学习时代之前,MTL工作试图对任务之间的共同信息进行建模,希望通过联合任务学习获得更好的泛化性能。为了实现这一点,他们在任务参数空间上放置了假设,例如:任务参数应该彼此靠近w.r.t.一些距离度量[5],[6],[16]0,[16]2,共享一个共同的概率先验[16]1,[10],[11],[12],[13],或驻留在一个低维子空间[14],[15],[16]或流形[17]。当所有任务都是相关的[5]、[14]、[18]、[19]时,这些假设可以很好地工作,但是如果在不相关的任务之间发生信息共享,则可能导致性能下降。后者是MTL中已知的问题,称为负转移。为了缓解这一问题,其中一些研究人员选择根据先前对任务的相似性或相关性的认识将任务分组。

在深度学习时代,MTL转化为能够从多任务监控信号中学习共享表示的网络设计。与单任务情况下,每个单独的任务由自己的网络单独解决相比,这种多任务网络理论上给表带来了几个优点。首先,由于它们固有的层共享,结果内存占用大大减少。其次,由于他们明确地避免重复计算共享层中的特征,每次都要计算一次,因此他们的推理速度有所提高。最重要的是,如果相关的任务能够分享互补的信息,或者互相调节,它们就有可能提高绩效。对于前者,文献已经为某些对任务提供了证据,如检测和分类[20],[21],检测和分割[2],[22],分割和深度估计[23],[24],而对于后者,最近的努力指向了那个方向[25]。这些工作导致了第一个深度多任务网络的发展,历史上分为软或硬参数共享技术。

在本文中,我们回顾了在深度神经网络范围内的MTL的最新方法。首先,我们对MTL基于架构和优化的策略进行了广泛的概述。对于每种方法,我们描述了其关键方面,讨论了与相关工作的共性和差异,并提出了可能的优点或缺点。最后,我们对所描述的方法进行了广泛的实验分析,得出了几个关键的发现。我们在下面总结了我们的一些结论,并提出了未来工作的一些可能性。

  • 首先,MTL的性能在很大程度上取决于任务字典。它的大小、任务类型、标签源等等,都影响最终的结果。因此,最好根据每个案例选择合适的架构和优化策略。尽管我们提供了具体的观察结果,说明为什么某些方法在特定设置中工作得更好,但是MTL通常可以从更深的理论理解中获益,从而在每种情况下最大化预期收益。例如,这些收益似乎取决于多种因素,例如数据量、任务关系、噪音等。未来的工作应该尝试分离和分析这些不同因素的影响。

  • 其次,当使用单一MTL模型处理多个密集预测任务时,基于解码器的架构目前在多任务性能方面提供了更多优势,与基于编码器的架构相比,其计算开销有限。如前所述,这是由于基于解码器的体系结构促进了常见的跨任务模式的对齐,这自然很适合密集的预测任务。基于编码器的架构在密集预测任务设置中仍然具有一定的优势,但其固有的层共享似乎更适合处理多个分类任务。

  • 最后,我们分析了多种任务均衡策略,并分离出对任务均衡学习最有效的要素,如降低噪声任务的权重、平衡任务梯度等。然而,许多优化方面仍然缺乏了解。与最近的研究相反,我们的分析表明避免任务之间的梯度竞争会损害性能。此外,我们的研究显示,一些任务平衡策略仍然存在不足,突出了现有方法之间的一些差异。我们希望这项工作能促进对这一问题的进一步研究。

成为VIP会员查看完整内容
0
76

自然语言处理(NLP)帮助智能机器更好地理解人类语言,实现基于语言的人机交流。计算能力的最新发展和大量语言数据的出现,增加了使用数据驱动方法自动进行语义分析的需求。由于深度学习方法在计算机视觉、自动语音识别,特别是NLP等领域的应用取得了显著的进步,数据驱动策略的应用已经非常普遍。本调查对得益于深度学习的NLP的不同方面和应用进行了分类和讨论。它涵盖了核心的NLP任务和应用,并描述了深度学习方法和模型如何推进这些领域。我们进一步分析和比较不同的方法和最先进的模型。

成为VIP会员查看完整内容
0
158
小贴士
相关VIP内容
专知会员服务
116+阅读 · 2020年4月21日
专知会员服务
131+阅读 · 2020年3月29日
专知会员服务
78+阅读 · 2020年3月12日
专知会员服务
158+阅读 · 2020年3月6日
机器翻译深度学习最新综述
专知会员服务
76+阅读 · 2020年2月20日
 图像内容自动描述技术综述
专知会员服务
64+阅读 · 2019年11月17日
相关论文
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization
Junjie Hu,Sebastian Ruder,Aditya Siddhant,Graham Neubig,Orhan Firat,Melvin Johnson
3+阅读 · 2020年3月24日
Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
91+阅读 · 2020年3月18日
Sicheng Zhao,Shangfei Wang,Mohammad Soleymani,Dhiraj Joshi,Qiang Ji
9+阅读 · 2019年10月3日
Liang Yao,Chengsheng Mao,Yuan Luo
9+阅读 · 2019年9月11日
Advances in Natural Language Question Answering: A Review
K. S. D. Ishwari,A. K. R. R. Aneeze,S. Sudheesan,H. J. D. A. Karunaratne,A. Nugaliyadde,Y. Mallawarrachchi
4+阅读 · 2019年4月10日
Claudio Gambella,Bissan Ghaddar,Joe Naoum-Sawaya
10+阅读 · 2019年1月16日
Deep Learning for Generic Object Detection: A Survey
Li Liu,Wanli Ouyang,Xiaogang Wang,Paul Fieguth,Jie Chen,Xinwang Liu,Matti Pietikäinen
9+阅读 · 2018年9月6日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员