首篇「多模态摘要」综述论文

作者:专知
转载自:专知
原文链接:

【导读】多模态是文档内容的本质特征之一。来自印度理工等学者发布了首篇多模态摘要综述论文。


摘要

科技的新时代让人们可以方便地在各种平台上分享自己的观点。这些平台为用户提供了多种形式的表达方式,包括文本、图像、视频和音频。然而,这使得用户很难获得关于一个主题的所有关键信息,使得自动多模态摘要(MMS)的任务必不可少。在本文中,我们对MMS领域的现有研究进行了全面的综述。

arxiv.org/abs/2109.0519


引言

每天,互联网都充斥着来自多个来源的大量新信息。由于技术的进步,人们现在可以以多种格式共享信息,并使用多种通信模式供他们使用。互联网上日益增多的内容使得用户很难从大量的资源中获取有用的信息,因此有必要研究多模态摘要,与纯文本摘要相比,视觉摘要平均能提高12.4%的用户满意度。事实上,几乎每一个内容共享平台提供陪一个观点或事实以多种媒体形式,和每一个手机都有这个功能的设施表明多式的通讯手段的优越性的缓解在传达和理解信息。

多模态输入形式的信息已被用于除摘要之外的许多任务,包括多模态机器翻译[11,21,22,39,108]、多模态移动预测[18,53,120]、电子商务产品分类[128]、多模态交互式人工智能框架[51]、多模态表情预测[5,17],多模态框架识别[10],多模态金融风险预测[59,101],多模态情感分析[79,93,122],多模态命名身份识别[2,77,78,109,126,130],多模态视频描述生成[37,38,91],多模态产品标题压缩[70]和多模态生物特征认证[28,42,106]。多模态信息处理和检索任务的应用可能性是相当可观的。多通道研究还可用于其他密切相关的研究问题,如图像描述[14,15]、图像到图像的翻译[40]、抗震路面试验[94]、美学评价[55,67,129]和视觉问答[49]。

文本摘要是自然语言处理(NLP)和信息检索(IR)领域最古老的问题之一,由于其具有挑战性和广泛的应用前景,引起了众多研究者的关注。文本摘要的研究可以追溯到六十多年前[69]。NLP和IR社区通过开发无数的技术和模型体系结构来解决针对多个应用的文本摘要研究。作为这个问题的延伸,多模态摘要结的问题增加了另一个角度,结合了视觉和听觉方面的混合,使任务更有挑战性和有趣的处理。将多种模态纳入摘要问题的扩展扩展了问题的广度,导致任务的应用范围更广。近年来,多模态摘要经历了许多新的发展(参见图1关于MMS趋势的统计),包括新数据集的发布,处理MMS任务的技术的进步,以及更合适的评估指标的建议。多模态摘要的思想是一个相当灵活的,包含了输入和输出方式的广泛可能性,也使得单模态摘要技术的知识很难理解MMS任务的现有工作。这就需要对多模态摘要进行调研。

MMS任务与任何单模态摘要任务一样,是一个要求很高的任务,且存在多个正确解,因此非常具有挑战性。创建多模态摘要的人必须使用他们之前的理解和外部知识来生成内容。建立计算机系统来模仿这种行为变得困难,因为它们内在缺乏人类的感知和知识,使自动多模态摘要的问题成为一项重要但有趣的任务。尽管有相当多的调研论文是针对单模态摘要任务撰写的,包括文本摘要[31,32,81,112,124]和视频摘要[6,41,52,76,102],以及多模态研究[3,4,43,90,103,107]的调研论文。然而,据我们所知,我们是第一个提出多模摘要的调研。通过这份手稿,我们统一和系统化的信息在相关的工作,包括数据集,方法论,和评价技术。通过这项调研,我们旨在帮助研究人员熟悉各种技术和资源,以进行多模式摘要领域的研究。

多模态摘要方法

许多研究尝试使用有监督和无监督技术来解决MMS任务。在本节中,我们试图以一种通用的方式描述MMS框架,阐明不同方法的细微差别。由于所使用的各种输入、输出和技术跨越了一个很大的可能性范围,我们将分别描述每一个可能性。我们将这一节分为三个阶段:预处理、主模型和后处理。

  • 预处理:在多模态环境中,预处理是至关重要的一步,因为它涉及从不同模态中提取特征。每个输入模态都使用模态特征提取技术进行处理。尽管有些工作倾向于使用自己提出的模型来学习数据的语义表示,但几乎所有的作品都遵循相同的预处理步骤。由于相关的作品有不同的输入模态,我们分别描述了每种模态的预处理技术。
  • 主模型:利用提取的特征来执行MMS任务已经采用了很多不同的技术。图3显示了研究人员解决MMS任务所采用的技术分析。我们已经尝试了几乎所有最近的架构,主要集中在以文本为中心的输出摘要。在以文本为中心形式的方法中,相邻形式被视为文本摘要的补充,通常在后处理步骤中被选择(章节4.3)。
  • 后处理:后期处理大部分现有工作无法生成多模态摘要。生成的系统综合总结有一个内置的系统能产生多通道输出(主要是通过生成文本使用seq2seq机制和选择相关图片)(61、134)或者他们采取一些后处理步骤,获得视觉和声音补充剂生成的文本摘要[133]。神经网络模型使用多模态注意力机制来确定每个输入情况的模态相关性,用于选择最合适的图像[12,133]。更准确地说,使用视觉覆盖评分(在最后解码步骤之后),即生成文本摘要时的注意力值之和,来确定最相关的图像。根据任务需要,可以提取单幅图像[133],也可以提取多幅图像[13]来补充文本。

由于技术的进步,人们可以方便地以多种方式创建和共享信息,这在十年前是不可能的。由于这种进步,对多模态摘要的需求正在增加。我们提出了一项调研,以帮助熟悉用户的工具和技术目前的MMS任务。在这份手稿中,我们正式定义了多模态摘要的任务,我们还根据各种输入、输出和技术相关的细节,对现有的作品进行了广泛的分类。然后,我们包括用于处理MMS任务的数据集的全面描述。此外,我们还简要描述了用于解决MMS任务的各种技术,以及用于判断产生的摘要质量的评价指标。最后,本文还提出了MMS研究的几个可能方向。我们希望这篇调研论文能够对多模态摘要的研究起到重要的推动作用。



机器学习/深度学习算法/自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号:HIT_NLP。加的时候备注一下:知乎+学校+昵称 (不加备注不会接受同意,望谅解),想进pytorch群,备注知乎+学校+昵称+Pytorch即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。

强烈推荐大家关注机器学习算法与自然语言处理账号和机器学习算法与自然语言处理微信公众号,可以快速了解到最新优质的干货资源。

推荐阅读

ACL2021上的Dialogue

赛尔笔记 | 自然语言处理中模型的“偷懒”

ICLR2021 | 近期必读图神经网络精选论文 - 知乎 (zhihu.com)

AAAI 近20年最佳论文合集 - 知乎 (zhihu.com)

NAACL 2021 | 对比学习横扫文本聚类任务 - 知乎 (zhihu.com)

不可错过!CMU「概率图模型」课程,附Slides - 知乎 (zhihu.com)

ICCV 2021审稿结果出炉,有人已总结出了一份Rebuttal写作指南 - 知乎 (zhihu.com)

腾讯优图+厦门大学发布!2021十大人工智能趋势 - 知乎 (zhihu.com)

2021下半年会议论文投稿时间小结与历年接受率回顾(欢迎收藏) - 知乎 (zhihu.com)

赛尔笔记| 对话摘要简述 - 知乎 (zhihu.com)

PyTorch 常用代码段汇总 - 知乎 (zhihu.com)

Transformer长大了,它的兄弟姐妹们呢?(含Transformers超细节知识点) - 知乎 (zhihu.com)

Transformer Decoder-Only 模型批量生成 Trick - 知乎 (zhihu.com)

第十届全国社会媒体处理大会(SMP 2021) 技术评测方案 - 知乎 (zhihu.com)

首篇NLP图神经网络综述来了! 127页文档让你全面了解这个领域 - 知乎 (zhihu.com)

Transformer杀疯了!竟在图神经网络的ImageNet大赛中夺冠,力压DeepMind、百度...... - 知乎 (zhihu.com)

深度学习中的Attention总结 - 知乎 (zhihu.com)

【关于 AAAI 2021 之 情感分析论文串烧】那些你不知道的事 - 知乎 (zhihu.com)

ACL2021 main conference long papers list已出 - 知乎 (zhihu.com)

强烈推荐!斯坦福讲师出版《机器学习面试》书稿,涵盖200+考点! - 知乎 (zhihu.com)

DeepMind科学家Trask著作《图解深度学习》,335页pdf与代码 - 知乎 (zhihu.com)

图自监督学习(Graph Self-supervised Learning)最新综述+Github代码汇总 - 知乎 (zhihu.com)

ICLR/CVPR时间更新 || 2021下半年会议论文投稿时间小结与历年接受率回顾(欢迎收藏) - 知乎 (zhihu.com)

每日论文速递:计算机视觉相关(6月29日更新版) - 知乎 (zhihu.com)

忆臻:每日论文速递:自然语言处理相关(6月29日更新版)

中科院软件所中文信息处理实验室招收2021年推免学生(硕博各2-3名) - 知乎 (zhihu.com)

一文掌握《对比学习(Contrastive Learning)》要旨,详述MoCo和SimCLR算法 - 知乎 (zhihu.com)

赛尔笔记|基于深度学习方法的对话状态跟踪综述 - 知乎 (zhihu.com)

近期必读的6篇顶会CVPR 2021【零样本学习(ZSL)】相关论文和代码 - 知乎 (zhihu.com)

计算机顶会论文投稿指南 - 知乎 (zhihu.com)

每日论文速递:计算机视觉相关(7月6日更新版) - 知乎 (zhihu.com)

每日论文速递:自然语言处理相关(7月6日更新版) - 知乎 (zhihu.com)

NTCIR-16 参与邀请 - 知乎 (zhihu.com)

十大NLP数据扩充策略 - 知乎 (zhihu.com)

一文速览 | ACL 2021 主会571篇长文分类汇总 - 知乎 (zhihu.com)

Hugging Face官方NLP课程来了!Transformers库维护者之一授课,完全免费 - 知乎 (zhihu.com)

ICML2021论文太多看不过来?这份《一句话点评1183篇论文亮点》帮你快速找到想看的 - 知乎 (zhihu.com)

编辑于 2021-09-15 11:08