AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

2020 年 1 月 5 日 AI科技评论
作者 | 朱军楠、张家俊
编辑 | 丛末
多模态自动文摘是指利用计算机实现从含有两种或两种以上模态(如图片、文本等)的信息中生成图文式摘要的过程。该技术可以广泛应用于新闻推送、跨境电商、产品描述自动生成等多个领域,具有重要的研究价值和丰富的应用场景。
近年来,随着计算机视觉以及自然语言处理技术的发展,多模态自动文摘技术逐渐成为学术界和工业界研究的热点。当前的多模态自动文摘受限于数据集本身的原因只能采用文本模态的负对数似然损失作为目标函数训练整个网络,同时利用注意力机制来辅助挑选图片。
这种做法容易带来模态偏差的问题,即整个网络会倾向于优化文本生成的质量而忽视了图片的挑选过程,如图1所示。若只考虑文本模态的损失,B摘要是要优于A摘要的,但是很显然B摘要中的图片的人物对应关系不对;而当我们引入图片选择的损失时,我们可以明显的判断出A摘要是优于B摘要的,并且这也符合基本事实。
图 1 模态偏差的示例

论文方法

针对于上述问题,中科院自动化所自然语言处理组博士生朱军楠、周玉研究员、张家俊研究员、宗成庆研究员等提出了多模态基准指导的多模态自动文摘方法。基本想法是优化多模态摘要训练的目标函数,即在文本损失的基础上增加图片选择的损失函数。

如图2所示,该方法由三部分组成:

  • (1)首先利用数据集本身的特征将只有文本基准的训练数据扩展至多模态基准,主要采用两种方式,即直接使用输入图片的顺序对图片进行排序或者使用图片的文字描述与标准文本摘要参考答案之间的ROUGE值大小对输入图片进行排序;
  • (2)在模型上添加图片判别器用于训练图片挑选的过程,模型的损失函数也由文本的损失函数及图片挑选的损失函数加权求和而成;
  • (3)通过数据集中的图片和文本描述构造文本-图片对齐片段从而用来训练能够更好地评价多模态片段的评价模型,具体而言我们将两对图片-描述的文本部分(或图像部分)进行交换去构造两个匹配的多模态片段,如图3所示。
图 2 多模态基准指导的多模态自动文摘框架图
图 3 多模态匹配片段构造示意图

 实验结果

目前多模态自动文摘的数据集还比较匮乏,我们之前发布了一个公开数据集MSMO,这项工作也在该数据集上进行实验验证。在对比摘要方法的性能之前,我们首先需要明确应该采用哪种评价指标。
在之前的工作中,图文式摘要的评价关注三个方面的指标:图片准确率(IP)、文本摘要的ROUGE值(ROUGE-L)以及系统输出中图片文本的相关度(Msim)。
在我们的方法中,我们引入一个新的自动评价指标MRmax用来直接度量两个多模态信息之间的相似度(输出和参考答案的最大相似度)。MMAE是对IP、ROUGE和Msim的组合,MMAE++是IP、ROUGE、Msim和MRmax四个自动评价指标的组合。我们利用与人工打分之间的相关度来对比不同的自动评价指标。
表 1 不同评价指标与人工打分之间的相关度(分值越高、性能越好)
表1给出了不同的自动评价指标与人工打分的相关度,可以看出融入了直接测量多模态片段的评价指标MR之后,新的自动评价模型MMAE++相比于MMAE在与人工打分的相关度上有一个显著的提升。
为了衡量我们提出的多模态基准指导的模型,我们同多个强基线模型进行了对比,包括融入全局或者局部视觉特征的多模态注意力机制的生成式自动文摘模型(ATG、ATL)、层次化的多模态自动文摘模型(HAN)以及基于图模型的抽取式自动文摘模型(GR)。
表 2 不同模型生成的图文式摘要的质量对比(MOF表示多模态基准指导的方法、RR表示通过ROUGE值对图片排序,OR表示通过输入图片的顺序对图片排序,enc表示利用编码器隐层状态选择图片,dec表示利用解码器隐层状态选择图片)
表2给出了不同模型生成的图文式摘要的质量对比。可以看出在引入多模态基准指导后,模型的图片挑选质量(IP)得到了显著的改善,并且文本生成质量也有略微改进,从而生成更高质量的图文摘要。相对于使用编码器隐层状态而言,采用解码器隐层状态去进行图片选择效果会更好
另一方面,使用图片描述与文本摘要之间ROUGE值的大小对图片排序获得的多模态基准对于模型的指导作用更加明显
表 3 图片选择的损失函数的权重大小
我们也对比了不同的图片选择损失函数权重对于模型性能的影响,可以看到当图片和文本的损失函数的权重都相同时,图文摘要的质量是最好的。
表 4 计算图片损失中考虑的图片的数量的影响
我们对比了在计算图片损失中考虑的图片数量(即top-K图片作为gold standard)所带来的影响,并且发现当 K=3的时候,模型取得了最好的效果。
相关细节可参考发表于人工智能顶级学术会议AAAI 2020的论文:
Junnan Zhu, Yu Zhou, Jiajun Zhang, Haoran Li, Chengqing Zong, Changliang Li. Multimodal Summarization with Guidance of Multimodal Reference. AAAI-2020.


AAAI 2020 论文集:

AAAI 2020 | 这 10 篇论文值得你了解(附PPT下载)

AAAI 2020 论文解读系列:

01. 时间可以是二维的吗?基于二维时间图的视频内容片段检测
02. 全新视角,探究「目标检测」与「实例分割」的互惠关系
03. 新角度看双线性池化,冗余、突发性问题本质源于哪里?
04. 复旦大学黄萱菁团队:利用场景图针对图像序列进行故事生成
05. 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读
06. 多任务学习,如何设计一个更好的参数共享机制?
07. 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型
08. DualVD: 一种视觉对话新框架
09. 借助BabelNet构建多语言义原知识库
10.  沟壑易填:端到端语音翻译中预训练和微调的衔接方法
11. 中科院自动化所:通过识别和翻译交互打造更优的语音翻译模型
12. 清华大学:用于少次关系学习的神经网络雪球机制
13. 通过解纠缠模型探测语义和语法的大脑表征机制


    


招 聘

AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京

职务:以参与学术顶会报道、人物专访为主

工作内容:

1、参加各种人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、关注学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。


感兴趣者,可将简历发送到邮箱:jiawei@leiphone.com


点击“阅读原文” 观看 AAAI 2020 论文预讲直播视频

登录查看更多
16

相关内容

就是说在不改变文档原意的情况下,利用计算机程序自动地总结出文档的主要内容。自动摘要的应用场景非常多,例如新闻标题生成、科技文献摘要生成、搜索结果片段(snippets)生成、商品评论摘要等。
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【IJCAI2020-CMU】结构注意力的神经抽象摘要
专知会员服务
21+阅读 · 2020年4月23日
【CVPR2020】多模态社会媒体中危机事件分类
专知会员服务
54+阅读 · 2020年4月18日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
【论文笔记】基于强化学习的句子摘要排序
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
已删除
将门创投
4+阅读 · 2018年12月10日
赛尔推荐 | 第17期
哈工大SCIR
8+阅读 · 2018年5月18日
ICCV2017 论文解读:基于图像检索的行人重识别
极市平台
7+阅读 · 2017年11月15日
Arxiv
7+阅读 · 2020年3月1日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
12+阅读 · 2018年1月28日
VIP会员
相关资讯
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
【论文笔记】基于强化学习的句子摘要排序
赛尔原创 | ACL 2019 检索增强的对抗式回复生成
哈工大SCIR
12+阅读 · 2019年7月4日
哈工大SCIR三篇论文被ACL 2019录用
哈工大SCIR
17+阅读 · 2019年5月15日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
已删除
将门创投
4+阅读 · 2018年12月10日
赛尔推荐 | 第17期
哈工大SCIR
8+阅读 · 2018年5月18日
ICCV2017 论文解读:基于图像检索的行人重识别
极市平台
7+阅读 · 2017年11月15日
Top
微信扫码咨询专知VIP会员