复旦大学:利用场景图针对图像序列进行故事生成 | AAAI 2020

2019 年 12 月 23 日 AI科技评论

作者 | 王瑞泽

编辑 | Tokai



本文介绍了复旦大学研究团队在AAAI 2020上录用的一篇关于多模态文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》,利用场景图针对图像序列进行故事生成。

该文章认为将图像转为图结构的表示方法(如场景图),然后通过图网络在图像内和跨图像两个层面上进行关系推理,有助于表示图像,并最终有利于描述图像。实验结果证明该方法可以显著的提高故事生成的质量。


论文链接: http://www.sdspeople.fudan.edu.cn/zywei/paper/2020/wang-aaai-2020.pdf


对于大多数人,观察一组图像然后写一个语义通顺的故事是很简单的事情。尽管近年来深度神经网络的研究取得了令人鼓舞的成果,但对于机器来说,这仍然是一件困难的事情。

近年来,视觉叙事(visual storytelling)越来越受到计算机视觉(CV)和自然语言处理(NLP)领域的关注。不同于图像标注(image captioning)旨在为单个图像生成文字描述,视觉叙事任务则更具挑战性,它进一步研究了机器如何理解一个图像序列,并生成连贯故事的能力

目前的视觉叙事方法都采用了编码器-解码器结构,使用通过一个基于CNN的模型提取视觉特征,使用基于RNN的模型进行文本生成。其中有些方法引入了强化学习和对抗学习等方法,来产生更加通顺、有表现性的故事。但是仅使用CNN提取到的特征来表示所有的视觉信息,这不大符合直觉而且损害了模型的可解释性和推理能力。

回想一下人是如何看图写故事的呢?人会先分辨出图像上面有什么物体,推理他们的关系,接下来把一个图像抽象成一个场景,然后依次看观察图像,推理图像间的关系。对于视觉叙事这个任务,本文认为也可以采用类似方法。

本文认为把图像转为一种图结构的表示(如场景图),随后在图像内(within-image)和跨图像(cross-image)这两个层面上建模视觉关系,将会有助于表示图像,并最终对描述图片有所帮助。

图1:一个基于场景图的视觉叙事例子.

 

一、方法描述

       图2:提出的模型概述.

本文提出了一种基于图网络的模型SGVST (如图2所示),它可以在图像内和跨图像这两个层面上建模视觉关系。

简单来说,首先将图像In通过Scene Graph Parser转化为场景图Gn=(Vn, En)。场景图包含了检测到的物体Vn={vn,1,…,vn,k},以及物体之间的视觉关系En。

如图2所示,一个男人抱着一个孩子,那么男人和孩子就可以作为图中的节点,他们的视觉关系作为边。接着将场景图通过Multi-modal Graph ConvNet:在图像内的层面,使用图卷积神经网络(GCN)来对场景图中的节点特征进行增强。在跨图像层面,为了建模图像之间的交互,使用时序卷积神经网络(TCN)来沿着时间维度进行卷积,进一步优化图像的特征表示。最后得到了集合了图像内关系和跨图像关系的relation aware的特征,输入到层次化解码器(Hierarchical Decoder)中来生成故事。

图3:层次化解码器概述.


二、实验结果

1. 定量分析

表1:在VIST数据集上的不同模型性能比较. *代表直接优化RL奖励,比如CIDEr分数,              代表通过交叉熵损失(MLE)优化. 

表1显示了不同模型在七个自动评价指标上的性能。结果显示作者提出的SGVST模型几乎在所有指标上都优于其他用MLE和RL优化的模型具有更好的性能,SGVST的BLEU-1、BLEU-4和METEOR得分比其他基于MLE优化的最佳方法分别提高了3.2%、2.5%和1.4%,这被认为是在VIST数据集上的显著进步。这直接说明将图像转换为基于图的语义表示(如场景图),有利于图像的表示和高质量的故事生成。

本文还进行了消融实验,和提出模型的5个变种模型进行了比较,来验证模型每个模块部分的重要性。从表1中可以看在不使用GCN和TCN的时候,模型性能有一个很大的下降。这说明图网络在该模型中是最为重要的,因为它可以给模型带来了推理视觉关系的能力。


2. 定性分析

图4:不同模型定性分析的例子.

图4展示了3种不同模型生成的故事和真实故事的样例。第一行是输入的一个图像序列。第二行是生成出的场景图。第三行是不同模型生成的故事。可以看出SGVST生成的故事更通顺,而且信息更丰富、更有表现力。

图5:每种颜色代表了相对应模型产生的故事,被评价人员认为更加像人写的、更有表现力所占的比例。灰色的”Tie”代表了打平.


表2:人工评估结果。在AMT上的评估人员根据对每个问题的同意程度来评价故事的质量,评分范围为1-5.

为了更好地评价生成的故事的质量,作者通过Amazon Mechanical Turk(AMT)进行了两种人工评价。(1)图5是不同模型两两比较的一个实验结果,给评价人员2个生成出的故事,然后让他来选择哪一个写的更好。(2)表2是在6个指标上进行的人工评估实验结果。可以看出本文提出的模型和其他模型相比有着巨大的优势,而且和人类相比,也取得了有竞争力的表现。


四、总结

1. 将图像转为图结构的语义表示(如场景图),可以更好的表示图像,有利于高质量的故事生成。

2. 本文提出了一个基于图网络的模型,可以将图像转为场景图,然后在图像内和跨图像两个层面上进行关系推理。

3. 实验结果表明,本文提出的模型取得了优秀的表现,并且能产生信息更加丰富、语言更加连贯的故事。

4. 场景图生成的质量限制了本文模型的性能,如果能有更好的场景图生成方法,本文模型的性能还能取得进一步提高。



AAAI 论文解读系列:


点击“阅读原文”加入 CS285学习小组

登录查看更多
10

相关内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
还在脑补画面?这款GAN能把故事画出来
机器之心
5+阅读 · 2019年7月6日
如何使用注意力模型生成图像描述?
AI研习社
9+阅读 · 2018年8月6日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
VALSE2017系列之七:视觉与语言领域年度进展概述
深度学习大讲堂
9+阅读 · 2017年7月11日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
VIP会员
Top
微信扫码咨询专知VIP会员