We address the problem of visual storytelling, i.e., generating a story for a given sequence of images. While each sentence of the story should describe a corresponding image, a coherent story also needs to be consistent and relate to both future and past images. To achieve this we develop ordered image attention (OIA). OIA models interactions between the sentence-corresponding image and important regions in other images of the sequence. To highlight the important objects, a message-passing-like algorithm collects representations of those objects in an order-aware manner. To generate the story's sentences, we then highlight important image attention vectors with an Image-Sentence Attention (ISA). Further, to alleviate common linguistic mistakes like repetitiveness, we introduce an adaptive prior. The obtained results improve the METEOR score on the VIST dataset by 1%. In addition, an extensive human study verifies coherency improvements and shows that OIA and ISA generated stories are more focused, shareable, and image-grounded.


翻译:我们处理视觉故事讲述问题,即为特定图像序列制作一个故事。虽然故事的每个句子都应描述一个相应的图像,但一个连贯的故事也需要前后一致,并且与未来和过去图像都相关。为了实现这一目标,我们开发了有命令的图像关注(OIA)。内审办模型在句子对应图像与其他序列图像中的重要区域之间相互作用。为了突出重要对象,一种类似信息传递的算法以有秩序的方式收集这些对象的表达方式。为了生成故事的句子,我们然后用图像感应(ISA)来突出重要的图像关注矢量。此外,为了减轻常见的语言错误,例如重复性,我们引入了适应性前。所获得的结果使VIST数据集的METEOR分数提高了1%。此外,一项广泛的人类研究证实了一致性的改进,并显示内审办和ISA生成的故事更加集中、可分享和基于图像。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
138+阅读 · 2019年11月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Guiding Visual Question Generation
Arxiv
0+阅读 · 2021年10月15日
Arxiv
0+阅读 · 2021年10月10日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年3月30日
VIP会员
相关VIP内容
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
知识图谱在可解释人工智能中的作用,附81页ppt
专知会员服务
138+阅读 · 2019年11月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Guiding Visual Question Generation
Arxiv
0+阅读 · 2021年10月15日
Arxiv
0+阅读 · 2021年10月10日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年3月30日
Top
微信扫码咨询专知VIP会员