Generating natural and accurate descriptions in image cap-tioning has always been a challenge. In this paper, we pro-pose a novel recall mechanism to imitate the way human con-duct captioning. There are three parts in our recall mecha-nism : recall unit, semantic guide (SG) and recalled-wordslot (RWS). Recall unit is a text-retrieval module designedto retrieve recalled words for images. SG and RWS are de-signed for the best use of recalled words. SG branch cangenerate a recalled context, which can guide the process ofgenerating caption. RWS branch is responsible for copyingrecalled words to the caption. Inspired by pointing mecha-nism in text summarization, we adopt a soft switch to balancethe generated-word probabilities between SG and RWS. Inthe CIDEr optimization step, we also introduce an individualrecalled-word reward (WR) to boost training. Our proposedmethods (SG+RWS+WR) achieve BLEU-4 / CIDEr / SPICEscores of 36.6 / 116.9 / 21.3 with cross-entropy loss and 38.7 /129.1 / 22.4 with CIDEr optimization on MSCOCO Karpathytest split, which surpass the results of other state-of-the-artmethods.


翻译:在图像标记中产生自然和准确的自然描述始终是一项挑战。 在本文中,我们主张采用一种新回顾机制,以模仿人类圆形标题的方式。我们回想的中间主义有三个部分:回想单元、语义指南(SG)和回想词(RWS) 。回想单元是一个文字检索模块,旨在为图像检索回想单词。SG和RWS为最佳使用被回忆的文字而取消签名。SG分支可以生成一个被回忆的背景,可以指导生成标题的过程。RWS分支负责将所谓的文字复制到标题中。由于在文本拼凑中指向中间主义,我们采用软的转换,以平衡SG和RWS(SG)之间产生的语言概率。在CIDER优化步骤中,我们还引入了个人直言语奖励(WW)来推动培训。我们的拟议方法(SG+RWS+RW)能够生成标题的过程。RWS分支负责将所谓的文字内容复制到标题中。RWS(R)RWS)分支负责将所谓的文字文字缩写文字缩写文字缩写文字缩写字母。在文本拼写中,我们从36.6/119.SBLAREDERSBLAREBL4/CAREDERSBAREMER ASBLAREMER/CAREMER ASBRBLACMER ASMER ASMER 和22AFAFER ASMER ASMER ASBLAFER ASBLAFER ASBSBSBRBRBRBRBRBRBRBRBER ASMER AS ASMER ASMER ASMER AS AS ASMER ASMER AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS 287/ CLAFAFAFAFAFAFAFAFABLAFAFATI 287/217/217/217/217/217/217/CADERMERMERMERMLADERMLADRABERMLATI

0
下载
关闭预览

相关内容

机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
3+阅读 · 2019年3月29日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
7+阅读 · 2018年11月27日
Recurrent Fusion Network for Image Captioning
Arxiv
3+阅读 · 2018年7月31日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Top
微信扫码咨询专知VIP会员