Although existing image caption models can produce promising results using recurrent neural networks (RNNs), it is difficult to guarantee that an object we care about is contained in generated descriptions, for example in the case that the object is inconspicuous in image. Problems become even harder when these objects did not appear in training stage. In this paper, we propose a novel approach for generating image captions with guiding objects (CGO). The CGO constrains the model to involve a human-concerned object, when the object is in the image, in the generated description while maintaining fluency. Instead of generating the sequence from left to right, we start description with a selected object and generate other parts of the sequence based on this object. To achieve this, we design a novel framework combining two LSTMs in opposite directions. We demonstrate the characteristics of our method on MSCOCO to generate descriptions for each detected object in images. With CGO, we can extend the ability of description to the objects being neglected in image caption labels and provide a set of more comprehensive and diverse descriptions for an image. CGO shows obvious advantages when applied to the task of describing novel objects. We show experiment results on both MSCOCO and ImageNet datasets. Evaluations show that our method outperforms the state-of-the-art models in the task with average F1 75.8, leading to better descriptions in terms of both content accuracy and fluency.


翻译:虽然现有的图像说明模型能够利用经常性神经网络(RNN)产生有希望的结果,但很难保证我们所关心的物体包含在生成的描述中,例如,该物体在图像中不显眼,问题就更加严重。在培训阶段没有出现这些物体,我们建议采用新颖的方法制作带有指导物体的图像说明(CGO)。在图像中,CGO限制该模型涉及受人关注的物体,当该物体出现在图像中,在生成的描述中,同时保持流畅。我们不是从左向右生成序列,而是用一个选定的对象进行描述,并生成基于该物体的序列的其他部分。为了实现这一点,我们设计了一个新颖的框架,将两个LSTMs放在相反的方向。我们展示了我们在MSCOCO上制作每个被检测到的物体描述的方法的特点。与CGO一道,我们可以将描述能力扩大到在图像说明标签中被忽略的对象,并为图像提供一套更全面、更多样化的描述。CGO在描述新物体的任务中,我们在描述新物体时会应用一个明显的优势。我们用一个新的物体的精确性模型来展示我们的平均模型的模型,1 显示格式任务中,在FSCO和FRONet任务中,我们的平均任务中,我们用FSO-dreg-s-ladal-dal-d-d-dddddal-ddddddal-dal-daldalvial-dal-dal-ddal-dal-dal-dal-dal-dal-dal-dal-dal-dal-dal-dal-dddal-dal-d-dal-dal-dal-dal-dal-dal-d-dal-dal-dal-dal-dal-dal-d-dal-dal-dal-dal-dal-dal-dal-daldaldaldaldaldaldaldal-d-d-d-d-dal-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-d-

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
6+阅读 · 2018年4月3日
Arxiv
20+阅读 · 2018年1月17日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月11日
Arxiv
6+阅读 · 2018年4月3日
Arxiv
20+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员