Image captioning models are usually evaluated on their ability to describe a held-out set of images, not on their ability to generalize to unseen concepts. We study the problem of compositional generalization, which measures how well a model composes unseen combinations of concepts when describing images. State-of-the-art image captioning models show poor generalization performance on this task. We propose a multi-task model to address the poor performance, that combines caption generation and image--sentence ranking, and uses a decoding mechanism that re-ranks the captions according their similarity to the image. This model is substantially better at generalizing to unseen combinations of concepts compared to state-of-the-art captioning models.


翻译:图像字幕模型通常根据其描述一组隐藏的图像的能力来评估,而不是其概括到不可见概念的能力。我们研究了合成集的问题,它衡量模型在描述图像时如何很好地组成了各种概念的无形组合。最先进的图像字幕模型在这项任务上表现不佳。我们提出了一个多任务模型,以解决不良的性能,将字幕生成和图像认知排序结合起来,并使用一种解码机制,根据与图像的相似性重新排列字幕。这个模型在将各种概念与最先进的字幕模型相比较时,将各种概念的隐性组合归纳为隐性组合方面要好得多。

3
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
4+阅读 · 2019年8月7日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年4月3日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
相关论文
Arxiv
4+阅读 · 2019年8月7日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年11月27日
Image Captioning based on Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年4月3日
Top
微信扫码咨询专知VIP会员