It is highly desirable yet challenging to generate image captions that can describe novel objects which are unseen in caption-labeled training data, a capability that is evaluated in the novel object captioning challenge (nocaps). In this challenge, no additional image-caption training data, other thanCOCO Captions, is allowed for model training. Thus, conventional Vision-Language Pre-training (VLP) methods cannot be applied. This paper presents VIsual VOcabulary pretraining (VIVO) that performs pre-training in the absence of caption annotations. By breaking the dependency of paired image-caption training data in VLP, VIVO can leverage large amounts of paired image-tag data to learn a visual vocabulary. This is done by pre-training a multi-layer Transformer model that learns to align image-level tags with their corresponding image region features. To address the unordered nature of image tags, VIVO uses a Hungarian matching loss with masked tag prediction to conduct pre-training. We validate the effectiveness of VIVO by fine-tuning the pre-trained model for image captioning. In addition, we perform an analysis of the visual-text alignment inferred by our model. The results show that our model can not only generate fluent image captions that describe novel objects, but also identify the locations of these objects. Our single model has achieved new state-of-the-art results on nocaps and surpassed the human CIDEr score.


翻译:生成图像说明非常可取,但具有挑战性,可以描述在标题标签培训数据中看不见的新对象,这种能力在创新对象说明挑战( nocaps)中得到评估。在这项挑战中,不允许为模型培训提供除COCO Captions之外的额外图像说明培训数据。因此,传统的Visu-Language预培训(VLP)方法无法应用。本文件展示了Visual Vocabule 预培训(VIVO),在没有字幕说明的情况下进行预培训。通过在 VLP 中打破配对图像说明培训数据的依赖性,VIVO能够利用大量配对图像标签数据来学习视觉词汇。在培训多层次变换模型时,除了COCOCO C C 说明外,不允许使用更多的配对图像标记培训数据来学习视觉词汇。为了解决图像标记的无序性质, VVIVO使用匈牙利匹配模型损失来进行预培训前标记。我们通过对 VVIVO 校准前的模型来验证 VVIVO 的有效性,通过精细校正的图像说明模型模型模型来校正图像说明。 我们的图像校正的图像校正位置, 也只能进行这种分析。

1
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
因果图,Causal Graphs,52页ppt
专知会员服务
248+阅读 · 2020年4月19日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2021年4月29日
Arxiv
0+阅读 · 2021年4月28日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年4月11日
VIP会员
相关VIP内容
相关论文
Arxiv
0+阅读 · 2021年4月29日
Arxiv
0+阅读 · 2021年4月28日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员