Recently, image captioning has aroused great interest in both academic and industrial worlds. Most existing systems are built upon large-scale datasets consisting of image-sentence pairs, which, however, are time-consuming to construct. In addition, even for the most advanced image captioning systems, it is still difficult to realize deep image understanding. In this work, we achieve unpaired image captioning by bridging the vision and the language domains with high-level semantic information. The motivation stems from the fact that the semantic concepts with the same modality can be extracted from both images and descriptions. To further improve the quality of captions generated by the model, we propose the Semantic Relationship Explorer, which explores the relationships between semantic concepts for better understanding of the image. Extensive experiments on MSCOCO dataset show that we can generate desirable captions without paired datasets. Furthermore, the proposed approach boosts five strong baselines under the paired setting, where the most significant improvement in CIDEr score reaches 8%, demonstrating that it is effective and generalizes well to a wide range of models.


翻译:最近,图像字幕在学术和工业界引起了极大兴趣。大多数现有系统都建立在大型数据集之上,这些数据集由图像-感应对配对组成,但是,这些配对需要花费时间。此外,即使是最先进的图像字幕系统,仍然难以实现深刻的图像理解。在这项工作中,我们通过将视觉和语言领域与高层次语义信息连接起来,实现了无偏颇的图像字幕。其动机来自一个事实,即具有相同模式的语义概念可以从图像和描述中提取出来。为了进一步提高模型生成的字幕的质量,我们建议使用语义关系探索器,探索语义概念之间的关系,以便更好地了解图像。关于MCCO数据集的广泛实验表明,我们可以在没有配对数据集的情况下生成理想的字幕。此外,拟议方法在配对环境中提升了五个强的基线,其中CIDer最显著的改进达到8%,表明它有效,并广泛概括到各种模型。

0
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
102+阅读 · 2020年7月22日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Semantic Grouping Network for Video Captioning
Arxiv
3+阅读 · 2021年2月3日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2018年11月27日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员