Connecting Vision and Language plays an essential role in Generative Intelligence. For this reason, large research efforts have been devoted to image captioning, i.e. describing images with syntactically and semantically meaningful sentences. Starting from 2015 the task has generally been addressed with pipelines composed of a visual encoder and a language model for text generation. During these years, both components have evolved considerably through the exploitation of object regions, attributes, the introduction of multi-modal connections, fully-attentive approaches, and BERT-like early-fusion strategies. However, regardless of the impressive results, research in image captioning has not reached a conclusive answer yet. This work aims at providing a comprehensive overview of image captioning approaches, from visual encoding and text generation to training strategies, datasets, and evaluation metrics. In this respect, we quantitatively compare many relevant state-of-the-art approaches to identify the most impactful technical innovations in architectures and training strategies. Moreover, many variants of the problem and its open challenges are discussed. The final goal of this work is to serve as a tool for understanding the existing literature and highlighting the future directions for a research area where Computer Vision and Natural Language Processing can find an optimal synergy.


翻译:由于这一原因,大量研究致力于图像字幕,即以综合和语义上有意义的句子描述图像。从2015年起,任务一般是通过由视觉编码器和文本生成语言模型组成的管道处理的。这些年来,这两个组成部分都通过利用目标区域、属性、采用多模式连接、充分注意方法、以及类似于BERT的早期融合战略等方法发生了很大变化。然而,尽管取得了令人印象深刻的成果,但图像字幕研究尚未达成结论性答案。这项工作旨在全面概述图像字幕标识方法,从视觉编码和文本生成到培训战略、数据集和评价度量。在这方面,我们从数量上比较了许多相关的最新方法,以确定建筑和培训战略中最具影响力的技术创新。此外,还讨论了问题的许多变式及其公开挑战。这项工作的最终目标是作为工具,了解现有文献,突出未来图像标识方法,从视觉编码和文本生成到培训战略、数据集和评价度量度。在这方面,我们从数量上比较了许多相关的最新方法,以确定在结构和培训战略中最具影响力的技术创新创新。此外,还讨论了问题及其公开挑战。这项工作的最终目标是作为理解现有文献和最佳处理方法的未来方向的工具。

5
下载
关闭预览

相关内容

图像字幕(Image Captioning),是指从图像生成文本描述的过程,主要根据图像中物体和物体的动作。
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
Arxiv
15+阅读 · 2021年7月14日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
3+阅读 · 2020年4月29日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关论文
Arxiv
15+阅读 · 2021年7月14日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
3+阅读 · 2020年4月29日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Image Captioning based on Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年5月22日
Arxiv
11+阅读 · 2018年5月13日
Top
微信扫码咨询专知VIP会员