摘要

视觉和语言在生成智能中起着至关重要的作用。因此,在过去的几年中,大量的研究致力于图像描述,即用句法和语义上有意义的句子描述图像的任务。从2015年开始,该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。在这些年里,这两个组件通过开发对象区域、属性和关系以及引入多模态连接、充分关注的方法和类似BERT的早期融合策略得到了相当大的发展。然而,尽管已经取得了令人印象深刻的成果,但关于图像描述的研究还没有得出一个结论性的答案。这项工作旨在提供图像描述方法的全面概述和分类,从视觉编码和文本生成到训练策略,使用的数据集和评估指标。在这方面,我们定量比较了许多相关的最先进的方法,以确定在图像描述架构和训练策略中最具影响力的技术创新。此外,本文还分析和讨论了该问题的许多变体及其面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。

引言

图像描述(Image Captioning)生成有意义的、语法正确的句子。神经科学研究在最近几年才阐明了人类视觉和语言生成之间的联系。类似地,在人工智能中,能够处理图像和生成语言的架构设计是一个非常新问题。这些研究工作的目标是找到最有效的管道来处理输入图像,表示其内容,并通过在保持语言流畅的同时产生视觉和文本元素之间的联系,将其转换为一系列单词。在其标准配置中,图像描述是一个图像到序列的问题,其输入是像素。在视觉编码步骤中,这些特征被编码为一个或多个特征向量,为第二个生成步骤(称为语言模型)准备输入。这将产生一个根据给定词汇表解码的单词或子单词序列。在这几年里,研究人员对模型进行了很大的改进:从第一个基于深度学习的模型,采用循环神经网络(RNNs),并通过卷积神经网络(CNN)提取全局图像描述子,方法已经被注意力方法和强化学习丰富,直到突破变体和自注意力到单流BERT-like方法。与此同时,计算机视觉和自然语言处理(NLP)社区已经解决了建立适当的评估协议和评估指标的挑战,以将结果与人工生成的标准进行比较。此外,还研究了该任务的几个特定领域的场景和变体。然而,取得的成果还远未确定最终的解决方案。在本文中,我们追溯了过去几年发展起来的模型的整体概述。

根据描述模型固有的双重性,我们提出开发了视觉编码和语言建模方法的分类,重点关注它们的关键方面和限制。我们还关注了过去几年文献中遵循的训练策略,从交叉熵损失到强化学习,以及预训练范式获得的最新进展。此外,我们回顾了用于探索图像描述的主要数据集,从领域通用基准到收集来调查问题的特定方面的领域特定数据集,并分析用于性能评估的标准和非标准指标,这些指标捕获产生描述质量的不同方面。这项工作的另一个贡献是对主要图像描述方法进行定量比较,其中考虑了标准和非标准指标,并讨论了它们之间的关系,阐明了最重要模型的性能、差异和特征。最后,我们概述了该问题的许多变体,并讨论了一些开放的挑战和未来的方向。

成为VIP会员查看完整内容
42

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
205+阅读 · 2021年4月2日
专知会员服务
69+阅读 · 2021年3月29日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
32+阅读 · 2021年1月25日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
【综述】关键词生成,附10页pdf论文下载
专知
9+阅读 · 2019年10月16日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
图像压缩哪家强?请看这份超详细对比
PaperWeekly
5+阅读 · 2018年7月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
Arxiv
15+阅读 · 2021年7月14日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
20+阅读 · 2018年1月17日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关VIP内容
最新「注意力机制」大综述论文,66页pdf569篇文献
专知会员服务
205+阅读 · 2021年4月2日
专知会员服务
69+阅读 · 2021年3月29日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
最新《图像到图像转换:方法与应用》综述论文,19页pdf
专知会员服务
32+阅读 · 2021年1月25日
最新《深度学习人体姿态估计》综述论文,26页pdf
专知会员服务
38+阅读 · 2020年12月29日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
49+阅读 · 2020年6月14日
最新《深度学习行人重识别》综述论文,24页pdf
专知会员服务
80+阅读 · 2020年5月5日
相关资讯
最新《动态网络嵌入》综述论文,25页pdf
专知
34+阅读 · 2020年6月17日
【综述】关键词生成,附10页pdf论文下载
专知
9+阅读 · 2019年10月16日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
Image Captioning 36页最新综述, 161篇参考文献
专知
90+阅读 · 2018年10月23日
图像压缩哪家强?请看这份超详细对比
PaperWeekly
5+阅读 · 2018年7月10日
NIPS 2017论文解读 | 基于对比学习的Image Captioning
PaperWeekly
6+阅读 · 2018年2月28日
【教程】如何使用深度学习为照片自动生成文本描述?
GAN生成式对抗网络
20+阅读 · 2017年11月19日
相关论文
Arxiv
15+阅读 · 2021年7月14日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
20+阅读 · 2018年1月17日
Arxiv
3+阅读 · 2017年8月15日
微信扫码咨询专知VIP会员