摘要
视觉和语言在生成智能中起着至关重要的作用。因此,在过去的几年中,大量的研究致力于图像描述,即用句法和语义上有意义的句子描述图像的任务。从2015年开始,该任务通常使用由可视化编码步骤和用于文本生成的语言模型组成的流程来解决。在这些年里,这两个组件通过开发对象区域、属性和关系以及引入多模态连接、充分关注的方法和类似BERT的早期融合策略得到了相当大的发展。然而,尽管已经取得了令人印象深刻的成果,但关于图像描述的研究还没有得出一个结论性的答案。这项工作旨在提供图像描述方法的全面概述和分类,从视觉编码和文本生成到训练策略,使用的数据集和评估指标。在这方面,我们定量比较了许多相关的最先进的方法,以确定在图像描述架构和训练策略中最具影响力的技术创新。此外,本文还分析和讨论了该问题的许多变体及其面临的挑战。这项工作的最终目标是作为一个工具来理解现有的最先进的技术,并强调计算机视觉和自然语言处理可以找到最佳协同的未来研究方向。
引言
图像描述(Image Captioning)生成有意义的、语法正确的句子。神经科学研究在最近几年才阐明了人类视觉和语言生成之间的联系。类似地,在人工智能中,能够处理图像和生成语言的架构设计是一个非常新问题。这些研究工作的目标是找到最有效的管道来处理输入图像,表示其内容,并通过在保持语言流畅的同时产生视觉和文本元素之间的联系,将其转换为一系列单词。在其标准配置中,图像描述是一个图像到序列的问题,其输入是像素。在视觉编码步骤中,这些特征被编码为一个或多个特征向量,为第二个生成步骤(称为语言模型)准备输入。这将产生一个根据给定词汇表解码的单词或子单词序列。在这几年里,研究人员对模型进行了很大的改进:从第一个基于深度学习的模型,采用循环神经网络(RNNs),并通过卷积神经网络(CNN)提取全局图像描述子,方法已经被注意力方法和强化学习丰富,直到突破变体和自注意力到单流BERT-like方法。与此同时,计算机视觉和自然语言处理(NLP)社区已经解决了建立适当的评估协议和评估指标的挑战,以将结果与人工生成的标准进行比较。此外,还研究了该任务的几个特定领域的场景和变体。然而,取得的成果还远未确定最终的解决方案。在本文中,我们追溯了过去几年发展起来的模型的整体概述。
根据描述模型固有的双重性,我们提出开发了视觉编码和语言建模方法的分类,重点关注它们的关键方面和限制。我们还关注了过去几年文献中遵循的训练策略,从交叉熵损失到强化学习,以及预训练范式获得的最新进展。此外,我们回顾了用于探索图像描述的主要数据集,从领域通用基准到收集来调查问题的特定方面的领域特定数据集,并分析用于性能评估的标准和非标准指标,这些指标捕获产生描述质量的不同方面。这项工作的另一个贡献是对主要图像描述方法进行定量比较,其中考虑了标准和非标准指标,并讨论了它们之间的关系,阐明了最重要模型的性能、差异和特征。最后,我们概述了该问题的许多变体,并讨论了一些开放的挑战和未来的方向。