Image Captioning 36页最新综述， 161篇参考文献

2018 年 10 月 23 日 专知

【导读】近日澳大利亚莫道克大学的研究人员在arxiv上发表基于深度学习的image cationing （图像描述生成）最新综述论文，详细阐述了当前图像描述生成的最新成就和关键技术。文章最后总结了未来几个比较有前景的方向，对从事这个领域的人非常有借鉴作用。

Image Caption是一个融合计算机视觉、自然语言处理和机器学习的综合问题，它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易，但是对于机器却非常具有挑战性，它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外，模型还需要能够抓住图像的语义信息，并且生成人类可读的句子。

当前，理解图像很大程度上取决于获取图像特征。用于此目的的技术可大致分为两类：（1）基于传统的机器学习的技术（2）基于深度机器学习的技术。

近5年来，大量关于深度学习图像描述生成的文章被广泛使用。深度学习算法能够很好地处理图像描述生成的复杂性和一系列挑战。到目前为止，只有三篇关于这个方向的综述论文（8,13,75，见论文）发表。虽然这些论文对图像描述生成进行了很好的文献综述，但由于大部分论文只覆盖少量关于深度学习的论文。这些综述论文主要讨论了基于模板、基于检索、基于深度学习的图像描述生成模型。然而，在基于深度学习的图像描述生成方面，研究者们已经做了大量的工作，并且还有好多新数据集的使用，当前暂时还没有一个全面的图像描述生成的综述。

这篇综述论文的主要目的是为基于深度学习的图像描述生成提供一个全面的综述。首先，将现有的图像描述生成的文章分为三大类:（1）基于模板的图像描述生成方法（Template-based Image captioning）（2）基于检索的图像描述生成（Retrieval-based image captioning），（3）新颖的图像描述生成方法（Novel image caption generation）。

这些类别将在文章中第2节中进行简要讨论。大多数基于深度学习的图像描述生成方法都属于第三类别。这篇综述只关注基于深度学习的图像描述的生成。

其次, 论文将基于深度学习的图像描述生成方法分为不同的类别，即1）基于视觉空间，（2）基于多模态，（3）监督学习，（4）其他深度学习，（5） Dense captioning, （6）基于整个场景, （7）基于Encoder-Decoder体系结构, （8）基于组合体系结构, （9）基于LSTM(长短期记忆的语言模型, （10）基于其他语言模型, （11）基于注意力，（12）基于语义概念，（13）Stylized captions等等。

论文在第3节中讨论上述所有的类别，在第4节中提供了数据集的概述和用于评测图像描述生成的常用评估指标，还在第5节中讨论并比较了不同方法的结果。最后，我们在第6节简要讨论了未来的研究方向，并在第7节进行了总结。

计算机视觉已经发展了五十多年。在此期间，视觉理解（visual understanding）这一领域取得了长足的进展。为了让机器像人类一样能够“看”懂周围的世界，计算机视觉研究人员设计了大量的人工特征去描述一件物体，并且提出了各种模型去识别这些人为设计的特征。几年前，当我们谈论图像或视频理解时，我们能做的只是给一幅图像或一段视频自动打上一些彼此相互独立的标签（tag）。而今天，我们已经可以借用深度学习的发展将视觉理解这一基础任务再往前推进一步，即将单个的标签变成一段和当前视觉内容相关并且通顺连贯的自然语言描述。

视觉和语言（Vision and Language）其实是一个交叉领域。想要建立视觉和自然语言的桥梁，不仅需要理解视觉，也要知道如何对自然语言进行建模。同时，这个桥梁也可以是双向的，既可以从视觉生成文字（如caption、sentiment、visual question answering等），也可以从文字到视觉（如generation、search）

Image Captioning的基本思路来源于语言翻译，其流程大体是先使用 CNN 对图片进行编码得到视觉特征表示，然后使用 RNN 对这个特征进行解码来生成图像描述。在提取视觉特征时，可以使用高级语义特征和注意力机制等计算机视觉领域常用的方法，也可以直接使用自动编码器进行处理。

参考文献：

https://www.msra.cn/zh-cn/news/features/vision-and-language-20170713

题目： A Comprehensive Survey of Deep Learning for Image Captioning

作者：Md. Zakir Hossain, Ferdous Sohel, Mohd Fairuz Shiratuddin, Hamid Laga

【摘要】生成一个图像的描述称为图像描述生成。图像描述生成需要识别图像中的重要目标、他们的属性和关系。它还需要生成语法和语义上正确的句子。基于深度学习的技术能够处理图像描述生成这一任务的复杂性和各种挑战。在这篇综述论文中，我们旨在对现有的基于深度学习的图像描述生成技术进行全面的综述。我们讨论分析了它们的性能、优点和技术的局限性。我们还讨论了在基于深度学习的图像描述生成处理中常用的数据集和评价指标。

参考链接：

https://arxiv.org/abs/1810.04020