自动图像标注技术综述(中文版)，27页pdf

2020 年 12 月 14 日 专知

摘要图像自动标注技术是减少图像数据与内容之间“语义鸿沟”的其中一种最有效途径，对于帮助人类理解图像内容，从海量图像数据中检索感兴趣的信息具有重要现实意义.通过研究近20年公开发表的图像标注文献，总结了图像标注模型的一般性框架；并通过该框架结合各种具体工作，分析出在图像标注研究过程中需要解决的一般性问题；将各种图像标注模型所采用的主要方法归为9种类型，分别为相关模型、隐Markov模型、主题模型、矩阵分解模型、近邻模型、基于支持向量机的模型、图模型、典型相关分析模型以及深度学习模型，并对每种类型的图像标注模型，按照“基本原理介绍—具体模型差异—模型总结”3个层面进行了研究与分析.此外，总结了图像标注模型常用的一些数据集、评测指标，对一些比较著名的标注模型的性能进行了比较，并据此对各种类型的标注模型做了优缺点分析.最后，提出了图像标注领域一些开放式问题和研究方向.

关键词自动图像标注；图像语义分析；图像标识；图像内容标签；图像内容标注

随着计算机软硬件、互联网、大数据及分布式存储等技术的不断成熟和快速发展，图像数据在数量和内容上呈现爆炸式增长.2017年1月中国互联网络信息中心(China Internet Network Information Center， CNNIC)发布的《中国互联网发展状况统计报告》显示，网页中的图片所占比率已达总的多媒体形式的79.63%，以数字图像作为载体也是文化资源数字化的最主要方式.然而，在数字图像数据保持高速增长的同时，人们对图像数据的利用能力却没有随之增强.究其原因，是计算机难以通过图像的低层视觉特征提取出可供人类理解的高层语义信息，低层视觉特征和高层语义特征之间存在“语义鸿沟”的缺陷.这也导致我们在应对大规模图像数据时缺少有效的检索方案，从而难以获取所需信息.

图像自动标注技术是减少“语义鸿沟”的最有效的途径之一，其以图像为研究目标，以知识为研究手段，利用人工智能和模式识别等方法完成对图像内容的语义解释，使计算机系统自动获取图像蕴含的信息内容，从而协助人们完成对图像信息的获取，检索到感兴趣的内容.因此研究图像的自动标注技术和算法，对于帮助人类从海量图像数据中检索兴趣内容，获取所需信息，具有重要现实意义.

在2003年以前，国内外学者对图像自动标注技术的研究仍然处于初级探索阶段，随后广大学者不但加强了对该技术的关注度，同时也取得了一定的研究成果.考察已有研究成果，大部分工作仍是将解决或缩小图像的视觉特征表达与高层语义信息之间的鸿沟问题作为研究重点，主要探索方向为：1)选取鲁棒性强、适应广泛的图像特征；2)建立有效的计算模型；3)设计更加适用的标注算法，使图像标注的上下文信息得到更加充分的利用；4)针对图像本身数据量大、标签空间特征维度高、已有图像标签环境复杂的特点，如何在不影响性能的情况下降低标签空间维度，去除已有图像的标签噪声.到目前为止，对各种已经出现的图像标注模型进行统一分类、梳理的综述性工作仍然相对缺乏，少量的综述性研究工作[1-4]往往存在分类单一、归类模糊以及综合性不强等问题.因此，本文旨在通过深入分析和研究公开发表的图像标注文献，系统归类已有图像标注模型，总结各类模型的优缺点、一般性问题及一般性框架，为后续图像自动标注领域的研究工作提供帮助与思路.

本文的贡献：1)通过研究近20年公开发表的图像标注文献，总结了图像标注模型的一般性框架；并通过该框架结合各种具体工作，分析出在图像标注问题中需要解决的一般性问题.2)对各种图像标注模型按照其主要使用的方法类型进行了归类；对每一类方法类型的图像标注模型，首先进行了基本的原理介绍，然后对该方法类型下的图像标注模型之间的差异进行了具体的分析，最后对每一类方法类型的标注模型做简单总结.3)总结了一些比较著名的标注模型的性能和实验数据，并据此对各种方法类型的标注模型做了优缺点分析.4)总结了图像标注模型常用的一些数据集和评测指标.5)给出了图像标注领域一些开放式问题和研究方向.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190793