自动图像标注技术综述(中文版),27页pdf

2020 年 12 月 14 日 专知

摘 要 图像自动标注技术是减少图像数据与内容之间“语义鸿沟”的其中一种最有效途径,对于帮助人类理解图像内容,从海量图像数据中检索感兴趣的信息具有重要现实意义.通过研究近20年公开发表的图像标注文献,总结了图像标注模型的一般性框架;并通过该框架结合各种具体工作,分析出在图像标注研究过程中需要解决的一般性问题;将各种图像标注模型所采用的主要方法归为9种类型,分别为相关模型、隐Markov模型、主题模型、矩阵分解模型、近邻模型、基于支持向量机的模型、图模型、典型相关分析模型以及深度学习模型,并对每种类型的图像标注模型,按照“基本原理介绍—具体模型差异—模型总结”3个层面进行了研究与分析.此外,总结了图像标注模型常用的一些数据集、评测指标,对一些比较著名的标注模型的性能进行了比较,并据此对各种类型的标注模型做了优缺点分析.最后,提出了图像标注领域一些开放式问题和研究方向.

关键词 自动图像标注;图像语义分析;图像标识;图像内容标签;图像内容标注

随着计算机软硬件、互联网、大数据及分布式存储等技术的不断成熟和快速发展,图像数据在数量和内容上呈现爆炸式增长.2017年1月中国互联网络信息中心(China Internet Network Information Center, CNNIC)发布的《中国互联网发展状况统计报告》显示,网页中的图片所占比率已达总的多媒体形式的79.63%,以数字图像作为载体也是文化资源数字化的最主要方式.然而,在数字图像数据保持高速增长的同时,人们对图像数据的利用能力却没有随之增强.究其原因,是计算机难以通过图像的低层视觉特征提取出可供人类理解的高层语义信息,低层视觉特征和高层语义特征之间存在“语义鸿沟”的缺陷.这也导致我们在应对大规模图像数据时缺少有效的检索方案,从而难以获取所需信息.

图像自动标注技术是减少“语义鸿沟”的最有效的途径之一,其以图像为研究目标,以知识为研究手段,利用人工智能和模式识别等方法完成对图像内容的语义解释,使计算机系统自动获取图像蕴含的信息内容,从而协助人们完成对图像信息的获取,检索到感兴趣的内容.因此研究图像的自动标注技术和算法,对于帮助人类从海量图像数据中检索兴趣内容,获取所需信息,具有重要现实意义.

在2003年以前,国内外学者对图像自动标注技术的研究仍然处于初级探索阶段,随后广大学者不但加强了对该技术的关注度,同时也取得了一定的研究成果.考察已有研究成果,大部分工作仍是将解决或缩小图像的视觉特征表达与高层语义信息之间的鸿沟问题作为研究重点,主要探索方向为:1)选取鲁棒性强、适应广泛的图像特征;2)建立有效的计算模型;3)设计更加适用的标注算法,使图像标注的上下文信息得到更加充分的利用;4)针对图像本身数据量大、标签空间特征维度高、已有图像标签环境复杂的特点,如何在不影响性能的情况下降低标签空间维度,去除已有图像的标签噪声.到目前为止,对各种已经出现的图像标注模型进行统一分类、梳理的综述性工作仍然相对缺乏,少量的综述性研究工作[1-4]往往存在分类单一、归类模糊以及综合性不强等问题.因此,本文旨在通过深入分析和研究公开发表的图像标注文献,系统归类已有图像标注模型,总结各类模型的优缺点、一般性问题及一般性框架,为后续图像自动标注领域的研究工作提供帮助与思路.

本文的贡献:1)通过研究近20年公开发表的图像标注文献,总结了图像标注模型的一般性框架;并通过该框架结合各种具体工作,分析出在图像标注问题中需要解决的一般性问题.2)对各种图像标注模型按照其主要使用的方法类型进行了归类;对每一类方法类型的图像标注模型,首先进行了基本的原理介绍,然后对该方法类型下的图像标注模型之间的差异进行了具体的分析,最后对每一类方法类型的标注模型做简单总结.3)总结了一些比较著名的标注模型的性能和实验数据,并据此对各种方法类型的标注模型做了优缺点分析.4)总结了图像标注模型常用的一些数据集和评测指标.5)给出了图像标注领域一些开放式问题和研究方向.

http://crad.ict.ac.cn/CN/10.7544/issn1000-1239.2020.20190793



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“自动标注” 就可以获取自动图像标注技术综述(中文版),27页pdf》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

图像描述生成(Image Caption)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。除此之外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
69+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
71+阅读 · 2020年12月12日
图神经网络综述 (中文版),14页pdf
专知会员服务
331+阅读 · 2020年11月24日
专知会员服务
182+阅读 · 2020年11月23日
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
专知会员服务
223+阅读 · 2020年5月6日
轻量级神经网络架构综述
专知会员服务
96+阅读 · 2020年4月29日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
全面梳理:图像配准综述
极市平台
6+阅读 · 2019年12月13日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
27+阅读 · 2018年6月13日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
Arxiv
31+阅读 · 2021年3月29日
Arxiv
15+阅读 · 2019年6月25日
Arxiv
18+阅读 · 2019年1月16日
Arxiv
5+阅读 · 2018年10月11日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
VIP会员
相关VIP内容
专知会员服务
69+阅读 · 2021年3月29日
跨媒体分析与推理技术研究综述
专知会员服务
69+阅读 · 2021年3月11日
自动文本摘要研究综述
专知会员服务
67+阅读 · 2021年1月31日
专知会员服务
71+阅读 · 2020年12月12日
图神经网络综述 (中文版),14页pdf
专知会员服务
331+阅读 · 2020年11月24日
专知会员服务
182+阅读 · 2020年11月23日
最新《多任务学习》综述,39页pdf
专知会员服务
264+阅读 · 2020年7月10日
专知会员服务
223+阅读 · 2020年5月6日
轻量级神经网络架构综述
专知会员服务
96+阅读 · 2020年4月29日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
相关资讯
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
全面梳理:图像配准综述
极市平台
6+阅读 · 2019年12月13日
最全综述 | 医学图像处理
计算机视觉life
57+阅读 · 2019年6月15日
【质量检测】机器视觉表面缺陷检测综述
产业智能官
30+阅读 · 2018年9月24日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
27+阅读 · 2018年6月13日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
Top
微信扫码咨询专知VIP会员