从图像中提取出有意义、有实用价值的信息。

知识荟萃

图像识别 Image Recognition 专知荟萃

入门学习

  1. 如何识别图像边缘?  阮一峰
  2. CS231n课程笔记翻译:图像分类笔记
  3. 深度学习、图像分类入门,从VGG16卷积神经网络开始 [http://blog.csdn.net/Errors_In_Life/article/details/65950699]
  4.  The 9 Deep Learning Papers You Need To Know About (Understanding CNNs Part 3) 翻译
  5. 深度学习框架Caffe图片分类教程
  6. MobileNet教程:用TensorFlow搭建在手机上运行的图像分类器
  7. 图像验证码和大规模图像识别技术
  8. 卷积神经网络如何进行图像识别
  9. 图像识别与验证码
  10. 图像识别(知乎话题) - [https://www.zhihu.com/topic/19588774/top-answers?page=1]

综述

  1. A Review of Image Recognition with Deep Convolutional Neural Network
  2. Review on Image Recognition
  3. 深度学习在图像识别中的研究进展与展望
  4. 图像物体分类与检测算法综述 黄凯奇 任伟强 谭铁牛 [http://cjc.ict.ac.cn/online/cre/hkq-2014526115913.pdf]
  5. Book Chapter - Objecter Recognition

进阶文章

Imagenet result

  1. Microsoft (Deep Residual Learning] [http://arxiv.org/pdf/1512.03385v1.pdf]][[Slide](http://image-net.org/challenges/talks/ilsvrc2015_deep_residual_learning_kaiminghe.pdf] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition, arXiv:1512.03385.
  2. Microsoft (PReLu/Weight Initialization] [http://arxiv.org/pdf/1502.01852] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, arXiv:1502.01852.
  3. Batch Normalization [http://arxiv.org/pdf/1502.03167] Sergey Ioffe, Christian Szegedy, Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, arXiv:1502.03167.
  4. GoogLeNet [http://arxiv.org/pdf/1409.4842] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, CVPR, 2015.
  5. VGG-Net [http://www.robots.ox.ac.uk/~vgg/research/very_deep/] [http://arxiv.org/pdf/1409.1556] Karen Simonyan and Andrew Zisserman, Very Deep Convolutional Networks for Large-Scale Visual Recognition, ICLR, 2015.
  6. AlexNet [http://papers.nips.cc/book/advances-in-neural-information-processing-systems-25-2012] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, NIPS, 2012.

2013

  1. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

2014

  1. CNN Features off-the-shelf: an Astounding Baseline for Recognition CVPR 2014
  2. Deeply learned face representations are sparse, selective, and robust
  3. Deep Learning Face Representation by Joint Identification-Verification
    - [https://arxiv.org/abs/1406.4773]
  4. Deep Learning Face Representation from Predicting 10,000 Classes. intro: CVPR 2014
  5. Multiple Object Recognition with Visual Attention**

2015

  1. HD-CNN: Hierarchical Deep Convolutional Neural Network for Image Classification intro: ICCV 2015
  2. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ImageNet top-5 error: 4.94%
  3. Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios
  4. FaceNet: A Unified Embedding for Face Recognition and Clustering

2016

  1. Humans and deep networks largely agree on which kinds of variation make object recognition harder**
  2. FusionNet: 3D Object Classification Using Multiple Data Representations
  3. Deep FisherNet for Object Classification**
  4. Factorized Bilinear Models for Image Recognition**
  5. Hyperspectral CNN Classification with Limited Training Samples**
  6. The More You Know: Using Knowledge Graphs for Image Classification**
  7. MaxMin Convolutional Neural Networks for Image Classification**
  8. Cost-Effective Active Learning for Deep Image Classification. TCSVT 2016.
  9. DeepFood: Deep Learning-Based Food Image Recognition for Computer-Aided Dietary Assessment

2017

  1. Deep Collaborative Learning for Visual Recognition
  2. Bilinear CNN Models for Fine-grained Visual Recognition
  3. Multiple Instance Learning Convolutional Neural Networks for Object Recognition**
  4. B-CNN: Branch Convolutional Neural Network for Hierarchical Classification
  5. Why Do Deep Neural Networks Still Not Recognize These Images?: A Qualitative Analysis on Failure Cases of ImageNet Classification
  6. Deep Mixture of Diverse Experts for Large-Scale Visual Recognition
  7. Convolutional Low-Resolution Fine-Grained Classification

Tutorial

  1. CVPR tutorial : Large-Scale Visual Recognition
  2. Image Recognition with Tensorflow
  3. Visual Object Recognition Tutorial by Bastian Leibe & Kristen Grauman

视频教程

  1. CS231n: Convolutional Neural Networks for Visual Recognition
  2. 李飞飞: 我们怎么教计算机理解图片?
    - [https://www.youtube.com/watch?v=40riCqvRoMs]

Datasets

  1. MNIST: handwritten digits (http://yann.lecun.com/exdb/mnist/)
  2. NIST: similar to MNIST, but larger
  3. Perturbed NIST: a dataset developed in Yoshua’s class (NIST with tons of deformations)
  4. CIFAR10 / CIFAR100: 32×32 natural image dataset with 10/100 categories ( http://www.cs.utoronto.ca/~kriz/cifar.html)
  5. Caltech 101: pictures of objects belonging to 101 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech101/)
  6. Caltech 256: pictures of objects belonging to 256 categories (http://www.vision.caltech.edu/Image_Datasets/Caltech256/
  7. Caltech Silhouettes: 28×28 binary images contains silhouettes of the Caltech 101 dataset
  8. STL-10 dataset is an image recognition dataset for developing unsupervised feature learning, deep learning, self-taught learning algorithms. It is inspired by the CIFAR-10 dataset but with some modifications. http://www.stanford.edu/~acoates//stl10/
  9. The Street View House Numbers (SVHN) Dataset – http://ufldl.stanford.edu/housenumbers/
  10. NORB: binocular images of toy figurines under various illumination and pose (http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/)
  11. Imagenet: image database organized according to the WordNethierarchy (http://www.image-net.org/)
  12. Pascal VOC: various object recognition challenges (http://pascallin.ecs.soton.ac.uk/challenges/VOC/)
  13. Labelme: A large dataset of annotated images, http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
  14. COIL 20: different objects imaged at every angle in a 360 rotation(http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php)
  15. COIL100: different objects imaged at every angle in a 360 rotation (http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php)

代码

  1. AlexNet 
  2. ZFnet [https://github.com/rainer85ah/Papers2Code/tree/master/ZFNet]
  3. VGG
  4. GoogLeNet [https://github.com/BVLC/caffe/tree/master/models/bvlc_googlenet]
  5. ResNet
  6. HD-CNN
  7. Factorized Bilinear Models for Image Recognition
  8. MaxMin Convolutional Neural Networks for Image Classification
  9. Multiple Object Recognition with Visual Attention
  10. Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification
  11. Deep Learning Face Representation from Predicting 10,000 Classes
  12. FaceNet: A Unified Embedding for Face Recognition and Clustering
  13. DeepFood: Deep Learning-Based Food Image Recognition for Computer-Aided Dietary Assessment

领域专家

  1. Yangqing Jia
  2. Ross Girshick
  3. Xiaodi Hou
  4. Kaiming He
  5. Jian Sun
  6. Xiaoou Tang
  7. Shuicheng Yan

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

VIP内容

小样本深度学习图像识别最新综述论文

图像识别是图像研究领域的核心问题, 解决图像识别问题对人脸识别、自动驾驶、机器人等各领域研究都有重要意义. 目前广泛使用的基于深度神经网络的机器学习方法, 已经在鸟类分类、人脸识别、日常物品分类等图像识别数据集上达到了超过人类的水平, 同时越来越多的工业界应用开始考虑基于深度神经网络的方法, 以完成一系列图像识别业务. 但是深度学习方法极度依赖大规模标注数据, 这一缺陷极大地限制了深度学习方法在实际图像识别任务中的应用. 针对这一问题, 越来越多的研究者开始研究如何基于少量的图像识别标注样本来训练识别模型. 为了更好地理解基于少量标注样本的图像识别问题, 广泛地讨论了几种图像识别领域主流的少量标注学习方法, 包括基于数据增强的方法、基于迁移学习的方法以及基于元学习的方法, 通过讨论不同算法的流程以及核心思想, 可以清晰地看到现有方法在解决少量标注的图像识别问题上的优点和不足. 最后针对现有方法的局限性, 指出了小样本图像识别未来的研究方向.

地址: http://www.jos.org.cn/jos/article/abstract/6342?st=article_issue

现在的机器学习方法, 尤其是基于深度神经网络的机器学习方法已经在人脸识别[1]、自动驾驶[2]、机器人[3] 等图像识别相关领域取得了巨大的成就, 有的甚至已经超过人类目前的识别水平. 然而在深度学习取得巨大成就 的同时, 人们发现把其应用到实际问题中却困难重重. 首先是标注数据的问题, 目前的深度学习方法需要大量的标 注数据来进行训练[4] , 但是实际应用中数据获取往往是困难的, 这之中既有个人隐私的问题, 比如人脸数据, 也有 问题对象本身就很少的问题, 比如识别珍稀保护动物的问题, 除此之外, 数据标注工作往往需要耗费大量人力物力, 从而阻碍了深度学习技术在图像识别领域的落地. 其次是算力问题, 深度学习方法在提高算法性能的同时, 往往伴随着庞大的网络运算, 这也就使得深度学习的方法很难部署在计算资源受限的设备上, 因此在一些算力受限 的应用场景, 比如自动驾驶、机器人、道路监控等问题中, 图像识别任务目前大多还是使用一些低智能化、低算力消耗的技术完成的, 这同样严重阻碍了智能化图像识别技术的发展.

与之相反, 人类的识别却是相对轻量的, 即并不需要收集大量的数据来进行学习, 更不需要长时间的思考或者 计算[5] . 比如父母教新生婴儿识字, 分辨动物, 只需要简单地在家里贴上一两幅相应的字画即可, 小孩很快就会认 识上面的内容. 如何在保留现在的深度学习方法强大的知识表示能力的同时, 使其可以快速从少量样本中学习到 有用的知识, 这种基于小样本的图像识别问题已经逐渐引起了人们的注意.

本文将按照下面的顺序来展开讨论, 首先在第 1 节介绍小样本图像识别的问题描述, 然后会在第 2 节介绍基 于数据增强的小样本学习算法, 在第 3 部分介绍基于迁移学习的算法, 在第 4 节介绍基于元学习的算法, 会在第 5 节介绍现在广泛使用的小样本图像识别问题评价指标, 并对比上面介绍的算法在该问题基准上的性能, 最后会在 第 6 部分指出现有算法的不足以及未来的发展方向.

1 小样本学习简介

小样本图像识别任务需要机器学习模型在少量标注数据上进行训练和学习, 目前经常研究的问题为 N-way Kshot 形式, 即问题包括 N 种数据, 每种数据只包含 K 个标注样本[6] . 现有的小样本图像识别问题可以看做是基于深 度迁移学习的图像识别问题, 这里我们把上面提到的少量标注数据称作目标数据域, 后续的识别任务都是基于目 标数据所包含的类别进行的; 然后为了辅助模型的训练, 通常会引入一个和目标数据域类别互斥的辅助数据集, 和 目标数据域的少量标注相反, 辅助数据集的标注样本更加丰富, 类别也更加多.

解决 N-way K-shot 形式的小样本图像识别任务, 大多数方法会从辅助数据集学习先验知识, 然后在标注有限 的目标数据域上利用这些先验知识完成学习和预测任务. 在下面的章节我们会详细讨论如何基于辅助数据集来学 习先验知识, 以及如何利用这些先验知识来在小样本图像识别问题上完成学习和预测.

2 基于数据增强的小样本图像识别方法

小样本图像识别任务的核心问题是标注数据不足, 所以通过算法生成人工标注数据, 来扩充原有的数据量是 一种非常直观的方法[7] . 在小样本图像识别任务领域, 目前常用的数据增强方法基本上都是利用少量的标注数据 来生成更多的伪数据, 比如人工合成图像, 同时需要给这些伪数据打上标签, 然后作为标注数据来辅助训练, 本质 上和迁移学习的方法是异曲同工的[8] . 按照伪数据的使用方式, 可以将其划分为两种类型: 一种是使用伪数据来填 补标注不足的小样本数据, 另外一种是使用伪数据来显式地锐化分类算法学习到的决策边界. 下面就这两种方法 以及对应的具体算法展开讨论.

基于数据增强的思路来解决小样本学习问题是一种最直观的思路, 而且该类方法更加灵活, 通过设 计数据增强模块生成伪数据, 将其扩充到小样本数据中, 使用混合数据直接对识别模型进行更新即可. 但是因为实 际样本数目较少, 目前广泛使用的基于深度神经网络的方法在实际的数据增强中, 容易出现知识偏移以及过拟合 的问题, 所以实际的应用效果会比后面介绍的几类方法差一些. 但是这种数据增强的思路对于解决实际的样本缺 失问题来说更具有普遍意义, 所以将数据增强的思路融入迁移学习或者元学习的算法中, 是未来值得研究的方向.

3 基于迁移学习的小样本图像识别方法

面对标注限制的机器学习任务, 一个很自然的思路就是将模型在大数据集上进行预训练, 从中学习到一些有 利于当前任务的先验知识, 从而来弥补标注数据不足的问题. 这一方法在机器学习领域, 尤其是近几年普遍使用的 神经网络方法中取得了不错的效果, 下面关于为什么迁移学习[16]可以应用于小样本学习, 以及迁移学习如何应用 于小样本学习进行讨论。

4 基于元学习的小样本图像识别方法

元学习[24]的目标是使得网络模型具有快速学习的能力, 快速学习是人类与生俱来的一种生存能力, 元学习方 法希望模型具有像人类一样, 通过较少的示例就可以在较短的时间内学会分辨新的事物的能力. 通过元学习的问 题定义可以发现, 元学习方法是处理小样本学习问题的一个重要思路. 本节将围绕 3 种用于小样本图像识别问题 的元学习方法展开讨论, 这 3 种方法分别为基于优化器的小样本学习算法, 基于度量的小样本学习算法以及基于 外部记忆的小样本学习算法.

基于元学习的思路来解决小样本学习问题, 是近两年该领域的研究热点, 如何划分任务通用参数和任务特定 参数, 如何更加有效地训练元学习模型等课题一直具有相当的活力. 元学习算法希望学习一个可以“自主”学习的模型, 使得模型在只有少量样本的新任务上可以快速泛化. 尽管元学习方法在小样本学习中已经取得了不错的效 果, 但是该类方法仍然存在一些问题.

(1) 元学习算法优化难; 因为采用多任务交替训练的方式来更新模型, 不同任务的数据之间存在数据分布的不 同, 只是简单地交替训练, 在任务数据分布差别较大的时候, 会导致最后的模型难以收敛的问题;

(2) 元学习算法缺乏相关的可解释性; 元学习算法的思路具有一定的启发性, 但是关于方法的有效性一直难以 被证明, 同时元学习方法和迁移学习方法之间的区别也一直是研究者们关注的重点, 如何从理论上解释元学习的 有效性, 是未来的一个重要的研究方向.

5 实验结果对比

目前小样本图像识别研究普遍使用基于 ImageNet 数据集采样得到的 mini-ImageNet[43]数据集来作为评估基 准. mini-ImageNet 数据集包含了 100 个类别的数据, 其中 64 个类别作为训练集使用, 20 个类别数据作为验证集使 用, 剩下的 16 个类别数据作为测试集使用. 表 1 统计了目前主流的小样本学习算法在 mini-ImageNet 数据集上的 实验性能. 其中基础构架一列描述了算法使用的神经网络结构; 5-way 1-shot 的实验结果代表在包含了 5 种未知 类, 每个未知类标注数据只有 1 例的情况下算法的识别准确率; 5-way 5-shot 的实验结果代表在包含了 5 种未知 类, 每个未知类标注数据只有 5 例的情况下算法的识别准确率。

6 总结和展望

在机器学习领域之中, 不同任务机器学习任务中数据集的规模和质量是限制机器学习系统性能的重要问题. 小样本图像识别任务关注在机器学习系统在数据规模较少情况下的学习问题, 解决好小样本学习问题, 于学术界可以帮助相关研究者更好的理解机器学习系统的内在机理, 于工业界可以有效的节约数据的标注成本, 因此近年 来小样本学习领域备受研究者的关注. 在本文中, 我们主要关注图像分类任务中的小样本学习问题. 首先我们形式 化的定义了图像分类任务中的小样本学习问题, 之后我们分别介绍了现有的不同种类的小样本学习模型, 包括基 于数据增强的方法, 基于迁移学习的方法, 基于度量的方法, 基于优化的方法, 基于外部记忆的方法. 最后在标准数 据集上比较了几类小样本图像识别模型的性能并进行分析. 我们基于对小样本学习领域总结的结果, 提出了几个 发展的方向.

(1) 神经网络可解释性[47] . 尽管现阶段深度学习模型在不同领域中均取得了明显的成绩, 但是神经网络本身具 有一定的黑盒性. 因此通过对于神经网络可解释性的进一步探索, 可以让研究者对于深度学习机理有更深的了解, 方便研究者根据深度学习的内在机理针对样本较少的问题做出更合理的结构上或者训练方法上的改善.

(2) 更通用的小样本学习方法. 现阶段研究者虽然开始关注更多任务中的小样本学习问题, 但是他们通常是基 于设定好的任务模式进行研究, 比如小样本研究领域广泛使用的 mini-ImageNet 数据集, 每个子任务都是采用 5-way 1-shot, 或者 5-way 5-shot 这样规范的任务设定进行数据划分的, 但是实际的小样本学习系统应该是可以处 理任意类别和任意标签数据的小样本识别问题的. 而且目前研究使用的小样本学习任务本质上都是从一个完整的 大数据集上进行数据划分得到的, 每个子任务之间仍然存在较大的关联性. 基于更加真实的小样本任务, 以及数据 组织更加宽松的数据展开研究, 是将小样本研究从理论推往实践的至关重要的一步.

(3) 增量学习问题. 目前小样本增量学习[48]已经开始被研究者所关注, 但是大部分小样本学习系统在设计的过 程中并没有考虑系统的增量学习问题. 小样本识别系统在工作的初期会面对数据不足的问题, 但是随着越来越多 的数据进入系统, 小样本识别系统所积攒的标注数据将会越来越多, 如何充分利用这些新进入的数据, 来改善和提 高当前系统的识别系统, 对于小样本学习系统的可持续性工作至关重要. 因此将增量学习的研究和小样本学习技 术结合起来, 将会有利于小样本学习技术的落地.

小样本学习领域当前仍然具有蓬勃的生机, 本文仅对于现有的图像分类任务上的小样本学习模型进行总结, 目前不同领域, 不同任务上的小样本学习问题也逐渐被研究者们所挖掘, 例如计算机视觉领域中的语义分割任 务[49] , 自然语言处理领域的关系抽取任务[50] , 以及强化学习任务, 增量学习任务. 这些任务中的小样本学习系统在 与一般系统相比较时, 性能通常存在一定的差距, 可见小样本学习领域依然有较长的一段路要走, 我们相信小样本 学习领域会收到越来越多的关注.

参考文献:

[1] El Sallab A, Abdou M, Perot E, Yogamani S. Deep reinforcement learning framework for autonomous driving. Electronic Imaging, 2017, 2017(19): 70–76. [doi: 10.2352/ISSN.2470-1173.2017.19.AVM-023]

[2] Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K, Cui C, Corrado G, Thrun S, Dean J. A guide to deep learning in healthcare. Nature Medicine, 2019, 25(1): 24–29. [doi: 10.1038/s41591-018-0316-z]

[3] Goodfellow I, Bengio Y, Courville A. Deep Learning. Cambridge: MIT Press, 2016.

[4] Vanschoren J. Meta-learning: A survey. arXiv: 1810.03548, 2018.

[5] Fort S. Gaussian prototypical networks for few-shot learning on omniglot. arXiv: 1708.02735, 2017. Zhang HY, Cisse M, Dauphin YN, Lopez-Paz D. mixup: Beyond empirical risk minimization. In: Proc. of the 6th Int ’l Conf. Paper at ICLR 2018. Vancouver, 2018.

成为VIP会员查看完整内容
0
21
Top
微信扫码咨询专知VIP会员