计算机视觉专题分享总结(附PPT)

2017 年 7 月 6 日 机器学习读书会 ml-admin

机器学习读书会，嘉宾分享第一期围绕计算机视觉方向，邀请中科院自动化所模式识别国家重点实验室的赵朝阳博士与王宇航博士，围绕计算机视觉中的核心问题，目标检测以及图像语义分割问题开展分享。

目标检测主题分享

目标检测任务作为计算机视觉领域中的基本问题之一，有着广泛的研究基础。近年来，随着深度学习技术的快速普及，目标检测任务有了长足的发展，并在智能化交通、监控、军事、医疗等多个领域有着广泛的应用。

报告首先对目标检测任务的经典处理流程进行回顾，从候选框获取，到特征提取，再到目标分类，后处理。接下来，报告对特征提取以及目标分类的相关经典工作进行了系统介绍。特征提取方法从哈尔特征到梯度直方图特征，再到积分图特征，特征表述能力不断增强，识别性能取得不断进步。而目标检测领域分类器多采用adaboost框架，为进一步加速检测速度，级联方法得到了广泛应用。

传统方法在人脸检测，行人检测等方面取得了较好的性能，但是受限于传统特征的表述能力的局限性，传统检测方法在通用目标检测领域性能一直不理想。近些年来，深度学习方法，尤其是卷积神经网络，在图像分类，目标检测等方向得到了广泛应用，相比于传统方法，深度学习方法可以获得更有判别力的特征表示。基于深度学习的目标检测方法性能得到明显提升。报告对深度学习方法在目标检测领域的发展历程做了清晰的梳理，包括 RCNN， Fast RCNN，Faster RCNN的发展历程及不同模型解决的问题。报告同时对YOLO以及SSD方法做了详细介绍，并对不同方法的特点进行了详细对比。

报告最后，介绍了嘉宾参加BOT大赛历程，BOT大赛的视觉任务非常具有挑战性，赛题数据具有很强的多样性，数据中包含非实体动物图片，如素描，卡通形象，布偶等，目标具有很强的形变，部分目标只具有局部信息，同时具有人为伪造的照片，类内差异性大。报告给出了参赛的最优解决方案，该方案取得了决赛第一名的优异成绩，并荣获最佳算法奖。

图像语义分割主题分享

图像语义分割作为一种像素级的图像识别任务，正获得越来越广泛的关注。图像语义分割在网络多媒体、智能医疗、自动驾驶等多个领域有着广泛的应用前景。

报告首先对语义分割的基本概念进行介绍，语义分割根据监督信息的不同可以分为，全监督方法，弱监督方法以及半监督方法。本报告集中在全监督语义分割方法。报告指出，全监督语义分割方法本质是像素级分类问题，而基于深度学习的图像语义分割方法是将图像分类方法延伸到像素级分类问题，报告深入地探讨了为什么像素级分类可以实现，尽管层级特征具有较大的感受野，但是依旧携带了足够多的局部像素点信息，从而可以完成像素级分类。

报告对语义分割典型工作FCN方法做了详细介绍，并从以下几个方面指明了优化方向，包括调整网络感受野，多尺度融合，更好的上采样方法以及后处理，融合更多的上下文信息。

为了获得更好的语义分割效果，报告嘉宾提出了轻量级反卷积网络方法Light-DCNN。Light-DCNN采用了更合理的参数初始化方案，去掉全连接层，更好地利用空间位置信息，并且采用了更加精细的上采样方法，该方法在受限数据集上取得了PASCAL VOC 2012最优性能，并且模型更容易收敛，模型更小。随后嘉宾介绍了最新优化方案，基于堆叠的层级语义分割方法，该方法在PASCAL VOC 2012任务上取得了第一名的优异成绩。

最后嘉宾指出了语义分割的近期研究热点，Instance Segmentation, 并对最新研究成果进行了详细介绍。