视觉弱监督学习研究进展

视觉理解，如物体检测、语义和实例分割以及动作识别等，在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来，基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而，物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本，已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式，有望对缓解这一问题提供可行的解决方案，因而获得了较多的关注。围绕视觉弱监督学习，本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展，并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型，如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上，针对物体检测和定位，从多示例学习、类注意力图机制等方面分别进行总结，并重点回顾了自训练和监督形式转换等方法；针对语义分割任务，根据不同粒度的弱监督形式，如边界框标注、图像级类别标注、线标注或点标注等，对语义分割研究进展进行总结分析，并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法；针对视频动作识别，从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式，对弱监督视频动作识别的模型与算法进行回顾，并讨论了各种弱监督形式在实际应用中的可行性。在此基础上，进一步讨论视觉弱监督学习面临的挑战和发展趋势，旨在为相关研究提供参考。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220604&flag=1

近年来,视觉理解技术的快速发展仍主要建立在监督学习的基础上。然而,物体检测、语义和实例分割以及视频动作识别等视觉理解任务往往需要大量的全标注数据集 D s = {(x, y s )},其中 x 为输入样本,y s是全标注。例如,对于分割任务,图像 x 中包含各种物体,全标注 y s为像素级别的类别标签。得益于深度学习技术的快速发展,全监督学习在各种视觉理解任务中已经取得了巨大成功,如目标检测任务中的 YOLO ( you only look once) (Redmon 等,2016 )、 Fast R-CNN ( fast region-based convolutional neural network) (Girshick,2015;He 等,2017; Ren 等,2017 )、 FCOS ( fully convolutional one-stage object detector) (Tian 等,2019)和 DETR ( detection transformer) ( Carion 等,2020 ) 等, 语义分割中的 DeepLab ( Chen 等,2018 )、 PSPNet ( pyramid scene parsing network) (Zhao 等,2017)等。然而,大规模数据集的全标注往往要耗费大量的人力成本和时间成本。仍以图像分割为例,为获取全监督训练数据集如 CityScapes (Cordts 等,2016),需人工对图像进行像素级别标注。该数据集中包含 5 000 幅图像, 使用 LabelMe 软件(Russell 等,2008)进行精细的像素级标注,每幅图像平均需要花费超过 1. 5 h 来保证标注的质量,人工标注的成本大约是每小时 6 10 美元。显然,过高的标注成本制约了语义分割在其他类别上的更快发展。无监督生成学习和自监督学习虽然在很大程度上能够缓解标注代价,但仍需要一定数量的全标注数据用于模型微调。数据标注作为一种典型劳动密集型工作,已成为关乎当前整个 AI(artificial intelligence)产业的基础。如何有效地降低标注成本或者避免数据标注,同时保证视觉理解模型的性能,不仅是深度学习未来发展应用的关键问题,同时也是机器学习乃至于人工智能领域的重要开放问题,在经济和社会层面上均具有重要的研究意义。

弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。在视觉弱监督学习方法中, 对于样本 x 仅需提供弱标注 y w构成弱监督数据集 D w = {(x, y w )}。如对于图像分割任务,图像级别和标注框的弱监督标注,相较于像素级别的标注的代价显著降低。仍以 CityScapes 数据库为例,一个边界框的标注需要 7 s,一个图像的类别标注只需要 1 s,弱标注相较于像素级的全标注显著降低了成本。视觉弱监督学习旨在利用弱标注数据集 D w , 通过发展有效的学习模型以缩小与全监督模型的性能差距。视觉弱监督方法能够显著降低标注成本,且期望接近全监督视觉模型的性能。因而如何结合深度学习和视觉数据任务特点发展视觉弱监督学习模型方法,成为近年来计算机视觉领域的一个研究热点。

成为VIP会员查看完整内容

相关内容

弱监督学习

关注 7

弱监督学习：监督学习的一种。大致分3类，第一类是不完全监督（incomplete supervision），即，只有训练集的一个（通常很小的）子集是有标签的，其他数据则没有标签。这种情况发生在各类任务中。例如，在图像分类任务中，真值标签由人类标注者给出的。从互联网上获取巨量图片很容易，然而考虑到标记的人工成本，只有一个小子集的图像能够被标注。第二类是不确切监督（inexact supervision），即，图像只有粗粒度的标签。第三种是不准确的监督（inaccurate supervision），模型给出的标签不总是真值。出现这种情况的常见原因有，图片标注者不小心或比较疲倦，或者某些图片就是难以分类。

基于深度学习的计算机视觉研究新进展

专知会员服务

152+阅读 · 2022年4月21日

基于RGB-D图像的语义场景补全研究进展综述

专知会员服务

29+阅读 · 2021年11月8日

基于弱监督学习的目标检测研究进展

专知会员服务

27+阅读 · 2021年8月24日

基于深度学习的行人检测方法综述

专知会员服务

71+阅读 · 2021年4月14日