视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性。在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考。

http://www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20220604&flag=1

近年来,视觉理解技术的快速发展仍主要建立 在监督学习的基础上。 然而,物体检测、语义和实例 分割以及视频动作识别等视觉理解任务往往需要大 量的全标注数据集 D s = {(x, y s )},其中 x 为输入 样本,y s是全标注。 例如,对于分割任务,图像 x 中 包含各种物体,全标注 y s为像素级别的类别标签。 得益于深度学习技术的快速发展,全监督学习在各 种视觉理解任务中已经取得了巨大成功,如目标检 测任务中的 YOLO ( you only look once) (Redmon 等,2016 )、 Fast R-CNN ( fast region-based convolutional neural network) (Girshick,2015;He 等,2017; Ren 等,2017 )、 FCOS ( fully convolutional one-stage object detector) (Tian 等,2019)和 DETR ( detection transformer) ( Carion 等,2020 ) 等, 语义分割中的 DeepLab ( Chen 等,2018 )、 PSPNet ( pyramid scene parsing network) (Zhao 等,2017)等。 然而,大规模 数据集的全标注往往要耗费大量的人力成本和时间 成本。 仍以图像分割为例,为获取全监督训练数据 集如 CityScapes (Cordts 等,2016),需人工对图像进 行像素级别标注。 该数据集中包含 5 000 幅图像, 使用 LabelMe 软件(Russell 等,2008)进行精细的像 素级标注,每幅图像平均需要花费超过 1. 5 h 来保 证标注的质量,人工标注的成本大约是每小时 6 10 美元。 显然,过高的标注成本制约了语义分割在 其他类别上的更快发展。 无监督生成学习和自监督 学习虽然在很大程度上能够缓解标注代价,但仍需 要一定数量的全标注数据用于模型微调。 数据标注 作为一种典型劳动密集型工作,已成为关乎当前整 个 AI(artificial intelligence)产业的基础。 如何有效地降低标注成本或者避免数据标注,同时保证视觉 理解模型的性能,不仅是深度学习未来发展应用的 关键问题,同时也是机器学习乃至于人工智能领域 的重要开放问题,在经济和社会层面上均具有重要 的研究意义。

弱监督学习作为一种降低数据标注成本的有效 方式,有望对缓解这一问题提供可行的解决方案,因 而获得了较多的关注。 在视觉弱监督学习方法中, 对于样本 x 仅需提供弱标注 y w构成弱监督数据集 D w = {(x, y w )}。 如对于图像分割任务,图像级别 和标注框的弱监督标注,相较于像素级别的标注的 代价显著降低。 仍以 CityScapes 数据库为例,一个 边界框的标注需要 7 s,一个图像的类别标注只需要 1 s,弱标注相较于像素级的全标注显著降低了成 本。 视觉弱监督学习旨在利用弱标注数据集 D w , 通过发展有效的学习模型以缩小与全监督模型的性 能差距。 视觉弱监督方法能够显著降低标注成本,且 期望接近全监督视觉模型的性能。 因而如何结合深 度学习和视觉数据任务特点发展视觉弱监督学习模型 方法,成为近年来计算机视觉领域的一个研究热点。

成为VIP会员查看完整内容
31

相关内容

弱监督学习:监督学习的一种。大致分3类,第一类是不完全监督(incomplete supervision),即,只有训练集的一个(通常很小的)子集是有标签的,其他数据则没有标签。这种情况发生在各类任务中。例如,在图像分类任务中,真值标签由人类标注者给出的。从互联网上获取巨量图片很容易,然而考虑到标记的人工成本,只有一个小子集的图像能够被标注。第二类是不确切监督(inexact supervision),即,图像只有粗粒度的标签。第三种是不准确的监督(inaccurate supervision),模型给出的标签不总是真值。出现这种情况的常见原因有,图片标注者不小心或比较疲倦,或者某些图片就是难以分类。
基于深度学习的计算机视觉研究新进展
专知会员服务
150+阅读 · 2022年4月21日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
28+阅读 · 2021年11月8日
专知会员服务
32+阅读 · 2021年9月29日
专知会员服务
26+阅读 · 2021年8月24日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
85+阅读 · 2021年1月7日
专知会员服务
65+阅读 · 2020年12月24日
中文预训练模型研究进展
专知
7+阅读 · 2022年7月22日
【2021年度发展报告】视觉弱监督学习研究进展
中国图象图形学学会CSIG
1+阅读 · 2022年7月8日
从顶会论文看多模态预训练研究进展
专知
3+阅读 · 2021年12月24日
实例分割研究综述总结
专知
1+阅读 · 2021年12月3日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
CVPR2019目标检测方法进展综述
极市平台
45+阅读 · 2019年3月20日
南京大学周志华教授综述论文:弱监督学习
机器之心
11+阅读 · 2018年3月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
58+阅读 · 2021年11月15日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
基于深度学习的计算机视觉研究新进展
专知会员服务
150+阅读 · 2022年4月21日
基于RGB-D图像的语义场景补全研究进展综述
专知会员服务
28+阅读 · 2021年11月8日
专知会员服务
32+阅读 · 2021年9月29日
专知会员服务
26+阅读 · 2021年8月24日
基于深度学习的行人检测方法综述
专知会员服务
68+阅读 · 2021年4月14日
视觉目标跟踪十年研究进展
专知会员服务
86+阅读 · 2021年3月10日
专知会员服务
61+阅读 · 2021年3月6日
专知会员服务
85+阅读 · 2021年1月7日
专知会员服务
65+阅读 · 2020年12月24日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员