Top-performing computer vision models are powered by convolutional neural networks (CNNs). Training an accurate CNN highly depends on both the raw sensor data and their associated ground truth (GT). Collecting such GT is usually done through human labeling, which is time-consuming and does not scale as we wish. This data labeling bottleneck may be intensified due to domain shifts among image sensors, which could force per-sensor data labeling. In this paper, we focus on the use of co-training, a semi-supervised learning (SSL) method, for obtaining self-labeled object bounding boxes (BBs), i.e., the GT to train deep object detectors. In particular, we assess the goodness of multi-modal co-training by relying on two different views of an image, namely, appearance (RGB) and estimated depth (D). Moreover, we compare appearance-based single-modal co-training with multi-modal. Our results suggest that in a standard SSL setting (no domain shift, a few human-labeled data) and under virtual-to-real domain shift (many virtual-world labeled data, no human-labeled data) multi-modal co-training outperforms single-modal. In the latter case, by performing GAN-based domain translation both co-training modalities are on pair; at least, when using an off-the-shelf depth estimation model not specifically trained on the translated images.


翻译:高性能计算机视觉模型由神经神经网络(CNNs)驱动。 培训一个准确的CNN 高度取决于原始感应数据及其相关的地面真相(GT) 。 收集这种GT通常通过人类标签进行,这种标签费时且不按我们的意愿进行。 这种标记瓶颈的数据可能因图像传感器的域变换而强化,这可能会迫使每个传感器的数据标签。 在本文中,我们侧重于使用联合培训,即半监督的深度学习(SSL)方法,以获取自标对象约束框(BBs),即GT来培训深度物体探测器。 特别是,我们通过依赖两种不同的图像观点来评估多模式共同培训的好坏, 即外观( RGB) 和估计深度(D) 。 此外,我们将基于外观的单一模式联合培训与多式数据标签。 我们的结果表明,在标准 SSL 设置( 没有域变换, 没有几个人标签数据) 和在虚拟到现实域域内, 使用一个特定的翻译模式的多式数据变换 G。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
ICML 2021论文收录
专知会员服务
123+阅读 · 2021年5月8日
专知会员服务
45+阅读 · 2020年10月31日
专知会员服务
110+阅读 · 2020年3月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
0+阅读 · 2021年6月10日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
9+阅读 · 2018年4月12日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员