成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
CVPR 2020 | 利用跨模态无监督域自适应进行三维语义分割
2020 年 5 月 6 日
AI科技评论
本文介绍的是CVPR2020论文《xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D Semantic Segmentation》,本文首发于知乎。
作
者 |
吴建明
编辑 | 丛 末
论文地址:
https://arxiv.org/pdf/1911.12676.pdf
1
摘要
无监督域自适应(UDA)对于解决新域中缺少注释的问题至关重要。有许多多模态数据集,但大多数UDA方法都是单模态的。
在这项工作中,我们探索如何从多模态学习,并提出跨模态UDA(xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割。这是一个挑战,因为这两个输入空间是异构的,并且可能受到域移动的不同影响。在xMUDA中,模态通过相互模仿相互学习,脱离分割目标,防止强模态采用弱模态的错误预测。利用最近的自动驾驶数据集,评估新的UDA方案,包括白天到晚上、国家到国家和数据集到数据集。xMUDA在所有测试场景上都比单峰UDA有很大的改进,并且是对最新UDA技术的补充。
2
创新点
Unsupervised Domain Adaptation
在过去的几年中,人们对无监督的领域适应技术越来越感兴趣,这些技术可以用于复杂的感知任务,如目标检测和语义分割。
虽然大多数现有的作品考虑的是2D世界中的UDA,但很少有人处理3D世界中的UDA。吴等人 [32]在激光雷达点云的三维分割中,对UDA采用了激活相关对齐[19]。在这项工作中,本文研究了相同的任务,但不同的是:系统对多模态输入数据(即RGB+LiDAR)进行操作。
在多模态场景的2D/3D语义分割方面,目前还没有UDA的研究成果。只有一些人考虑到额外的模式,例如深度,仅在源域上的训练时间可用,并利用这些特权信息来提高适应性能。否则,这里假设所有模式在训练和测试时间在源域和目标域上都可用。
Multi-Modality Learning
在有监督的设置中,通过融合来自多个源的特征,可以自然地提高性能。几何上最简单的情况是RGB深度融合与密集的像素到像素的二维分割对应[9,26]。将三维点云与二维图像融合起来比较困难,因为它们生活在不同的度量空间中。一种解决方案是将二维和三维特征投影到“鸟瞰图”中进行目标检测[18]。另一种可能性是将多视图图像中的二维特征提升到三维点云,以实现三维语义分割的二维-三维联合处理[23、14、3]。本文更接近于上一系列的工作:共享三维语义分割的相同目标。然而,我们关注的是如何利用多模态来代替有监督的学习,并且只使用单视图图像及其对应的点云。
3D networks for semantic segmentation
虽然图像是稠密的张量,但三维点云可以用多种方式表示,从而导致相互竞争的网络族并行演化。体素与像素非常相似,但由于大多数体素是空的,因此记忆非常强烈。Graham等人[8] 类似的实现[4]通过使用哈希表仅对活动体素卷积来解决这个问题。这允许非常高的分辨率,通常每个体素只有一个点。基于点的网络在连续的三维空间中执行计算,因此可以直接接受点云作为输入。PointNet++[21]使用逐点卷积、最大池来计算全局特征和局部邻域聚集,用于类似CNN的分层学习。在这方面已经提出了许多改进,如连续卷积[29]和可变形核[24]。基于图的网络卷积在点云的边上[30]。在这项工作中,本文选择Sparse ConvNet[8]作为3D网络,这是ScanNet基准上的最新技术[5]。
3
xMUDA
跨模态UDA(xMUDA)的目的是通过在模态之间进行受控信息交换来利用多模态,使模态之间相互学习。在下面,我们定义了基本的监督学习设置,我们的跨模态损失LxM,和附加的伪标签学习方法。loss流量如图3所示。
Supervised Learning
可以将每个网络流(2D和3D)的分段损失Lseg写为:
Cross-Modal Learning
跨模式无监督学习的目标有两个。首先,我们要在目标数据集上将知识从一种模式转移到另一种模式。其次,要在源和目标上设计一个辅助目标,任务是估计其他模态的预测。
选择交叉模块LxM的KL发散角,并按如下定义:
每个网络流(2D和3D)的完整优化目标是源上的分段损失Lseg和源上和目标上的交叉模块LxM的组合:
Self-training with Pseudo-Labels
跨模态学习是对伪标记策略[15]的补充,伪标记策略最初用于半监督学习,最近用于UDA[17,34]。具体来说,一旦用公式4优化了一个模型,我们就提取出伪标签,根据预测的类别概率选择高度机密的标签。然后,使用生成的伪标签从头开始训练,以便在目标训练集上附加分段损失。实际上,优化问题:
4
实验
在三个提出的跨模态UDA方案上评估xMUDA,并与art-uni-modal UDA方法的状态进行比较[17]。表1报告了在3个UDA方案的目标测试集上3D分割的平均交并(mIoU)
结果:
定性结果如图6所示,显示了xMUDA在所有拟议UDA方案中的通用性。图7描绘了各个2D/3D输出,以说明它们各自的强项和弱点,例如,在夜间3D的工作比2D好得多。本文还提供了A2D2到semanickittiscenariottp://tiny.cc/xmuda的视频。
Extension to Fusion
前面展示了如何使用xMUDA改进每种成像方式,因此,softmax平均值也随之增加。然而,如何通过二维和三维特征融合来获得尽可能好的效果呢?
一种常见的融合架构是后期融合,其中来自不同来源的特征被连接起来(参见图4a)。然而,对于xMUDA,需要在特征中独立于模态,否则模拟任务变得微不足道。因此,本文提出xMUDA融合(参见图4b),其中每个模态具有用于模拟融合预测的单模态预测输出。
在表2中,展示了不同融合的结果。“xMUDA Fusion w/o PL”由于跨模态学习而优于普通的Fusion。
Segmentation Heads
在下面,我们证明了我们的设计选择两个分割头的永久流,而不是一个单一的方法(见图5a)。在单头架构中,模拟目标直接应用于两个主要预测之间,这两个预测导致弱模态概率的增加和强模态的减少,如图5b中的车辆类别所示。
由于希望对纯跨模态学习进行基准测试,因此实验通常包括无PL的firsttrainingstep。从表3中的结果。xMUDA比单头结构有更好的性能,而且在选择好的超参数时也更为可靠,特别是交叉模态损失的重量λt。
5
结论
这项工作提出了 xMUDA(跨模态无监督域自适应
)
,其中模态相互学习以提高目标域上的性能。同时设计了一个具有独立主头和模拟头的体系结构,从跨模态学习目标中分离出分段。
在新的UDA场景下利用2D/3D数据集进行3D语义分割的实验表明,xMUDA在很大程度上优于单峰UDA,是对伪标签策略的补充。在融合过程中观察到模拟性能的提高。跨模态学习在很多场合和任务中都是有用的,不仅仅限于UDA。特别是,它应该有利于监督学习和其他方式,而不是图像和点云。
ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!
点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
UDA
关注
0
【ECCV2020-海康威视】用于深度表示学习的无监督图像分类
专知会员服务
69+阅读 · 2020年7月6日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
【CVPR2020-Oral】无监督域内自适应语义分割,Unsupervised Intra-domain Adaptation
专知会员服务
69+阅读 · 2020年4月20日
近期必读的6篇CVPR 2020【域自适应(Domain Adaptation)】相关论文和代码
专知会员服务
95+阅读 · 2020年3月24日
【华南理工大学-CVPR2020-Oral】通过结构正则化深度聚类实现无监督域自适应
专知会员服务
55+阅读 · 2020年3月20日
[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架
专知会员服务
25+阅读 · 2020年3月15日
【CVPR2020】用于细粒度动作识别的多模式域自适应,Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
专知会员服务
77+阅读 · 2020年2月25日
【IJCV2020】通过迭代亲密学习实现弱监督语义分割
专知会员服务
41+阅读 · 2020年2月20日
近期必读的9篇CVPR 2019【域自适应(Domain Adaptation)】相关论文和代码
专知会员服务
61+阅读 · 2020年1月10日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法
泡泡机器人SLAM
22+阅读 · 2019年9月7日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
近期必读的9篇CVPR 2019【域自适应(Domain Adaptation)】相关论文和代码
专知
74+阅读 · 2019年5月21日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)
泡泡机器人SLAM
29+阅读 · 2018年8月14日
CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测
PaperWeekly
8+阅读 · 2018年8月1日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding
Arxiv
4+阅读 · 2020年1月11日
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
Arxiv
77+阅读 · 2019年11月10日
LadderNet: Multi-path networks based on U-Net for medical image segmentation
Arxiv
7+阅读 · 2019年8月28日
Associatively Segmenting Instances and Semantics in Point Clouds
Arxiv
5+阅读 · 2019年2月28日
ShelfNet for Real-time Semantic Segmentation
Arxiv
7+阅读 · 2018年12月10日
Attentive Relational Networks for Mapping Images to Scene Graphs
Arxiv
3+阅读 · 2018年11月26日
nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
Arxiv
12+阅读 · 2018年9月27日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
Arxiv
6+阅读 · 2018年3月21日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
UDA
模态
无监督域自适应
跨模态
语义分割
多模态
相关VIP内容
【ECCV2020-海康威视】用于深度表示学习的无监督图像分类
专知会员服务
69+阅读 · 2020年7月6日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
【CVPR2020-Oral】无监督域内自适应语义分割,Unsupervised Intra-domain Adaptation
专知会员服务
69+阅读 · 2020年4月20日
近期必读的6篇CVPR 2020【域自适应(Domain Adaptation)】相关论文和代码
专知会员服务
95+阅读 · 2020年3月24日
【华南理工大学-CVPR2020-Oral】通过结构正则化深度聚类实现无监督域自适应
专知会员服务
55+阅读 · 2020年3月20日
[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架
专知会员服务
25+阅读 · 2020年3月15日
【CVPR2020】用于细粒度动作识别的多模式域自适应,Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
专知会员服务
77+阅读 · 2020年2月25日
【IJCV2020】通过迭代亲密学习实现弱监督语义分割
专知会员服务
41+阅读 · 2020年2月20日
近期必读的9篇CVPR 2019【域自适应(Domain Adaptation)】相关论文和代码
专知会员服务
61+阅读 · 2020年1月10日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法
泡泡机器人SLAM
22+阅读 · 2019年9月7日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
近期必读的9篇CVPR 2019【域自适应(Domain Adaptation)】相关论文和代码
专知
74+阅读 · 2019年5月21日
【泡泡点云时空】FlowNet3D:学习三维点云中的场景流
泡泡机器人SLAM
41+阅读 · 2019年5月19日
【泡泡点云时空】利用超点图的大场景点云语义分割(CVPR2018-5)
泡泡机器人SLAM
29+阅读 · 2018年8月14日
CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测
PaperWeekly
8+阅读 · 2018年8月1日
CVPR 2018 | 无监督语义分割之全卷积域适应网络
极市平台
8+阅读 · 2018年6月28日
CVPR 2018 | 伯克利等提出无监督特征学习新方法,代码已开源
AI前线
12+阅读 · 2018年5月13日
相关论文
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding
Arxiv
4+阅读 · 2020年1月11日
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications
Arxiv
77+阅读 · 2019年11月10日
LadderNet: Multi-path networks based on U-Net for medical image segmentation
Arxiv
7+阅读 · 2019年8月28日
Associatively Segmenting Instances and Semantics in Point Clouds
Arxiv
5+阅读 · 2019年2月28日
ShelfNet for Real-time Semantic Segmentation
Arxiv
7+阅读 · 2018年12月10日
Attentive Relational Networks for Mapping Images to Scene Graphs
Arxiv
3+阅读 · 2018年11月26日
nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation
Arxiv
12+阅读 · 2018年9月27日
Two Stream 3D Semantic Scene Completion
Arxiv
4+阅读 · 2018年7月16日
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Arxiv
7+阅读 · 2018年3月30日
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
Arxiv
6+阅读 · 2018年3月21日
大家都在搜
自主可控
洛克菲勒
大规模语言模型
CMU博士论文
俄乌战争
palantir
无人艇
宋飏
VALSE 吴毅
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top