ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

会员服务 ·

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

2022 年 9 月 7 日 PaperWeekly

©作者 | 陆裕磊

单位 | 浙江大学

研究方向 | 图像分割领域自适应

论文标题：

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

论文作者：

Yulei Lu , Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao (ACM MM 2022)

论文链接：

http://arxiv.org/abs/2204.07730

开源代码：

https://github.com/luyvlei/BiSMAPs

任务介绍

近年来，随着深度神经网络的发展，语义分割任务取得了显著的进展。然而，令人满意的性能却伴随着昂贵标注代价，缓解标注成本问题的一个有效解决方法便是使用图形学仿真或者游戏引擎生成合成数据集。然而，域偏移（domain-shift）阻碍了在合成图像上训练的模型进一步部署在实际环境中。

为了解决这个问题，领域适应（DA）方法提出了弥合源域和目标域之间的差距。在实际应用中，无监督域适应（unsupervised domain adaptation, UDA）由于不需要来自目标域的任何标记样例，最终将人工工作量降至最低而备受关注。

本文动机

首先，现有方法利用整个源域信息进行适应，忽略了一些困难和受干扰源域样本对目标域性能没有贡献甚至阻碍的事实。例如，GTA5 的数据集包含大量关于山区的场景，而 cityscape 则没有。为了实现区域对齐，引入这些像场景的样本反而会使目标分布发生偏移。

第二，传统方式传统方法假设每个类别服从具有相同方差的各向同性分布，因此简单地使用单个特征质作为原型，采用欧氏距离作为度量来评估候选特征与当前原型的相似度。通过这种方式，与原型足够接近的特性将被分配一个伪标签。然而，这一假设并不一定适用于语义分割的像素级特征。

例如，“vegetation” 是一个类，但它实际上包括树干和树冠等不同的部分。当使用单一的原型来表示 “vegetation” 时，树干的特征可能会不恰当地映射到更接近 “pole” 的原型，如图 1(a) 所示。此外，简单地使用欧氏距离作为度量，而忽略每个类的方差，可能会进一步恶化相似类别之间的伪标签分配，如图 1(c) 所示。

本文方法

3.1 双向自训练框架

双向的思想如图所示。它包括一个“前向过程”——利用源域原型在目标域内选择可靠的伪标签；一个互补的“反向过程”——利用目标域原型对源域的困难样本或干扰性样本进行“降级”。

在前向过程，我们改进了传统的自训练方法，引入“多重各向异性原型”来生成更准确的伪标签。在反向过程，我们生成源域可转移图（STM）来表示每个源样本在适应中的重要性，并相应地调整训练损失映射的权重。下面分别介绍前向过程和反向过程。

3.2 前向过程——多重各向异性原型

为了缓解传统单质心的表示能力的不足，我们使用高斯混合模型来代替传统的单质心模型如图 3 所示。高斯混合模型的对数概率密度由如下公式得出：

在源域上我们使用预训练过的语义分割模型抽取像素级特征，然后基于高斯混合模型求解各个类别的原型。在目标域上，基于同样的原型抽取出像素级特征后，我们基于公式（4）求解每个像素属于各个高斯混合模型的对数似然值作为特征与原型的相似度度量。最后使用公式（6）基于对数概率密度阈值来筛选出高置的样本。

3.3 反向过程——源域样本降级

在目标域基于无监督聚类生成原型，对于源域特征，我们使用计算他与目标域原型最小的距离：

这里 D(x) 衡量了任意一个源域特征到目标域的距离，A 代表聚类出来的目标域原型。

但是由于长尾分布的影响，头部类会得到一个比较高的权重，因此我们引入类别熵来平衡类别级的可迁移性，具体来说，我们使用归一化类别熵和特征距离的和求解出综合可迁移性：

其中 e 代表类别熵，d_mean 代表平均特征距离。

3.4 训练流程

训练遵循预训练+自训练的二阶段范式：

对于源域，基于可迁移图做加权的监督训练：

对于目标域，使用对称交叉熵和伪标签做监督训练：

另外领域数据增强和 EMA 模型，对训练施加一致性正则化：

最终损失由这 3 项构成，在预训练阶段，仅包含公式（10）的损失：

实验结果

4.1 与其他方法对比

与其他 SOTA 方法比较，本文方法在 GTA5->Cityscape 任务上蒸馏前取得了 57.7 的性能，蒸馏后达到了 61.2 的性能，达到了 SOTA 的效果。

4.2 消融分析

在预训练阶段，源域可迁移图（STM）的引入相比 baseline 带来了 1.9 的性能增益，自训练阶段多重各向异性原型带来了 9.1 的性能提升。综合一致性正则和蒸馏技术，最终的性能达到了 61.2.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

ACM MM 2022

关注 0

欢迎参加第30届ACM Multimedia国际会议。ACM多媒体自1993年成立以来，一直是世界上展示多媒体领域科学成果和创新工业产品的重要会议。今年，ACM多媒体2022将在葡萄牙里斯本举行。在2022年ACM多媒体大会上，经过了漫长的世界范围内的限制和困难，我们期待着欢迎大家来到里斯本参加一个广泛的项目，包括包括多媒体领域所有方面的技术会议，包括口头、视频和海报演示、教程、面板、展览、演示、讲习班、博士研讨会，多媒体大挑战，塑造研究景观的大胆新想法，开源软件竞赛，以及互动艺术项目。我们也将继续支持工业轨道，以认可那些具有重大工业价值的研究工作。我们欢迎来自多媒体、多媒体检索、机器学习、人工智能、视觉、数据科学、人机交互、多媒体信号处理以及医疗保健、教育、娱乐等领域的作品。

【CVPR 2022】基于时空解耦与重耦的RGB-D动作识别 Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition

专知会员服务

14+阅读 · 2022年3月19日

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【CVPR2021】深度稳定学习分布外泛化

专知会员服务

30+阅读 · 2021年5月20日

【CVPR2021】基于跨领域自适应聚类的半监督领域自适应算法

专知会员服务

58+阅读 · 2021年5月19日