迁移学习领域自适应:具有类间差异的联合概率最大平均差异

2020 年 3 月 20 日 PaperWeekly


©PaperWeekly 原创 · 作者|张玮玮

学校|东北大学硕士生

研究方向|情感识别


论文标题: Discriminative Joint Probability Maximum Mean Discrepancy (DJP-MMD) for Domain Adaptation
论文链接: https://arxiv.org/abs/1912.00320
代码链接: https://github.com/chamwen/JPDA

领域适应(DA),或迁移学习,通过将知识从标记的源域转移到新的未标记或部分标记的目标域,广泛应用于图像分类、情绪识别、脑机接口等。传统的 DA 方法遵循这个假设,即主要使用一些度量方法来分别度量边际概率或条件概率分布。然而,联合概率分布可以更好地测量两个域的分布差异。

为了方便利用 DA 方法,在特征转换时需要考虑两个方面:1)可迁移性,它最小化了同一类在不同域之间的差异;2)区分性,它最大限度地扩大了不同域的不同类之间的差异,从而使不同的类更容易区分。

传统的 DA 方法只考虑可迁移性,而忽略了类内可区分性。作者直接考虑了源域和目标域具有不同的联合概率分布的情况, 提出了具有类间差异的联合概率最大平均差异。

通过直接考虑联合概率分布的差异,作者提出了一种用于分布适应的具有类间差异的联合概率 MMD ( discriminative  joint probability MMD, DJP-MMD)。

它同时最小化了同一类不同域之间的联合概率分布差异以获得可迁移性,最大化了不同域之间的联合概率分布差异以获得可识别性。还可以很容易地将 DJP-MMD 用于考虑不同域之间的非线性转移。


DJP-MMD知识基础

1.1 传统MMD方法

在传统的 DA 方法中,经常使用 MMD 来度量源域和目标域之间的分布差异。一个分布差异完全是由它的联合概率  来描述的,它可以被  或   等价地计算出来。

上式需要两步才能被近似计算出来。
条件分布差异是:
 
边缘分布差异是:


 表示子空间样本的期望。
引入一个非线性映射  ,MMD 距离可以写成如下式:

当  是 TCA 方法, 是 JDA 方法, 是 BDA。因此,这些传统的 DA  方法是基于边际和条件的权值完成 MMDs 近似联合概率分布。


论文方法
2. 1 DJP-MMD

上图将传统的联合 MMD 提出的 DJP-MMD 进行了比较,从图中可以看出,DJP-MMD 使来自不同域的同一个类更加一致,使不同的类更加分离,便于分类。

联合概率差异可以定义为:

表示两个领域之间的类内差异与类间差异。
因此具有差异的联合概率差异可以定义为: ,其中  可以表示为:

 可以表示为:

同样  表示为:
作者将其嵌入到一个非监督联合概率 DA (JPDA) 框架中,该框架具有一个正则化项和一个主成分保留约束。整体优化函数需要将式中的最小化,即,求解最优线性映射
其中, 是中心矩阵。

2 .2 JPDA优化
让  ,可以得到拉格朗日函数 :

通过设置  ,成为一个广义的特征分解问题 :


2 .3 JPDA伪代码


结果

为了评估本文方法的性能,作者在 Offifice+Caltech 、COIL 、Multi-PIE 、USPS 、MNIST 数据集进行了实验,将所提出的 JPDA 与三种无监督 DA 方法(TCA、JDA和BDA)进行比较 。实验结果与 t-SNE 数据分布结果如下图。

JPDA 在大部分任务中都优于 3 个基线实验,平均性能也最好,这说明 JPDA 在跨域视觉适应中可以获得更强的可迁移性和更强的鉴别特征映射。

t-SNE 数据分布图中,Raw 表示原始数据分布。对于原始分布,来自源域和目标域的类 1 和类 3(也有一些来自类 2)的样本混合在一起。在 DA 之后,JPDA 将源域和目标域的数据分布放在一起,并将来自不同类的样本很好地分隔开。

从柱形图上看,JP-MMD 优于联合 MMD,而 DJP-MMD 进一步考虑了可分辨性,获得了最好的分类性能。




结论

本文提出了一种简单而有效的 DJP-MMD 方法。通过最小化源域和目标域(即,提高域可转移性),最大限度地提高不同类的联合概率 MMD(即,增加类的辨别力)。

与传统的基于 MMD 的方法相比,JPDA 更简单、更有效地测量了不同领域之间的差异。在 6 个图像分类数据集上的实验验证了 JPDA 的优越性。

🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
1

相关内容

【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
专知会员服务
110+阅读 · 2020年6月26日
【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
83+阅读 · 2020年6月9日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
迁移自适应学习最新综述,附21页论文下载
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
基于深度迁移学习进行时间序列分类
PaperWeekly
14+阅读 · 2018年11月15日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【重磅】自适应无监督学习的特征提取方法
中国自动化学会
7+阅读 · 2018年2月6日
行人再识别中的迁移学习
计算机视觉战队
11+阅读 · 2017年12月20日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
3+阅读 · 2018年10月18日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
迁移自适应学习最新综述,附21页论文下载
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
基于深度迁移学习进行时间序列分类
PaperWeekly
14+阅读 · 2018年11月15日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【重磅】自适应无监督学习的特征提取方法
中国自动化学会
7+阅读 · 2018年2月6日
行人再识别中的迁移学习
计算机视觉战队
11+阅读 · 2017年12月20日
人工智能,机器学习和深度学习之间的差异是什么?
大数据技术
6+阅读 · 2017年11月22日
相关论文
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
3+阅读 · 2018年10月18日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员