寻找领域不变量:从生成模型到因果表征

2022 年 10 月 11 日 PaperWeekly


©作者 | 张鸿宇
单位 | 哈尔滨工业大学(深圳)
研究方向 | 联邦学习、图机器学习




领域不变的表征


在迁移学习/领域自适应中,我们常常需要寻找领域不变的表征(Domain-invariant Representation),这种表示可被认为是学习到各领域之间的共性,并基于此共性进行迁移。而获取这个表征的过程就与深度学习中的“表征学习”联系紧密。生成模型,自监督学习/对比学习和最近流行的因果表征学习都可以视为获取良好的领域不变表征的工具。




生成模型的视角


生成模型的视角是在模型中引入隐变量(Latent Variable),而学到的隐变量为数据提供了一个隐含表示(Latent Representation)。如下图所示,生成模型描述了观测到的数据 由隐变量 的一个生成过程:


▲ 数据x的生成过程


也即



求和(或积分)项



常常难以计算,而 的后验分布



也难以推断,导致 EM 算法不能使用。


VAE 的思想是既然后验 难以进行推断,那我们可以采用其变分近似后验分布 (对应重参数化后的编码器),而数据的生成过程 则视为解码器。如下图所示。

▲ VAE架构示意图

变分自编码器的优化目标为最大化与数据  相关联的变分下界:



上面的第一项使近似后验分布 和模型先验 (一般设为高斯)尽可能接近(这样的目的是使解码器的输入尽可能服从高斯分布,从而使解码器对随机输入也有很好的输出);第二项即为解码器的重构对数似然。

接下来我们说一下如何从近似后验分布 中采样获得 ,因为这 不是由一个函数产生,而是由一个随机采样过程产生(它的输出会随我们每次查询而发生变化),故直接用一个神经网络表示 是不行的,这里我们需要用到一个重参数化技巧(reparametrization trick):



这样我们即能保证 来自随机采样的要求,也能通过反向传播进行训练了。

这里提一下条件变分自编码器,它在变分自编码器的基础上增加了条件信息 (比如数据 的标签信息),如下图所示

▲ CVAE架构示意图

变分自编码器所要最大化的函数可以表示为:



关于自编码器和变分自编码在 MNIST 数据集上的代码实现可以参照 GitHub 项目。


训练完成后,VAE的隐向量 和CVAE的隐向量 的对比如下:

▲ VAE和CVAE隐向量对比示意图


可以看到 CVAE 的隐空间相比 VAE 的隐空间并没有编码标签信息,而是去编码其它的关于数据 的分布信息,可视为一种解耦表征学习(disentangled representation learning)技术。

就我们的迁移学习/领域自适应任务而言,训练生成模型获得了隐向量之后就已经完成目标,之后可以将隐向量拿到其它领域的任务中去用了。不过有时训练生成模型的最终目的还是为了生成原始数据。接下来我们来对比两者的图像生成效果。移除编码器部分,随机采样 ,VAE 的生成  和 CVAE 的生成 如下图所示,其中 CVAE 会将图像的标签信息 做为解码器的输入。
▲ VAE和CVAE生成图像对比示意图

可以看到其中所编码的标签信息发挥的重要作用。

这里补充一下,提取领域不变的表示也可以通过简单的特征提取器 + GAN 对抗训练机制来得到。如在论文中,设置了一个生成器根据随机噪声和标签编码来生成“伪”特征,并训练判别器来区分特征提取器得到的特征和“伪”特征。此外,作者还采用了随机投影层来使得判别器更难区分这两种特征,使得对抗网络更稳定。其架构如下图所示:

▲ 用GAN获取领域不变特征



自监督学习/对比学习的视角

在自监督预训练中,其实也可以看做是在学习 的结构,我们要求该过程能够学习出一些对建模 (对应下游的分类任务)同样有用的特征(潜在因素)。因为如果 的成因之一非常相关,那么 也会紧密关联,故试图找到变化潜在因素的自监督表示学习会非常有用。自然语言处理中的经典模型 BERT 便是基于自监督学习的思想。

而对比学习也可以视为自监督学习的一种,它是通过构造锚点样本、正样本和负样本之间的关系来学习表征。对于任意锚点样本 ,我们用 分别表示其正样本和负样本,然后 表示要训练的特征提取器。此时,学习目标为限制锚点样本与负样本之间的距离远大于其与正样本之间的距离(此处的距离为在表征空间的距离),即:



其中, 为一可定制的距离度量函数,常用的是如下的余弦相似度: 



当向量 归一化后,余弦相似度等价于向量内积。此外,互信息也可以作为相似度的度量。在经典的 SimCLR 架构按照如下图所示的图像增强(比如旋转裁剪等)方式产生正样本:


▲ SimCLR架构图


如上图所示,它对每张输入的图片进行两次随机数据增强(如旋转剪裁等)来得到 。对于 而言, 为其配对的正样本,而其它 个样本则视为负样本。

对比学习损失函数 InfoNCE 如下所示:



这里 表示第 个负样本。

对比学习一般也是用来获取 embeddings,然后用于下游的有监督任务中,如下图所示:

▲ 整体的对比学习上下游任务示意图



因果推断的视角


前面我们提到在对比学习中可以运用数据增强来捕捉域不变特征,然而这种数据增强的框架也可以从因果表征学习的视角来看。因果推断中的因果不变量同样也可以对应到领域不变的表征。

如今年 CVPR 22 的一篇论文所述,原始数据 由因果因子 (如图像本身的语义)和非因果因子 (如图像的风格)混合决定,且只有 能够影响原始数据的类别标签。注意,我们不能直接将原始数据量化为 ,因为因果因子/非因果因子一般不能观测到并且不能被形式化。


▲ 结构化因果模型(SCM)建模

这里的任务为将因果因子 从原始数据中提取出来,而这可以在因果干预 的帮助下完成,具体的措施类似于我们前面所说的图像增强,如下图所示:


▲ 对应do算子的数据增强


如图,论文对非因果因子采用因果介入来生成增强后的图像,然后将原始和增强图像的表征送到因子分解模块,该模块使用分解损失函数来迫使图像表征和非因果因子分离。最后,通过对抗掩码模块让生成器和掩码器之间形成对抗,使得表征更适用于之后的分类任务。




参考文献

[1] 王晋东,陈益强. 迁移学习导论(第2版)[M]. 电子工业出版社, 2022.
[2] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.
[3] Kingma D P, Welling M. Auto-encoding variational bayes[C]. ICLR, 2014.
[4] Sohn K, Lee H, Yan X. Learning structured output representation using deep conditional generative models[J]. Advances in neural information processing systems, 2015, 28.
[5] github.com/timbmg/VAE-C
[6] Zhang L, Lei X, Shi Y, et al. Federated learning with domain generalization[J]. arXiv preprint arXiv:2111.10487, 2021.
[7] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. NAACL, 2018.
[8] Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597-1607.
[9] Jaiswal A, Babu A R, Zadeh M Z, et al. A survey on contrastive self-supervised learning[J]. Technologies, 2020, 9(1): 2.
[10] Lv F, Liang J, Li S, et al. Causality Inspired Representation Learning for Domain Generalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 8046-8056.


    更多阅读



    #投 稿 通 道#

     让你的文字被更多人看到 



    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


    📝 稿件基本要求:

    • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

    • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

    • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


    📬 投稿通道:

    • 投稿邮箱:hr@paperweekly.site 

    • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

    • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


    △长按添加PaperWeekly小编




    🔍

    现在,在「知乎」也能找到我们了
    进入知乎首页搜索「PaperWeekly」
    点击「关注」订阅我们的专栏吧

    ·

    登录查看更多
    1

    相关内容

    生成对抗网络,10页pdf
    专知会员服务
    31+阅读 · 2022年11月23日
    JCIM | 基于条件VAE的多目标分子优化
    专知会员服务
    5+阅读 · 2022年7月16日
    【Yoshua Bengio】生成式流网络,Generative Flow Networks
    专知会员服务
    31+阅读 · 2022年3月19日
    NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
    专知会员服务
    15+阅读 · 2021年12月7日
    专知会员服务
    44+阅读 · 2021年8月5日
    专知会员服务
    28+阅读 · 2020年10月24日
    【ICML 2020 】小样本学习即领域迁移
    专知会员服务
    77+阅读 · 2020年6月26日
    一文梳理ICML 2022中图机器学习热点和趋势
    PaperWeekly
    12+阅读 · 2022年8月19日
    从ICML 2022看域泛化(Domain Generalization)最新进展
    生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
    PaperWeekly
    1+阅读 · 2022年7月24日
    探幽深度生成模型的两种方法:VAE和GAN
    AI前线
    15+阅读 · 2018年3月10日
    【干货】一文读懂什么是变分自编码器
    专知
    12+阅读 · 2018年2月11日
    GAN | GAN介绍(2)
    中国科学院网络数据重点实验室
    43+阅读 · 2017年8月4日
    【深度学习基础】1.监督学习和最优化
    微信AI
    0+阅读 · 2017年6月7日
    国家自然科学基金
    1+阅读 · 2015年12月31日
    国家自然科学基金
    0+阅读 · 2015年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    16+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    Arxiv
    0+阅读 · 2022年11月26日
    Arxiv
    0+阅读 · 2022年11月24日
    Arxiv
    23+阅读 · 2021年3月4日
    Adversarial Transfer Learning
    Arxiv
    12+阅读 · 2018年12月6日
    A Survey on Deep Transfer Learning
    Arxiv
    11+阅读 · 2018年8月6日
    Arxiv
    10+阅读 · 2018年3月23日
    Arxiv
    10+阅读 · 2018年2月17日
    VIP会员
    相关VIP内容
    生成对抗网络,10页pdf
    专知会员服务
    31+阅读 · 2022年11月23日
    JCIM | 基于条件VAE的多目标分子优化
    专知会员服务
    5+阅读 · 2022年7月16日
    【Yoshua Bengio】生成式流网络,Generative Flow Networks
    专知会员服务
    31+阅读 · 2022年3月19日
    NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
    专知会员服务
    15+阅读 · 2021年12月7日
    专知会员服务
    44+阅读 · 2021年8月5日
    专知会员服务
    28+阅读 · 2020年10月24日
    【ICML 2020 】小样本学习即领域迁移
    专知会员服务
    77+阅读 · 2020年6月26日
    相关资讯
    一文梳理ICML 2022中图机器学习热点和趋势
    PaperWeekly
    12+阅读 · 2022年8月19日
    从ICML 2022看域泛化(Domain Generalization)最新进展
    生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
    PaperWeekly
    1+阅读 · 2022年7月24日
    探幽深度生成模型的两种方法:VAE和GAN
    AI前线
    15+阅读 · 2018年3月10日
    【干货】一文读懂什么是变分自编码器
    专知
    12+阅读 · 2018年2月11日
    GAN | GAN介绍(2)
    中国科学院网络数据重点实验室
    43+阅读 · 2017年8月4日
    【深度学习基础】1.监督学习和最优化
    微信AI
    0+阅读 · 2017年6月7日
    相关基金
    国家自然科学基金
    1+阅读 · 2015年12月31日
    国家自然科学基金
    0+阅读 · 2015年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    16+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2013年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    国家自然科学基金
    0+阅读 · 2012年12月31日
    相关论文
    Arxiv
    0+阅读 · 2022年11月26日
    Arxiv
    0+阅读 · 2022年11月24日
    Arxiv
    23+阅读 · 2021年3月4日
    Adversarial Transfer Learning
    Arxiv
    12+阅读 · 2018年12月6日
    A Survey on Deep Transfer Learning
    Arxiv
    11+阅读 · 2018年8月6日
    Arxiv
    10+阅读 · 2018年3月23日
    Arxiv
    10+阅读 · 2018年2月17日
    Top
    微信扫码咨询专知VIP会员