大量的机器学习模型假设训练数据和测试数据来源于相同的数据分布(IID假设)。然而,在实际情况下,这个条件并不一定满足,比如,我们在不同的时间段和区域内收集的数据可能会有不同的数据分布,从而导致训练和测试数据的分布不同。更严重的是,最近有文献指出,模型偏差可能会引入更大的泛化误差。为了解决训练和测试偏差的问题,已经提出了一些方法,比如,迁移学习,然而其需要预先知道测试数据分布,然而真实情况下测试数据是不可知的。最近,有研究考虑了模型偏差问题,并尝试通过样本重加权实现变量去相关以学习具有稳定性保证的模型。然而,他们尝试通过以下方删除所有变量之间的相关性新的学习样本权重集。但是,这种激进的目标可能会导致样本量过分减少,这种情况会影响机器学习模型性能。

不同于之前去除所有的变量相关性,本文认为并不是所有的相关性都有必要去除。例如,当您想在图像分类任务中识别狗时,尽管狗的鼻子,耳朵和嘴巴可能会由不同的变量代表,它们作为一个整体这样的相关性在不同的环境中都是稳定的。同样,可能存在另一堆变量代表背景(即草)。由于选择偏差,我们可能会观察到这两种变量之间的强相关性在有偏差的训练数据上。但是,这样的“虚假”相关不能推广到新的环境。因此,对于这种情况,我们仅需要消除显著变量和背景变量之间的虚假相关性来获得准确的狗分类器。

成为VIP会员查看完整内容
20

相关内容

稳定学习是研究如何让模型能够泛化到未知开放环境的机器学习任务。现在的机器学习算法已经被广泛应用到各种高风险场景之中,包括医疗、工业制造、金融和司法等。在这些场景中,基于独立同分布假设的机器学习模型往往会暴露出稳定性、可解释性和公平性等社会风险[1]。因此稳定学习旨在学习一个预测模型,该模型可以在任何可能的真实环境上取得一致的良好性能[1],进而规避潜在的技术风险。
专知会员服务
145+阅读 · 2021年2月3日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
近期必读的七篇 ICLR 2021【因果推理】相关投稿论文
专知会员服务
69+阅读 · 2020年10月6日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
最新《因果推断导论: 从机器学习视角》新书稿,132页pdf
专知会员服务
277+阅读 · 2020年8月25日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
120+阅读 · 2020年7月9日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
62+阅读 · 2020年5月25日
专知会员服务
88+阅读 · 2020年1月20日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知
8+阅读 · 2020年8月26日
基于深度元学习的因果推断新方法
图与推荐
11+阅读 · 2020年7月21日
【基于元学习的推荐系统】5篇相关论文
专知
11+阅读 · 2020年1月20日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
ICLR 2019 | 基于复杂空间关系旋转的知识表示方法
PaperWeekly
17+阅读 · 2019年7月29日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
【学界】基于生成对抗网络的多视图学习与重构算法
GAN生成式对抗网络
6+阅读 · 2018年7月12日
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
8+阅读 · 2014年6月27日
VIP会员
相关VIP内容
专知会员服务
145+阅读 · 2021年2月3日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
近期必读的七篇 ICLR 2021【因果推理】相关投稿论文
专知会员服务
69+阅读 · 2020年10月6日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
最新《因果推断导论: 从机器学习视角》新书稿,132页pdf
专知会员服务
277+阅读 · 2020年8月25日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
120+阅读 · 2020年7月9日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
62+阅读 · 2020年5月25日
专知会员服务
88+阅读 · 2020年1月20日
相关资讯
KDD20 | AM-GCN:自适应多通道图卷积网络
专知
8+阅读 · 2020年8月26日
基于深度元学习的因果推断新方法
图与推荐
11+阅读 · 2020年7月21日
【基于元学习的推荐系统】5篇相关论文
专知
11+阅读 · 2020年1月20日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
ICLR 2019 | 基于复杂空间关系旋转的知识表示方法
PaperWeekly
17+阅读 · 2019年7月29日
KDD 18 & AAAI 19 | 异构信息网络表示学习论文解读
PaperWeekly
21+阅读 · 2019年2月25日
【学界】基于生成对抗网络的多视图学习与重构算法
GAN生成式对抗网络
6+阅读 · 2018年7月12日
相关论文
Learning from Few Samples: A Survey
Arxiv
77+阅读 · 2020年7月30日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
8+阅读 · 2014年6月27日
微信扫码咨询专知VIP会员