KDD20 | 基于差分变量去相关的稳定学习

大量的机器学习模型假设训练数据和测试数据来源于相同的数据分布（IID假设）。然而，在实际情况下，这个条件并不一定满足，比如，我们在不同的时间段和区域内收集的数据可能会有不同的数据分布，从而导致训练和测试数据的分布不同。更严重的是，最近有文献指出，模型偏差可能会引入更大的泛化误差。为了解决训练和测试偏差的问题，已经提出了一些方法，比如，迁移学习，然而其需要预先知道测试数据分布，然而真实情况下测试数据是不可知的。最近，有研究考虑了模型偏差问题，并尝试通过样本重加权实现变量去相关以学习具有稳定性保证的模型。然而，他们尝试通过以下方删除所有变量之间的相关性新的学习样本权重集。但是，这种激进的目标可能会导致样本量过分减少，这种情况会影响机器学习模型性能。

不同于之前去除所有的变量相关性，本文认为并不是所有的相关性都有必要去除。例如，当您想在图像分类任务中识别狗时，尽管狗的鼻子，耳朵和嘴巴可能会由不同的变量代表，它们作为一个整体这样的相关性在不同的环境中都是稳定的。同样，可能存在另一堆变量代表背景（即草）。由于选择偏差，我们可能会观察到这两种变量之间的强相关性在有偏差的训练数据上。但是，这样的“虚假”相关不能推广到新的环境。因此，对于这种情况，我们仅需要消除显著变量和背景变量之间的虚假相关性来获得准确的狗分类器。

成为VIP会员查看完整内容

相关内容

稳定学习

关注 0

稳定学习是研究如何让模型能够泛化到未知开放环境的机器学习任务。现在的机器学习算法已经被广泛应用到各种高风险场景之中，包括医疗、工业制造、金融和司法等。在这些场景中，基于独立同分布假设的机器学习模型往往会暴露出稳定性、可解释性和公平性等社会风险[1]。因此稳定学习旨在学习一个预测模型，该模型可以在任何可能的真实环境上取得一致的良好性能[1]，进而规避潜在的技术风险。

多元时间序列因果关系分析研究综述

专知会员服务

146+阅读 · 2021年2月3日

【NeurIPS 2020】大规模分布式鲁棒优化方法

专知会员服务

26+阅读 · 2020年10月13日

近期必读的七篇 ICLR 2021【因果推理】相关投稿论文

专知会员服务

69+阅读 · 2020年10月6日

【ICML2020】基于贝叶斯元学习在关系图上进行小样本关系抽取

专知会员服务

38+阅读 · 2020年9月5日