基于差分变量去相关的稳定学习

基于差分变量去相关的稳定学习

Stable Learning via Differentiated Variable Decorrelation

Shen Z, Cui P, Liu J, et al. Stable learning via differentiated variable decorrelation[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 2185-2193.


近年来,随着人工智能的应用逐渐渗透到司法、医疗保健、自动驾驶等风险敏感领域,机器学习领域掀起了模型稳定性和鲁棒性的研究热潮。稳定学习(Stable Learning)不是单纯地对观测到的训练数据进行拟合,而是试图在非平稳和不可知的测试数据下学习一个性能一致的良好模型。在实践中稳定学习的关键挑战是我们没有任何关于真实模型和测试数据分布的先验知识。在这种情况下,我们很难期望对模型参数进行可靠估计,模型在剧烈变化环境下也难以保持稳定。先前的方法借助重加权方法,以通过一组新的样本权重来去除所有变量之间的相关性。然而,我们认为所有变量之间的这种激进的去相关可能会导致样本量的过度缩减,从而导致方差膨胀(variance inflation)和可能的性能下降。在本文中,我们将来自多个环境的未标记数据纳入变量去相关框架中,并提出了基于变量聚类的差分变量解相关(Differentiated Variable Decorrelation, DVD)算法。具体而言,变量根据其相关性的稳定性进行聚类,变量去相关模块学习一组样本权重以仅去除不同聚类的变量之间的相关性。对合成数据集和真实数据集的实证研究清楚地证明了我们的DVD算法在改善模型参数估计和在变化分布下的预测稳定性方面的有效性。


KEYWORDS

Stable Learning, Non-stationary Environments, Sample Reweighting, Variable Decorrelation

INTRODUCTION

随着机器学习技术在学术界和工业界的蓬勃发展,从多个观测变量中预测一个目标值成为研究者的一个非常基本的问题。大量的机器学习算法已经被证明对于此类预测任务是非常有效的,只要测试数据与训练数据的分布完全相同,或者由专家指定正确的学习模型。然而,在实际场景中,由于未来生成的测试数据不可见,且潜在的机制过于复杂,上述两个假设通常都不容易满足。例如,我们可以从不同的时间跨度和地区收集数据,或者通过不同的策略收集数据,每个子数据集的异质性可能导致训练数据和测试数据之间的分布偏移。更糟糕的是,正如最近的文献[27]所述,一旦模型被错误地指定,在不断变化的环境中,对训练数据的一点小小的扰动可能会大大增加泛化误差。因此,学习一个在不断变化的分布中保证一致良好性能的预测模型是至关重要的,尤其是在风险敏感的应用中,如司法、医疗保健和自动驾驶。

为了缓解由于训练和测试分布不一致而导致的学习效果下降,人们提出了一系列迁移学习(或领域适应)的方法。这些方法的核心思想是用密度比重新加权训练数据,以保证学习模型在测试分布上的最优性。这些方法通常在非剧烈变化的实验环境下获得较为满意的结果。然而,正如我们前面所提到的,在很难保证测试数据分布的可用性或准确估计密度比的情况下,域自适应方法很难应用。

最近,有一些文献集中在一个更适用的场景上,即在训练过程中测试数据的分布是未知的。域泛化(Domain generalization)是近年来发展迅速的流行学习范式之一。域泛化背后的概念是利用多个训练子集中的异构性来学习域无关的分类器(domain-agnostic classifier)或不变特征表示。这些方法的性能高度依赖于训练数据的多样性,不能很好地推广到训练数据没有捕捉到的不可知分布偏移。另一部分文献从因果关系的角度研究分布转移问题,如因果转移学习[25]和不变因果预测。结构因果模型(structural causal model,SCM)是一种功能强大、成熟的分析工具,它可以通过条件独立性检验来识别因果变量,从而做出可靠的预测。尽管这些方法具有良好的分析性质,但由于其构造大型因果图的计算复杂性,在高维实际应用中很少被采用。近年来,有一些研究者考虑了模型的误判,试图通过样本重加权,通过变量去相关来学习一个具有稳定性保证的模型。他们试图通过一组新的学习样本权重来消除所有变量之间的相关性。然而,这种激进的目标可能会导致样本量过小,这在机器学习中常被视为一个危害。

在这里,我们采用样本重加权的框架来进行变量去相关。与以前那些直接去除所有变量之间的相关性的方法不同,我们认为并不是所有的相关性都必须被去除。例如,在图像分类任务中,当你想识别一只狗时,虽然狗的鼻子、耳朵和嘴可能由不同的变量来表示,但它们可以作为一个整体,这种相关性在不同的环境中是稳定的。同样,可能存在另一组代表背景的变量(比如草地)。由于选择偏差的存在,我们可以在有偏训练数据中观察到这两组变量之间的强相关性。然而,这种“虚假”的相关性不能推广到新的环境中。因此,对于这种情况,我们只需要去除显著变量和背景变量之间的虚假相关性,就可以得到一个精确的dog分类器。

遵循这样的直觉,关键的挑战是如何在训练过程中捕捉虚假的相关性。受异质性和不变性之间联系的讨论的启发,我们假设除了有偏差的标记数据外,还可以从多个不同的环境收集未标记的数据。在本文中,我们提出了一种数据驱动的方法,称为差分变量去相关(DVD)算法。具体地说,我们首先根据变量相关性的稳定性将其划分为不同的簇,使得同一簇中的变量在不同环境下的相关性是稳定的。然后,变量去相关模块通过学习样本权重对来自不同聚类的变量进行去相关处理。与以往的权值学习方法相比,该方法在保持较高的有效样本量的同时,能够消除有偏数据中的伪相关。在合成数据集和真实数据集上的经验实验清楚地证明了我们的DVD算法在改善模型参数估计和在变化分布下的预测稳定性方面的有效性。

本文的主要贡献如下:

  • 研究了模型错误指定(model misspecification)和不可知分布偏移(agnostic distribution shift)下的稳定学习问题,这是学术界和工业界的基本问题。
  • 提出了一种半监督差分变量去相关(DVD)算法,它比以往的方法能更好地抑制样本量过小问题。
  • 在合成数据集和真实数据集上的实验结果表明,该算法在变化分布下的估计精度和预测稳定性方面都具有优越性。

PROBLEM FORMULATION AND NOTATIONS

符号约定:本文中,令 {n} 表示样本的容量, {p} 表示观测变量的维度。对于任意的矩阵 A\in\mathbb{R}^{n\times p} ,令 A_{i,}A_{,j} 分别表示矩阵的第 i^{th} 行与第 j^{th} 列。对于任意向量 v=\left(v_1,v_2,\cdots,v_m\right)^T ,令 ||v||_1=\sum_{i=1}^{m}{|v_i|}||v||_2^2=\sum_{i=1}^{m}v_i^2

稳定学习(stable learning)问题:

Problem 1. 给定目标值(target) yp 个输入变量 x=[x_1,x_2,\cdots,x_p]\in \mathbb{R}^p ,其任务是学习一个在任何数据点上都能一致达到一个小误差的预测模型。

the task is to learn a predictive model which can achieve uniformly small error on any data point.

与传统的机器学习范式假设训练数据和测试数据的同质性不同,即使在存在异质性的非平稳环境中,稳定学习问题实际上提供了更广泛的稳定性和鲁棒性定义。

具体来说,令 \mathcal{X} 为所观察到的特征的特征空间, \mathcal{Y} 为outcome的空间。我们将environment定义为 \mathcal{X}\times \mathcal{Y} 上的联合分布 P_{XY} ,并令 \varepsilon 表示所有可能环境的集合。在每个环境e\in \varepsilon中,我们有数据集 D^e=(X^e,Y^e) ,其中 X^e\in \mathcal{X} 为预测变量, Y^e\in \mathcal{Y} 为目标变量。预测变量与目标变量在 \mathcal{X}^e \times \mathcal{Y}^e 上的的联合分布因环境而异:

对于 e,e^{'}\in \varepsilonP^e_{XY}\ne P^{e^{'}}_{XY}

与上述观点相一致,稳定学习中预测模型的评价标准不仅要考虑单个群体的准确度,而且要考虑在多种变化环境下的稳定性。这里,我们采用文献[14]中的Average_Error Stability_Error,定义如下:

Average\_ Error=\frac{1}{\left|\varepsilon\right|}\sum_{e\in\varepsilon}\ Error\left(D^e\right) (1)

Stability\_ Error=\sqrt{\frac{1}{\left|\varepsilon\right|-1}\sum_{e\in\varepsilon}\left(Error\left(D^e\right)-Average\ Error\right)^2} (2)

其中 \left|\varepsilon\right| 为环境数量, Error\left(D^e\right) 表示特定环境 D^e 上的预测误差。实际上,Average_Error和Stability_Error是指在所有可能的环境 e\in\varepsilon 上预测误差的均值和方差。综上所述,Problem 1的目标是学习一个在任意分布偏移下具有一致良好性能的预测模型,具体表现为具有较小的Average_Error和Stability_Error。

本文研究了线性模型范围内的回归任务的稳定学习问题,并在问题设置中引入了两个基本假设。

Assumption 1. 存在所有变量 X=\{S,V\} 的分解,其中 S 代表稳定变量集, V 代表不稳定变量集。特别是,对于所有环境 e\in \varepsilon,\mathbb{E}(Y^e|S^e=s,V^e=v)=\mathbb{E}((Y^e|S^e=s)=\mathbb{E}((Y|S=s)

(文中在描述可应用于所有环境的规则时省略了环境上标e,上式认为一个稳定模型的outcome或目标变量的值主要与稳定变量的取值有关,而与不稳定变量基本无关)

虽然联合分布 P_{XY} 可能会随着不同的环境而变化,Assumption 1表明存在一个不变的结构,可以用来稳定学习。然而,正如文章稍后将要展示的那样,在错误指定的模型下很难梳理出这种结构,这种情况在实际情况中经常发生。

Assumption 2. 目标变量 Y 的真实生成过程不仅包含稳定变量 S 的线性组合,还包括原始信号的非线性变换和稳定变量之间的相互作用。(论文原文如下)

The true generation process of target variable Y contains not only the linear combination of stable variables S, but also the nonlinear transformation of the original signals and the interaction between stable variables.

基于上述假设,我们现在可以将数据生成过程形式化如下:

Y=f(X)+\epsilon=S^T\beta_S+V^T\beta_V+g(S)+\epsilon (3)

其中 \beta^T=[\beta^T_S,\beta^T_V] 是传统回归模型要学习的线性系数, g(\cdot) 是稳定变量的非线性变换函数,ϵ是独立随机噪声。从Assumption 1可知,稳定模型中不稳定变量 V 的系数实际上为0(即 \beta_V=0 )。

在线性模型的普通最小二乘(OLS)回归技术中,如果误指定项(misspecification term) g(S)=0 ,则可以准确估计系数 \beta ,解决了稳定学习问题。否则,稳定变量和不稳定变量的系数都会有偏差。以OLS为例,我们的目标是最小化平方损失:

\mathcal{L}_{OLS}=\sum^n_{i=1}(S^T_i\beta_S+V^T_i\beta_V-Y_i)

先前的研究[16]表明:

\hat{\beta}_{V_{OLS}}-\beta_V=(\frac{1}{n}\sum_{i=1}^{n}{V_i^TV_i})^{-1}(\frac{1}{n}\sum_{i=1}^{n}V_i^Tg(S_i)) \\ +(\frac{1}{n}\sum_{i=1}^{n}{V_i^TV_i})^{-1}(\frac{1}{n}\sum_{i=1}^{n}V_i^T{S_i})(\beta_S-\hat{\beta}_{S_{OLS}})

(4)

\hat{\beta}_{S_{OLS}}-\beta_S=(\frac{1}{n}\sum_{i=1}^{n}{S_i^TS_i})^{-1}(\frac{1}{n}\sum_{i=1}^{n}S_i^Tg(S_i)) \\ +(\frac{1}{n}\sum_{i=1}^{n}{S_i^TS_i})^{-1}(\frac{1}{n}\sum_{i=1}^{n}S_i^T{V_i})(\beta_V-\hat{\beta}_{V_{OLS}})

(5)

综上所述,我们假设真实的生成模型是在标准线性模型的条件下错误指定的。在传统的I.I.D.设置下,模型误指定可能不会对性能造成太大影响。然而,在非平稳环境下,学习的模型极易受到分布变化的影响,并存在性能低下的问题。因此,稳定学习方法的主要目标是通过尽可能精确地估计稳定变量的系数来控制错误指定的误差,并排除不稳定变量的影响


ALGORITHM

Revisiting on Variable Decorrelation

从前一节的分析可以看出,引起估计误差的主要原因有两个:一是不稳定变量 V 与误指定项 g(S) (或 S ,本文假设所有变量都以零均值为中心)之间的相关性,二是稳定变量 S 与误指定项 g(S) 之间的相关性。后者是不可避免的,因为我们不能预先获得非线性变换 g() ,这在一定程度上是可以容忍的。因此,如果我们能将 VS 去相关,学习的模型将更稳定。

主要有两种方法致力于减少变量之间的相关性。基于Lasso型正则化框架[30,31],提出了几种将变量之间的相关性作为特征选择的附加准则的方法[7,29]。它们利用预测变量X的协方差矩阵(或相关矩阵)来惩罚学习的系数。因此,高度相关的变量不可能同时被选择。然而,在实际应用中,一旦两个稳定变量强相关,这些方法就会出现信息丢失的问题。

受因果文献[2,15]中样本重加权技术的启发,研究人员提出了一种样本重加权(sample reweighting)技术,以消除变量之间的相关性[16]。具体来说,他们通过共同最小化每个变量对之间的动量差来学习样本权重:

\hat{W}=arg\ \min_{W\in\ C}{\mathcal{L}_B}+\frac{\lambda_3}{n}\sum_{i=1}^n{W_i^2}+\lambda_4(\frac{1}{n}\sum_{i=1}^{n}{W_i-1})^2,

\sum_{i=1}^{n}{W_i}=n (6)

\mathcal{L}_B=\sum_{j=1}^{p}{\| X^T_{,j}\Sigma_W{X_{,-j}}/n- X^T_{,j}{W/n}\cdot{X^T_{,-j}}{W/n}\|}_2^2 (7)

其中 W\in \mathbb{R^{n\times1}} 为样本权重, n 为 sample size,\Sigma_{W}=diag\ (W_1,\cdots,W_n) 是对应的对角矩阵, C=\{ W: | W_{ij} |\leq c \} 为一些常数;根据符号约定,X_{i,} 表示第 i 个样本, X_{,j} 表示第 j 个变量(本文中设定有 n 个样本, p 个预测变量,每个样本都是对预测变量的一次观测\采样,所以每个样本为一个 p 维向量); X_{,-j} = X \setminus {X_j} 表示通过删除 X 中的第 j 个变量后的所有剩余变量(为了保持 X 的维度,通过将第j个变量设为0来实现)。


文献[16]中对式(7)的解释如下:

The summand represents the loss due to correlation between variable X_{, \ j} and all other variables X_{,-j} .

\mathcal{L}_B 的定义式中的求和分为两部分:

[1] X^T_{,\ j}\Sigma_W{X_{,-j}}/n\mathbb{E}[ X^T_{,\ j}\Sigma_W{X_{,-j}}] ,展开可以发现其就是计算 X_{, \ j}^T 的一个线性变换(样本重加权)与所有其他变量 X_{,-j} 的一个内积(内积相似度);\mathbb{E}[ X^T_{,\ j}\Sigma_W{X_{,-j}}]\in \mathbb{R}^{1\times p} ,其中第 k 个值代表第 j 个变量经过样本重加权后与第 k 个变量的内积

[2] X^T_{,\ j}{W/n}\cdot{X^T_{,-j}}{W/n}\mathbb{E}[X_{, \ j}^TW]\cdot \mathbb{E}[X_{,-j}^TW]

\mathbb{E}[X_{, \ j}^TW]\in \mathbb{R} 为第 j 个变量的所有 n 个观测值的加权(样本重加权)求和平均值;

\mathbb{E}[X_{,-j}^TW]\in \mathbb{R}^{p\times 1} 为除第 j 个变量外所有变量的 n 个观测值的加权(样本重加权)求和平均值向量;

\mathbb{E}[X_{,j}^TW]=(X_{1,j}W_1+X_{2,j}W_2+\cdots+X_{n,j}W_n)/n=Z

\begin{align} \mathbb{E}[X_{,-j}^{T}W]&=X_{,-j}^{T}W/n\\ &=M\in\mathbb{R}^{p\times1}=[M_1,M_2,\cdots,M_n]^T \end{align}

where \ M_i=X_{,\ i}^TW/n\ ,(i\ne j) \ or\ M_i=0\ , (i=j)

\begin{align} &\mathbb{E}[X_{,j}^{T}\Sigma_WX_{,-j}]\\ &=X_{,j}^{T}\Sigma_WX_{,-j}/n\\ &=[X_{1,j}W_1,X_{2,j}W_2,\cdots,X_{n,j}W_n]X_{,-j}/n\\ &=K\in\mathbb{R}^{1\times p}=[K_1,K_2,\cdots,K_p]^T \end{align}

\begin{align} &where\ K_i=0\ ,(i=j)\ or \\ &K_i=[X_{1,j}W_1,X_{2,j}W_2,\cdots,X_{n,j}W_n]X_{,i}/n\\ &=(X_{,i}^{T}\Sigma_W)X_{,j}/n\\ &=(X_{1,j}W_1X_{1,i}+X_{2,j}W_2X_{2,i}+\cdots+X_{n,j}W_nX_{n,i})/n, \ (i \ne j) \end{align}

这里也可以看出, K_iX_{,j}X_{,i} 的一个加权内积。

\begin{align} &\mathbb{E}[ X^T_{,\ j}\Sigma_W{X_{,-j}}]-\mathbb{E}[X_{,j}^TW]\cdot \mathbb{E}[X_{,-j}^TW]\\ &=[K_1-ZM_1, K_2-ZM_2,\cdots,K_p-ZM_p] \end{align}

\begin{align} ZM_i&=Z(X_{,i}^{T}W)/n=Z(X_{1,i}W_1+X_{2,i}W_2,\cdots,X_{n,i}W_n)/n\\ &=(X_{1,i}W_1+X_{2,i}W_2+\cdots+X_{n,i}W_n)(X_{1,j}W_1+X_{2,j}W_2+\cdots+X_{n,j}W_n)/n^2 \end{align}

ZM_i 其实就是序列 (X_{1,j}W_1,X_{2,j}W_2,\cdots,X_{n,j}W_n)/n(X_{1,i}W_1,X_{2,i}W_2,\cdots,X_{n,i}W_n)/n 进行卷积运算所得序列所有元素的和。

[16]证明了如果协变量 p 的个数是固定的,则存在一个样本权重 W\succeq0 ,使得 \lim_{n \rightarrow \infty}{\mathcal{L}_B=0} ,所以在有限个预测变量的观测值的时候, \mathcal{L}_B 很可能非0,这可以视为变量间的相关性造成的loss。

The summand represents the loss due to correlation between variable X_{,j} and all other variables X_{,-j} .

所提出的权值学习算法为不损失重要变量的变量去相关提供了一个新的角度。然而,在实际情况下,为所有变量去相关往往很难实现,解的唯一性要求满足 \lambda_3n\gg p^2+\lambda_4 [16]。此外,在去相关和有效样本量之间存在折衷,不必要地去除稳定变量之间(或不稳定变量之间)的相关性会导致有效样本量的收缩,并导致高维环境下的方差膨胀和表现不佳。

Differentiated Variable Decorrelation

之前已经证明,平等地对待每一对变量并将它们都去相关化是不合理的,并且可能导致在实际高维环境下样本量过小。因此,前一种方法所面临的关键挑战是如何避免冗余工作,而只关注于去除可能因环境而异的伪相关

在上述dog分类示例的启发下,我们没有单独考虑所有变量,而是假设变量在变化的分布下具有内在的群结构,如下所示:

Assumption 3. 变量 X=\{X_1,X_2,\cdots,X_p\} 可以被分为 k 个不同的组 G_1,G_2,\cdots,G_k 。对于 \forall \ i,j,i\ne jX_i,X_j \in G_l,\ l\in\{ 1,2,\cdots,k \} ,我们有 P^e_{X_i,X_j}=P_{X_i,X_j}

在假设3下,我们知道联合分布在同一组内是稳定的,因此不同组之间的变量会导致伪相关。此外,结合假设1,我们可以得出稳定变量S和不稳定变量V将被分成不同的组:

推论 1. 对于 \forall \ i,jX_i \in SX_j \in V , X_i,X_j 属于不同的组。

基于以上分析,如果能准确地对变量进行聚类,去除不同聚类之间的相关性,就可以消除不稳定变量V的估计误差。

单一的同质训练数据,似乎不可能达到这样的目标。然而,在实际场景中,由于采集数据的时间跨度、地域和策略的不同,往往存在着异构性,无论是在单个数据集中还是在不同的环境中。我们也可以利用异质性来更好地洞察不变性,而不是将异质性视为导致性能不稳定的因素。

具体来说,通过利用来自多个环境的额外未标记数据 Z=[Z^1,Z^2,\cdots,Z^M] ,我们提出通过两个变量的相关性的方差来捕获它们在联合分布上的不变性,并定义两个变量的相异性如下:

Dis \ (X_i,X_j)=\sqrt{\frac{1}{M-1}\sum_{l=1}^{M}(Corr \ (X_i^l,X_j^l)-Ave\_ corr(X_I,X_j))^2} (8)

其中 Corr \ (X_i^l,X_j^l) 表示 X_i,X_j 两个变量在第 l 个中环境中的pearson相关; Ave\_ corr(X_I,X_j) 表示 X_i,X_j 在所有环境上的平均相关性。

直观地说,相异性较低的变量在不断变化的环境中更有可能保持一个稳定的联合分布,并且应该被分组到同一个簇中。通过计算所有变量对之间的相异性,将每个变量进一步转换进一个 p 维向量空间:

F(X_i)=(Dis (X_i,X_1),Dis (X_i,X_2),\cdots,Dis (X_i,X_p)) (9)

将差异性较低的变量分组到同一个聚类中,相当于对F进行常规的聚类分析,并且可以借鉴k-means等几种流行的技术。

结合变量聚类过程,我们提出了我们的差分变量去相关(DVD)算法,如下所示:

\mathcal{L}_{DVD}=\sum_{i\ne j}{\mathbb{I}(i,j)\|(X^T_{,i}\Sigma_W{X_{,j}}/n- X^T_{,i}{W/n}\cdot{X^T_{,j}}{W/n}) \|_2^2} (10)

其中 \mathbb{I}(i,j) 为指示函数,当 X_iX_j 属于同一簇时\mathbb{I}(i,j)=1,否则为 0 ,整个目标函数可以形式化如下:

\min_{W}{\sum_{i\ne j}{\mathbb{I}(i,j)\|(X^T_{,i}\Sigma_W{X_{,j}}/n- X^T_{,i}{W/n}\cdot{X^T_{,j}}{W/n}) \|_2^2}}

s.t. \ \frac{1}{n}\sum_{i=1}^{n}{W_i^2 <\gamma_1, \ (\frac{1}{n}\sum_{i=1}^{n}{W_i-1})^2<\gamma_2, \ W\succeq0 } (11)

利用学习到的样本权重 \hat W 可以在不同的聚类之间对变量进行去相关,可以使用加权最小二乘法估计回归系数,如下所示:

\hat \beta_{DVD}=arg \ \min_{\beta} \sum_{i=1}^{n}{\hat W_i \cdot (Y_i-X_i^T\beta)^2} (12)

可以使用 l_1,l_2 正则化来避免过拟合。

Optimization and Complexity Analysis

文章遵循标准的聚类算法,对变量进行聚类。首先初始化 k 个均值变量,然后将其余变量分配到均值最接近的聚类中,然后重新计算不同聚类的均值,当赋值不再变化时,这种方法收敛。然后,利用聚类结果,构造指标函数 \mathbb{I} ,通过梯度下降优化样本权重 \hat W 。算法的细节如算法1所示。

对于变量聚类,每次迭代的复杂度为 O(kp^2) ,其中 p 是观测变量的维数, k 是预先指定的聚类数。对于优化 W ,其复杂性为 O(np^2) 。算法1每次迭代的复杂度为 O(np^2+kp^2)


REFERENCES

[1] Aylin Alin. 2010. Multicollinearity. Wiley Interdisciplinary Reviews Computational Statistics 2, 3 (2010), 370–374.
[2] Susan Athey, Guido W Imbens, and Stefan Wager. 2018. Approximate residual balancing: debiased inference of average treatment effects in high dimensions. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 80, 4 (2018), 597–623.
[3] Shai Ben-David, John Blitzer, Koby Crammer, Alex Kulesza, Fernando Pereira, and Jennifer Wortman Vaughan. 2010. A theory of learning from different domains. Machine learning 79, 1-2 (2010), 151–175.
[4] Richard A Berk, Hoda Heidari, Shahin Jabbari, Michael Kearns, and Aaron Roth. 2018. Fairness in Criminal Justice Risk Assessments: The State of the Art. Sociological Methods & Research (2018), 004912411878253.
[5] Steffen Bickel, Michael Brückner, and Tobias Scheffer. 2009. Discriminative learning under covariate shift. Journal of Machine Learning Research 10, Sep (2009), 2137–2155.
[6] Peter Bühlmann. 2018. Invariance, causality and robustness. arXiv preprint arXiv:1812.08233 (2018).
[7] Sibao Chen, Chris HQ Ding, Bin Luo, and Ying Xie. 2013. Uncorrelated Lasso.. In AAAI.
[8] Miroslav Dudík, Steven J Phillips, and Robert E Schapire. 2006. Correcting sample selection bias in maximum entropy density estimation. In Advances in neural information processing systems. 323–330.
[9] Donald E Farrar and Robert R Glauber. 1967. Multicollinearity in regression analysis: the problem revisited. The Review of Economic and Statistics (1967), 92–107.
[10] Basura Fernando, Amaury Habrard, Marc Sebban, and Tinne Tuytelaars. 2013. Unsupervised visual domain adaptation using subspace alignment. In Proceedings of the IEEE international conference on computer vision. 2960–2967.
[11] Yaroslav Ganin and Victor Lempitsky. 2014. Unsupervised domain adaptation by backpropagation. arXiv preprint arXiv:1409.7495 (2014).
[12] Jiayuan Huang, Arthur Gretton, Karsten Borgwardt, Bernhard Schölkopf, and Alex J Smola. 2007. Correcting sample selection bias by unlabeled data. In Advances in neural information processing systems. 601–608.
[13] Brody Huval, TWang, Sameep Tandon, Jeff Kiske, Will Song, Joel Pazhayampallil, Mykhaylo Andriluka, Pranav Rajpurkar, Toki Migimatsu, Royce Chengyue, et al. 2015. An Empirical Evaluation of Deep Learning on Highway Driving. arXiv: Robotics (2015).
[14] Kun Kuang, Peng Cui, Susan Athey, Ruoxuan Xiong, and Bo Li. 2018. Stable prediction across unknown environments. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1617–1626.
[15] Kun Kuang, Peng Cui, Bo Li, Meng Jiang, and Shiqiang Yang. 2017. Estimating treatment effect in the wild via differentiated confounder balancing. In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 265–274.
[16] Kun Kuang, Ruoxuan Xiong, Peng Cui, Susan Athey, and Bo Li. 2020. Stable Prediction with Model Misspecification and Agnostic Distribution Shift. arXiv preprint arXiv:2001.11713 (2020).
[17] Matja Kukar. 2003. Transductive reliability estimation for medical diagnosis. Artificial Intelligence in Medicine 29, 1 (2003), 81–106.
[18] Da Li, Yongxin Yang, Yi-Zhe Song, and Timothy M Hospedales. 2017. Deeper, broader and artier domain generalization. In Proceedings of the IEEE international conference on computer vision. 5542–5550.
[19] Mingsheng Long, Yue Cao, Jianmin Wang, and Michael I Jordan. 2015. Learning transferable features with deep adaptation networks. arXiv preprint arXiv:1502.02791 (2015).
[20] James MacQueen et al. 1967. Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, Vol. 1. Oakland, CA, USA, 281–297.
[21] Luca Martino, Víctor Elvira, and Francisco Louzada. 2017. Effective sample size for importance sampling based on discrepancy measures. Signal Processing 131 (2017), 386–401.
[22] Krikamol Muandet, David Balduzzi, and Bernhard Schölkopf. 2013. Domain generalization via invariant feature representation. In International Conference on Machine Learning. 10–18.
[23] Sinno Jialin Pan, Qiang Yang, et al. 2010. A survey on transfer learning. IEEE Transactions on knowledge and data engineering 22, 10 (2010), 1345–1359.
[24] Jonas Peters, Peter Bühlmann, and Nicolai Meinshausen. 2016. Causal inference by using invariant prediction: identification and confidence intervals. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 78, 5 (2016), 947–1012.
[25] Mateo Rojas-Carulla, Bernhard Schölkopf, Richard Turner, and Jonas Peters. 2018. Invariant models for causal transfer learning. The Journal of Machine Learning Research 19, 1 (2018), 1309–1342.
[26] Cynthia Rudin and Berk Ustun. 2018. Optimized Scoring Systems: Toward Trust in Machine Learning for Healthcare and Criminal Justice. Interfaces 48, 5 (2018), 449–466.
[27] Zheyan Shen, Peng Cui, Tong Zhang, and Kun Kuang. 2019. Stable Learning via Sample Reweighting. arXiv preprint arXiv:1911.12580 (2019).
[28] Hidetoshi Shimodaira. 2000. Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of statistical planning and inference 90, 2 (2000), 227–244.
[29] Masaaki Takada, Taiji Suzuki, and Hironori Fujisawa. 2018. Independently Interpretable Lasso: A New Regularizer for Sparse Regression with Uncorrelated Variables. In International Conference on Artificial Intelligence and Statistics. 454– 463.
[30] Robert Tibshirani. 1996. Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society 58, 1 (1996), 267–288.
[31] Hui Zou and Trevor Hastie. 2005. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67, 2 (2005), 301–320.
编辑于 2020-12-31 10:41