公平与精确同样重要！CMU提出学习公平表征方法，实现算法公平

2020 年 2 月 15 日 AI科技评论

作者 | 赵晗

编译 | Mr Bear

编辑 | 丛末

所有方法的共同之处在于，为了降低依赖性，在一定程度上必须牺牲准确性。

——Calders et al

「Building Classifiers with Independency Constraints」

在人工智能发展的初期，人们对算法的要求往往停留于「准」的层面，预测结果越精确似乎越好。然而，随着人工智能技术逐渐融入日常生活，人们对于算法「公平性」的要求与日俱增。在本文中，来自 CMU （卡内基 · 梅隆大学）的研究人员赵晗提出了一种通过学习公平表征来实现算法公平的方法。（相关论文发表在ICLR 2020上）

图 1：统计均等（Statistical Parity，又称群体公平）和最优决策之间权衡的示意图。在本例中，由于圆形和方形群组之间在群体层面上的还款率不同，为了遵循统计均等，决策者必须要么拒绝向某些处于还款状态（repaying）的圆形申请者贷款（左图），要么同意向某些违约的方形申请者贷款（右图）。

随着机器学习应用程序在诸如刑事判决，医学检测，在线广告等高风险领域中的盛行，确保自动化的决策支持系统不会传播历史数据中可能存在的固有偏见或歧视是至关重要的。从广义上讲，有关算法公平性的文献中包含两个核心的「公平性」概念：

第一个概念是「个体公平」。简而言之，它要求公平的算法以类似的方式对待相似的个体。然而，在实践中，通常很难找到或设计一种被社会所认可的距离度量标准，该标准用于衡量个体在面对特定任务时的相似度。
第二个概念是「群体公平」，这是本文重点讨论的问题。更具体地说，就是所谓的统计均等，它本质上是要求预测器对于不同子群输出的结果相同。

举例而言，我们不妨考虑一下下面的贷款核准问题。假如这个虚拟设定的环境中有通过圆形和方形代表的两组贷款申请人。

自动贷款核准系统 C 的目标是预测：如果某位贷款申请人被批准放贷，在给定对于申请人的描述信息 X 时，他是否会按期还款，C(x)=1 代表会按期还款，C(x)=0 代表不会按期还款。

如果我们分别使用 A=0 表示申请人来自圆形群组，A=1 表示申请人来自方形群组，这种统计均等的定义要求如下：

Pr(C(x)=1 | A=0) = Pr(C(x)=1 | A=1)

其中，该概率值是根据 X，A，Y（即申请人的描述信息、申请人所属群体、申请人实际是否还款的真实标签）的联合分布 D 得到的。换而言之，统计均等要求预测器 C(x) 与群体属性 A 无关：C(x)⊥A。

一、学习公平的表征

在尽可能地保证任务的效用的同时，一种构建（近似地）满足统计均等的分类器的方式是：学习公平的表征（详见论文「Learning Fair Representations」：https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf）。

从宏观上说，这类工作试图找到一种信息丰富的表征 Z（详见 Richard Zemel 教授的相关工作：http://www.cs.toronto.edu/~zemel/inquiry/home.php）、一种输入变量 X 的特征转换方式，从而使 Z（近似地）与 A 无关，同时 Z 仍然包含关于目标 Y 的丰富信息。这种目标可以被形式化定义为下面的优化问题：

其中 ϵ > 0 是一个预设的常数，我们使用 I(⋅;⋅) 表示两个随机变量之间的互信息。如图 2 所示，得益于近期深度神经网络表征学习方面的研究进展，我们可以通过对抗性训练算法实现上面的优化问题。这种特殊的方法至少可以追溯到 Edwards 等人的工作：「Censoring Representations with an Adversary」（https://arxiv.org/abs/1511.05897）。

图 2：学习公平表征的一种算法实现。中间的表征 Z 试图骗过对抗者 A，A 的目标是识别出输入变量的群体属性是「圆形：A=0」还是「方形：A=1」。整体的网络架构可以使用梯度下降法训练。

现在，我们的目标就非常直接了：根据著名的数据处理不等式（DPI），如果我们试图训练一种特征转换方式 Z，使其能够骗过非常强的对抗者（判别器），那么任何使用这种表征的预测器也会是公平的（即满足统计均等）。

二、公平性和效用间的权衡

如图 2 所示的模型包含两个目标函数，我们在训练阶段同时优化他们。第一个目标是为了通过骗过对抗者确保统计均等，第二个目标是为了减小预测 Y 的目标任务的损失函数。

这两个目标函数往往会通过一个调和超参数 λ 融合在一起。然而，统计均等的概念并没有考虑与真实标签 Y 相关的信息。正如你可以想到的，加入某个人的群体特征 A 与其目标标签 Y 高度相关，那么要想使预测器满足统计均等就必然会同时破坏预测器的最佳性能。

例如，在我们图 1 所示的贷款核准问题中，圆形群体的还款率（90%）要高于方形群体的还款率（80%）。根据统计均等的概念，一个公平的预测器必须以相同的比例将贷款发放给圆形和方形群体。举例而言，一个公平的分类器会将贷款恰好发放给 80% 会还款的方形申请者，同时也会将贷款发放给 80% 会还款的圆形申请者（详见图 1 左图）。但是，这就意味着有 10% 确实会还款的圆形申请者会被拒绝放款。

另一种可能的情况是，一个公平的分类器会将贷款恰好发放给 90% 会还款的圆形申请者，同时将贷款发放给 80% 会还款和 10% 不会还款的方形申请者。在我们例子中的这两种情况下，为了满足统计均等的标准，一个公平的分类器都会在预测准确率方面有所损失。当然，也可能存在其它公平的预测器，这些预测器可不可能遭受较小的损失呢？

在 NeurIPS 2019 上发表的论文「Inherent Tradeoffs in Learning Fair Representations」（论文地址：https://arxiv.org/pdf/1906.08386.pdf）中，作者说明了上述两种公平分类器某种程度上说都是效用最优的。就形式化定义而言，令

为由群体属性为

的

产生的 0-1 二分类误差。我们定义：

为各个群体之间基准比率（Base Rate）之差。则下面的定理成立：

定理1： 对于任意满足统计均等的预测器

，

在我们贷款核准的例子中，圆形申请者和方形申请者的还款率之差为 10%，因此

。请注意，上述两种公平分类器针对圆形申请者和方形申请者的的误差率都为 0.1。

根据定理 1，对于任意公平分类器，它在两种群体上的误差率之和必然至少为 10%，所以它们都是最优的。定理 1 是非常直观的，它本质上说明了：

当不同群体的基准比率有差异时，所有满足统计均等的公平分类器都必然会至少在其中一个群体上产生较大的误差。

具体而言，根据鸽巢原理，我们很容易发现任意的公平分类器必然会至少在其中一个群体上产生至少

的误差率。此外，该结论是预算法无关的，它在群体层面上成立（即使用大的训练集并不能有所帮助）。接下来，让我们深入分析

这个量：

如果 A⊥Y，那么Pr(Y=1 | A=0) = Pr(Y=1 | A=1)，这意味着。也就是说，如果群体属性与目标无关，那么上述下界为 0，因此此时不存在效用和公平性的权衡。
如果基于可以确定 A=Y 或 A=1-Y，那么将取到其最大值 1。在这种情况下，任何公平分类器都必然会在至少一个群体上产生至少为 0.5 的误差。

通常而言，

取介于 0 和 1 之间的值，正是这个值表示了在二分类情况下对于公平性和效用的权衡。

三、公平表征学习的权衡

定理 1 仅仅在某种「精确」的情况下成立：预测器需要「精确地」满足统计均等。然而，实际上，由于有限的训练数据量或模型容量，这种要求可能是难以实现的。

我们是否有可能在某种预测器只能近似地满足统计均等的标准时，表示这种内在的权衡？如果可能的话，这种表征的特性将会在何时、以何种方式发挥作用？

事实证明，这种近似有助于减小定理 1 中的下界。具体而言，令

为给定 A=a 时的条件分布 D。对于特征转换函数

来说，令

为 Da 在使用 g 转换后的前推分布（Pushforward Distribution）。此外，如果我们使用

代表两个概率分布之间的总变分距离，那么下面的定理成立：

定理 2：令

为一种特征变换。对于任意（随机的）假设

，令

为一种预测器，则下面的不等式成立：

首先，显然当

时，定理 2 退化到了定理 1 中的下界。

在本例中，同样根据数据处理不等式（DPI），任何作用于 Z 的假设 h 也会在不同的群体上以相同的比率输出结果，因此是公平的。

其次，要意识到，

越小，则下界越大。因此，当

较大时，针对不同群体的表征对齐地越好，则不同群体上的误差之和也会越大。

需要指出的是，选择总变分距离作为分布对齐质量的度量没有什么特别之处。在论文「Inherent Tradeoffs in Learning Fair Representations」的 3.2 节，我们使用 f 散度给出了一种一般性分析，读者可以也可以使用其它的散度测度（例如，HS 距离、Hellinger 距离等）对其进行实例化，从而得到相同的下界。

从积极的一面来看，在一定的条件下，我们也证明了学习公平的表征有助于实现另一种公平的概念，即准确率均等，它要求组间的误差率相等。