使机器学习模型的预测在整体上更准确的方法可能会降低代表性不足的子群体的准确性。本文提出一种新的方法可以解决此问题。
对于使用机器学习模型来帮助他们做决策的工人来说,知道何时相信模型的预测并不总是一件容易的事,特别是由于这些模型往往非常复杂,其内部运作仍然是一个谜。
用户有时会采用一种被称为选择性回归的技术,在这种技术中,模型会估计其对每个预测的置信度,当其置信度过低时,会拒绝预测。然后,人类可以检查这些案例,收集额外的信息,并对每个案例进行人工决策。
但是,虽然选择性回归已被证明可以提高模型的整体性能,但麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员发现,该技术对数据集中代表性不足的人群会产生相反的效果。模型的置信度随着选择性回归的增加,它做出正确预测的机会也会增加,但这并不总是发生在所有的子群体中。
例如,一个建议贷款审批的模型可能平均出错较少,但它实际上可能对黑人或女性申请人做出更多错误的预测。出现这种情况的一个原因是,模型的置信度是用代表人数过多的群体来训练的,对于这些代表人数不足的群体来说,可能并不准确。
当他们发现了这个问题,麻省理工学院的研究人员开发了两种算法,可以补救这个问题。使用真实世界的数据集,他们表明,这些算法减少了影响边缘化子群体的性能差异。
"归根结底,这是关于在你把哪些样本交给人类处理的问题上更加智能。麻省理工学院资深作者Greg Wornell说,他是电子工程和计算机科学系(EECS)的工程教授,领导电子研究实验室(RLE)的信号、信息和算法实验室,也是麻省理工学院-IBM Watson人工智能实验室的成员。
与Wornell一起撰写论文的还有共同负责人EECS的研究生Abhin Shah和RLE的博士后Yuheng Bu;以及Joshua Ka-Wing Lee SM '17, ScD '21和Subhro Das, Rameswar Panda, Prasanna Sattigeri,麻省理工学院-IBM Watson AI实验室的研究人员。该论文将在本月的国际机器学习会议上发表。
回归是一种估计因变量和自变量之间关系的技术。在机器学习中,回归分析通常用于预测任务,例如根据房屋的特征(卧室数量、平方英尺等)预测房屋的价格。 通过选择性回归,机器学习模型可以对每个输入做出两种选择之一--如果它对自己的决定没有足够的信心,它可以做出预测或放弃预测。
当模型弃权时,它减少了它所做预测的样本的比例,这被称为覆盖率。通过只对它非常有信心的输入进行预测,模型的整体性能应该得到改善。但是,这也会放大数据集中存在的偏差,当模型没有足够的来自某些子群的数据时,就会出现这种偏差。这可能导致对代表性不足的个人的错误或不良预测。
麻省理工学院的研究人员旨在确保,当模型的整体错误率随着选择性回归而提高时,每个子群体的性能也会提高。他们把这称为单调的选择性风险。
"为这个特定的问题提出正确的公平概念是具有挑战性的。但通过执行这个标准,即单调的选择性风险,我们可以确保当你减少覆盖率时,模型的性能实际上在所有子组中都得到了改善,"Shah说。
该团队开发了两种神经网络算法,施加这种公平性标准来解决问题。
一种算法保证模型用来进行预测的特征包含数据集中敏感属性的所有信息,如种族和性别,与感兴趣的目标变量相关。敏感属性是指可能不会被用于决策的特征,通常是由于法律或组织政策。第二种算法采用了一种校准技术,以确保模型对一个输入做出相同的预测,无论是否有任何敏感属性被添加到该输入中。
研究人员通过将这些算法应用于可用于高风险决策的真实世界数据集来测试这些算法。其中一个是保险数据集,用于预测使用人口统计数字向病人收取的年度医疗费用总额;另一个是犯罪数据集,用于预测使用社会经济信息的社区暴力犯罪的数量。这两个数据集都包含个人的敏感属性。
当他们在选择性回归的标准机器学习方法的基础上实施他们的算法时,他们能够通过降低每个数据集中的少数民族子群体的错误率来减少差异。此外,这也是在不明显影响整体错误率的情况下完成的。
"我们看到,如果我们不施加某些约束,在模型高置信度的情况下,它实际上可能会犯更多的错误,这在一些应用中可能是非常昂贵的,比如医疗保健。因此,如果我们扭转这一趋势,使其更加直观,我们将抓住很多这样的错误。这项工作的一个主要目标是避免错误默默无闻地被发现,"Sattigeri说。
研究人员计划将他们的解决方案应用于其他应用,如预测房价、学生GPA或贷款利率,看看这些算法是否需要为这些任务进行校准,Shah说。他们还想探索在模型训练过程中使用不太敏感的信息的技术,以避免隐私问题。
他们还希望改进选择性回归中的置信度估计,以防止出现模型的置信度低,但其预测正确的情况。Sattigeri说,这可以减少人类的工作量并进一步简化决策过程。
这项研究得到了麻省理工学院-IBM Watson人工智能实验室及其成员公司波士顿科学公司、三星公司和富国银行的部分资助,以及美国国家科学基金会的资助。
如果没有足够的置信度做出准确的预测,选择性回归允许放弃预测。一般来说,通过允许拒绝选项,人们期望回归模型的性能以减少覆盖率(即通过在更少的样本上进行预测)为代价来提高。然而,正如我们所显示的,在某些情况下,当我们减少覆盖率时,少数子组的性能会下降,因此选择性回归会放大不同敏感子组之间的差异。在这些差异的激励下,我们为选择性回归提出了新的公平标准,要求每个子组的性能随着覆盖率的降低而提高。我们证明,如果一个特征表示满足充分性标准,或者对平均值和方差进行了校准,那么就满足了提议的公平性标准。此外,我们引入了两种方法来缓解各子组之间的性能差异:(a)通过在高斯假设下对条件互信息的上限进行规范化处理;(b)通过对条件平均数和条件方差预测的对比损失进行规范化处理。这些方法的有效性在合成和真实世界的数据集上得到了证明。