Recent research on fair regression focused on developing new fairness notions and approximation methods as target variables and even the sensitive attribute are continuous in the regression setting. However, all previous fair regression research assumed the training data and testing data are drawn from the same distributions. This assumption is often violated in real world due to the sample selection bias between the training and testing data. In this paper, we develop a framework for fair regression under sample selection bias when dependent variable values of a set of samples from the training data are missing as a result of another hidden process. Our framework adopts the classic Heckman model for bias correction and the Lagrange duality to achieve fairness in regression based on a variety of fairness notions. Heckman model describes the sample selection process and uses a derived variable called the Inverse Mills Ratio (IMR) to correct sample selection bias. We use fairness inequality and equality constraints to describe a variety of fairness notions and apply the Lagrange duality theory to transform the primal problem into the dual convex optimization. For the two popular fairness notions, mean difference and mean squared error difference, we derive explicit formulas without iterative optimization, and for Pearson correlation, we derive its conditions of achieving strong duality. We conduct experiments on three real-world datasets and the experimental results demonstrate the approach's effectiveness in terms of both utility and fairness metrics.


翻译:最近关于公平回归的研究侧重于发展新的公平概念和近似方法,将其作为目标变量,甚至敏感属性,这些研究在回归环境中是连续不断的。然而,所有以前的公平回归研究都假定培训数据和测试数据来自相同的分布。由于培训和测试数据之间的抽样选择偏差,这一假设在现实世界中经常受到侵犯。在本文中,当培训数据中一组样本的可变值因另一个隐藏过程而缺失,将一组样本的可变值从抽样选择偏差转化为双重二次曲线优化时,我们开发了一个框架,以便在样本选择偏差修正和拉格曼双轨制模式方面采用经典的黑克曼模式,以便在各种公平概念的基础上实现回归的公平。海克曼模式描述抽样选择过程,并使用一个衍生变量,即Inversal Mills 比率(IMR),以纠正抽样选择偏差。我们使用公平不平等和平等制约来描述各种公平概念,并运用拉格兰格特双轨双轨理论,将原始问题转化为双重的 convex优化。对于两种流行的公平概念, 意味着差异和平均的错差,我们得出明确的公式,而没有相互交错,我们则在Pearsonson-bilitybilitybilitybilence 和实验中,我们用两种条件来进行双重的双重的实验性试验。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2021年4月30日
Arxiv
3+阅读 · 2021年2月24日
Arxiv
3+阅读 · 2020年5月1日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员