A wide range of machine learning applications such as privacy-preserving learning, algorithmic fairness, and domain adaptation/generalization among others, involve learning \emph{invariant representations} of the data that aim to achieve two competing goals: (a) maximize information or accuracy with respect to a target response, and (b) maximize invariance or independence with respect to a set of protected features (e.g.\ for fairness, privacy, etc). Despite their wide applicability, theoretical understanding of the optimal tradeoffs -- with respect to accuracy, and invariance -- achievable by invariant representations is still severely lacking. In this paper, we provide precisely such an information-theoretic analysis of such tradeoffs under both classification and regression settings. We provide a geometric characterization of the accuracy and invariance achievable by any representation of the data; we term this feasible region the information plane. We provide a lower bound for this feasible region for the classification case, and an exact characterization for the regression case, which allows us to either bound or exactly characterize the Pareto optimal frontier between accuracy and invariance. Although our contributions are mainly theoretical, a key practical application of our results is in certifying the potential sub-optimality of any given representation learning algorithm for either classification or regression tasks. Our results shed new light on the fundamental interplay between accuracy and invariance, and may be useful in guiding the design of future representation learning algorithms.


翻译:一系列广泛的机器学习应用,如隐私保留学习、算法公平以及域适应/普及等,都涉及学习旨在实现两个相互竞争的目标的数据:(a) 尽量扩大目标响应的信息或准确度,(b) 尽量扩大一套受保护特征(例如公平、隐私等)的偏差或独立性,尽管这些应用广泛适用,但对于最佳权衡的理论理解 -- -- 在准确性和偏差方面 -- -- 仍然严重缺乏。在本文件中,我们对分类和回归情况下的这种偏差提供了准确度的信息理论分析。我们提供了对数据反映所能实现的准确性和异差的几何描述;我们将这一区域称为可行的信息区域,为分类案件提供了较低的约束,对回归案例的精确度和偏差 -- -- 仍然严重缺乏理论理解 -- -- 这使我们得以约束或确切地描述出准确性和易变差之间的最佳界限。虽然我们在分类和回归环境中所做的贡献主要是理论,但我们在任何排序和变差结果的排序中,一个关键的实际代表度是学习我们的任何基础性分析结果。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
50+阅读 · 2020年12月14日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
100+阅读 · 2020年10月13日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
247+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
已删除
将门创投
5+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Graph Communal Contrastive Learning
Arxiv
0+阅读 · 2021年10月28日
Arxiv
65+阅读 · 2021年6月18日
Arxiv
4+阅读 · 2020年11月20日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2020年12月14日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
100+阅读 · 2020年10月13日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
247+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
相关资讯
已删除
将门创投
5+阅读 · 2019年10月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员