Many machine learning tasks involve subpopulation shift where the testing data distribution is a subpopulation of the training distribution. For such settings, a line of recent work has proposed the use of a variant of empirical risk minimization(ERM) known as distributionally robust optimization (DRO). In this work, we apply DRO to real, large-scale tasks with subpopulation shift, and observe that DRO performs relatively poorly, and moreover has severe instability. We identify one direct cause of this phenomenon: sensitivity of DRO to outliers in the datasets. To resolve this issue, we propose the framework of DORO, for Distributional and Outlier Robust Optimization. At the core of this approach is a refined risk function which prevents DRO from overfitting to potential outliers. We instantiate DORO for the Cressie-Read family of R\'enyi divergence, and delve into two specific instances of this family: CVaR and $\chi^2$-DRO. We theoretically prove the effectiveness of the proposed method, and empirically show that DORO improves the performance and stability of DRO with experiments on large modern datasets, thereby positively addressing the open question raised by Hashimoto et al., 2018.


翻译:许多机算学习任务涉及子人口变化,而测试数据分布是培训分布的一个子人口分布的分数。在这种背景下,最近的一项工作提议使用经验风险最小化(ERM)的变体,称为分布强力优化(DRO ) 。在这项工作中,我们将DRO应用到亚人口变化的真正、大规模任务中,并观察到DRO表现相对差,还有严重的不稳定性。我们确定了这一现象的一个直接原因:DRO对数据集外端的敏感度。为了解决这一问题,我们提出了DOR(DOR)的框架,用于分配和外部机器人优化。在这种方法的核心是完善的风险功能,防止DRO过度适应潜在的外端。我们为R\'eny 差异的Cressie-Read家族将DRO立即应用到DRO,并跳入这个家庭的两个具体例子:CVaR和$chi ⁇ 2$-DRO。我们理论上证明拟议方法的有效性,我们从经验上表明DRO改进DRO的性能和稳定性,从而通过大规模数据模型,积极解决HRO在2018年的公开实验中产生的问题。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
142+阅读 · 2021年3月17日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员