The Wasserstein distance, rooted in optimal transport (OT) theory, is a popular discrepancy measure between probability distributions with various applications to statistics and machine learning. Despite their rich structure and demonstrated utility, Wasserstein distances are sensitive to outliers in the considered distributions, which hinders applicability in practice. Inspired by the Huber contamination model, we propose a new outlier-robust Wasserstein distance $\mathsf{W}_p^\varepsilon$ which allows for $\varepsilon$ outlier mass to be removed from each contaminated distribution. Our formulation amounts to a highly regular optimization problem that lends itself better for analysis compared to previously considered frameworks. Leveraging this, we conduct a thorough theoretical study of $\mathsf{W}_p^\varepsilon$, encompassing characterization of optimal perturbations, regularity, duality, and statistical estimation and robustness results. In particular, by decoupling the optimization variables, we arrive at a simple dual form for $\mathsf{W}_p^\varepsilon$ that can be implemented via an elementary modification to standard, duality-based OT solvers. We illustrate the benefits of our framework via applications to generative modeling with contaminated datasets.


翻译:瓦塞斯坦距离植根于最佳运输理论,是衡量统计和机器学习各种应用的概率分布之间流行的差别的尺度。尽管瓦塞斯坦距离结构丰富,而且证明是有用的,但瓦塞斯坦距离对考虑的分布的异端非常敏感,这妨碍了实际的适用性。在Huber污染模型的启发下,我们建议采用一个新的外端-紫色瓦塞斯坦距离 $\ mathsf{W ⁇ p ⁇ varepsilon$,允许从每个被污染的分布中去除美元等值。我们的配方相当于一个非常经常的优化问题,比以前考虑的框架更便于分析。我们利用这一点,对美元进行彻底的理论研究,包括对最佳扰动性、规律性、双重性、统计估计和稳健性结果的定性。我们通过分解最优化变量,就每个被污染的分布而言,我们达到了一个简单的双重形式。我们通过基本修改的基因模型,通过我们的数据应用,通过基本修改到标准的基因模型,可以实现。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
保序最优传输:Order-preserving Optimal Transport
我爱读PAMI
6+阅读 · 2018年9月16日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Entropic Optimal Transport in Random Graphs
Arxiv
0+阅读 · 2022年1月11日
Arxiv
0+阅读 · 2022年1月8日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
【干货书】机器学习速查手册,135页pdf
专知会员服务
122+阅读 · 2020年11月20日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
保序最优传输:Order-preserving Optimal Transport
我爱读PAMI
6+阅读 · 2018年9月16日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员