We propose a general approach to handle data contaminations that might disrupt the performance of feature selection and estimation procedures for high-dimensional linear models. Specifically, we consider the co-occurrence of mean-shift and variance-inflation outliers, which can be modeled as additional fixed and random components, respectively, and evaluated independently. Our proposal performs feature selection while detecting and down-weighting variance-inflation outliers, detecting and excluding mean-shift outliers, and retaining non-outlying cases with full weights. Feature selection and mean-shift outlier detection are performed through a robust class of nonconcave penalization methods. Variance-inflation outlier detection is based on the penalization of the restricted posterior mode. The resulting approach satisfies a robust oracle property for feature selection in the presence of data contamination -- which allows the number of features to exponentially increase with the sample size -- and detects truly outlying cases of each type with asymptotic probability one. This provides an optimal trade-off between a high breakdown point and efficiency. Computationally efficient heuristic procedures are also presented. We illustrate the finite-sample performance of our proposal through an extensive simulation study and a real-world application.


翻译:我们提出了处理数据污染的通用方法,这些污染可能会破坏高维线性模型特征选择和估计程序的性能。 具体地说,我们考虑中位变换和通胀差异外端同时发生,这些外端可分别作为额外的固定和随机元件建模,并进行独立评估。我们的建议在探测和缩小加权通胀差异外端的同时进行特征选择,探测和排除中位变位外端,并完全保留非外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向,通过稳态选择外向外向外向外的外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向,其外向外的外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外的外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外向外的

0
下载
关闭预览

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
开放知识图谱
4+阅读 · 2017年12月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
相关VIP内容
【干货书】面向计算科学和工程的Python导论,167页pdf
专知会员服务
41+阅读 · 2021年4月7日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
开放知识图谱
4+阅读 · 2017年12月30日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员