This paper introduces a new regularized version of the robust $\tau$-regression estimator for analyzing high-dimensional data sets subject to gross contamination in the response variables and covariates. We call the resulting estimator adaptive $\tau$-Lasso that is robust to outliers and high-leverage points and simultaneously employs adaptive $\ell_1$-norm penalty term to reduce the bias associated with large true regression coefficients. More specifically, this adaptive $\ell_1$-norm penalty term assigns a weight to each regression coefficient. For a fixed number of predictors $p$, we show that the adaptive $\tau$-Lasso has the oracle property with respect to variable-selection consistency and asymptotic normality for the regression vector corresponding to the true support, assuming knowledge of the true regression vector support. We then characterize its robustness via the finite-sample breakdown point and the influence function. We carry-out extensive simulations to compare the performance of the adaptive $\tau$-Lasso estimator with that of other competing regularized estimators in terms of prediction and variable selection accuracy in the presence of contamination within the response vector/regression matrix and additive heavy-tailed noise. We observe from our simulations that the class of $\tau$-Lasso estimators exhibits robustness and reliable performance in both contaminated and uncontaminated data settings, achieving the best or close-to-best for many scenarios, except for oracle estimators. However, it is worth noting that no particular estimator uniformly dominates others. We also validate our findings on robustness properties through simulation experiments.


翻译:本文介绍了一种用于分析高维数据集的新的正则化的健壮的$τ$-回归估计量,该数据集受到响应变量和协变量的严重污染。我们称之为自适应$τ$-Lasso,它对离群值和高杠杆点具有稳健性,同时使用自适应$\ell_1$范数惩罚项,以减少大真实回归系数所带来的偏差。更具体地说,这个自适应$\ell_1$范数惩罚项为每个回归系数分配一个权重。对于固定的预测变量$p$,我们表明,在已知真实回归向量支持的情况下,自适应$τ$-Lasso具有关于变量选择一致性和渐近正常性的oracle属性。然后我们通过有限样本断点和影响函数来表征它的稳健性。我们进行了广泛的模拟,在响应向量/回归矩阵中存在污染和加性重尾噪声的情况下,比较自适应$τ$-Lasso估计量与其他竞争正则化估计量在预测和变量选择精度方面的性能。我们观察到,$τ$-Lasso估计量类在污染和无污染数据设置中均表现出稳健性和可靠的性能,在许多情况下获得最佳或接近最佳值,除了Oracle估计量。然而,值得注意的是,没有任何一个特定的估计量统一优于其他估计量。我们还通过模拟实验证实了我们对稳健性质的发现。

0
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年9月5日
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
0+阅读 · 2023年6月4日
Arxiv
0+阅读 · 2023年6月2日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年9月5日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员