We propose a novel method to estimate the coefficients of linear regression when outputs and inputs are contaminated by malicious outliers. Our method consists of two-step: (i) Make appropriate weights $\left\{\hat{w}_i\right\}_{i=1}^n$ such that the weighted sample mean of regression covariates robustly estimates the population mean of the regression covariate, (ii) Process Huber regression using $\left\{\hat{w}_i\right\}_{i=1}^n$. When (a) the regression covariate is a sequence with i.i.d. random vectors drawn from sub-Gaussian distribution with unknown mean and known identity covariance and (b) the absolute moment of the random noise is finite, our method attains a faster convergence rate than Diakonikolas, Kong and Stewart (2019) and Cherapanamjeri et al. (2020). Furthermore, our result is minimax optimal up to constant factor. When (a) the regression covariate is a sequence with i.i.d. random vectors drawn from heavy tailed distribution with unknown mean and bounded kurtosis and (b) the absolute moment of the random noise is finite, our method attains a convergence rate, which is minimax optimal up to constant factor.


翻译:当输出和输入受到恶意异常点污染时,我们建议一种新颖的方法来估计线性回归系数。我们的方法由两步组成:(一) 适当加权 $\left ⁇ hat{w ⁇ i\right ⁇ i=1 ⁇ n$,这样回归的加权样本平均值就会有力地共变估计回归共变体的人口平均值,(二) 使用$left ⁇ hat{w ⁇ i\right ⁇ i=1 ⁇ n$的流程枢纽回归值。当(a) 回归共变数是一个序列,有i.d. 随机矢量序列,从亚库西地区分布的随机矢量具有未知的平均值和已知的身份变量,以及(b) 随机噪音的绝对时刻是有限的,我们的方法比Dikonikonikolas、Kong和Stewart (2019年) 和 Cherapamngeri 等人(202020年) 的加权回归率更快的趋同率。此外,我们的结果比恒定值最优。当(a) 回归共变数为i.d.d.d. 随机矢量矢量分布从重的尾分布从未知分布,我们最接近的固定的惯态的峰值是最硬的峰值。

0
下载
关闭预览

相关内容

专知会员服务
77+阅读 · 2021年3月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
53+阅读 · 2020年9月7日
生成式对抗网络GAN异常检测
专知会员服务
117+阅读 · 2019年10月13日
【泡泡读者来稿】VINS 论文推导及代码解析(一)
泡泡机器人SLAM
114+阅读 · 2019年3月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月12日
Arxiv
0+阅读 · 2021年4月11日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
53+阅读 · 2020年9月7日
生成式对抗网络GAN异常检测
专知会员服务
117+阅读 · 2019年10月13日
相关资讯
【泡泡读者来稿】VINS 论文推导及代码解析(一)
泡泡机器人SLAM
114+阅读 · 2019年3月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
车辆目标检测
数据挖掘入门与实战
30+阅读 · 2018年3月30日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月13日
Arxiv
0+阅读 · 2021年4月12日
Arxiv
0+阅读 · 2021年4月11日
Top
微信扫码咨询专知VIP会员