This paper presents a fast methodology, called ROBOUT, to identify outliers in a response variable conditional on a set of linearly related predictors, retrieved from a large granular dataset. ROBOUT is shown to be effective and particularly versatile compared to existing methods in the presence of a number of data idiosyncratic features. ROBOUT is able to identify observations with outlying conditional variance when the dataset contains element-wise sparse variables, and the set of predictors contains multivariate outliers. Existing integrated methodologies like SPARSE-LTS and RLARS are systematically sub-optimal under those conditions. ROBOUT entails a robust selection stage of the statistically relevant predictors (by using a Huber or a quantile loss), the estimation of a robust regression model based on the selected predictors (by LTS, GS or MM), and a criterion to identify conditional outliers based on a robust measure of the residuals' dispersion. We conduct a comprehensive simulation study in which the different variants of the proposed algorithm are tested under an exhaustive set of different perturbation scenarios. The methodology is also applied to a granular supervisory banking dataset collected by the European Central Bank.


翻译:本文介绍了一种快速的方法,称为ROBOUT,以从大型颗粒数据集中检索到的一组线性相关预测器为条件,确定响应变量中的异常值。ROBOUT显示,与现有方法相比,在存在一些数据特点的情况下,ROBOUT与现有方法相比是有效而且特别多功能的。ROBOUT能够在数据集包含元素偏少变量时确定观测结果,而预测器组包含多变量。在这些条件下,SPARSE-LTS和RLARRS等现有综合方法是系统性的次最佳方法。ROBOUT包含一个与统计相关的预测器的强有力选择阶段(使用Huber或量值损失),根据选定的预测器(用LTS、GS或MMM)估算稳健的回归模型,以及根据对残余分布的稳健度测量确定有条件外部值的标准。我们进行一项全面的模拟研究,在这些条件下,根据不同的扰动假设情景,对拟议算法的不同变量进行系统的测试。该方法还应用了由欧洲监督银行收集的谷仓数据。

0
下载
关闭预览

相关内容

专知会员服务
25+阅读 · 2021年4月2日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
11+阅读 · 2019年12月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
4+阅读 · 2018年3月19日
VIP会员
相关VIP内容
专知会员服务
25+阅读 · 2021年4月2日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
11+阅读 · 2019年12月19日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年12月5日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员