异常值检测是数据挖掘中数据准备的重要环节 ,也 是学界探讨和研究的内容 。目前主要有3种策略 : (1)统计法:对样本总体分布作出假设的基础上,构造如四分位点、标准差等统计量进行检测,主要适用于单属性值的情况。 (2)距离法:将两个样本视为维空间的两点,计算两点间的Minkowski,Chebyshev或Mahalanobis距离来度量,此方法 能够应用 于多元 数值 ,但 没有综合考虑总体分布的因素,导致 太依赖于参数的选择。 (3)分类法: 建立分类模 型判断数据类别,以认定其是否与总体偏 离 ,一般 需要有大量样本集 以训练分类模型,并且此方法判断的颗粒度较大,相对于精细的数据要求显得误判率较高。
Arxiv
0+阅读 · 2023年5月17日
Arxiv
0+阅读 · 2021年11月26日
参考链接
父主题
微信扫码咨询专知VIP会员