Outlier detection (OD) is a key data mining task for identifying abnormal objects from general samples with numerous high-stake applications including fraud detection and intrusion detection. Due to the lack of ground truth labels, practitioners often have to build a large number of unsupervised models that are heterogeneous (i.e., different algorithms and hyperparameters) for further combination and analysis with ensemble learning, rather than relying on a single model. However, this yields severe scalability issues on high-dimensional, large datasets. How to accelerate the training and predicting with a large number of heterogeneous unsupervised OD models? How to ensure the acceleration does not deteriorate detection models' accuracy? How to accommodate the acceleration need for both a single worker setting and a distributed system with multiple workers? In this study, we propose a three-module acceleration system called SUOD (scalable unsupervised outlier detection) to address these questions. It focuses on three complementary aspects to accelerate (dimensionality reduction for high-dimensional data, model approximation for complex models, and execution efficiency improvement for taskload imbalance within distributed systems), while controlling detection performance degradation. Extensive experiments on more than 20 benchmark datasets demonstrate SUOD's effectiveness in heterogeneous OD acceleration. By the submission time, the released open-source system has been widely used with more than 700,000 times downloads. A real-world deployment case on fraudulent claim analysis at IQVIA, a leading healthcare firm, is also provided.


翻译:由于缺少地面真相标签,执业者往往必须建立大量不受监督的模型(即不同的算法和超光度计),以便与共同学习进一步结合和分析,而不是依赖单一模型。然而,这在高维、大型数据集上产生了严重的可缩缩缩问题。如何加快培训和预测使用大量不同且不受监督的多用途多用途数据模型?如何确保加速不降低探测模型的准确性?如何满足单一工人设置和多工人分布系统的加速需要?在本研究中,我们提议采用称为SUOD的三模块加速系统(可缩放的、不受监督的外部检测)来解决这些问题。它侧重于加速的三个互补方面(高维度数据尺寸减少,复杂模型近似于复杂模型,在分布的系统内执行任务负荷失衡效率改进),同时控制单个工人设置和多个工人分布的系统分布系统的加速性能需要?在SUODDDM(S)的快速性能分析中,在SUDM 20级数据库中,更普遍地展示了快速性评估标准。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年11月3日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2020年11月28日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年3月21日
VIP会员
相关VIP内容
专知会员服务
52+阅读 · 2020年11月3日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
60+阅读 · 2019年12月21日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关论文
Arxiv
0+阅读 · 2020年11月28日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
8+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年3月21日
Top
微信扫码咨询专知VIP会员