Numerous algorithms have been proposed for detecting anomalies (outliers, novelties) in an unsupervised manner. Unfortunately, it is not trivial, in general, to understand why a given sample (record) is labelled as an anomaly and thus diagnose its root causes. We propose the following reduced-dimensionality, surrogate model approach to explain detector decisions: approximate the detection model with another one that employs only a small subset of features. Subsequently, samples can be visualized in this low-dimensionality space for human understanding. To this end, we develop PROTEUS, an AutoML pipeline to produce the surrogate model, specifically designed for feature selection on imbalanced datasets. The PROTEUS surrogate model can not only explain the training data, but also the out-of-sample (unseen) data. In other words, PROTEUS produces predictive explanations by approximating the decision surface of an unsupervised detector. PROTEUS is designed to return an accurate estimate of out-of-sample predictive performance to serve as a metric of the quality of the approximation. Computational experiments confirm the efficacy of PROTEUS to produce predictive explanations for different families of detectors and to reliably estimate their predictive performance in unseen data. Unlike several ad-hoc feature importance methods, PROTEUS is robust to high-dimensional data.


翻译:以不受监督的方式为检测异常(外相、新奇)提出了众多的算法。 不幸的是,一般地说,理解为什么将特定样本(记录)标为异常,从而诊断其根源的原因并非无关紧要。 我们建议采用以下降低维度、代用模型方法来解释探测器的决定:将检测模型与仅使用一小部分特征的另一种模型相近;随后,可以在这个低维空间为人类理解提供样本。为此,我们开发了PROTEUS,这是一个自动ML管道,用于制作替代模型,专门为不平衡数据集的特征选择设计。PROTEUS代用模型不仅可以解释培训数据,而且可以解释外观(不见)数据。换句话说,PROTEUS通过对一个不超强探测器的决策表面进行近似化分析来产生预测解释。PROTEUS的精确预测性能是用来测量近似性数据集质量的尺度。 精确的预测性能和精确性能的预测性能是其高分辨率的预测性能。

0
下载
关闭预览

相关内容

【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
47+阅读 · 2021年11月15日
金融人工智能,40页pdf
专知会员服务
137+阅读 · 2021年10月9日
专知会员服务
33+阅读 · 2021年8月9日
专知会员服务
53+阅读 · 2021年3月15日
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
104+阅读 · 2020年5月15日
异常检测(Anomaly Detection)综述
极市平台
19+阅读 · 2020年10月24日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年12月6日
VIP会员
相关VIP内容
相关资讯
异常检测(Anomaly Detection)综述
极市平台
19+阅读 · 2020年10月24日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员