Out-of-distribution detection is crucial to the safe deployment of machine learning systems. Currently, unsupervised out-of-distribution detection is dominated by generative-based approaches that make use of estimates of the likelihood or other measurements from a generative model. Reconstruction-based methods offer an alternative approach, in which a measure of reconstruction error is used to determine if a sample is out-of-distribution. However, reconstruction-based approaches are less favoured, as they require careful tuning of the model's information bottleneck - such as the size of the latent dimension - to produce good results. In this work, we exploit the view of denoising diffusion probabilistic models (DDPM) as denoising autoencoders where the bottleneck is controlled externally, by means of the amount of noise applied. We propose to use DDPMs to reconstruct an input that has been noised to a range of noise levels, and use the resulting multi-dimensional reconstruction error to classify out-of-distribution inputs. We validate our approach both on standard computer-vision datasets and on higher dimension medical datasets. Our approach outperforms not only reconstruction-based methods, but also state-of-the-art generative-based approaches. Code is available at https://github.com/marksgraham/ddpm-ood.


翻译:识别分布外的数据对于机器学习系统的安全部署至关重要。目前,基于生成模型的方法占据无监督识别分布外数据的主导地位,利用生成模型的似然估计或其他度量方法。重建方法提供了另一种方法,其中使用重构误差的度量来确定样本是否是分布外的。然而,重建方法并不是首选方法,因为它们需要仔细调节模型的信息瓶颈——例如潜在维度的大小——才能产生良好的结果。在本研究中,我们利用去噪扩散概率模型(DDPM)视为去噪自编码器的观点,其中瓶颈受到外部控制,通过应用不同程度的噪声来控制。我们建议使用DDPM对输入数据进行噪声处理,然后利用多维重构误差来分类分布外数据。我们在标准计算机视觉数据集和高维医学数据集上验证了我们的方法。我们的方法不仅优于基于重建的方法,而且优于最先进的基于生成模型的方法。代码在https://github.com/marksgraham/ddpm-ood得到了公开。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月16日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
生成扩散模型漫谈:DDPM = 贝叶斯 + 去噪
PaperWeekly
1+阅读 · 2022年7月24日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
时序数据异常检测工具/数据集大列表
极市平台
65+阅读 · 2019年2月23日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年6月5日
Generalized Out-of-Distribution Detection: A Survey
Arxiv
15+阅读 · 2021年10月21日
Arxiv
23+阅读 · 2021年3月4日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月16日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员