新颖性或异常性检测的问题指的是自动识别与正常性概念不同的数据样本的能力。解决这个问题的技术在许多应用中都是必需的,比如在医疗诊断、自动驾驶、欺诈检测或网络攻击检测中,仅举几例。由于表征新颖性或异常数据点的分布空间的开放性,这个问题固有地具有挑战性。这常常与由于缺乏代表性数据而无法适当表达这种分布相匹配。
在本论文中,我们通过做出几个贡献来解决上述挑战。(a) 我们引入了一种用于新颖性检测的无监督框架,该框架基于深度学习技术,并且不需要标记表示异常分布的数据。(b) 该框架是基于第一原理的通用框架,通过计算他们按照表示正常性的分布的概率来检测异常。(c) 该框架可以处理如图像等高维数据,通过将输入空间非线性降维到一个等距的低维空间,从而得到一种计算有效的方法。(d) 该框架通过倾向于只有内部数据可以被模型很好地表示,从而避免了异常分布可能被纳入正常性分布。(e) 这些方法在多个计算机视觉基准数据集上进行了广泛评估,结果显示它们与现有技术相比有着优势。
在本论文中,我们的目标是自动识别与正常概念不同的数据样本,这被称为新颖性检测(NV)或异常检测(AD)。由于这个问题的无监督性质,在训练过程中对样本没有先验知识,因此检测这些样本具有挑战性。我们引入了一种基于自动编码器(AE)架构和生成对抗网络(GAN)的无监督框架,用于新颖性检测,该框架不需要标记代表异常分布的数据。该框架使用生成对抗自动编码器学习内点的生成分布的流形,并通过计算其按照表示正常性的分布的概率来判断给定样本是否为异常。该方法还通过将输入空间进行非线性降维到一个等距的低维空间来处理如图像等高维数据,从而得到一种计算有效的方法。这是通过在从周围空间到学到的流形上计算非线性正交投影来完成的,这保留了数据的几何结构,规范了学习,并简化了推理模型。另外,学到的流形被假定包含描述训练分布内样本的信息,因此自动编码器将无法重构异常值。在生成建模中,基于AE(自动编码器)和基于GAN(生成对抗网络)的被用来模拟数据分布。对于AE,有两个重要的假设,如果自动编码器仅在正常训练样本上训练:
• 它们能够像在训练时一样精确地重构未见过的正常测试样本。 • 它们不能像正常输入一样精确地重构未见过的异常测试样本。 然而,已有大量报告表明,自动编码器可以有效地重建各种异常/离群样本。为减少自动编码器对潜在异常重建的泛化能力,我们加入了模拟映射到流形上的内点样本的额外训练样本。我们还加入了生活在流形外部但足够接近内点的额外训练样本,即对原图像只有细微、不可察觉的扰动。 我们的目标是在学习一个健壮的模型时保留训练样本的某些几何属性。为此,我们加入了在训练过程中生成的额外训练样本。特别是,这些样本是通过我们的架构在训练中发现的扰动来构造的。这些方法在多个计算机视觉基准数据集上得到了广泛的评估,结果显示它们与现有技术相比有着优势。 在这篇论文中,我们提出了四个彼此线性相关的模型: • 与对抗性自动编码器一起的生成概率新颖性检测 • 与对抗性自动编码器一起的开放集识别 • 与等距对抗性自动编码器一起的生成概率新颖性检测 • 用于新颖性和异常性检测的稳健生成概率模型