高光谱线扫描仪提供了大量的数据,从这些数据中可以得出信息并意识到潜在的威胁。然而,由于必须处理的数据量太大,对这些数据的实时分析很困难;因此,这些数据历来都是经过后处理的。我们通过研究高阶统计(偏度和峰度)和信息理论(熵)来使用传入数据的统计表示,为每个传入光谱提供特定的概率分布函数数据,从而减少计算负担。在2020-2021财年的这项工作中,我们表明,我们对数据的统计表示可以用于异常检测。我们通过收集数据,处理实验和模拟光谱,为统计分析开发地面实况,以及对使用我们的数据进行预处理的分析来做到这一点。此外,我们确定,使用半监督机器学习来实施我们的算法,可以对我们获得的高光谱数据进行实时分析(100毫秒的帧率,每帧250个光谱)。这种算法可以在需要立即了解情况的情况下实施,从而提高作战人员的杀伤力。
获得战术优势并不总是意味着决定性地确定关于周围环境的信息。获得战术优势的一种方式是通过异常检测,例如,发现独特或不预期的事情。根据Chandola等人的说法,异常检测是 "在数据中找到与预期行为不一致的模式"。获得战术优势可以简单到了解什么时候有不符合模式的东西,并可能引起关注。从作战人员在战场上获得战术优势的角度来看,异常检测可以指示出目标或噪声信号流中感兴趣的情况。因此,异常检测可以松散地通过信号检测理论的眼光来看待必须做出决定的噪声信号。更具体地说,异常检测可以是一种新颖性检测,其中新颖性不是训练方法的一部分。存在许多异常检测技术,这些技术包括(但不限于)分类、聚类、近邻、统计、信息论和光谱异常检测技术。
所采用的异常检测器的类型不仅仅取决于被分析的数据类型,更取决于数据的管理或处理方式。例如,高光谱数据是与光谱信息同时收集的空间信息,形成一个三维的超立方体信息,如图1(左)所示,可用于表面威胁分析。也有一些技术可以在光谱数据中找到异常点。然而,当它们应用于高光谱数据时,往往计算成本很高。大多数高光谱处理技术都是一次性处理整个超立方体。 由于需要实时分类和处理的数据量太大,实时处理数据会变得计算量过大,必须实现减少计算负担的方法来接近实时分析。
有一些方法旨在减少高光谱分析中处理的数据量,这些方法大多依赖于多频段分析。可以利用几个光谱带从高光谱数据集中获得相关的信息,如图1(中间和右边)所示。这可以有效地减少正在处理的数据量,但它也依赖于存在的一小部分光谱数据,导致更快速的处理。
图1:由空间分离的光谱组成的高光谱超立方体(左),可表示为光谱的单帧扫描(中),并可处理为概率分布,得出可用于分析的参数(右)。
图2:一个信号(如频谱)(A)通过频谱Y轴上的强度值进行分档,并计算出出现的次数(B)。这个分布可以用来进行信息论计算,或者用适当的函数来拟合高阶统计(C)。
我们采用两种方法来降低信号的维度,首先是检查频谱值的概率密度函数(PDF),计算高阶统计(HOS)和信息论技术。信号的PDF(图2B和图2A,分别),包括频谱的PDF,是通过将强度值分组并计算出现次数产生的。当分组和计数时,PDF可用于计算信息论参数,或用适当的函数拟合以计算相关的HOS,如图2C所示。
在数学上,HOS是一个求和序列,在计算上没有负担,从而减少了处理数据的时间。具体来说,在这项工作中,我们试图采用偏度和峰度,它们分别是PDF的第三和第四时刻。HOS在数学上被描述为:
其中mk是第k个时刻,n是数据的长度,σ是数据的标准差,𝑥̅是数据的样本平均值。偏度提供k = 3,峰度提供k = 4。图3是HOS的一个直观表示。图3A显示了随着偏度和峰度的变化,分布的变化方式。图3A中心的凹陷灰色箭头在图3B中表示。可以清楚地看到,随着偏度变正(上行),分布向左移动,而随着偏度变负(下行),它向右移动。当峰度大于3时(右列),分布变得更尖,而当峰度小于3时(左列),分布变得更平顶。正态分布的偏度和峰度分别等于0和3,如图3A中的中间分布和图3C中所示。因此,拟合PDF讲的是PDF的形状,当PDF由于光谱特征而发生变化时,相关的HOS也会发生变化。
熵利用的是对数函数,可以用查找表快速而容易地确定,也是一种求和:
其中S是熵,p是事件x发生的概率,通过规范化的发生率确定。虽然HOS有助于解释PDF的形状,但熵是指一个特定PDF中的信息量。这将随着光谱中峰的数量(但不是位置)的变化而变化,因为这必然会改变PDF。这些的组合可以用来描述谱的变化。
图3:改变HOS的估计分布(A),HOS如何变化,如(A)中心的正态分布(B)和HOS采取的正态分布的值(C)所代表的。
在这份报告中,我们提供了我们在2020年和2021年财政年度完成的对高光谱实时威胁异常检测(Hyper Thread)的研究,重点是爆炸物。首先,我们展示了不同的PDF如何改变熵和HOS,包括当PDF中存在一个以上的模式时。随后,我们分析了峰度如何可能被用作识别阈值的机制。第3.3节深入探讨了高光谱数据的参数化以及如何使用我们所使用的仪器的数据。随后,第3.4节概述了我们开发的算法以及如何在实时分析中采用上述参数,并在实验室环境中全面实施该算法。第3.5节讨论了开发和分析地面实况以适当地描述算法的性能。最后,在第3.6节中讨论了使用辐射校正的必要性以及对太阳和人工照明的差异的分析。