无线电频率指纹（RFF）是通过机器学习（ML）分类器将唯一可识别的信号失真归于发射器。RFF经常被提议作为无线设备安全的认证机制，但技术受到不同操作条件下指纹变化的限制。首先，这项工作研究了频率通道对典型的RFF技术的影响，以前只使用单一频率通道的突发事件进行评估，没有考虑多通道操作的影响。使用多类马修斯相关系数（MCC）进行的性能表征显示，在用于训练模型的频率通道以外的频率通道上操作会导致性能恶化，从MCC>0.9（优秀）下降到MCC<0.05（随机猜测），表明不应期望单通道模型在现实的多通道操作中保持性能。提出了一种训练数据选择技术来创建多通道模型，其性能优于单通道模型，将跨通道平均MCC从0.657提高到0.957，并实现了频率通道无关的性能。第二，这项工作引入、开发并演示了通过失真重构提取指纹（FEDR）过程，这是一种基于神经网络的量化信号失真的方法。与一个简单的密集网络相结合，FEDR指纹与四种常见的RFF技术进行了评估，Nc={5，10，15，25，50，100}未见过的类别。带有FEDR指纹的密集网络在所有的Nc值中都取得了最佳性能，MCC从0.945（Nc=5）到0.746（Nc=100）不等，使用的训练参数比次好的卷积神经网络少73%。

图 1. 基于 RFF 的 WirelessHART 设备认证的设想用例。我们的实验装置模仿了这种配置。

引言

美国空军2030年及以后的科技战略文件规定，需要 "发展和提供变革性的战略能力"，以确保美国在与近邻对手的任何冲突中占据优势[1]。这些战略能力包括有保障的信息共享和快速有效的决策，由弹性和灵活的通信平台驱动。这种保证需要一个由安全的有线和无线链路组成的无处不在的世界性基础设施，它连接着从个人电脑和便携式电子设备到关键信息系统、情报传感器网络和军事武器系统等一切。

由于通信介质的性质，无线安全特别重要，它可以被对手轻易地监控。安全性取决于比特级的加密算法，该算法通过使用秘密信息实现加密和身份认证。例如，在WPA2（一种广泛使用的无线认证协议）中，一个共享的秘密（如网络密码）被利用在一个4路握手过程中，以认证双方并产生一个用于加密通信的密钥[2]。然而，任何知道这个生成的密钥的实体在理论上都可以冒充已经认证的一方，从而破坏信任。不幸的是，密码学中的这个单点故障总是存在的。

消除单点故障的一个策略是要求多种形式的认证。多因素认证（MFA）要求用户提供三类信息中的至少两类：i）你知道的东西，ii）你拥有的东西，以及iii）你是的东西[3]。例如，试图登录信息系统的人类用户可能被要求提供一个密码（即知道）和一个ID（即拥有），或者一个密码和一个发送到订阅的移动设备上的代码（即拥有）。最近的技术，如基于智能手机的指纹扫描仪（如三星超声波指纹识别）和红外脸部映射器（如苹果FaceID），再加上现代机器学习的进步，使得将你所在类别的东西的信息纳入认证机制成为可能。

通过使用射频指纹（RFF）[4]，类似的策略可以扩展到无线通信。RFF从无线发射器的发射中提取关于你是什么的信息。这种物理层的信息可以增强比特级的认证机制，实现多层次的身份验证，并通过深入防御有效地加强安全[5]。然而，RFF带来了许多实际的实施挑战，包括边缘设备资源限制[6]和提取的指纹的显著漂移和变化[7]。

以下各节提供了RFF及其挑战的介绍性概述，随后概述了这项工作为解决这些挑战所做的贡献。

1.1 无线电频率指纹法的基本原理

射频指纹是一种用于从发射信号的特征来识别发射者的技术[8]。这种技术直接应用于信号本身，与依赖这些信号的比特级解释的加密算法不同。其基本理论是，由于制造过程中的不一致，每个发射器的构造都略有不同，即使是那些来自同一制造商的相同的内部组件。这些不一致表现在发射信号的微小但可测量的失真上，在信号上留下了 "指纹"。有可能找到同一发射器留下的多个指纹的共同点，这样，未来的指纹就可以归于该发射器。

RFF的核心是依靠机器学习（ML）分类器，该模型是用一组Nc类（即发射器）的大量例子（即指纹）训练出来的。当一个新的、从未见过的例子被输入到训练好的模型中时，该模型可以预测哪个Nc类产生了它。大多数公布的RFF技术包括两个步骤：i) 指纹提取和ii) 分类[8]。指纹提取过程，如时域独特本地属性（TD-DNA）[9]或基于星座的独特本地属性（CB-DNA）[10]，是用来建立作为分类器输入的特征集的算法。指纹是对信号的测量，更确切地说，是对信号中存在的扭曲的测量。其基本假设是发射器以一致的方式扭曲信号，因此，分类器可以将扭曲映射到发射器上。

在更现代的RFF方法中，分类器直接接受原始信号，在模型中整合指纹提取。这些方法通常利用卷积神经网络（CNN）的力量来实现令人印象深刻的分类性能[11]。卷积神经网络自动学习信号的哪些部分对辨别Nc类贡献最大，并构建自身以提取该信息。

1.2 无线电频率指纹识别的挑战

与人的指纹在人的一生中保持不变不同，发射器的指纹经常受到操作条件的影响，如温度、信道噪声、其他发射器的干扰、元件的老化以及传输的信息类型[7]。这些操作条件中的每一个都会对信号施加不同类型和组合的失真，使指纹发生变化。这种可变性使得采用实用的基于指纹的认证机制变得困难，因为在一组条件下运行良好的系统在其他条件下可能无法正常运行。因此，在设计RFF技术时必须考虑操作条件。

基本的挑战是：i）了解哪些操作条件会导致指纹的变化，以及ii）了解这些变化如何在指纹中表现出来。第一个挑战需要列举操作条件，考虑到发射器可能在无穷无尽的环境中运行，这是一项非同寻常的壮举。这方面的研究重点是证明某个特定条件会影响分类性能，然后产生一种技术来对抗这些影响[7, 12]。为此，这项工作的研究一提供了一个关于频率通道对RFF的影响的检查。它研究了在单通道模型上使用多通道数据所产生的性能恶化，并提出了一种数据驱动的技术来减轻这些影响。

研究操作条件如何在指纹中表现出来，有其自身的障碍。首先，在RFF社区中，对构成指纹的定义各不相同。典型的指纹提取技术，如TD-DNA[9, 13]、CBDNA[10, 14]、Gabor变换[15, 16]和基于内在模式函数（IMF）的变换，如Hilbert-Huang变换[17]，都产生非常不同类型的指纹。每种技术都对哪些类型的失真对区分发射器很重要做出假设，根据这些假设测量信号，并将这些测量结果作为指纹。因此，只能在这些假设的范围内研究指纹的可变性，这就提供了一个不完整的关于指纹总体上如何变化的画面。

另一个障碍是，最近的RFF技术利用复杂的ML模型进行 "端到端 "分类，主要使用深度CNN[18]。这些网络不需要指纹步骤，因为它们将指纹提取与分类结合起来[8]。模型摄取原始信号，通过一系列相互连接的非线性层，并输出预测的类别。根据设计，这些网络专注于最能区分类别的特征，尽管它们倾向于产生强大的性能，但它们严重偏向用于训练它们的类别。因此，在不同的操作条件下，性能的变化只能用用于训练CNN的类别来表示。

研究二提供了一种基于神经网络的新型指纹提取技术，该技术利用CNN来测量两个输入信号之间的相对失真，即一个失真信号和同一信号的未失真版本。该技术被称为 "通过失真重建的特征提取"（FEDR），它忽略了类别信息，而是专注于量化失真本身。它改进了以前的指纹提取技术，因为它没有假设哪些失真存在，而且它改进了端到端CNN，因为它提供了一个通用的指纹类型，可以在任何数量的类别和使用情况下进行研究。此外，用于提取指纹的神经网络不需要接触到RFF类，这意味着它的训练可以独立于这些类进行。

这两项研究的贡献将在下一节详细介绍。

1.3 研究问题和贡献

本节概述了这两项研究中的每一项，强调了主要问题和贡献。

1.3.1 1.3.1 (研究一) 跨越多个频率通道的无线电频率指纹识别的考虑因素

研究I通过研究频率通道（即载波频率）如何影响指纹识别，扩展了以前关于操作条件对RFF的影响的工作。现代通信协议通常采用多个频率通道，以实现同时使用和避免干扰。例如，WiFi（IEEE 802.11 b/g/n）[2]将2.4 GHz ISM频段细分为11×20 MHz的重叠信道，而ZigBee[19]和Wireless Highway Addressable Remote Transducer（WirelessHART）[20]（即基于IEEE 802.15.4的协议）使用相同的频段，但将其分为15×5 MHz的非重叠信道[21]，而蓝牙[22]使用80×1 MHz非重叠信道的更精细的划分。

现有的RFF技术在多通道情况下的应用是有限的，因为之前的模型是用单频通道的突发事件创建和评估的，没有考虑多通道运行的影响。本研究对四个单通道模型的多通道性能进行了评估，这些模型的复杂性不断增加，其特点是多类马修斯相关系数（MCC）。模型包括一个具有简单判别分析的指纹提取器和三个神经网络。提出了一种多通道训练技术以提高跨通道性能，并在存在加性白高斯噪声（AWGN）的情况下对所有模型进行了评估。

具体来说，研究I的研究问题和贡献是：

S1-Q1. 频率通道是如何影响射频（RF）指纹的？

S1-Q2. 指纹中是否存在与频率无关的信息？该信息能否在频率无关的RFF模型中得到利用？

S1-C1. 首次评估了单通道模型对多通道数据集的敏感性。评估表明，在RFF模型训练期间，如果不考虑频率通道，会导致性能恶化，从MCC>0.9（优秀）下降到MCC<0.05（随机猜测），表明以前RFF研究中的单通道模型性能不应该被期望延伸到多通道情况（实验A）。

S1-C2。一种训练数据选择技术，构建的多渠道模型可以超越单渠道模型，平均跨渠道MCC从0.657提高到0.957。研究结果表明，可以从一个小的频道子集中学习频率诊断变异性，并可以利用它来提高RFF模型在多个频率频道的通用性（实验B）。

S1-C3. 对存在加性白高斯噪声（AWGN）的多通道模型的评估，表明多通道模型在噪声性能方面的优势取决于模型类型和噪声水平。多通道神经网络大约保持或超过了单通道性能，但多通道MDA/ML模型的性能始终优于其单通道对应的模型（实验C）。

1.3.2（研究二）FEDR：基于神经网络的射频指纹提取技术

研究二提出了一种新型的指纹提取技术，它侧重于量化信号失真，而不考虑发射器。FEDR是一种基于神经网络的方法，用于学习相对失真潜伏空间。它依赖于一个关键的观察，即只要能可靠地提取比特级的信息，就能从扭曲的对应信号中生成未扭曲的通信信号。通过一个受限的网络结构和一个自定义的正则化损失，FEDR可以量化两个信号之间存在多少失真。该技术对信号中存在哪种失真或多少失真不做任何假设，并对失真进行量化，不分等级，使其成为研究不同操作环境的指纹的理想选择。

此外，由于FEDR网络学习信号失真，它可以独立于RFF类进行训练，并作为静态指纹提取器部署，它可以在终端与低复杂度的ML分类器相配合，进行RFF。FEDR被应用于合成的IQ不平衡数据和真实世界的IEEE 802.11a/g数据集。隔离失真信息和去除内容信息产生了指纹，当与基本分类器结合时，其性能超过了最先进的端到端分类技术。

研究II的研究问题和贡献包括。

S2-Q1. 能否训练一个网络来学习失真信号和其相应的未失真信号之间的差异？

S2-Q2. 这些差异是否能提供足够的信息来辨别特定的发射器？

S2-C1. 一种用于指纹提取的深度学习技术，称为通过失真重建提取指纹FEDR。利用接收信号的失真和未失真版本，FEDR使用一个结构受限和规范化的相对失真潜在空间来重建原始失真。因为FEDR学习的是失真而不是设备，所以网络可以独立于RFF类进行训练。

S2-C2. 介绍、开发和演示FEDR技术，使用具有模拟智商不平衡的合成WiFi数据。使用一个基本的密集网络，从学到的FEDR指纹中提取了模拟失真参数，意味着失真信息被FEDR技术量化了。

S2-C3. 对从现实世界中从未见过的发射器的WiFi数据集中提取的FEDR指纹的RFF性能进行评估。基于FEDR的分类器取得了最好的性能，MCC从0.945（Nc=5类）到0.746（Nc=100类），使用的训练参数比次好的CNN少近73%。

1.4 论文结构

本文件围绕这两项主旨研究及其贡献展开。第2章提供了一个简短的背景，以提供跨越这两项研究的技术背景。这包括关于ML的基本信息，它在射频机器学习（RFML）中的应用，以及近期RFF研究的总结。研究一和研究二在第3章和第4章中作为独立的手稿呈现，每篇手稿的格式都与期刊出版物一致。这两章中的每一章都介绍了自己的相关介绍和相关工作，以及该相应研究的相关背景信息。第5章中总结了研究结论和未来的工作。