作者:Samer Hanna、Samurdhi Karunaratne 和 Danijela Cabric

摘要

RF 指纹识别利用发射器电路级的可变性,通过其发送的信号识别发射器。然而,信号受到无线信道和接收器电路的影响,这些额外的干扰会混淆发射器的识别。消除或评估这些干扰需要在较长时间内采集数据,并使用多个空间分布的发射器和接收器。在本文中,我们提出了一个名为 WiSig 的大型 WiFi 数据集,其中包含从 174 个商用 WiFi 发射器和 41 个 USRP 接收器捕获的 1000 万个数据包,这些数据是在一个月内的四次采集中完成的。WiSig 数据集不仅以原始形式公开,还提供了便于使用的小规模预处理子集,以及相关脚本和示例。利用 WiSig 进行的初步评估表明,更换接收器或使用在不同日期采集的信号可能会显著降低分类器的性能。尽管通过在更多天或更多接收器中采集数据可以减少这种降级,但这并不总是可行的,需要新的数据驱动方法。WiSig 提供了开发和评估这些方法所需的数据,以实现信道和接收器无关的发射器指纹识别。

关键词:RF 指纹识别、发射器识别、WiFi 数据集


引言

  • 每个发射器都有一个独特的射频(RF)指纹,这是由其电路设计和元件的制造可变性引起的。
  • 这种可变性使得即使是同一品牌和型号的两个发射器在发送相同波形时,其信号仍有细微的差异。
  • RF 指纹识别有望通过无需发射器端额外负担的方式,验证发射器身份,从而提高无线网络的安全性。
  • 由于 RF 指纹并非设计而成,而是制造可变性的结果,因此需要通过数据驱动的方法从捕获的信号中提取。
  • 然而,捕获的信号中除了发射器指纹外,还包含混淆因素:无线信道传播时会叠加信道指纹,接收器也会因其自身的制造可变性在信号中嵌入接收器指纹。像深度学习这样的数据驱动方法很容易受到信道和接收器的干扰。
  • 已有研究表明,在不同信道下评估同一发射器会导致分类器准确率从 85% 降至 9%。类似地,更换接收器也会产生类似影响。
  • 实际应用中,RF 指纹识别系统可能涉及数百个发射器,并需在信道变化显著的较长时间内工作。此外,在许多接收器参与的场景中,为每个接收器训练分类器可能并不实际。这些因素驱使我们开发一个能够消除信道和接收器影响的 RF 指纹识别系统
  • 开发此类系统的第一步是获取适合的数据,以隔离和评估信道及接收器的影响。

数据集概述

  • 该数据集由从一个 WiFi 节点发送到 WiFi 接入点(AP)的信号的 USRP 捕获组成;(看图细品吧,我语言组织不好了)
  • WiFi 节点是需要进行指纹识别的发射器(Tx),USRP 是接收器(Rx), WiFi AP 是为了建立 WiFi 链路而需要的设备。
  • 单个 WiFi 发射器的数据采集方式如下:发射器向 AP 发送数据,而所有 USRP 接收器同时连续捕获原始 IQ 样本,如图  所示:
  • 在单个采集日中,所有参与的发射器依次进行采集,整个过程是全自动的。
  • 整个传输期间的原始 IQ 样本被存储,包括空闲时间。
  • 一个月内进行了四次单日采集,生成了原始 WiSig 数据集。
  • 原始 WiSig 数据集的总大小为 1.4 TB,需经过处理后才能使用。
  • 本项目中,通过处理生成了便于输入分类器的标识信号(Id 信号)。
  • 在检测数据包后,创建了两种类型的标识信号:
    • 第一种直接使用每个数据包的前 256 个 IQ 样本,未进行进一步处理;
    • 第二种则基于 WiFi 的前导码对数据包进行均衡处理后提取前 256 个 IQ 样本。
  • 所有标识信号(包括未均衡和均衡信号)构成了完整的 WiSig 数据集。
  • 完整的 WiSig 数据集大小为 76.9 GB。
  • 由于采集中存在许多随机因素,完整的 WiSig 数据集是不均衡的,即并非所有发射器-接收器对都具有相同数量的信号。
  • 典型用户可能只需要数据集的一部分,而无需使用完整的 WiSig 数据集。
  • 根据不同用户的需求,组装了完整 WiSig 数据集的四个子集
    • ManyTx:提供了大量的发射器、接收器或信号,覆盖了所有四个采集日。
    • ManyRx:提供了大量的发射器、接收器或信号,覆盖了所有四个采集日。
    • ManySig:提供了大量的发射器、接收器或信号,覆盖了所有四个采集日。
    • SingleDay:提供了单日中大量的发射器、接收器和信号。

https://cores.ee.ucla.edu/downloads/datasets/wisig/#/downloads(数据集下载地址)

  • 下图总结了组装步骤。本项目还提供了脚本,用户可根据需要修改每个处理步骤。

  • 本项目还提供了脚本,允许用户使用自己的硬件重复采集设置。

捕获原始信号

  • 该数据集是在 Orbit 测试平台上采集的。Orbit 测试平台由一个 20 × 20 的节点网格组成,节点间距为 3 英尺(约 1 米)。每个节点都是一个安装在屋顶上的计算机,至少配备一个 WiFi 无线电模块;其中一些节点还配备了 USRP 接收器。

  • 除了网格之外,一些 USRP 被放置在同一房间内,作为两个大规模 MIMO 机架的一部分。WiFi 发射器和 USRP 接收器的位置如下图所示。

  • 所使用的 WiFi 802.11 a/g 模块包括 Atheros 5212、9220、9280 和 9580;所使用的 USRP 型号包括 B210、X310 和 N210。注意,图 b 中 x 坐标大于 20 的 USRP 是大规模 MIMO 机架的一部分。
  • 数据采集在以下四天进行:2021 年 3 月 1 日、8 日、15 日和 23 日。

WiFi 发射器、AP 和 USRP 接收器配置

  • WiFi 802.11 a/g 的发射器和接入点(AP)被配置为在 WiFi 信道 13 上运行,该信道的中心频率为 2462 MHz,带宽为 20 MHz。选择该信道的原因是没有检测到其他非参与 AP 的干扰。然而,Orbit 网格并未实现射频(RF)隔离,因此可能存在外部干扰。
  • 为了避免 WiFi 发射器身份的任何数据线索,所有发射器在连接时都被配置为使用相同的伪造 MAC 地址和相同的 IP 地址。WiFi 的有效载荷由携带随机字节流的 UDP 数据包组成。
  • USRP 接收器以 25 Msps 的速率采集 IQ 样本,中心频率为 2462 MHz,持续时间为 0.512 秒。
  • 由于大多是视距信道,信号的信噪比(SNR)较高(>10 dB)。
  • 捕获期间传输的 WiFi 数据包数量由 WiFi MAC 协议决定,因此每次捕获的数量会有所不同。
  • 所有 USRP 接收器独立运行,没有时间或频率同步。由于处理命令的延迟,无法保证捕获在时间上的对齐:某些接收器可能比其他接收器更早或更晚开始捕获。

采集参与的发射器和接收器

  • 在所有采集中,参与的 WiFi 发射器总数为 174,USRP 接收器总数为 41。然而,部分发射器或接收器并未在所有采集日中参与,原因包括:
  1. 在某些天,Orbit 测试平台中某些发射器或接收器无法访问。
  2. 某些发射器或接收器可能在某些时间发生硬件或软件故障。
  • 由于实验规模较大,无法暂停实验并手动调试每个发射器或接收器。因此,在某些采集日的原始数据集中,某些发射器-接收器对没有数据。
  • 如果发射器未运行,USRP 仍可能捕获信号,在处理阶段需要对这种情况进行处理。

提取标识信号

  • 为了生成标识信号(Id 信号,包括未均衡和均衡信号),我们从检测数据包开始,排除不相关的信号。创建了两种类型的标识信号,一种带有均衡处理,另一种未进行均衡,如下图所示。


A. 能量检测和筛选

  • 在这一阶段的目标是识别对应于 WiFi 节点传输的 IQ 样本,并排除频谱中存在的其他信号,例如 WiFi AP 的 ACK 响应以及可能存在的非 WiFi 信号。具体步骤如下:
  1. 信号检测:通过比较包含 N_{w}​ 个 IQ 样本的窗口内信号幅度与固定阈值L_{w}​,来检测信号。
  2. 排除 ACK:通过信号持续时间以及 WiFi 数据包明显长于其后固定持续时间的 ACK 信号这一特性来识别数据包。我们将长度大于N_{pkt}的信号(紧随其后为长度小于 N_{ack}​ 的信号)视为有效数据包。
  • 这些数据包的检测和隔离均未使用已知的 WiFi 前导码。虽然这种方法在检测方面并不理想,但它实现简单,并模仿了协议无关发射器指纹识别的处理方式,本文并未对此进行研究。
  • 本项目在检测脚本中使用了以下参数值:
  1. N_w = 100
  2. L_w = 0.005
  3. N_{pkt} = 1000
  4. N_{ack} = 2000
  • 这些值是通过对捕获的 IQ 样本的可视化检查经验得出的。
  • 对于某些发射器,仅检测到少量数据包,这可能表明发射器未正常开启,而这些数据包被错误地检测到了。因此,排除了捕获数据包异常少(低于 10 个)的发射器。

B. 均衡处理和选择样本

  • 使用隔离出的数据包,构建了两个数据集;第一个数据集包含未处理的前导码片段,第二个数据集进行了均衡处理。具体如下:
  1. 未处理数据集:从每个数据包中提取前 256 个 IQ 样本,并附上发射器、接收器和采集日期的标签。
  2. 均衡数据集:基于 WiFi 数据包结构,对数据包进行均衡处理。步骤如下:
    • 首先,将采样率从 25 Msps 重采样为 20 Msps,因为这是 WiFi 的标称采样率。
    • 对 L-STF 前导码应用自相关,精确检测数据包起始位置。如果检测到前导码,则估计并纠正频率偏移;否则,丢弃该数据包。
    • 对于检测到的数据包,使用 L-LTF 估计信道,并通过最小均方误差(MMSE)对信号进行均衡。
    • 最后,重新引入频率偏移并将信号重采样回 25 Msps,从中提取前 256 个样本,并附上发射器和接收器标签。
  • 对于均衡后的信号,再次排除捕获数据包数量较少的发射器。用于执行这些步骤的脚本已与数据集一并提供。

数据集组装

  • 通过指定发射器、接收器、采集天数以及每对发射器-接收器对保留的信号数量,从所有标识信号中创建子集。

A. 数据集分析

  • 处理数据集后,分析了从采集日 d、发射器 t 和接收器 rr收集的标识信号数量 C(d,t,r)。
  • 标识信号总数为 \sum_{d,t,r} C(d, t, r),即 997 万个信号,涉及 174 个发射器、41 个接收器和 4 个采集日。
  • 如前所述,由于部分发射器和接收器在某些天不可用,且 WiFi MAC 速率控制导致的传输数据包数量变化,以及缺乏同步和检测误差,标识信号数量在接收器之间存在差异。所有这些因素使得数据集不均衡,即 C(d, t, r) 依赖于 d、t 和 r。
  • 下图为C(d, t, r)可视化, 展示了第一个采集日(d = 0)的信号数量,其中 x 和 y 轴分别表示特定的发射器和接收器标识符,颜色表示信号数量的对数值。

  • 下图展示信号分布, 为所有 d、t、r 的信号数量低于 2000 的直方图。从图中可以看出,大多数发射器-接收器-采集日组合的信号数量低于 400。少数组合的信号数量超过 1000,甚至超过 2000,但为了清晰,这些信号数量未包含在直方图中。

  • 数据集的高度不均衡通常不利于训练模型,可能导致混淆训练并产生误导性结果。根据具体应用,所需的发射器、接收器或信号数量可能少于数据集中提供的数量。为减少数据集不均衡,用户通常会选择一个子集。

B. 创建子集

  • 选择子集时,需要指定一组N个发射器集合 T、一组M个接收器集合 R 和每对发射器-接收器对的最小信号数量 K。这些变量N、M 和 K 是相互依赖的,即只能指定两个变量,第三个变量由数据集的限制决定。
  • 为简化用户选择发射器和接收器子集的过程,本项目提供了一种工具,可以在给定天数 d 的情况下,最大化接收器数量 M,同时保证至少有一部分 p 的发射器对每个接收器至少有 K 个信号。公式如下:

  • 其中,I[\cdot] 是指示函数,取值为 1 如果约束满足;否则为 0,|\cdot| 表示集合的大小,因此 |T| = N 和 |R| = M。
  • 上述问题可以用混合整数线性规划 (MILP) 表述,但求解 MILP 可能耗时较长。因此,本项目开发了一个简单的贪婪算法,在 p=1p=1 时表现良好。
  • 贪婪算法的工作原理如下:首先选择拥有最多接收器(满足至少 K个信号条件)的发射器,然后选择满足约束的接收器。

C. 预打包紧凑型子集

为避免用户下载整个数据集仅为使用一个子集,我们提供了方便的预打包紧凑型子集。表 II 显示了四个子集的描述。这些子集针对不同的可能应用场景设计:

  • ManySig:设计为平衡子集,提供所有发射器和接收器对的 1000 个信号。
  • ManyTx:关注增加发射器数量,包含 150 个发射器,允许轻微的不平衡(p=0.9p=0.9)。
  • ManyRx:提供信号的接收器数量较多(32 个接收器),允许轻微的不平衡。
  • SingleDay:提供单日的大量信号和发射器数量,不关注采集天数的影响。


以下是论文第六部分“使用场景与开放问题”的完整翻译:


使用场景与开放问题

  • 本节的目的是展示 WiSig 数据集的几个可能使用场景,并强调一些在发射器识别中的开放问题。考虑的评估设置相对简单,提供的结果旨在识别问题,而不是解决这些问题。
  • 实验设置如下:我们使用了一个由 5 个卷积层组成的神经网络,每个卷积层后跟一个最大池化层,最后是三个全连接层。卷积层使用了 8、16、32 和 16 个滤波器,滤波器的尺寸分别为(3,2)、(3,2)、(3,2)、(3,1)和(3,1)。全连接层分别使用了 100、80 和 NN 个单元。所有层都使用 ReLU 激活函数,除输出层外,输出层使用了 softmax。网络训练了 100 个周期,若验证损失在 5 个周期内未减少,则早期停止,并保存最佳权重。使用的损失函数是分类交叉熵。每个数据集划分为 80% 用于训练,10% 用于验证,10% 用于测试。所有信号在使用之前都进行了单位平均功率归一化。
  • 本项目研究了不同接收器、不同天数的泛化情况,以及发射器数量、信号数量对分类准确性的影响。
  • 本项目还展示了 WiSig 可用于定位的能力。

A. 跨接收器的泛化

  • 许多无线部署涉及多个接入点,因此需要在多个接收器上进行发射器授权。因此,研究接收器指纹对分类准确率的影响非常重要。
  • 使用了 ManyRx 数据集,其中包含 32 个接收器。为了减少因接收器变化带来的信道变化影响,使用了均衡数据集,并且仅使用了一天的数据。
  • 随机选择了这些接收器的子集,并使用这些数据训练了发射器分类器。
  • 使用两个测试集对每个训练好的分类器进行了评估:第一个测试集使用与训练数据相同的接收器数据(“Same Rx”),另一个测试集使用 5 个完全不同的接收器数据(“Diff. Rx”)。
  • 这种划分的目的是研究训练好的分类器是否可以用于不同于训练数据的接收器。
  • 为了增加结果的可信度,使用了接收器集的 5 次随机实验,并在下图中展示了平均值和标准差。

  • 从“Same Rx”曲线来看,随着使用的接收器数量的增加,准确率略有下降,这是可以预期的,因为越来越多的接收器指纹需要学习。
  • 然而,平均准确率仍保持在 95% 以上。
  • 当使用不同的接收器进行评估时,性能受到显著影响:例如,使用仅一个接收器训练会导致准确率从 99% 降至不到 33%。这一巨大下降表明,使用单个接收器训练的发射器分类器不太可能在其他接收器上表现良好,因为接收器指纹的影响。随着训练中接收器数量的增加,在不同接收器上的测试准确率得到改善,表明在训练中加入更多接收器捕获的信号可以改善对新接收器的泛化能力。然而,提升效果在约 20 个接收器时趋于饱和。

B. 跨天数的泛化

  • 任何实际的发射器授权部署预计都会持续较长时间。因此,我们使用 WiSig 来评估经过训练的发射器分类器在时间上的性能。
  • 使用 ManySig 数据集中的单个接收器的数据;最后一天用于测试,前三天用于训练。
  • 使用来自 1 天、2 天或 3 天的数据训练了多个网络,分别使用非均衡和均衡数据集。
  • 使用来自相同天数和不同天数的数据对其进行了评估。下图显示了结果。

  • 当评估数据与训练数据来自同一天时(即训练和测试数据来自同一 0.5 秒捕获),准确率超过了 99%。
  • 当测试数据来自不同日期时(数据采集间隔几周),准确率显著下降。
  • 正如预期的那样,训练时包含更多天的数据有助于提高泛化能力。均衡数据集减少了信道变化,从而降低了不同天数测试时的性能降级。
  • 然而,即使使用均衡数据,准确率仍会有所下降,这可能是因为发射器指纹或接收器指纹的某些方面随时间略有变化。
  • 为了更好地理解不同天数捕获的信号之间的差异,比较了两天的信道估计。本项目选择了一个发射器(节点 1-1)和一个接收器(节点 20-20),并计算了两天内所有数据包的信道幅度,下图展示了结果。

  • 可以明显看出,即使使用的是相同的发射器和接收器,两个采集日的信道也显著不同。这一差异可以通过传播环境的变化来解释,例如人员或物体的移动。
  • 显然,在长时间内捕获数据来实现鲁棒的发射器识别并不理想。
  • 理想情况下,我们希望通过一次短时间的采集来隔离发射器指纹。为了实现这一目标:
    • 可以使用信道增强技术,无论是手工设计的还是数据驱动的。
    • 另一种方法是使用能够抵抗信道变化的神经网络架构。
  • 需要进一步研究,以了解不同天数和接收器对性能的影响,以及是否使用额外的接收器可以弥补信道变化对不同天数的影响。WiSig 提供了进行这些研究所需的数据。

C. 信号数量对训练的影响

  • 另一个需要考虑的方面是训练发射器识别系统所需的信号数量,是否应对信号进行均衡处理。
  • 使用 ManySig 数据集,
  • 训练了多个分类器,每个分类器使用不同数量的信号,每个发射器每个接收器每天的信号数量。考虑了所有 4 天和 12 个接收器,并在非均衡和均衡数据集上重复实验。训练和测试信号来自相同的发射器、接收器、天数和均衡状态。
  • 下图显示了结果。对于少量信号,均衡数据集显著提高了性能,因为它减少了来自信道的随机性,使任务变得更加简单。随着信号数量的增加,两种方法的准确率都提高,且两者之间的差距逐渐减小。

  • 显然,拥有更多的信号能提高分类性能。然而,这并不总是可行的,因此需要具有数据高效性的神经网络架构:
    • 不同数量的接收器和天数所需的最小信号数量仍然是一个开放问题。
    • 理想情况下,应开发一种能够自动均衡信号的神经网络,以便用于指纹识别。
  • 拥有大量信号可以帮助研究人员更好地评估发射器指纹识别在面对复杂对抗攻击者时的鲁棒性。

D. 发射器数量对训练的影响

  • 根据应用场景的不同,发射器授权系统可能需要验证数百个用户。
  • 使用了ManyTx 数据集,
  • 评估了发射器数量 N对分类准确率的影响。
  • 考虑所有天数和接收器,对于每个 N,我们训练了一个分类器,并在相同的非均衡数据上进行了评估。
  • 下图显示了结果。当使用 4 天、19 个接收器和每个发射器每个接收器每天 50 个信号时,只有 10 个发射器时,准确率约为 80%。

  • 由于信号数量有限,且问题结构具有挑战性(包括多个接收器和天数),准确率并不是很高。随着发射器数量的增加,问题变得更加具有挑战性,准确率下降到约 53%(使用 150 个发射器)。这突显了需要开发能够在大量发射器下表现良好的神经网络架构。
  • 拥有大量发射器可以使问题变得更加实际。可以考虑开放集识别而不是在一个已知发射器集内分类,在这种方法中,未在训练中暴露的未经授权的发射器可以被拒绝

E. 使用多个接收器进行定位

  • WiSig 数据集是也可以用于定位。
  • 计算了每个发射器在一天内通过不同接收器接收到的所有数据包的平均基带功率。
  • 使用 ManyTx 子集
  • 下图显示了两个示例发射器的结果,发射器位置用红色十字表示。18 个接收器位置用圆圈表示,接收到的功率通过热力图表示,单位为 dBm。正如预期的那样,靠近发射器的接收器接收到的功率较高,而距离较远的接收器接收到的功率较低。这些由所有接收器接收到的功率数据创建了一个位置指纹,在之前的结果中通过归一化去除了该指纹。


以下是论文第七部分“结论”的完整翻译:


结论

  • 提出了一个大规模的 WiFi 信号数据集 WiSig,用于研究 RF 指纹识别。
  • 该数据集包含来自 174 个商用 WiFi 发射器和 41 个 USRP 接收器的 1000 万个信号,采集时在四天内进行,涵盖了不同的信道、接收器和天数。
  • 通过详细描述数据采集过程、信号预处理方法以及子集组装方式,为研究人员提供了便捷的实验平台。
  • 通过对 WiSig 数据集的初步评估,展示了信道变化和接收器变化对发射器指纹识别的影响,强调了多接收器和多天数数据的必要性。
  • 实验结果表明,尽管增加更多接收器和更多天数有助于提高系统的鲁棒性,但仍然无法消除信道和接收器变化带来的影响。
  • WiSig 数据集为进一步的研究提供了丰富的资源,尤其是在以下方面:
  1. 消除信道和接收器影响:本数据集提供了多样化的信号,可以帮助研究人员开发新的数据驱动方法,以减轻信道和接收器变化对 RF 指纹识别的影响。
  2. 大规模发射器授权:WiSig 提供了足够的发射器、接收器和信号数量,可以用于训练和评估具有大量用户的 RF 指纹识别系统。
  3. 跨天数和跨接收器的泛化:WiSig 可用于评估和改进发射器指纹识别模型在不同天数和接收器上的泛化能力。
  4. 应用于定位:虽然定位并非 WiSig 的主要用途,但数据集中的接收器功率信息也为发射器定位提供了可能的基础。
  • 尽管 WiSig 在多个方面提供了有价值的数据和实验平台,但仍存在一些开放问题,例如
  1. 如何进一步提高模型的鲁棒性
  2. 如何处理跨天数和跨接收器的性能降级
  3. 如何在具有大量发射器的实际环境中优化发射器指纹识别的准确性。
  • WiSig 提供的数据可以为解决这些问题提供关键支持,并为 RF 指纹识别技术的未来发展奠定基础。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐