网络流数据集处理（深度学习数据处理基础）

处理数据集是一个文件夹一个文件夹处理的，将原网络流数据集放入一个文件夹处理转换成 Json文件。（数据预处理）然后将这些文件处理成目标文件格式再分割成训练集和测试集。每次运行只会处理一个文件夹。如果我们需要将数据集4倍交叉验证分为4个部分，3个训练集，一个测试集。那就相当于运行三次train.py分别运行导入不同的三个训练集即可。如果每个部分都需要当做一次测试集，那就重复4次就行。

Yorelee.

986人浏览 · 2024-02-01 14:51:09

Yorelee. · 2024-02-01 14:51:09 发布

一、数据集处理

处理数据集是一个文件夹一个文件夹处理的，将原网络流数据集放入一个文件夹处理转换成 Json文件。（数据预处理）然后将这些文件处理成目标文件格式再分割成训练集和测试集。每次运行只会处理一个文件夹。

运行train.py 导入训练集训练模型，训练完之后进行保存模型参数。
运行test.py 导入测试集测试模型，因此我们需要使用模型参数保存代码。

如果我们需要将数据集4倍交叉验证分为4个部分，3个训练集，一个测试集。那就相当于运行三次train.py分别运行导入不同的三个训练集即可。如果每个部分都需要当做一次测试集，那就重复4次就行。

二、后门攻击训练

为了进行有监督训练，我们需要带有标签的数据集。

我们认为数据集是带有标签的，

训练这里分为几个步骤：

将训练集每64个网络流当做一个批次。

（1）选择一个投毒目标yt，在当前训练集批次中随机选择20%个投毒目标，进行以下处理：

上一次网络流+当前网络流生成触发器掩码m

当前网络流与掩码的m[n+1,2n]相加，训练模型分类为目标类别yt

（2）对于不投毒的训练集，用正常标签训练。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模