CN117729137A

CN117729137A - 一种网络流量数据的特征生成方法、装置及设备

Info

Publication number: CN117729137A
Application number: CN202410176841.1A
Authority: CN
Inventors: 周洪海; 金志浩; 谢丽萍; 赵玉薇
Original assignee: Jinshu Information Technology Suzhou Co ltd
Current assignee: Jinshu Information Technology Suzhou Co ltd
Priority date: 2024-02-08
Filing date: 2024-02-08
Publication date: 2024-03-19

Abstract

本发明提供了一种网络流量数据的特征生成方法、装置及设备，旨在提高网络行为分析的准确性和机器学习模型训练的效率。该方法首先获取原始网络流量数据。接着，对这些数据进行预处理，包括时间戳转换为相对时间单位，IP地址和端口号的数值化，以及协议类型和TCP标志的编码，从而形成一个二维数据序列。进而，使用滑动窗口沿时间轴扫描二维数据序列，并在每个窗口内计算数据点的统计信息和基于TCP标志的情感评分。最后，为每个窗口生成的包含统计和情感信息的新数据点与二维数据序列进行横向拼接，形成一个综合特征集。通过这种方法，可以更全面地理解网络流量动态，有效提升数据分析和模型预测的质量。

Description

一种网络流量数据的特征生成方法、装置及设备

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种网络流量数据的特征生成方法、装置及设备。

背景技术

在现代网络技术的背景下，网络流量数据分析变得至关重要，尤其是在网络安全和性能监控领域。随着网络活动的不断增加和复杂化，传统的网络流量分析方法面临着越来越多的挑战。这些挑战主要包括如何有效处理和解释日益增长的数据量，以及如何从这些数据中提取有价值的信息。现有技术主要依赖于对网络流量数据的基本收集和分析，这包括IP地址、端口号、协议类型和数据包大小等信息的统计处理。虽然这些方法在处理基础网络问题方面有效，但它们在分析复杂和动态变化的网络环境时显得力不从心。

一个主要的局限性是，传统方法往往缺乏对网络流量数据内在模式和动态行为的深入理解。例如，在安全分析领域，简单的统计分析可能无法准确识别出复杂的网络攻击模式，如分布式拒绝服务（DDoS）攻击或先进的持续威胁（APT）。此外，由于网络流量数据具有高度的时间序列特性，传统方法在捕捉到数据随时间的变化和趋势方面也存在不足。

另一个局限性是，现有的分析工具往往未能利用网络流量数据中潜在的“情感”信息，这些信息可能表明网络中的特定行为模式或用户活动的变化。可见，现有技术在处理大规模、复杂和动态变化的网络流量数据方面存在明显的局限性，特别是在需要实时分析和响应的场景中。

因此，研发一种新的网络流量数据的特征生成方法非常有必要。

发明内容

本申请提供一种网络流量数据的特征生成方法，以提高网络行为分析的准确性。

本申请提供的网络流量数据的特征生成方法，包括：

获取原始网络流量数据，其中，每条原始网络流量数据包括时间戳、源IP地址、目的IP地址、源端口、目的端口、协议类型、数据包大小和TCP标志；

对所述原始网络流量数据进行预处理，从而创建一个二维数据序列，其中所述二维数据序列按照时间顺序排列；

设定一个滑动窗口，用于沿时间轴扫描所述二维数据序列；并且对滑动窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分，其中，所述统计信息包括滑动窗口内数据包大小的平均值以及数据点数量；所述情感评分根据预先分配的TCP标志对应的情感值进行计算；

为每个窗口生成一个包括统计信息和情感评分的新数据点，从而形成一个新的数据序列；

将所述新的数据序列与所述二维数据序列横向拼接，形成一个综合特征集，用于网络行为的数据分析和机器学习模型的训练。

更进一步地，所述对所述原始网络流量数据进行预处理，包括：

将所述时间戳转换为相对时间单位，将所述源IP地址和目的IP地址中的IP地址转换为数值表示，将所述源端口和目的端口中的端口号标准化为整数形式，将所述协议类型转换为整数编码，将所述数据包大小转换为数值表示，将所述TCP标志转换为一组二进制值数据。

更进一步地，所述原始网络流量数据包括/>条网络流量数据，；第/>条网络流量数据表示为：

；其中，/>；/>为时间戳，为源IP地址，/>为目的IP地址，/>为源端口，/>为目的端口，/>为协议类型，/>数据包大小，/>为TCP标志。

更进一步地，所述滑动窗口的窗口大小按照如下的公式进行设置：

其中，为窗口调整因子，/>。

更进一步地，所述滑动窗口的滑动机制如下：

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>；

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>。

更进一步地，所述TCP标志中的SYN标志位的情感值设为1，表示积极的连接尝试；ACK标志位的情感值设为0，表示中性的确认响应；FIN标志位的情感值设为-1，情感轻微负面；RST标志位的情感值设为-2，情感中等负面；PSH标志位的情感值设为0.5，情感轻微积极；URG标志位的情感值设为-0.5，情感轻微负面。

更进一步地，所述特征生成方法，还包括：

基于所述综合特征集建立一个机器学习模型，该模型被训练用于区分正常和异常网络流量行为；

应用所述机器学习模型于新的实时样本数据，检测是否存在异常网络流量行为；

当检测到异常网络流量行为时，向网络管理员或相应的安全系统发送通知。

本申请提供一种网络流量数据的特征生成装置，包括：

获取单元，用于获取原始网络流量数据，其中，每条原始网络流量数据包括时间戳、源IP地址、目的IP地址、源端口、目的端口、协议类型、数据包大小和TCP标志；

创建单元，用于对所述原始网络流量数据进行预处理，从而创建一个二维数据序列，其中所述二维数据序列按照时间顺序排列；

扫描单元，用于设定一个滑动窗口，所述滑动窗口用于沿时间轴扫描所述二维数据序列；并且对滑动窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分，其中，所述统计信息包括滑动窗口内数据包大小的平均值以及数据点数量；所述情感评分根据预先分配的TCP标志对应的情感值进行计算；

生成单元，用于为每个滑动窗口生成一个包括统计信息和情感评分的新数据点，从而形成一个新的数据序列；

拼接单元，用于将所述新的数据序列与所述二维数据序列横向拼接，形成一个综合特征集，用于网络行为的数据分析和机器学习模型的训练。

本申请提供一种网络流量数据的特征生成设备，包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行上述网络流量数据的特征生成方法。

本申请提供一种计算机可读取存储介质，其上存储有计算机程序，该程序被处理器执行时，执行上述网络流量数据的特征生成方法。

本申请提供的技术方案的有益效果包括：

（1）通过包含时间戳、IP地址、端口信息、协议类型、数据包大小和TCP标志等多个维度，该方法能够全面捕捉网络流量的关键特征，为深入分析提供丰富的数据基础。（2）利用滑动窗口沿时间轴对数据序列进行扫描，该方法能够有效捕捉到网络流量数据的时间序列特性，这对于理解网络行为模式至关重要。（3）引入基于TCP标志的情感评分机制，为网络流量数据分析提供了新的视角。这种方法可以揭示流量数据背后的行为动机和模式，对于网络安全分析尤其有价值。（4）通过将新生成的数据序列与原始数据序列横向拼接，形成的综合特征集能够更全面地反映网络流量的特点，提高后续模型训练的准确性和效率。（5）利用综合特征集作为输入，可以提高机器学习模型在网络流量行为分析方面的表现，尤其在异常检测、入侵检测等领域具有显著的应用价值。

附图说明

图1是本申请第一实施例提供的一种网络流量数据的特征生成方法的流程图。

图2是本申请第二实施例提供的一种网络流量数据的特征生成装置的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请第一实施例提供一种网络流量数据的特征生成方法。请参看图1，该图为本申请第一实施例的示意图。以下结合图1对本申请第一实施例提供一种网络流量数据的特征生成方法进行详细说明。

步骤S101：获取原始网络流量数据，其中，每条原始网络流量数据包括时间戳、源IP地址、目的IP地址、源端口、目的端口、协议类型、数据包大小和TCP标志。

步骤S101涉及获取原始网络流量数据的过程。此步骤是整个特征生成方法的基础，它确保了后续分析的准确性和有效性。原始网络流量数据是指通过网络接口传输的数据包信息，这些信息通常由网络设备（如路由器、交换机或服务器）记录和提供。

每条原始网络流量数据包含以下关键信息：

时间戳：记录数据包被捕获的具体时间点。时间戳的精确度对于后续分析网络流量数据的时间序列特性至关重要。

源IP地址和目的IP地址：这些地址标识了数据包的发送者和接收者。IP地址的信息对于分析网络流量的来源和目的地是必需的。

源端口和目的端口：这些端口号提供了关于数据包使用的特定网络服务的信息。端口号有助于识别网络流量的类型和应用程序。

协议类型：标识数据包所使用的通信协议（如TCP、UDP等），协议类型对于理解网络流量的性质至关重要。

数据包大小：数据包的大小（以字节为单位）提供了关于传输负载量的信息。

TCP标志：这些标志（如SYN、ACK、FIN等）描述了TCP连接的状态和数据包的性质，对于理解网络通信的上下文非常重要。

TCP（Transmission Control Protocol，传输控制协议）是一种常用的网络通信协议，其标志位用于控制和管理网络通信过程。在网络流量数据中，TCP标志提供了关于数据包状态和行为的重要信息，对于理解网络流量的性质至关重要。

TCP协议中定义了多个标志位，每个标志位在网络通信中扮演特定的角色：

1. SYN（同步序列编号）：用于建立连接时初始化序列号。SYN标志在TCP三次握手的开始阶段设置，表示开始一个新的连接。

2. ACK（确认）：表明接收方已成功接收到数据。在数据传输过程中，ACK标志通常被设置，表示之前发送的数据已被确认。

3. FIN（结束）：用于释放一个连接。设置FIN标志表示发送方已经没有数据发送，准备结束连接。

4. RST（重置）：用于突然终止连接。RST标志在连接出现错误或需要强制关闭时设置。

5. PSH（推送）：提示接收方应立即处理这些数据。设置PSH标志通常表示数据应尽快传递给应用程序，而不是在缓冲区中排队。

6. URG（紧急）：表明数据包中有紧急数据。当设置URG标志时，表示数据包中有特定的紧急数据需要优先处理。

原始网络流量数据的获取通常通过网络监控工具或专门的网络分析软件执行。这些工具能够实时捕获经过网络接口的数据包，并记录上述详细信息。在某些实施例中，还可以从网络设备的日志文件或数据流记录中提取这些信息。获取的数据应保持原始格式以确保分析的准确性。

获取的原始网络流量数据是分析网络行为和构建机器学习模型的关键输入。这些数据的详细性和完整性直接影响到后续步骤中特征生成的质量和效果。因此，步骤S101不仅涉及数据的收集，还涉及确保数据的准确性和可用性。

所述原始网络流量数据可以表示为：

；

其中，表示原始网络流量数据的总数量。

第条网络流量数据表示为：

综上所述，步骤S101在整个特征生成方法中起着至关重要的作用，它为后续的数据预处理、特征提取和模型训练奠定了坚实的基础。

步骤S102：对所述原始网络流量数据进行预处理，从而创建一个二维数据序列。

本实施例中，所述预处理包括将所述时间戳转换为相对时间单位，将所述源IP地址和目的IP地址中的IP地址转换为数值表示，将所述源端口和目的端口中的端口号标准化为整数形式，将所述协议类型转换为整数编码，将所述数据包大小转换为数值表示，将所述TCP标志转换为一组二进制值。

步骤S102是一个关键步骤，它涉及对获取的原始网络流量数据进行一系列的预处理操作。这些预处理操作的目的是将原始数据转换为更适合分析和特征提取的形式。

预处理操作的详细说明如下：

1.时间戳的转换：在此步骤中，原始数据中的时间戳被转换为相对时间单位。这通常涉及将时间戳从其原始格式（如UNIX时间戳）转换为从某个特定时间点（如数据收集开始时间）开始的秒数或其他时间单位。这种转换有助于后续分析中的时间序列比较和处理。

2. IP地址的数值化：原始数据中的源IP地址和目的IP地址被转换为数值表示。这通常涉及将点分十进制格式的IP地址转换为整数形式，使得IP地址更容易在后续的计算和分析中使用。

3.端口号的标准化：源端口和目的端口号被标准化为整数形式。由于端口号原本就是整数，这个过程可能涉及范围检查和格式统一，以确保数据的一致性和准确性。

4.协议类型的整数编码：网络协议类型（如TCP、UDP）被转换为整数编码。这种编码便于将协议类型用作数值特征进行后续分析。

5.数据包大小的数值表示：将数据包大小（通常以字节为单位）直接作为数值特征。

6. TCP标志的二进制转换：TCP标志（如SYN, ACK, FIN等）被转换为一组二进制值。这使得TCP标志可以用于计算机处理和分析，特别是在后续的情感评分中。

通过上述预处理步骤，原始网络流量数据被转换为一个二维数据序列。在这个序列中，每一行代表一个数据点（一个数据包或一组数据包），每一列代表一个特征（如时间、IP地址、端口号等）。这种二维格式是后续步骤中数据分析和特征提取的基础。需要指出的是，这个二维数据序列可以按照时间顺序进行构建。

预处理步骤对于确保数据的一致性和分析的准确性至关重要。通过将原始数据转换为标准化和统一的格式，可以更有效地进行数据分析和特征提取。此外，预处理也为后续步骤中的高级分析，如滑动窗口分析和机器学习模型的训练，打下了坚实的基础。

综上所述，步骤S102不仅是数据准备阶段的一个重要组成部分，而且对整个特征生成方法的成功实施至关重要。通过对原始数据进行精确和高效的预处理，本步骤能够提供高质量的数据，为网络流量的深入分析和模型训练提供支持。

步骤S103：设定一个滑动窗口，用于沿时间轴扫描所述二维数据序列；并且对滑动的每个窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分，其中，所述统计信息包括窗口内数据包大小的平均值以及数据点数量；所述情感评分根据预先分配的TCP标志对应的情感值进行计算。

步骤S103是本实施例中的关键分析过程，它涉及使用滑动窗口沿时间轴对预处理后的二维数据序列进行扫描，以及在每个窗口内进行数据点的统计分析和情感评分。

在本步骤中，首先需要设定一个滑动窗口。这个窗口用于在时间序列上捕捉连续的数据点，提供时间上下文的视角。窗口的大小（即覆盖的数据点数量）是可配置的，可以根据网络流量数据的特性和分析需求进行调整。选择合适的窗口大小对于捕捉网络行为的动态变化至关重要。

一旦设定了窗口大小，窗口将沿时间序列移动，逐步覆盖不同时间段的数据点。这个过程类似于在时间序列上移动一个“放大镜”，在每个位置观察和分析一组连续的数据点。滑动窗口的移动方式确保了整个时间序列被全面覆盖，没有遗漏任何时间点。

在每个窗口位置，对窗口内的数据点进行统计信息的计算。这包括计算窗口内数据包大小的平均值，这有助于理解在该时间窗口内网络流量的整体趋势。此外，还会计算窗口内的数据点数量，这有助于量化在特定时间段内的网络活动密度。

除了统计信息计算，每个窗口内的数据点还将基于TCP标志进行情感评分。这一评分过程涉及对不同TCP标志赋予预先定义的情感值，从而评估网络流量数据中的行为模式和潜在情感倾向。例如，频繁的SYN标志可能表明连接尝试的增加，而高比例的RST标志可能表明网络连接问题或攻击行为。

基于每个窗口内的统计信息和情感评分，本步骤生成一个新的数据点，这个数据点综合了所述统计信息和情感评分。这种方式的创新之处在于，它不仅考虑了网络流量的量化特性，而且还融入了基于行为的定性分析，从而为后续的数据分析和模型训练提供了更丰富和深入的特征集。

表1、二维数据序列示例

数据点	时间戳（秒）	数据包大小	SYN	ACK	RST	FIN	PSH	URG
									1	1704067200	1500	1	0	0	0	0	0
2	1704067205	40	0	1	0	0	0	0
									3	1704067210	600	0	0	1	0	0	0
4	1704067215	1200	0	0	0	1	0	0
									5	1704067220	75	0	0	0	0	1	0
6	1704067225	50	0	0	0	0	0	1

下面结合上面表1提供的二维数据序列示例，说明如何对滑动的窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分。

假定TCP标志位及其情感值如下：

SYN（建立连接）: +1（积极）

ACK（确认）: 0（中性）

RST（重置连接）: -2（负面）

FIN（结束连接）: -1（轻微负面）

PSH（推送数据）: +0.5（轻微积极）

URG（紧急数据）: -0.5（轻微负面）

如果数据点中的某一个TCP标志位为1，则按照上面的TCP标志位的情感值进行求和计算，获得该数据点的情感评分。进而对于窗口中的所有数据点计算其情感评分，将窗口内的所有数据点的情感评分进行求和，获得窗口内数据点的情感评分。

假定滑动窗口的窗口大小固定为3，则第一个窗口位置覆盖第1到第3个数据点：

数据点数量：3

数据包大小平均值：(1500 + 40 + 600) / 3 = 713.33

TCP标志：SYN(1,0,0,0,0,0), ACK(0,1,0,0,0,0), RST(0,0,1,0,0,0)

情感得分：SYN(+1) + ACK(0) + RST(-2) = -1

第二个窗口位置覆盖第2到第4个数据点：

数据点数量：3

数据包大小平均值：(40 + 600 + 1200) / 3 = 613.33

TCP标志：ACK(0,1,0,0,0,0), RST(0,0,1,0,0,0), FIN(0,0,0,1,0,0)

情感得分：ACK(0) + RST(-2) + FIN(-1) = -3

第三个窗口位置覆盖第3到第5个数据点：

数据点数量：3

数据包大小平均值：(600 + 1200 + 75) / 3 = 625

TCP标志：RST(0,0,1,0,0,0), FIN(0,0,0,1,0,0), PSH(0,0,0,0,1,0)

情感得分：RST(-2) + FIN(-1) + PSH(+0.5) = -2.5

第四个窗口位置覆盖第4到第6个数据点：

数据点数量：3

数据包大小平均值：(1200 + 75 + 50) / 3 = 441.67

TCP标志：FIN(0,0,0,1,0,0), PSH(0,0,0,0,1,0), URG(0,0,0,0,0,1)

情感得分：FIN(-1) + PSH(+0.5) + URG(-0.5) = -1

第五个窗口位置覆盖第5到第6个数据点：

数据点数量：2

数据包大小平均值：(75 + 50) / 2 = 62.5

TCP标志：PSH(0,0,0,0,1,0), URG(0,0,0,0,0,1)

情感得分：PSH(+0.5) + URG(-0.5) = 0

第六个窗口位置覆盖第6个数据点：

数据点数量：1

数据包大小平均值：(50) / 1 = 50

TCP标志：URG(0,0,0,0,0,1)

情感得分：URG(-0.5) = -0.5

上述六个窗口中的计算结果形成一个新的数据序列。将该新的数据序列与图1中的二维数据序列进行横向拼接，可以得到表2所示的拼接结果，该拼接结果可以作为一个综合特征集，用于网络行为的数据分析和机器学习模型的训练。

表2、新的数据序列与所述二维数据序列横向拼接示例

数据点	时间戳（秒）	数据包大小	SYN	ACK	RST	FIN	PSH	URG	数据点数量	数据包平均值	情感得分
												1	1704067200	1500	1	0	0	0	0	0	3	713.33	-1
2	1704067205	40	0	1	0	0	0	0	3	613.33	-3
												3	1704067210	600	0	0	1	0	0	0	3	625	-2.5
4	1704067215	1200	0	0	0	1	0	0	3	441.67	-1
												5	1704067220	75	0	0	0	0	1	0	2	62.5	0
6	1704067225	50	0	0	0	0	0	1	1	50	-0.5

本实施例中，所述滑动窗口的窗口大小按照如下的公式进行设置：

其中，为窗口调整因子。

滑动窗口用于分析网络流量时间序列数据。窗口大小（）的设定直接影响数据分析的粒度和结果的准确性。因此，定义一个合适的窗口大小是至关重要的。

窗口大小由以下公式决定：

其中，j是一个整数，被称为窗口调整因子，其取值范围为1到10。这个公式确保窗口大小始终为奇数，这在许多数据分析应用中是一个常见的实践，因为它允许窗口有一个明确的中心点。

窗口调整因子的作用是控制滑动窗口的大小。通过改变/>的值，可以动态调整窗口覆盖的数据点数量，从而适应不同的数据特征和分析需求。例如：

当较小（如1或2）时，窗口较小，能够捕捉数据的快速变化。

当较大（如9或10）时，窗口较大，适合观察数据的长期趋势。

在具体实施时，选择的值可以基于数据的特征，如变化率、噪声水平和所需的时间分辨率。例如，对于高频率的网络攻击检测，可能需要一个较小的窗口以捕捉快速变化的流量模式。相反，对于流量分析的长期趋势，较大的窗口可能更为合适。

窗口大小的选择对数据分析的结果有显著影响。较小的窗口可能导致高灵敏度但也可能伴随更多的假阳性。较大的窗口可能提供更平滑的数据视图，但可能会错过一些重要的细节变化。

滑动窗口大小的设置是实现高效和准确数据分析的关键因素。通过该公式和窗口调整因子，本实施例提供了一种灵活的方法来适应不同的网络流量数据特征，确保分析结果既准确又可靠。

本实施例中，所述滑动窗口的滑动机制如下：

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>；

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>。

滑动窗口机制用于分析网络流量时间序列数据。这种机制允许窗口沿着数据序列滑动，从而在不同的时间点捕捉数据的局部特性。

滑动窗口由一系列连续的数据点组成，窗口的大小由上面定义的公式决定。窗口沿着网络流量数据序列滑动，分析每个窗口范围内的数据。

滑动窗口的操作如下：

1.当时：窗口起始于数据序列的第一个数据点/>，并向后扩展至第/>个数据点/>。这是窗口在数据序列开始处的初始位置。

2.当时：随着窗口向前滑动，它覆盖从第一个数据点/>到第/> 个数据点/>。在这个阶段，窗口逐渐扩展至其最大尺寸。

3. 当时：此时窗口处于数据序列的中间部分。窗口覆盖从第/>个数据点/>到第/>个数据点/>，保持一个固定的尺寸。

4. 当时：窗口到达数据序列的末端。它从第/>个数据点/>开始，直到序列的最后一个数据点/>。

这种滑动机制允许窗口以一种连贯和有序的方式遍历整个数据序列。在序列的开始和结束处，窗口大小可能不等于在序列中间部分的大小，这是因为窗口尺寸逐渐适应数据序列的边界条件。

通过连续地滑动窗口并分析每个窗口内的数据，本实施例能够连续地监测网络流量的变化，捕捉到可能的趋势和模式，这对于诸如异常检测、流量预测等应用至关重要。

滑动窗口机制是本实施例的核心部分之一。它不仅提供了一种有效的方法来连续地分析网络流量数据，而且确保了分析过程的高度适应性和灵活性。

本实施例中，所述TCP标志中的SYN标志位的情感值设为1，表示积极的连接尝试；ACK标志位的情感值设为0，表示中性的确认响应；FIN标志位的情感值设为-1，情感轻微负面；RST标志位的情感值设为-2，情感中等负面；PSH标志位的情感值设为0.5，情感轻微积极；URG标志位的情感值设为-0.5，情感轻微负面。

在本实施例中，TCP标志位的情感值设置对于理解和解释网络流量数据至关重要。每个TCP标志位都被赋予一个情感值，这些值反映了网络通信中特定事件的情感或意义。

本实施例根据网络流量的不同特性，为每个TCP标志位分配了一个具体的情感值，如下所述：

1. SYN标志位（情感值：+1）：

- 代表“建立连接”。

- 情感值为+1，表示积极的连接尝试，是网络通信开始的标志。

2. ACK标志位（情感值：0）：

- 代表“确认”。

- 情感值为0，表示中性的确认响应，是网络通信中的常见交互。

3. FIN标志位（情感值：-1）：

- 代表“结束连接”。

- 情感值为-1，表示轻微负面的情感，通常意味着正常通信的结束。

4. RST标志位（情感值：-2）：

- 代表“重置连接”。

- 情感值为-2，表示中等负面的情感，通常与连接错误或异常相关。

5. PSH标志位（情感值：+0.5）：

- 代表“推送数据”。

- 情感值为+0.5，表示轻微积极的情感，是数据传输的标志。

6. URG标志位（情感值：-0.5）：

- 代表“紧急数据”。

- 情感值为-0.5，表示轻微负面的情感，通常用于指示紧急情况。

这些情感值被用于分析网络流量数据时，每个TCP数据包的情感得分是其值为1的各个标志位情感值的总和。这种方法使得可以量化地评估网络通信的情感倾向，从而识别出正常、异常或潜在的威胁行为。

通过对网络流量中每个TCP数据包应用这些情感值，本实施例能够连续且精确地监测网络流量的情感趋势。这种分析方法提供了一种新的视角来理解和解释网络活动，尤其在网络安全和流量管理领域具有重要价值。

这种方法不仅提高了网络流量分析的维度和深度，而且为理解网络行为模式提供了一个全新的角度。

总之，步骤S103在本实施例中扮演着至关重要的角色。通过滑动窗口的时间序列扫描，结合统计信息的计算和基于TCP标志的情感评分，本步骤不仅能够捕捉到数据的量化特征，还能深入分析网络流量的行为模式。这种方法为网络流量的特征生成提供了一种全新的视角，有助于更准确地分析网络行为并提高机器学习模型在网络流量数据分析方面的训练效果。

步骤S104：为每个窗口生成一个包括统计信息和情感评分的新数据点，从而形成一个新的数据序列。

步骤S104是本实施例中的一个核心环节，它涉及根据每个窗口内的分析结果生成新的数据点。这一步骤在数据的转换和特征提取过程中起到关键作用。

在每个窗口内，已经完成了数据点的统计信息计算和基于TCP标志的情感评分。步骤S104的目的是将这些分析结果综合起来，形成一个新的、综合的数据点。每个新数据点包含以下组成部分：

1.统计信息：包括该窗口内数据包大小的平均值和数据点数量。这些信息提供了窗口内网络流量的量化描述。

2.情感评分：基于窗口内TCP标志的分析，反映了网络流量的行为模式和潜在的情感倾向。

这些新数据点不仅包含了原始数据的关键特征，还融合了对网络流量行为的深入理解。

生成新数据点的过程涉及以下几个步骤：

1.数据聚合：对每个窗口内的数据进行汇总，包括计算统计信息和情感评分。

2.数据合成：将统计信息和情感评分组合，形成一个多维的新数据点。

3.数据标准化：为了保证数据点在后续分析中的一致性，可能需要对新数据点进行标准化处理。

生成的新数据点为网络流量数据的特征提取提供了丰富的基础。通过结合量化的统计信息和定性的情感评分，这些数据点能够更全面地描述网络流量的特性。在机器学习和数据分析应用中，这些新数据点能够提供更深入的洞见，有助于识别和理解复杂的网络行为模式。

步骤S104在本实施例中扮演了至关重要的角色。它不仅标志着从原始数据到特征数据的转换，还引入了创新的分析维度，通过综合不同类型的数据分析结果，为网络流量的深入分析和机器学习模型的训练提供了强大的支持。这一步骤的实施确保了数据的丰富性和分析的全面性，是实现高效和准确网络流量分析的关键环节。

步骤S105：将所述新的数据序列与所述二维数据序列横向拼接，形成一个综合特征集，用于网络行为的数据分析和机器学习模型的训练。

步骤S105是本实施例提供的特征生成方法的最后一个关键步骤，它涉及将新生成的数据序列与预处理后的原始二维数据序列进行横向拼接，从而形成一个综合特征集。这一步骤对于最终的数据分析和机器学习模型训练至关重要。

横向拼接的过程如下：

1.数据准备：在执行横向拼接之前，确保新生成的数据序列和原始二维数据序列在格式和维度上兼容。这可能涉及对数据进行进一步的格式化处理，确保数据对齐一致。

2.数据合并：将新数据序列与原始二维数据序列在列方向上进行合并。在合并过程中，每个数据点的新特征（即步骤S104中生成的统计信息和情感评分）被添加到原始数据点的旁边，从而扩展原有的特征集。

3.结果检验：合并后，对结果数据集进行检验，确保数据的一致性和完整性。这一步骤是为了验证数据的正确合并，以及确认没有数据丢失或格式错误。

步骤S105生成的综合特征集融合了原始网络流量数据的基本属性和通过高级分析得到的新特征。这种综合特征集的优点在于：

1.增强的特征表示：通过结合基本网络流量信息和从数据中提取的行为模式，综合特征集为网络行为分析提供了更全面的视角。

2.提高模型训练的效果：在机器学习模型的训练中，这个丰富的特征集能够帮助模型更好地理解和预测网络行为，从而提高模型的性能。

3.灵活性和可扩展性：这种方法在处理不同类型和规模的网络流量数据方面具有很高的灵活性和可扩展性。

步骤S105不仅标志着从数据预处理到特征提取的完成，也为最终的数据分析和机器学习模型训练奠定了基础。通过将新的数据点与原始数据结合，本实施例能够提供一个更加全面和深入的特征集，有助于更精确地分析和预测网络行为。

本实施例中，所述的特征生成方法，还包括：

本实施例将机器学习技术应用于网络流量数据的分析，以区分正常和异常的网络行为。这一方法的核心是一个新型的机器学习模型，该模型专门针对网络流量特征数据进行设计和训练。

机器学习模型的建立：

1.模型设计：

使用一个基于自编码器（Autoencoder）和决策树集成（如随机森林）的混合模型。

自编码器用于有效地降低特征维度，并从综合特征集中提取关键特征。

决策树集成用于对正常和异常流量进行分类。

2.模型训练：

使用历史网络流量数据进行训练，包括已标记的正常和异常流量样本。

通过不断调整模型参数，优化模型的分类准确性。

3. 模型测试和验证：

在不同的网络环境和流量配置下对模型进行测试。

使用交叉验证和其他统计方法评估模型的准确性和稳健性。

异常网络流量的检测包括：

1.实时数据处理：

新的实时样本数据首先经过与原始数据相同的预处理步骤。

处理后的数据被输入到训练好的机器学习模型中。

2.异常检测：

模型分析数据，识别出不符合正常流量模式的样本。

模型基于学习到的特征和行为模式，对异常样本进行标记。

3.通知机制：

当模型检测到异常行为时，系统自动向网络管理员或安全系统发出警报。

警报包括异常行为的详细信息，如发生时间、涉及的网络参数等。

下面对于混合模型进行详细说明：

本混合模型结合了自编码器和决策树集成（例如随机森林），旨在有效处理和分析网络流量数据，以区分正常和异常行为。下面将详细描述该模型的组成、输入输出、连接关系以及各部分的实现方式。

模型组成和流程包括：

1.模型组成：

自编码器部分：用于特征降维和关键特征提取。

决策树集成部分（例如随机森林）：用于分类任务。

2.工作流程：

输入：网络流量数据的综合特征集。

自编码器处理：将综合特征集输入自编码器进行特征降维。

决策树集成处理：将降维后的特征输入决策树集成进行分类。

输出：分类结果，标识正常或异常流量。

下面对于自编码器部分进行说明：

1.输入：网络流量的综合特征集，包括时间戳、IP地址、端口信息、协议类型、数据包大小、TCP标志等。

2. 自编码器部分的实现方式：

使用神经网络构建自编码器。编码器部分逐层降低特征维度。解码器部分重建输入数据，用于训练过程中的误差计算。

3.输出：降维后的关键特征表示。

下面对于决策树集成部分进行说明：

1.输入：自编码器输出的降维特征。

2.实现方式：

使用随机森林算法构建决策树集成。训练过程中，随机森林利用多个决策树对样本进行训练和预测。决策树的多样性通过随机选择特征和数据样本来实现。

3.输出：分类结果，表明每个样本是正常流量还是异常流量。

本混合模型通过自编码器和随机森林的有效结合，提供了一种高效处理和分析网络流量数据的方法。自编码器的特征降维能力与随机森林的分类能力相结合，使得模型在处理大规模和高维度的网络流量数据时既有效又准确。这种混合模型的设计为网络安全领域提供了一种新的技术手段，可供本领域技术人员实施和应用。

在上述的实施例中，提供了一种网络流量数据的特征生成方法，与之相对应的，本申请还提供一种网络流量数据的特征生成装置。请参看图2，其为本申请的一种网络流量数据的特征生成装置实施例的示意图。由于本实施例，即第二实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请第二实施例提供的一种网络流量数据的特征生成装置，包括：

获取单元201，用于获取原始网络流量数据，其中，每条原始网络流量数据包括时间戳、源IP地址、目的IP地址、源端口、目的端口、协议类型、数据包大小和TCP标志；

创建单元202，用于对所述原始网络流量数据进行预处理，从而创建一个二维数据序列，其中所述二维数据序列按照时间顺序排列；

扫描单元203，用于设定一个滑动窗口，所述滑动窗口用于沿时间轴扫描所述二维数据序列；并且对滑动的窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分，其中，所述统计信息包括窗口内数据包大小的平均值以及数据点数量；所述情感评分根据预先分配的TCP标志对应的情感值进行计算；

生成单元204，用于为每个窗口生成一个包括统计信息和情感评分的新数据点，从而形成一个新的数据序列；

拼接单元205，用于将所述新的数据序列与所述二维数据序列横向拼接，形成一个综合特征集，用于网络行为的数据分析和机器学习模型的训练。

本申请第三实施例提供一种电子设备，所述电子设备包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行本申请第一实施例中提供的网络流量数据的特征生成方法。

本申请第四实施例提供一种计算机可读取存储介质，其上存储有计算机程序，该程序被处理器执行时，执行本申请第一实施例中提供的网络流量数据的特征生成方法。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种网络流量数据的特征生成方法，其特征在于，包括：

为每个滑动窗口生成一个包括统计信息和情感评分的新数据点，从而形成一个新的数据序列；

2.根据权利要求1所述的特征生成方法，其特征在于，所述对所述原始网络流量数据进行预处理，包括：

3.根据权利要求1所述的特征生成方法，其特征在于，所述原始网络流量数据包括/>条网络流量数据，/>；第/>条网络流量数据/>表示为；其中，/>；/>为时间戳， />为源IP地址，/>为目的IP地址，/>为源端口，/>为目的端口，/>为协议类型，数据包大小，/>为TCP标志。

4.根据权利要求3所述的特征生成方法，其特征在于，所述滑动窗口的窗口大小按照如下的公式进行设置：

其中，为窗口调整因子， />。

5.根据权利要求4所述的特征生成方法，其特征在于，所述滑动窗口的滑动机制如下：

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>；

当时，窗口范围覆盖网络流量数据/>中的数据/>至/>。

6.根据权利要求5所述的特征生成方法，其特征在于，所述TCP标志中的SYN标志位的情感值设为1，表示积极的连接尝试；ACK标志位的情感值设为0，表示中性的确认响应；FIN标志位的情感值设为-1，情感轻微负面；RST标志位的情感值设为-2，情感中等负面；PSH标志位的情感值设为0.5，情感轻微积极；URG标志位的情感值设为-0.5，情感轻微负面。

7.根据权利要求1所述的特征生成方法，其特征在于，还包括：

基于所述综合特征集建立一个机器学习模型，该模型被训练用于区分正常网络流量行为和异常网络流量行为；

8.一种网络流量数据的特征生成装置，其特征在于，包括：

扫描单元，用于设定一个滑动窗口，所述滑动窗口用于沿时间轴扫描所述二维数据序列；并且对滑动窗口内的数据点分别计算数据点的统计信息以及基于TCP标志的情感评分，其中，所述统计信息包括窗口内数据包大小的平均值以及数据点数量；所述情感评分根据预先分配的TCP标志对应的情感值进行计算；

9.一种网络流量数据的特征生成设备，其特征在于，包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行权利要求1-7中任意一项提供的所述网络流量数据的特征生成方法。

10.一种计算机可读取存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时，执行权利要求1-7中任意一项提供的所述网络流量数据的特征生成方法。