CN114662558A

CN114662558A - 工业互联网时序数据处理方法

Info

Publication number: CN114662558A
Application number: CN202210128894.7A
Authority: CN
Inventors: 吴斌; 祝宁; 周超然; 杨寅
Original assignee: Nanjing Inrich Technology Co ltd
Current assignee: Nanjing Inrich Technology Co ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-06-24

Abstract

本发明提供工业互联网时序数据处理方法，涉及工业互联网技术领域。该工业互联网时序数据处理方法，包括如下的具体处理方法：步骤一.将所有的数据进行第一次聚类，第一次聚类后在最新结果中第二次聚类；步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型；步骤三.使用机器模型分析新的数据，且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类，步骤一中第一次聚类可以由初始化触发，也可以手动触发，或者周期性触发，且第一次聚类的结果每一类都是一段时间内的数据。在工业互联网引入大量物联网终端情况下，能有效的解决物联网拓扑结构变化和缺乏足够标注数据情况下，仍然建立有效机器学习模型分析数据。

Description

工业互联网时序数据处理方法

技术领域

本发明涉及工业互联网技术领域，具体为工业互联网时序数据处理方法。

背景技术

工业互联网的特点之一就是会引入数量庞大的物联网终端。具体的，终端包括无线终端和有线传感器终端。无线终端又包括微功耗和低功耗终端。终端收集的数据一般都是时序数据，例如电网中变电站中不同时间的温度，湿度，变压器油分离后特定气体的含量等。

接入节点收集的终端数据后发送给后台服务。接入节点支持简单的边缘计算。接入节点可以对传感器发送反馈信息。接入节点和后台服务之间可以采用3G/4G/5G/NB-IoT/LAN等技术进行传输，终端和接入节点之间采用LoRa/WiFi/Bluetooth等技术连接。工业互联网场景下引入大量终端后，如何有效的处理分析终端收集的时序数据就是一个非常的重要问题。一个自然的想法是训练机器模型来识别异常数据，但是训练模型会遇到各种问题，例如网络里的拓扑结构可能会发生变化，以及缺乏足够标注的数据来训练等。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了工业互联网时序数据处理方法，解决了网络里的拓扑结构可能会发生变化，以及缺乏足够标注的数据来训练的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：工业互联网时序数据处理方法，包括如下的具体处理方法：

步骤一.将所有的数据进行第一次聚类，第一次聚类后在最新结果中第二次聚类；

步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型；

步骤三.使用机器模型分析新的数据，且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类。

优选的，步骤一中第一次聚类可以由初始化触发，也可以手动触发，或者周期性触发，且第一次聚类的结果每一类都是一段时间内的数据，且具体的算法采用AP聚类算法。

AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和力传播算法。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar)，然后数据点两两之间连线构成一个网络(相似度矩阵)，再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心。

优选的，第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据。对应的，第一次聚类可以由每一次拓扑结构发生变化触发，也可以由系统管理员根据需要触发。在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签，第二次聚类在时间最近的第一次聚类结果中聚类，建立的模型反应最近的系统结构。

优选的，第二次聚类的数目可以事先确定，也可以事先不确定，事先确定即比较确定的分析结果，分两类，一类是正常数据，一类是不正常数据，通过K-means方法进行比较；

事先不确定意味着对分析结果需要再讨论，若分N类，其中一类是正常数据，N-1是各种不正常数据，后续可以考虑对N-1类不正常数据再来分析原因，第一次聚类中谈到的各种不确定分类数目的聚类方法都可以使用，分类结果中哪一类是正常数据可以人工根据经验观察数据来判断，也可以用规则来判断。

优选的，所述训练机器学习模型包括但是不限于决策树，随机森林，线性回归，朴素贝叶斯，神经网络(包括深度学习的神经网络)，逻辑回归，支持向量机。

优选的，步骤三中新的数据是指机器模型建立后需要利用模型分析的数据。

(三)有益效果

本发明提供了工业互联网时序数据处理方法。具备以下有益效果：

本发明在工业互联网引入大量物联网终端情况下，能有效的解决物联网拓扑结构变化和缺乏足够标注数据情况下，仍然建立有效机器学习模型分析数据。

附图说明

图1为本发明工业互联网时序数据处理方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，本发明实施例提供工业互联网时序数据处理方法，包括如下的具体处理方法：

步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型，训练机器学习模型包括但是不限于决策树，随机森林，线性回归，朴素贝叶斯，神经网络(包括深度学习的神经网络)，逻辑回归，支持向量机，第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据，在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签，第二次聚类在时间最近的第一次聚类结果中聚类，建立的模型反应最近的系统结构；

第二次聚类的数目可以事先确定，也可以事先不确定，事先确定即比较确定的分析结果，分两类，一类是正常数据，一类是不正常数据，通过K-means方法进行比较；

步骤三.使用机器模型分析新的数据，且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类，新的数据是指机器模型建立后需要利用模型分析的数据。

步骤一中第一次聚类可以由初始化触发，也可以手动触发，或者周期性触发，且第一次聚类的结果每一类都是一段时间内的数据，且具体的算法采用AP聚类算法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.工业互联网时序数据处理方法，其特征在于，包括如下的具体处理方法：

2.根据权利要求1所述的工业互联网时序数据处理方法，其特征在于：步骤一中第一次聚类可以由初始化触发，也可以手动触发，或者周期性触发，且第一次聚类的结果每一类都是一段时间内的数据，且具体的算法采用AP聚类算法。

3.根据权利要求1所述的工业互联网时序数据处理方法，其特征在于：第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据，在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签，第二次聚类在时间最近的第一次聚类结果中聚类，建立的模型反应最近的系统结构。

4.根据权利要求1所述的工业互联网时序数据处理方法，其特征在于：第二次聚类的数目可以事先确定，也可以事先不确定，事先确定即比较确定的分析结果，分两类，一类是正常数据，一类是不正常数据，通过K-means方法进行比较；

5.根据权利要求1所述的工业互联网时序数据处理方法，其特征在于：所述训练机器学习模型包括但是不限于决策树，随机森林，线性回归，朴素贝叶斯，神经网络(包括深度学习的神经网络)，逻辑回归，支持向量机。

6.根据权利要求1所述的工业互联网时序数据处理方法，其特征在于：步骤三中新的数据是指机器模型建立后需要利用模型分析的数据。