CN114662558A - 工业互联网时序数据处理方法 - Google Patents
工业互联网时序数据处理方法 Download PDFInfo
- Publication number
- CN114662558A CN114662558A CN202210128894.7A CN202210128894A CN114662558A CN 114662558 A CN114662558 A CN 114662558A CN 202210128894 A CN202210128894 A CN 202210128894A CN 114662558 A CN114662558 A CN 114662558A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- industrial internet
- processing method
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供工业互联网时序数据处理方法,涉及工业互联网技术领域。该工业互联网时序数据处理方法,包括如下的具体处理方法:步骤一.将所有的数据进行第一次聚类,第一次聚类后在最新结果中第二次聚类;步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型;步骤三.使用机器模型分析新的数据,且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类,步骤一中第一次聚类可以由初始化触发,也可以手动触发,或者周期性触发,且第一次聚类的结果每一类都是一段时间内的数据。在工业互联网引入大量物联网终端情况下,能有效的解决物联网拓扑结构变化和缺乏足够标注数据情况下,仍然建立有效机器学习模型分析数据。
Description
技术领域
本发明涉及工业互联网技术领域,具体为工业互联网时序数据处理方法。
背景技术
工业互联网的特点之一就是会引入数量庞大的物联网终端。具体的,终端包括无线终端和有线传感器终端。无线终端又包括微功耗和低功耗终端。终端收集的数据一般都是时序数据,例如电网中变电站中不同时间的温度,湿度,变压器油分离后特定气体的含量等。
接入节点收集的终端数据后发送给后台服务。接入节点支持简单的边缘计算。接入节点可以对传感器发送反馈信息。接入节点和后台服务之间可以采用3G/4G/5G/NB-IoT/LAN等技术进行传输,终端和接入节点之间采用LoRa/WiFi/Bluetooth等技术连接。工业互联网场景下引入大量终端后,如何有效的处理分析终端收集的时序数据就是一个非常的重要问题。一个自然的想法是训练机器模型来识别异常数据,但是训练模型会遇到各种问题,例如网络里的拓扑结构可能会发生变化,以及缺乏足够标注的数据来训练等。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了工业互联网时序数据处理方法,解决了网络里的拓扑结构可能会发生变化,以及缺乏足够标注的数据来训练的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:工业互联网时序数据处理方法,包括如下的具体处理方法:
步骤一.将所有的数据进行第一次聚类,第一次聚类后在最新结果中第二次聚类;
步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型;
步骤三.使用机器模型分析新的数据,且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类。
优选的,步骤一中第一次聚类可以由初始化触发,也可以手动触发,或者周期性触发,且第一次聚类的结果每一类都是一段时间内的数据,且具体的算法采用AP聚类算法。
AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和力传播算法。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar),然后数据点两两之间连线构成一个网络(相似度矩阵),再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心。
优选的,第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据。对应的,第一次聚类可以由每一次拓扑结构发生变化触发,也可以由系统管理员根据需要触发。在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签,第二次聚类在时间最近的第一次聚类结果中聚类,建立的模型反应最近的系统结构。
优选的,第二次聚类的数目可以事先确定,也可以事先不确定,事先确定即比较确定的分析结果,分两类,一类是正常数据,一类是不正常数据,通过K-means方法进行比较;
事先不确定意味着对分析结果需要再讨论,若分N类,其中一类是正常数据,N-1是各种不正常数据,后续可以考虑对N-1类不正常数据再来分析原因,第一次聚类中谈到的各种不确定分类数目的聚类方法都可以使用,分类结果中哪一类是正常数据可以人工根据经验观察数据来判断,也可以用规则来判断。
优选的,所述训练机器学习模型包括但是不限于决策树,随机森林,线性回归,朴素贝叶斯,神经网络(包括深度学习的神经网络),逻辑回归,支持向量机。
优选的,步骤三中新的数据是指机器模型建立后需要利用模型分析的数据。
(三)有益效果
本发明提供了工业互联网时序数据处理方法。具备以下有益效果:
本发明在工业互联网引入大量物联网终端情况下,能有效的解决物联网拓扑结构变化和缺乏足够标注数据情况下,仍然建立有效机器学习模型分析数据。
附图说明
图1为本发明工业互联网时序数据处理方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本发明实施例提供工业互联网时序数据处理方法,包括如下的具体处理方法:
步骤一.将所有的数据进行第一次聚类,第一次聚类后在最新结果中第二次聚类;
步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型,训练机器学习模型包括但是不限于决策树,随机森林,线性回归,朴素贝叶斯,神经网络(包括深度学习的神经网络),逻辑回归,支持向量机,第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据,在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签,第二次聚类在时间最近的第一次聚类结果中聚类,建立的模型反应最近的系统结构;
第二次聚类的数目可以事先确定,也可以事先不确定,事先确定即比较确定的分析结果,分两类,一类是正常数据,一类是不正常数据,通过K-means方法进行比较;
事先不确定意味着对分析结果需要再讨论,若分N类,其中一类是正常数据,N-1是各种不正常数据,后续可以考虑对N-1类不正常数据再来分析原因,第一次聚类中谈到的各种不确定分类数目的聚类方法都可以使用,分类结果中哪一类是正常数据可以人工根据经验观察数据来判断,也可以用规则来判断。
步骤三.使用机器模型分析新的数据,且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类,新的数据是指机器模型建立后需要利用模型分析的数据。
步骤一中第一次聚类可以由初始化触发,也可以手动触发,或者周期性触发,且第一次聚类的结果每一类都是一段时间内的数据,且具体的算法采用AP聚类算法。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.工业互联网时序数据处理方法,其特征在于,包括如下的具体处理方法:
步骤一.将所有的数据进行第一次聚类,第一次聚类后在最新结果中第二次聚类;
步骤二.利用第二次聚类的结果作为标注好的数据训练机器学习模型;
步骤三.使用机器模型分析新的数据,且在数据分析结束后存储在系统里作为新的历史数据用于之后重新开始第一次聚类。
2.根据权利要求1所述的工业互联网时序数据处理方法,其特征在于:步骤一中第一次聚类可以由初始化触发,也可以手动触发,或者周期性触发,且第一次聚类的结果每一类都是一段时间内的数据,且具体的算法采用AP聚类算法。
3.根据权利要求1所述的工业互联网时序数据处理方法,其特征在于:第一次聚类的每一个结果都是一段稳定的拓扑结构内采集的数据,在第一次聚类结果内部进行第二次聚类就是为了给没有标签的数据自动打上标签,第二次聚类在时间最近的第一次聚类结果中聚类,建立的模型反应最近的系统结构。
4.根据权利要求1所述的工业互联网时序数据处理方法,其特征在于:第二次聚类的数目可以事先确定,也可以事先不确定,事先确定即比较确定的分析结果,分两类,一类是正常数据,一类是不正常数据,通过K-means方法进行比较;
事先不确定意味着对分析结果需要再讨论,若分N类,其中一类是正常数据,N-1是各种不正常数据,后续可以考虑对N-1类不正常数据再来分析原因,第一次聚类中谈到的各种不确定分类数目的聚类方法都可以使用,分类结果中哪一类是正常数据可以人工根据经验观察数据来判断,也可以用规则来判断。
5.根据权利要求1所述的工业互联网时序数据处理方法,其特征在于:所述训练机器学习模型包括但是不限于决策树,随机森林,线性回归,朴素贝叶斯,神经网络(包括深度学习的神经网络),逻辑回归,支持向量机。
6.根据权利要求1所述的工业互联网时序数据处理方法,其特征在于:步骤三中新的数据是指机器模型建立后需要利用模型分析的数据。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210128894.7A CN114662558A (zh) | 2022-02-11 | 2022-02-11 | 工业互联网时序数据处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210128894.7A CN114662558A (zh) | 2022-02-11 | 2022-02-11 | 工业互联网时序数据处理方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN114662558A true CN114662558A (zh) | 2022-06-24 |
Family
ID=82026564
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202210128894.7A Pending CN114662558A (zh) | 2022-02-11 | 2022-02-11 | 工业互联网时序数据处理方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN114662558A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115408587A (zh) * | 2022-08-29 | 2022-11-29 | 熠为恒科技集团有限公司 | 一种工业生产数据分析处理模型的构建方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105326475A (zh) * | 2015-09-16 | 2016-02-17 | 西北大学 | 一种基于多光源分辨的生物发光断层成像重建方法 |
| EP3339995A1 (en) * | 2016-12-21 | 2018-06-27 | ABB Schweiz AG | Determining current and future states of industrial machines by using a prediction model based on historical data |
| CN108460486A (zh) * | 2018-03-05 | 2018-08-28 | 国网上海市电力公司 | 一种基于改进聚类算法和神经网络的电压偏差预测方法 |
-
2022
- 2022-02-11 CN CN202210128894.7A patent/CN114662558A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105326475A (zh) * | 2015-09-16 | 2016-02-17 | 西北大学 | 一种基于多光源分辨的生物发光断层成像重建方法 |
| EP3339995A1 (en) * | 2016-12-21 | 2018-06-27 | ABB Schweiz AG | Determining current and future states of industrial machines by using a prediction model based on historical data |
| CN108460486A (zh) * | 2018-03-05 | 2018-08-28 | 国网上海市电力公司 | 一种基于改进聚类算法和神经网络的电压偏差预测方法 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115408587A (zh) * | 2022-08-29 | 2022-11-29 | 熠为恒科技集团有限公司 | 一种工业生产数据分析处理模型的构建方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112699246B (zh) | 基于知识图谱的领域知识推送方法 | |
| CN106598791B (zh) | 一种基于机器学习的工业设备故障预防性识别方法 | |
| WO2021184630A1 (zh) | 基于知识图谱定位排污对象的方法及相关设备 | |
| CN112036445B (zh) | 基于神经张量网络的跨社交网络用户身份识别方法 | |
| CN104767692B (zh) | 一种网络流量分类方法 | |
| CN101464964A (zh) | 一种设备故障诊断的支持向量机模式识别方法 | |
| CN112966714A (zh) | 一种边缘时序数据异常检测和网络可编程控制方法 | |
| CN105487526A (zh) | 一种Fast RVM污水处理故障诊断方法 | |
| CN112801815B (zh) | 一种基于联邦学习的电力通信网络故障预警方法 | |
| CN110147911A (zh) | 一种基于内容感知的社交影响力预测模型及预测方法 | |
| CN101516099A (zh) | 一种传感器网络异常检测方法 | |
| Selvarajah et al. | Dynamic network link prediction by learning effective subgraphs using CNN-LSTM | |
| CN118350600A (zh) | 基于混合模型和多变量分析的供热负荷预测方法及系统 | |
| KR20150094408A (ko) | 사물 데이터를 이용한 클라우드 환경에서의 서비스 인지 시스템 | |
| Chen et al. | Pre-training on dynamic graph neural networks | |
| CN109002928A (zh) | 一种基于贝叶斯网络模型的电力负荷峰值预测方法和装置 | |
| CN119155214A (zh) | 一种基于双分支模型的网络异常检测方法及装置 | |
| CN102982236B (zh) | 一种通过网络用户建模的观点预测方法 | |
| CN111612231A (zh) | 一种配网线路重跳模型融合处理方法及装置 | |
| CN114662558A (zh) | 工业互联网时序数据处理方法 | |
| CN119168611A (zh) | 一种基于知识挖掘的设备智能运维方法及系统 | |
| Liao et al. | Meta-learning-based multi-objective PSO model for dynamic scheduling optimization | |
| CN116780530A (zh) | 面向大规模新能源接入电网薄弱环节识别预测方法及系统 | |
| CN110889495B (zh) | 一种基于能动参数的制丝设备状态维护分析方法 | |
| CN110414008B (zh) | 一种基于深度学习的关系抽取系统及其方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |