CN107301564A - 基于聚类算法和回声状态网络的异常消费行为检测方法 - Google Patents
基于聚类算法和回声状态网络的异常消费行为检测方法 Download PDFInfo
- Publication number
- CN107301564A CN107301564A CN201710438150.4A CN201710438150A CN107301564A CN 107301564 A CN107301564 A CN 107301564A CN 201710438150 A CN201710438150 A CN 201710438150A CN 107301564 A CN107301564 A CN 107301564A
- Authority
- CN
- China
- Prior art keywords
- data
- time
- time series
- sequence
- echo state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于动态时间规整和回声状态网络时间序列预测的一卡通数据异常检测方法,通过加入基于动态时间规整的相关序列作为回声状态的输入序列,克服一卡通数据的随机噪声,提高回声状态网络预测的准确性,最终提高异常检测的准确度。
Description
技术领域
本发明涉及信息技术领域,具体的说是一种基于聚类算法和回声状态网络的异常消费行为检测方法。
背景技术
随着高校数字化和信息化的深入发展,校园一卡通得到了广泛的使用。一卡通中存储了大量的学生消费记录信息,从中挖掘有价值的信息对学生行为进行分析,极大地推动了学生管理工作的高效运行。
目前基于一卡通数据的分析非常广泛,如通过校园一卡通数据研究学生校内的学习、消费及作息行为特点;通过对一卡通消费数据执行聚类算法,分析一卡通消费和学习成绩之间的关系;还有基于一卡通消费数据的异常检测。从经济的角度来讲,异常消费行为检测不仅可以为学生提供贴心的金融服务,也可以及早地发现学生的异常消费行为,对学生实施相应的支持和帮助。
早期的异常检测方法主要是基于统计、遗传算法和神经网络的方法,但是这些方法没有利用时间序列的时间依赖性,异常检测性能受限。
实际消费数据通常存在随机噪声,常规基于预测的异常检测方法存在训练误差很低、测试误差很高的过拟合问题。
针对预测算法输入输出中存在的过拟合问题,目前常用的方法是正则化及后验贝叶斯概率方法,但是受限于训练数据本身的随机噪声影响,这些方法获得的估计精度有限。
发明内容
针对上述现有基于预测的异常检测中存在的过拟合等问题,本发明提供一种基于聚类算法和回声状态网络预测的异常消费行为检测方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于聚类算法和回声状态网络的异常消费行为检测方法,包括以下步骤:
步骤一:确定相关时间序列采集范围、数据预处理和异常数据初步检测;
步骤二:相关时间序列搜索,待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,其相关性判断采用如下公式:
(1)
其中T和R是两个长度分别为M和N的时间序列,有:
w k 为相邻矩阵元素的集合称为弯曲路径,其由距离相异矩阵A确定:
式中A中的元素A ij 为两个时间序列点t i 和r j 之间的欧几里得距离;
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
步骤三:将预处理后的输入序列和输出序列送入到回声状态网络,储蓄池回声状态向量x(t)和输出向量y(t)模型如下:
(2)
式中W in 和W x 分别为输入权值矩阵和储备池连接权值矩阵,它们是已知的;Wout为储备池输出连接矩阵,是唯一由需要训练求解的参数;时刻储备池内部状态向量x(t)由当前输入u in (t)和上一时刻状态x(t-1)共同激发产生;输出权值使用最小二乘求解输出权值, 表示为:
(3)
式中是X的伪拟;
步骤四:下一时刻的时间序列预测
通过下式获取所述预测数据:
(4)
其中,为第时刻输入值,为第时刻预测数据,为估计的输出权值矩阵;
步骤五:使用回声状态网络估计的预测值,计算其和真实值的差异,若超过设定阈值err,则判断为异常数据,否则判断为正常数据。
所述步骤二中的动态时间规整算法用于找到待预测时间序列的相关序列,作为回声状态网络的输入序列,其具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据;获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常;若为异常,算法停止,否则继续执行步骤4)-5);
4)相关时间序列搜索:执行动态时间规整算法搜索待训练时间序列与之相关的时间序列,计算其与待训练序列的动态时间规整距离,并设定相关性阈值J threshold ,当J DTW (T,R q )<J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行一步预测,当预测值和真实值的差异超过设定阈值err,则判断为异常,否则判断为正常。
本发明的有益效果:
本发明提供的基于动态时间调整聚类的回声状态网络时间序列预测方法,通过加入基于动态时间规整的相关序列搜索作为回声状态的输入序列,克服一卡通数据的随机噪声,能够有效地克服实际训练数据中的过拟合问题,提高回声状态网络的预测精度,从而提高异常检测准确度。
附图说明
图1 本发明的整体实现流程图。
具体实施方式
下面结合具体实施方式对本发明做进一步的阐述。
本发明技术的整体实现流程如附图1所示,具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据。获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常。若为异常,算法停止,否则继续执行步骤4)-7);
4)相关时间序列搜索:待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,计算其与待训练序列的动态时间规整距离:
(1)
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行拟合:
(2)
使用最小二乘求解输出权值得到输出权值:
(3)
6)使用估计输出矩阵 对下一个时刻值进行预测:
(4)
其中,为第时刻输入值,为第时刻预测输出值;
7)当预测值和真实值的差异超过设定阈值err,则判断为异常数据,否则判断为正常数据。
Claims (2)
1.一种基于聚类算法和回声状态网络的异常消费行为检测方法,其特征在于,包括以下步骤:
步骤一:确定相关时间序列采集范围、数据预处理和异常数据初步检测;
步骤二:相关时间序列搜索,待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,其相关性判断采用如下公式:
(1)
其中T和R是两个长度分别为M和N的时间序列,有:
w k 为相邻矩阵元素的集合称为弯曲路径,其由距离相异矩阵A确定:
式中A中的元素A ij 为两个时间序列点t i 和r j 之间的欧几里得距离;
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
步骤三:将预处理后的输入序列和输出序列送入到回声状态网络,储蓄池回声状态向量x(t)和输出向量y(t)模型如下:
(2)
式中W in 和W x 分别为输入权值矩阵和储备池连接权值矩阵,它们是已知的;Wout为储备池输出连接矩阵,是唯一由需要训练求解的参数;时刻储备池内部状态向量x(t)由当前输入u in (t)和上一时刻状态x(t-1)共同激发产生;输出权值使用最小二乘求解输出权值, 表示为:
(3)
式中是X的伪拟;
步骤四:下一时刻的时间序列预测
通过下式获取所述预测数据:
(4)
其中,为第时刻输入值,为第时刻预测数据,为估计的输出权值矩阵;
步骤五:使用回声状态网络估计的预测值,计算其和真实值的差异,若超过设定阈值err,则判断为异常数据,否则判断为正常数据。
2.如权利要求1所述的基于聚类算法和回声状态网络的异常消费行为检测方法,其特征在于:所述步骤二中的动态时间规整算法用于找到待预测时间序列的相关序列,作为回声状态网络的输入序列,其具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据;获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常;若为异常,算法停止,否则继续执行步骤4)-5);
4)相关时间序列搜索:执行动态时间规整算法搜索待训练时间序列与之相关的时间序列,计算其与待训练序列的动态时间规整距离,并设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行一步预测,当预测值和真实值的差异超过设定阈值err,则判断为异常,否则判断为正常。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710438150.4A CN107301564A (zh) | 2017-06-12 | 2017-06-12 | 基于聚类算法和回声状态网络的异常消费行为检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710438150.4A CN107301564A (zh) | 2017-06-12 | 2017-06-12 | 基于聚类算法和回声状态网络的异常消费行为检测方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN107301564A true CN107301564A (zh) | 2017-10-27 |
Family
ID=60135306
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710438150.4A Pending CN107301564A (zh) | 2017-06-12 | 2017-06-12 | 基于聚类算法和回声状态网络的异常消费行为检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN107301564A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108228428A (zh) * | 2018-02-05 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007117444A2 (en) * | 2006-03-31 | 2007-10-18 | Yinghe Hu | Protein detection by aptamers |
| CN104239489A (zh) * | 2014-09-05 | 2014-12-24 | 河海大学 | 利用相似性搜索和改进bp神经网络预测水位的方法 |
| CN106779200A (zh) * | 2016-12-07 | 2017-05-31 | 东北大学 | 基于在历史数据中进行相似搜索的风电机组状态预测方法 |
-
2017
- 2017-06-12 CN CN201710438150.4A patent/CN107301564A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007117444A2 (en) * | 2006-03-31 | 2007-10-18 | Yinghe Hu | Protein detection by aptamers |
| CN104239489A (zh) * | 2014-09-05 | 2014-12-24 | 河海大学 | 利用相似性搜索和改进bp神经网络预测水位的方法 |
| CN106779200A (zh) * | 2016-12-07 | 2017-05-31 | 东北大学 | 基于在历史数据中进行相似搜索的风电机组状态预测方法 |
Non-Patent Citations (2)
| Title |
|---|
| 李乐 等: ""基于近邻传播聚类和回声状态网络的光伏预测"", 《电力自动化设备》 * |
| 杜洪波: ""时间序列相似性查询及异常检测算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108228428A (zh) * | 2018-02-05 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6109037B2 (ja) | 時系列データ予測装置、時系列データ予測方法、及びプログラム | |
| Chen et al. | Entity embedding-based anomaly detection for heterogeneous categorical events | |
| US20220245405A1 (en) | Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium | |
| CN113077097A (zh) | 一种基于深度时空相似性的空气质量预测方法 | |
| CN112784881A (zh) | 网络异常流量检测方法、模型及系统 | |
| CN110287439A (zh) | 一种基于lstm的网络行为异常检测方法 | |
| Hu et al. | Crowdsourcing-based real-time urban traffic speed estimation: From trends to speeds | |
| CN110928993A (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
| CN110110792A (zh) | 一种基于增量学习的多标签数据流分类方法 | |
| CN110851491A (zh) | 基于多重邻居节点的多重语义影响的网络链接预测方法 | |
| CN111292008A (zh) | 一种基于知识图谱的隐私保护数据发布风险评估方法 | |
| CN109767312A (zh) | 一种信用评估模型训练、评估方法与装置 | |
| CN108595884A (zh) | 电力系统暂态稳定性评估方法及装置 | |
| Huo et al. | Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering | |
| CN116153331A (zh) | 基于跨领域自适应的深度伪造语音检测方法 | |
| CN116628612B (zh) | 一种无监督异常检测方法、装置、介质及设备 | |
| CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
| Gu et al. | Improving the quality of web-based data imputation with crowd intervention | |
| CN119904330B (zh) | 基于图神经网络的智能电价匹配与核查方法及相关装置 | |
| CN113112005B (zh) | 一种基于注意力机制的领域自适应方法 | |
| CN115661768A (zh) | 一种时空预测模型鲁棒性测试方法、装置、设备及介质 | |
| CN119561022B (zh) | 一种基于频域特征聚类与加权融合的电力负荷预测方法 | |
| CN107301564A (zh) | 基于聚类算法和回声状态网络的异常消费行为检测方法 | |
| CN118041683B (zh) | 一种基于结构嵌入双向重构图网络的恶意流量检测方法 | |
| CN120561481A (zh) | 一种基于知识图谱模型的群体识别方法、装置和存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171027 |
|
| RJ01 | Rejection of invention patent application after publication |