[go: up one dir, main page]

CN107301564A - 基于聚类算法和回声状态网络的异常消费行为检测方法 - Google Patents

基于聚类算法和回声状态网络的异常消费行为检测方法 Download PDF

Info

Publication number
CN107301564A
CN107301564A CN201710438150.4A CN201710438150A CN107301564A CN 107301564 A CN107301564 A CN 107301564A CN 201710438150 A CN201710438150 A CN 201710438150A CN 107301564 A CN107301564 A CN 107301564A
Authority
CN
China
Prior art keywords
data
time
time series
sequence
echo state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710438150.4A
Other languages
English (en)
Inventor
张各各
王辉
任宁宁
陈祥涛
周毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN201710438150.4A priority Critical patent/CN107301564A/zh
Publication of CN107301564A publication Critical patent/CN107301564A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于动态时间规整和回声状态网络时间序列预测的一卡通数据异常检测方法,通过加入基于动态时间规整的相关序列作为回声状态的输入序列,克服一卡通数据的随机噪声,提高回声状态网络预测的准确性,最终提高异常检测的准确度。

Description

基于聚类算法和回声状态网络的异常消费行为检测方法
技术领域
本发明涉及信息技术领域,具体的说是一种基于聚类算法和回声状态网络的异常消费行为检测方法。
背景技术
随着高校数字化和信息化的深入发展,校园一卡通得到了广泛的使用。一卡通中存储了大量的学生消费记录信息,从中挖掘有价值的信息对学生行为进行分析,极大地推动了学生管理工作的高效运行。
目前基于一卡通数据的分析非常广泛,如通过校园一卡通数据研究学生校内的学习、消费及作息行为特点;通过对一卡通消费数据执行聚类算法,分析一卡通消费和学习成绩之间的关系;还有基于一卡通消费数据的异常检测。从经济的角度来讲,异常消费行为检测不仅可以为学生提供贴心的金融服务,也可以及早地发现学生的异常消费行为,对学生实施相应的支持和帮助。
早期的异常检测方法主要是基于统计、遗传算法和神经网络的方法,但是这些方法没有利用时间序列的时间依赖性,异常检测性能受限。
实际消费数据通常存在随机噪声,常规基于预测的异常检测方法存在训练误差很低、测试误差很高的过拟合问题。
针对预测算法输入输出中存在的过拟合问题,目前常用的方法是正则化及后验贝叶斯概率方法,但是受限于训练数据本身的随机噪声影响,这些方法获得的估计精度有限。
发明内容
针对上述现有基于预测的异常检测中存在的过拟合等问题,本发明提供一种基于聚类算法和回声状态网络预测的异常消费行为检测方法。
为解决上述技术问题,本发明采用的技术方案为:
一种基于聚类算法和回声状态网络的异常消费行为检测方法,包括以下步骤:
步骤一:确定相关时间序列采集范围、数据预处理和异常数据初步检测;
步骤二:相关时间序列搜索,待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,其相关性判断采用如下公式:
(1)
其中T和R是两个长度分别为MN的时间序列,有:
w k 为相邻矩阵元素的集合称为弯曲路径,其由距离相异矩阵A确定:
式中A中的元素A ij 为两个时间序列点t i r j 之间的欧几里得距离;
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
步骤三:将预处理后的输入序列和输出序列送入到回声状态网络,储蓄池回声状态向量x(t)和输出向量y(t)模型如下:
(2)
式中W in 和W x 分别为输入权值矩阵和储备池连接权值矩阵,它们是已知的;Wout为储备池输出连接矩阵,是唯一由需要训练求解的参数;时刻储备池内部状态向量x(t)由当前输入u in (t)和上一时刻状态x(t-1)共同激发产生;输出权值使用最小二乘求解输出权值, 表示为:
(3)
式中是X的伪拟;
步骤四:下一时刻的时间序列预测
通过下式获取所述预测数据:
(4)
其中,为第时刻输入值,为第时刻预测数据,为估计的输出权值矩阵;
步骤五:使用回声状态网络估计的预测值,计算其和真实值的差异,若超过设定阈值err,则判断为异常数据,否则判断为正常数据。
所述步骤二中的动态时间规整算法用于找到待预测时间序列的相关序列,作为回声状态网络的输入序列,其具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据;获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常;若为异常,算法停止,否则继续执行步骤4)-5);
4)相关时间序列搜索:执行动态时间规整算法搜索待训练时间序列与之相关的时间序列,计算其与待训练序列的动态时间规整距离,并设定相关性阈值J threshold ,当J DTW (T,R q )<J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行一步预测,当预测值和真实值的差异超过设定阈值err,则判断为异常,否则判断为正常。
本发明的有益效果:
本发明提供的基于动态时间调整聚类的回声状态网络时间序列预测方法,通过加入基于动态时间规整的相关序列搜索作为回声状态的输入序列,克服一卡通数据的随机噪声,能够有效地克服实际训练数据中的过拟合问题,提高回声状态网络的预测精度,从而提高异常检测准确度。
附图说明
图1 本发明的整体实现流程图。
具体实施方式
下面结合具体实施方式对本发明做进一步的阐述。
本发明技术的整体实现流程如附图1所示,具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据。获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常。若为异常,算法停止,否则继续执行步骤4)-7);
4)相关时间序列搜索:待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,计算其与待训练序列的动态时间规整距离:
(1)
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行拟合:
(2)
使用最小二乘求解输出权值得到输出权值:
(3)
6)使用估计输出矩阵 对下一个时刻值进行预测:
(4)
其中,为第时刻输入值,为第时刻预测输出值;
7)当预测值和真实值的差异超过设定阈值err,则判断为异常数据,否则判断为正常数据。

Claims (2)

1.一种基于聚类算法和回声状态网络的异常消费行为检测方法,其特征在于,包括以下步骤:
步骤一:确定相关时间序列采集范围、数据预处理和异常数据初步检测;
步骤二:相关时间序列搜索,待训练时间序列与每条可能与之相关的时间序列执行动态时间规整算法,其相关性判断采用如下公式:
(1)
其中T和R是两个长度分别为MN的时间序列,有:
w k 为相邻矩阵元素的集合称为弯曲路径,其由距离相异矩阵A确定:
式中A中的元素A ij 为两个时间序列点t i r j 之间的欧几里得距离;
设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
步骤三:将预处理后的输入序列和输出序列送入到回声状态网络,储蓄池回声状态向量x(t)和输出向量y(t)模型如下:
(2)
式中W in 和W x 分别为输入权值矩阵和储备池连接权值矩阵,它们是已知的;Wout为储备池输出连接矩阵,是唯一由需要训练求解的参数;时刻储备池内部状态向量x(t)由当前输入u in (t)和上一时刻状态x(t-1)共同激发产生;输出权值使用最小二乘求解输出权值, 表示为:
(3)
式中是X的伪拟;
步骤四:下一时刻的时间序列预测
通过下式获取所述预测数据:
(4)
其中,为第时刻输入值,为第时刻预测数据,为估计的输出权值矩阵;
步骤五:使用回声状态网络估计的预测值,计算其和真实值的差异,若超过设定阈值err,则判断为异常数据,否则判断为正常数据。
2.如权利要求1所述的基于聚类算法和回声状态网络的异常消费行为检测方法,其特征在于:所述步骤二中的动态时间规整算法用于找到待预测时间序列的相关序列,作为回声状态网络的输入序列,其具体步骤如下:
1)确定相关时间序列采集范围:采集范围包括待预测学生整个班的一卡通消费Log数据;
2)数据预处理:从一卡通数据库中采集数据,把采集到的消费Log数据,转换成时间序列形式;对一日三餐消费数据进行求和,得到以天为时间步的时序数据;获得时序数据后,把非平稳数据平稳化及去除数据的趋势性和周期性;
3)初步异常检测:对于需要异常检测的数据,初步使用常规的一卡通异常检测方法判定是否数据异常;若为异常,算法停止,否则继续执行步骤4)-5);
4)相关时间序列搜索:执行动态时间规整算法搜索待训练时间序列与之相关的时间序列,计算其与待训练序列的动态时间规整距离,并设定相关性阈值J threshold ,当J DTW (T,R q )< J threshold ,q=1,…,Q,称待训练数据与第q个时间序列为相关性序列,否则为不相关时间序列;其中Q是采集的时间序列个数;
5)基于相关时间序列的回声状态网络异常检测:设定步骤4)搜索到的相关时间序列为输入序列u in (t),使用回声状态网络对一卡通数据进行一步预测,当预测值和真实值的差异超过设定阈值err,则判断为异常,否则判断为正常。
CN201710438150.4A 2017-06-12 2017-06-12 基于聚类算法和回声状态网络的异常消费行为检测方法 Pending CN107301564A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710438150.4A CN107301564A (zh) 2017-06-12 2017-06-12 基于聚类算法和回声状态网络的异常消费行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710438150.4A CN107301564A (zh) 2017-06-12 2017-06-12 基于聚类算法和回声状态网络的异常消费行为检测方法

Publications (1)

Publication Number Publication Date
CN107301564A true CN107301564A (zh) 2017-10-27

Family

ID=60135306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710438150.4A Pending CN107301564A (zh) 2017-06-12 2017-06-12 基于聚类算法和回声状态网络的异常消费行为检测方法

Country Status (1)

Country Link
CN (1) CN107301564A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117444A2 (en) * 2006-03-31 2007-10-18 Yinghe Hu Protein detection by aptamers
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN106779200A (zh) * 2016-12-07 2017-05-31 东北大学 基于在历史数据中进行相似搜索的风电机组状态预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007117444A2 (en) * 2006-03-31 2007-10-18 Yinghe Hu Protein detection by aptamers
CN104239489A (zh) * 2014-09-05 2014-12-24 河海大学 利用相似性搜索和改进bp神经网络预测水位的方法
CN106779200A (zh) * 2016-12-07 2017-05-31 东北大学 基于在历史数据中进行相似搜索的风电机组状态预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李乐 等: ""基于近邻传播聚类和回声状态网络的光伏预测"", 《电力自动化设备》 *
杜洪波: ""时间序列相似性查询及异常检测算法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Similar Documents

Publication Publication Date Title
JP6109037B2 (ja) 時系列データ予測装置、時系列データ予測方法、及びプログラム
Chen et al. Entity embedding-based anomaly detection for heterogeneous categorical events
US20220245405A1 (en) Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium
CN113077097A (zh) 一种基于深度时空相似性的空气质量预测方法
CN112784881A (zh) 网络异常流量检测方法、模型及系统
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
Hu et al. Crowdsourcing-based real-time urban traffic speed estimation: From trends to speeds
CN110928993A (zh) 基于深度循环神经网络的用户位置预测方法及系统
CN110110792A (zh) 一种基于增量学习的多标签数据流分类方法
CN110851491A (zh) 基于多重邻居节点的多重语义影响的网络链接预测方法
CN111292008A (zh) 一种基于知识图谱的隐私保护数据发布风险评估方法
CN109767312A (zh) 一种信用评估模型训练、评估方法与装置
CN108595884A (zh) 电力系统暂态稳定性评估方法及装置
Huo et al. Traffic anomaly detection method based on improved GRU and EFMS-Kmeans clustering
CN116153331A (zh) 基于跨领域自适应的深度伪造语音检测方法
CN116628612B (zh) 一种无监督异常检测方法、装置、介质及设备
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
Gu et al. Improving the quality of web-based data imputation with crowd intervention
CN119904330B (zh) 基于图神经网络的智能电价匹配与核查方法及相关装置
CN113112005B (zh) 一种基于注意力机制的领域自适应方法
CN115661768A (zh) 一种时空预测模型鲁棒性测试方法、装置、设备及介质
CN119561022B (zh) 一种基于频域特征聚类与加权融合的电力负荷预测方法
CN107301564A (zh) 基于聚类算法和回声状态网络的异常消费行为检测方法
CN118041683B (zh) 一种基于结构嵌入双向重构图网络的恶意流量检测方法
CN120561481A (zh) 一种基于知识图谱模型的群体识别方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171027

RJ01 Rejection of invention patent application after publication