CN117076930A - 训练样本处理方法、异常交易检测方法、装置和设备 - Google Patents
训练样本处理方法、异常交易检测方法、装置和设备 Download PDFInfo
- Publication number
- CN117076930A CN117076930A CN202311102312.9A CN202311102312A CN117076930A CN 117076930 A CN117076930 A CN 117076930A CN 202311102312 A CN202311102312 A CN 202311102312A CN 117076930 A CN117076930 A CN 117076930A
- Authority
- CN
- China
- Prior art keywords
- abnormal transaction
- sample
- sample set
- transaction
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种训练样本处理方法、异常交易检测方法、装置和设备,该方法涉及人工智能技术,该方法包括:对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合;当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据两个邻近的异常交易样本生成新的异常交易样本;将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件。上述方法生成新的异常交易样本具备已有的异常交易样本的特性,提高了生成的新的异常交易样本的样本质量与异常交易检测模型的训练效果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种训练样本处理方法、异常交易检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
样本不均衡(class-imbalance)指的是分类任务中不同类别的训练样本的数目差别很大的情况,样本不均衡是一种常见的现象,如:异常交易检测,异常交易的订单样本通常是占总交易数量的极少部分,而且对于有些任务而言少数类别的样本更为重要。样本不均衡带来的影响,就是模型会学习到训练样本空间中样本比例的差距或差距悬殊这种先验信息,以致于实际预测时就会对多数类别有侧重,导致预测结果不准确。
面对样本不均衡的问题,相关技术中,最简单的方法就是直接复制少数类别的样本,缺点是由于没有增加任何新的信息,可能导致过拟合。改进的方法是对少数类别的样本进行分析和模拟,将人工模拟生成的样本插入到已有数据集合中,达到样本平衡的目的,但这种方式可能会导致生成的样本缺少了少数类别的样本的特性,与原有的少数类别的样本差异较大。
上述方式均会导致生成的样本质量不佳,从而导致模型训练效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高生成的样本质量以提高模型训练效果的训练样本处理方法、异常交易检测方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种训练样本处理方法。所述方法包括:
获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合,所述更新的训练样本集合用于训练异常交易检测模型。
第二方面,本申请还提供了一种训练样本处理装置。所述装置包括:
训练样本获取模块,用于获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
邻近样本获取模块,用于对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
新样本生成模块,用于当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
样本均衡模块,用于将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合,所述更新的训练样本集合用于训练异常交易检测模型。
在其中一个实施例中,所述邻近样本获取模块,还用于对于所述异常交易样本集合中的每个异常交易样本,计算所述异常交易样本与所述异常交易样本集合中其它异常交易样本之间的相似度;按照相似度从高到低的顺序,对所述其它异常交易样本进行排序,根据排序结果从所述其它异常交易样本中确定所述异常交易样本的邻近样本集合。
在其中一个实施例中,所述新样本生成模块,还用于确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若所述交集在所述并集中所占比例大于或等于预设比例,则确定所述两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
在其中一个实施例中,所述两个邻近的异常交易样本包括采样样本和与所述采样样本邻近的邻近样本;所述新样本生成模块,还用于确定所述采样样本与所述邻近样本之间的差值;对所述差值进行随机线性插值,得到插值数据;对所述采样样本附加所述插值数据,得到新的异常交易样本。
在其中一个实施例中,所述新样本生成模块,还用于根据所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量,确定不平衡的原始样本比例;根据所述原始样本比例与预设平衡比例的比值,确定所述异常交易样本集合中每个异常交易样本的采样次数;按所述采样次数对所述异常交易样本集合中每个异常交易样本进行采样,作为所述采样样本。
在其中一个实施例中,所述训练样本获取模块,还用于获取原始异常交易样本集合;基于所述原始异常交易样本集合中异常交易样本的邻域密度,从所述原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到所述异常交易样本集合。
在其中一个实施例中,所述训练样本获取模块,还用于计算所述原始异常交易样本集合中两两异常交易样本的距离;对于所述原始异常交易样本集合中的每个异常交易样本,确定距离在所述异常交易样本的预设邻域距离内的样本数量;若所述样本数量大于或等于预设邻域密度,则保留所述异常交易样本;若所述样本数量小于预设邻域密度,且所述异常交易样本不是其它异常交易样本的领域样本,则剔除所述异常交易样本。
在其中一个实施例中,所述样本均衡模块,还用于对于生成的每个所述新的异常交易样本,分别计算所述新的异常交易样本与所述非异常交易样本集合中每个非异常交易样本之间的相似度;若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃所述新的异常交易样本。
在其中一个实施例中,所述训练样本获取模块,还用于获取目标交易对应各个预设特征维度的交易数据;根据所述交易数据生成与各所述特征维度对应的交易特征;拼接各所述特征维度对应的交易特征,得到所述目标交易对应的交易样本。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述训练样本处理方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述训练样本处理方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述训练样本处理方法的步骤。
上述训练样本处理方法、装置、计算机设备、存储介质和计算机程序产品,针对异常交易检测模型的训练样本集合中异常交易样本数量过少的情况,从异常交易样本集合中获取每个异常交易样本相应的邻近样本集合,从而可以获知两个邻近的异常交易样本,当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则可以根据两个邻近的异常交易样本生成新的异常交易样本。上述方法中当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,表征两个邻近的异常交易样本不仅相似,且均具备异常交易样本的特性,仅在两个邻近的异常交易样本相似时,才基于两个邻近且相似的异常交易样本,生成新的异常交易样本,从而使得新的异常交易样本与已有的异常交易样本更相似,新的异常交易样本保留了异常交易样本的特性,提高了生成的新的异常交易样本的样本质量。将新的异常交易样本添加至异常交易样本集合,使得异常交易样本集合与非异常交易样本集合的样本数量满足预设均衡条件,可以解决训练样本集合中不同类别样本数量不均衡问题,采用满足预设均衡条件的训练样本集合训练异常交易检测模型,可以提高异常交易检测模型的训练效果。
第六方面,本申请还提供了一种异常交易检测方法,所述方法包括:
获取待检测交易,所述待检测交易根据对应各个预设特征维度的交易数据生成;
使用训练好的异常交易检测模型对所述待检测交易进行检测,得到所述待检测交易属于异常交易的预测概率;
根据所述预测概率确定关于所述待检测交易的检测结果;
其中,所述训练好的异常交易检测模型通过更新的训练样本集合进行模型训练得到,所述更新的训练样本集合通过如下步骤得到:
获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成所述更新的训练样本集合。
第七方面,本申请还提供了一种异常交易检测装置,所述装置包括:
样本处理模块,用于获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合;
训练模块,用于通过所述更新的训练样本集合对异常交易检测模型进行模型训练,得到训练好的异常交易检测模型;
获取模块,用于获取待检测交易,所述待检测交易根据对应各个预设特征维度的交易数据生成;
检测模块,用于使用所述训练好的异常交易检测模型对所述待检测交易进行检测,得到所述待检测交易属于异常交易的预测概率;根据所述预测概率确定关于所述待检测交易的检测结果。
在其中一个实施例中,所述样本处理模块,还用于对于所述异常交易样本集合中的每个异常交易样本,计算所述异常交易样本与所述异常交易样本集合中其它异常交易样本之间的相似度;按照相似度从高到低的顺序,对所述其它异常交易样本进行排序,根据排序结果从所述其它异常交易样本中确定所述异常交易样本的邻近样本集合。
在其中一个实施例中,所述样本处理模块,还用于确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若所述交集在所述并集中所占比例大于或等于预设比例,则确定所述两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
在其中一个实施例中,所述两个邻近的异常交易样本包括采样样本和与所述采样样本邻近的邻近样本;所述样本处理模块,还用于确定所述采样样本与所述邻近样本之间的差值;对所述差值进行随机线性插值,得到插值数据;对所述采样样本附加所述插值数据,得到新的异常交易样本。
在其中一个实施例中,所述样本处理模块,还用于根据所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量,确定不平衡的原始样本比例;根据所述原始样本比例与预设平衡比例的比值,确定所述异常交易样本集合中每个异常交易样本的采样次数;按所述采样次数对所述异常交易样本集合中每个异常交易样本进行采样,作为所述采样样本。
在其中一个实施例中,所述样本处理模块,还用于获取原始异常交易样本集合;基于所述原始异常交易样本集合中异常交易样本的邻域密度,从所述原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到所述异常交易样本集合。
在其中一个实施例中,所述样本处理模块,还用于计算所述原始异常交易样本集合中两两异常交易样本的距离;对于所述原始异常交易样本集合中的每个异常交易样本,确定距离在所述异常交易样本的预设邻域距离内的样本数量;若所述样本数量大于或等于预设邻域密度,则保留所述异常交易样本;若所述样本数量小于预设邻域密度,且所述异常交易样本不是其它异常交易样本的领域样本,则剔除所述异常交易样本。
在其中一个实施例中,所述样本处理模块,还用于对于生成的每个所述新的异常交易样本,分别计算所述新的异常交易样本与所述非异常交易样本集合中每个非异常交易样本之间的相似度;若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃所述新的异常交易样本。
在其中一个实施例中,所述样本处理模块,还用于获取目标交易对应各个预设特征维度的交易数据;根据所述交易数据生成与各所述特征维度对应的交易特征;拼接各所述特征维度对应的交易特征,得到所述目标交易对应的交易样本。
第八方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述异常交易检测方法的步骤。
第九方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述异常交易检测方法的步骤。
第十方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述异常交易检测方法的步骤。
上述异常交易检测方法、装置、计算机设备、存储介质和计算机程序产品,使用训练好的异常交易检测模型对待检测交易进行检测,得到待检测交易属于异常交易的预测概率;根据预测概率确定关于待检测交易的检测结果。上述过程中,使用训练好的异常交易检测模型对待检测交易进行检测,其中,训练好的异常交易检测模型指的是使用样本数量满足预设均衡条件的异常交易样本集合与非异常交易样本集合,训练异常交易检测模型,得到训练好的异常交易检测模型;训练好的异常交易检测模型对异常交易检测样本识别精度更高,因此可以更容易区分异常交易。
附图说明
图1为一个实施例中训练样本处理方法的应用环境图;
图2为一个实施例中训练样本处理方法的流程示意图;
图3为一个实施例中异常交易样本的分布示意图;
图4为一个实施例中生成新的异常交易样本的示意图;
图5为一个实施例中原始异常交易样本集合中异常交易样本的分布图;
图6为一个实施例中原始异常交易样本集合中样本点之间的关系示意图;
图7为一个实施例中剔除属于噪音样本的异常交易样本的示意图;
图8为一个实施例中训练样本处理装置的结构框图;
图9为一个实施例中异常交易检测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
本申请实施例提供的训练样本处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其它服务器上。服务器104获取初始的训练样本集合;初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件;服务器104对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合;当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则服务器104根据两个邻近的异常交易样本生成新的异常交易样本;将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合,更新的训练样本集合用于训练异常交易检测模型。服务器104可调用训练好的异常交易检测模型对终端102上产生的在线交易进行异常交易检测,以用于辅助判断在线交易是否存在异常,从而维护在线交易的安全性。
在其它实施例中,也可以是,终端102获取训练样本集合,并执行上述的处理,以得到满足预设均衡条件的训练样本集合。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种训练样本处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取初始的训练样本集合;初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件。
其中,异常交易检测模型用于对在线交易进行分类,区分出在线交易的类别是属于异常交易类别还是非异常交易类别。异常交易检测模型通过异常交易样本和非异常交易样本进行模型训练得到,其中,异常交易样本,指存在交易风险、或者不符合正常交易范畴的交易。例如,异常交易样本可以是交易资源不符合正常交易范围、交易金额超出正常交易范围等样本。异常交易检测模型可以是基于深度学习的模型,通过带有标签的异常交易样本和非异常交易样本训练异常交易检测模型,根据异常交易检测模型的检测结果和标签之间的差异,更新异常交易检测模型的参数,直至异常交易检测模型的检测结果和标签之间的差异小于阈值,停止训练,得到训练好的异常交易检测模型。
在一些实施例中,非异常交易样本可以是个人日常消费订单样本以及企业正常经营订单;异常交易样本可以是明显超出个人日常消费范畴的订单样本以及超出企业规模所对应的交易样本。例如,非异常交易样本可以是个人的日常生活消费订单样本、教育消费订单样本、医疗消费订单样本等,企业的物资采购订单样本、服务订单样本等。异常交易样本可以是个人连续多次的大额消费,企业突增的大规模交易等。
初始的训练样本集合,包括异常交易样本集合与非异常交易样本集合。其中,异常交易样本集合包含多个异常交易样本,非异常交易样本集合包含多个非异常交易样本。由于异常交易样本通常是占总交易数量的极少部分,因此,异常交易样本集合的样本数量一般远小于非异常交易样本集合的样本数量。
预设不均衡条件,指初始的训练样本集合中非异常交易样本和异常交易样本之间的比例未达到预设平衡比例。预设均衡条件,指初始的训练样本集合中非异常交易样本和异常交易样本之间的比例达到预设平衡比例。预设平衡比例是根据样本数据统计得到的,因此,预设平衡比例不是一个固定值。本申请实施例中的均衡是指非异常交易样本和异常交易样本的样本数量之间的比例达到预设平衡比例,该预设平衡比例可能是1:1,也可能是7:3,还可能是其它比例。
异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件,是指初始的训练样本集合中非异常交易样本和异常交易样本之间的比例大于或等于预设平衡比例,表征初始的训练样本集合中异常交易样本的样本数量过少,导致初始的训练样本集合出现样本不均衡,本申请实施例通过增加少数类样本的数量,使得更新的训练样本集合中不同类别样本数量达到预设均衡条件。
为避免异常交易检测模型因异常交易样本数量过少,导致异常交易检测模型对异常交易样本预测精度较低的问题,需要增加异常交易样本。例如,非异常交易样本和异常交易样本之间的比例大于100:1时,认为初始的训练样本集合出现样本不均衡的情况,此时,需要增加异常交易样本,使得非异常交易样本和异常交易样本之间的比例等于预设平衡比例。
具体的,服务器通过不同的终端获取大量的用于训练异常交易检测模型的初始的训练样本集合,服务器将初始的训练样本集合中划分为异常交易样本集合与非异常交易样本集合。
步骤204,对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合。
其中,一个异常交易样本相应的邻近样本集合,指异常交易样本集合中与该该异常交易样本满足相似条件(或称邻近条件)的其它异常交易样本形成的集合,该相似条件具体可以是该其它异常交易样本到该异常交易样本的距离小于预设距离。异常交易样本集合中的每个异常交易样本均对应一个邻近样本集合。
具体地,对于异常交易样本集合中的每个异常交易样本,服务器计算该异常交易样本与异常交易样本集合中其它异常交易样本之间的距离,将距离大于预设距离的其它异常交易样本,作为该异常交易样本的邻近样本,该异常交易样本的多个邻近样本形成该异常交易样本的邻近样本集合。
步骤206,当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据两个邻近的异常交易样本生成新的异常交易样本。
面对样本不均衡的问题,相关技术中,最简单的方法就是直接复制少数类别的样本,缺点是由于没有增加任何新的信息,可能导致过拟合。改进的方法是对少数类别的样本进行分析和模拟,将人工模拟生成的样本插入到已有数据集合中,达到样本平衡的目的,但这种方式可能会导致生成的样本缺少了少数类别的样本的特性,与原有的少数类别的样本差异较大。上述方式均会导致生成的样本质量不佳。为解决上述问题,本申请实施例在生成异常交易样本时,判断两个邻近的异常交易样本各自的邻近样本集合是否满足预设相似条件。若两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件,则表征两个邻近的异常交易样本相似,且均具备异常交易样本的特性,那么,就可以根据两个邻近的异常交易样本生成新的异常交易样本;换言之,若两个邻近的异常交易样本各自的邻近样本集合不满足预设相似条件,则表征该两个邻近的异常交易样本虽然相似,但不同时具备异常交易样本的特性,那么,就不会基于该两个邻近的异常交易样本生成新的异常交易样本,这样,可保证生成新的异常交易样本,也具备异常交易样本的特性,提高新的异常交易样本的样本质量。
预设相似条件,是用于衡量两个邻近的异常交易样本各自的邻近样本集合相似的条件。例如,预设相似条件可以是各自的邻近样本集合的交集大于预设值。
对于异常交易样本集合中的每个异常交易样本i,获取相应的邻近样本集合Ui,对于该邻近样本集合Ui中的每个邻近样本j,获取相应的邻近样本集合Uj,比较异常交易样本i的邻近样本集合Ui与各个邻近样本j相应的邻近样本集合Uj之间的相似度,若邻近样本集合Ui与邻近样本集合Uj满足预设相似条件,则可以根据两个邻近的异常交易样本i与相应的邻近样本j生成新的异常交易样本,照这样的方式,可以生成很多的新的异常交易样本。将生成新的异常交易样本添加至异常交易样本集合后,可以使得异常交易样本集合与非异常交易样本集合的样本数量满足预设均衡条件。
例如,与异常交易样本集合中异常交易样本X邻近的异常交易样本包括多个样本,针对每个邻近的异常交易样本,以邻近的异常交易样本M为例,确定异常交易样本X的邻近样本集合SX、异常交易样本M的邻近样本集合SM,若邻近样本集合SX与邻近样本集合SM满足预设相似条件,则基于异常交易样本X和异常交易样本M生成一个新的异常交易样本;若邻近样本集合SX与邻近样本集合SM不满足预设相似条件,则不基于异常交易样本X和异常交易样本M生成一个新的异常交易样本。换言之,基于异常交易样本X、以及异常交易样本X的多个邻近的异常交易样本,生成新的异常交易样本。
具体地,服务器基于两个邻近的异常交易样本各自的邻近样本集合,计算两个邻近的异常交易样本之间的相似度。当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则该两个邻近的异常交易样本相似,根据该两个邻近的异常交易样本生成新的异常交易样本。
步骤208,将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合,更新的训练样本集合用于训练异常交易检测模型。
具体地,服务器将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合;若更新的异常交易样本集合与非异常交易样本集合的样本数量之间的比例未达到预设比例,则确定确定更新的异常交易样本集合与非异常交易样本集合的样本数量满足预设不均衡条件,继续生成新的异常交易样本;若更新的异常交易样本集合与非异常交易样本集合的样本数量之间的比例达到预设比例,则确定更新的异常交易样本集合与非异常交易样本集合的样本数量满足预设均衡条件,停止生成新的异常交易样本,并将预设均衡条件的更新的训练样本集合用于训练异常交易检测模型。
相比于相关技术中对少数类别的样本进行分析和模拟,将人工模拟生成的样本插入到已有数据集合中,达到样本平衡的目的,但这种方式可能会导致生成的样本缺少了少数类别的样本的特性,与原有的少数类别的样本差异较大,导致生成的样本质量不佳。
本实施例中,针对异常交易检测模型的初始的训练样本集合中异常交易样本数量过少的情况,服务器从异常交易样本集合中获取每个异常交易样本相应的邻近样本集合,从而可以获知两个邻近的异常交易样本,当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则可以根据两个邻近的异常交易样本生成新的异常交易样本。上述方法中当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,表征两个邻近的异常交易样本相似,且均具备异常交易样本的特性,仅在两个邻近的异常交易样本相似时,才基于两个邻近且相似的异常交易样本,生成新的异常交易样本,从而使得新的异常交易样本与已有的异常交易样本更相似,新的异常交易样本保留了异常交易样本的特性,提高了生成的新的异常交易样本的样本质量。将新的异常交易样本添加至异常交易样本集合,使得异常交易样本集合与非异常交易样本集合的样本数量满足预设均衡条件,可以解决初始的训练样本集合中不同类别样本数量不均衡问题,采用满足预设均衡条件的更新的训练样本集合训练异常交易检测模型,可以提高异常交易检测模型的训练效果。
在一个实施例中,对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合,包括以下步骤:
一、对于异常交易样本集合中的每个异常交易样本,计算异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度。
其中,其它异常交易样本指异常交易样本集合中除去当前的异常交易样本以外的异常交易样本。
具体地,对于异常交易样本集合中的每个异常交易样本,服务器根据相似度算法计算异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度。例如,可以通过异常交易样本与其它异常交易样本之间的欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、夹角余弦距离或是相关系数等,表征异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度。
二、按照相似度从高到低的顺序,对其它异常交易样本进行排序,根据排序结果从其它异常交易样本中确定异常交易样本的邻近样本集合。
其中,排序结果指的是其它异常交易样本按照相似度从高到低的顺序排序的结果。本实施例,可以根据异常交易样本与异常交易样本集合中其它异常交易样本之间的欧氏距离确定相似度,因此,按照相似度从高到低的顺序,对应异常交易样本与其它异常交易样本之间的欧氏距离从小到大的顺序。
例如,图3为一个实施例中异常交易样本的分布示意图,图3中的圆圈表示非异常交易样本,三角形表示异常交易样本,以图3中实线框圈中的异常交易样本为例,分别计算实线框圈中的异常交易样本与其它异常交易样本之间的相似度。经过分析可知,异常交易样本集合中与该异常交易样本邻近的异常交易样本为图3中虚线框圈中的异常交易样本,因此,该异常交易样本的邻近样本集合包括图3中虚线框圈中的异常交易样本。
图4为一个实施例中生成新的异常交易样本的示意图,其中,图4中实线框圈中的异常交易样本与图3中实线框圈中的异常交易样本表示同一样本,根据图4中实线框圈中的异常交易样本,以及虚线框圈中的异常交易样本,生成一个新的异常交易样本,其中,新的异常交易样本在图4中并未示出。
具体地,服务器按照相似度从高到低的顺序,对异常交易样本集合中其它异常交易样本进行排序,选取排序结果中前k个其它异常交易样本,并作为该异常交易样本的邻近样本集合。其中,k为大于0的整数,并且k小于异常交易样本集合中其它异常交易样本的数量。
在一些实施例中,若以异常交易样本与异常交易样本集合中其它异常交易样本之间的欧氏距离,反映异常交易样本与其它异常交易样本之间的相似度,则按照欧式距离从小到大的顺序,对其它异常交易样本进行排序,选取排序结果中前k个其它异常交易样本作为该异常交易样本的邻近样本集合。
本实施例中,确定异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度,并按相似度从高到低的顺序,对其它异常交易样本进行排序,选取排序结果中前k个其它异常交易样本作为该异常交易样本的邻近样本集合,可以使得选取的其它异常交易样本与该异常交易样本相似度更高,为后续基于两个邻近且相似的异常交易样本生成新的异常交易样本提供高质量的样本数据,保证新的异常交易样本与该异常交易样本更相似。
在一个实施例中,所述训练样本处理方法还包括:
确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
其中,两个邻近的异常交易样本各自的邻近样本集合之间的交集,包括同时属于两个邻近的异常交易样本各自的邻近样本集合的样本。两个邻近的异常交易样本各自的邻近样本集合之间的并集,包括两个邻近的异常交易样本各自的邻近样本集合内所有的样本。该交集在该并集中所占比例,具体指该交集的样本数量在该并集的样本数量所占比例,该比例反映了两个邻近的异常交易样本之间的相似度。例如,异常交易样本X的邻近样本集合为SX,邻近样本集合SX包含5个异常交易样本,邻近样本集合SX包括异常交易样本M,异常交易样本M的邻近样本集合为SM,邻近样本集合SM包含10个异常交易样本,其中,邻近样本集合SX与邻近样本集合为SM之间的交集包含3个异常交易样本,邻近样本集合SX与邻近样本集合为SM之间的并集包含了15个异常交易样本,则交集在并集中所占比例为0.2。若预设比例为0.15,则确定邻近样本集合SX和邻近样本集合SM满足预设相似条件。
具体地,服务器分别计算两个邻近的异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度,并按照相似度从高到低的顺序,对其它异常交易样本进行排序,根据排序结果从其它异常交易样本中确定两个邻近的异常交易样本的邻近样本集合。之后,服务器确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集,并计算交集在并集中所占比例。若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件,返回执行根据两个邻近的异常交易样本生成新的异常交易样本的步骤。若交集在并集中所占比例小于或等于预设比例时,则确定两个邻近的异常交易样本各自的邻近样本集合不满足预设相似条件,不生成新的异常交易样本。
在一些实施例中,服务器判断两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件对应的算法为:
其中,Jar(X,M)表示交集在并集中所占比例,反映了异常交易样本X与异常交易样本M各自的邻近样本集合之间的相似度。
本实施例中,确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
在一个实施例中,为了解决初始的训练样本集合中样本不平衡的问题,本实施例采用过采样方法增加初始的训练样本集合中少数类样本数量,从而使得更新的训练样本集合的不同类别样本均衡。其中,两个邻近的异常交易样本包括采样样本和与采样样本邻近的邻近样本。根据两个邻近的异常交易样本生成新的异常交易样本,包括以下步骤:
确定采样样本与邻近样本之间的差值;对差值进行随机线性插值,得到插值数据;对采样样本附加插值数据,得到新的异常交易样本。
其中,随机线性插值指的是根据采样样本及其邻近样本之间的距离,在采样样本及其邻近样本之间随机插入一个新的异常交易样本。插值数据指新的异常交易样本与采样样本之间的距离偏离。例如,根据采样样本及其邻近样本之间的差值与一个随机数进行相乘,得到插值数据,在采样样本的基础上,附加该插值数据,得到新的异常交易样本。
可选地,服务器计算采样样本与邻近样本之间的差值,将该差值与一个(0,1)之间的随机数进行相乘,得到插值数据;服务器将插值数据附加到采样样本上,得到新的异常交易样本。
在一些实施例中,生成新的异常交易样本对应的算法如下:
Xnew=X+rand(0,1)*|X-M|
其中,Xnew表示新的异常交易样本;X表示采样样本;M表示采样样本X的邻近样本;rand(0,1)表示(0,1)之间的随机数。
在一些实施例中,生成新的异常交易样本对应的代码如下:
其中,代码的逻辑是,如果邻近样本M属于采样样本X的邻近样本集合,则计算采样样本X与邻近样本M之间的相似度Jar(X,M)。若大于或等于预设阈值,则确定采样样本与邻近样本之间的差值,将该差值与一个(0,1)之间的随机数进行相乘,得到插值数据,服务器将插值数据附加到采样样本上,得到新的异常交易样本。若采样样本X与邻近样本M之间的相似度Jar(X,M)小于预设阈值,则不基于邻近样本M生成新的异常交易样本,选取采样样本X的下一个邻近样本再次执行计算采样样本与邻近样本之间的相似度的步骤,并继续执行,直至更新的训练样本集合中不同类别样本的数量均衡。
本实施例中,通过过采样方法,根据两个邻近且相似的异常交易样本生成新的异常交易样本,在使得更新的训练样本集合中不同类别样本的数量均衡的同时,生成的新的异常交易样本与已有的异常交易样本更相似,并且新的异常交易样本保留了异常交易样本的特性,可以避免异常交易检测模型过度拟合的问题。
在一个实施例中,在采用过采样方法生成新的异常交易样本的过程中,所述训练样本处理方法还包括:
一、根据异常交易样本集合的样本数量与非异常交易样本集合的样本数量,确定不平衡的原始样本比例。
其中,原始样本比例,指的是未经过数据清洗、数据增广的初始的训练样本集合中异常交易样本集合的样本数量与非异常交易样本集合的样本数量之间的比例。
具体地,服务器根据非异常交易样本集合的样本数量与异常交易样本集合的样本数量之间的比例,确定初始的训练样本集合中不平衡的原始样本比例。
二、根据原始样本比例与预设平衡比例的比值,确定异常交易样本集合中每个异常交易样本的采样次数。
其中,预设平衡比例指的是异常交易样本集合与非异常交易样本集合的样本数量满足预设均衡条件时,非异常交易样本集合的样本数量与异常交易样本集合的样本数量之间的比例。
本实施例每个异常交易样本的采样次数,指的是基于每个异常交易样本生成新的异常采样样本的数量。本实施例对异常交易样本进行一次采样,即可生成一个新的异常交易样本,同理,对异常交易样本进行M次采样,即可生成M个新的异常交易样本。
例如,初始的训练样本集合总共有10000个样本,其中,非异常交易样本集合的样本数量与异常交易样本集合的样本数量之间的原始样本比例为9:1(此处仅为示例,实际应用中,原始样本比例可达数百及以上),即非异常交易样本有9000个,异常交易样本有1000个,假设预设平衡比例为3:1,原始样本比例与预设平衡比例的比值为3,因此,为达到预设平衡比例,针对每个异常交易样本都需要至少生成3个新的异常交易样本。
具体地,服务器计算原始样本比例与预设平衡比例的比值,并将该比值作为异常交易样本集合中每个异常交易样本的采样次数。
三、按采样次数对异常交易样本集合中每个异常交易样本进行采样,作为采样样本。
其中,采样样本,指的是异常交易样本集合中进行采样的异常交易样本。例如,对异常交易样本X进行采样,那么异常交易样本X为采样样本。
具体地,服务器将异常交易样本集合中每个异常交易样本作为采样样本,并按照采样次数对每个采样样本进行采样,以得到用于生成新的异常交易样本的采样样本。
本实施例中,确定非异常交易样本集合的样本数量与异常交易样本集合的样本数量之间的原始样本比例,根据原始样本比例与预设平衡比例的比值,确定异常交易样本集合中每个异常交易样本的采样次数,每次采样生成一个新的异常交易样本,从而使得更新的训练样本集合中非异常交易样本集合的样本数量与异常交易样本集合的样本数量之间比例达到预设平衡比例,解决初始的训练样本集合中不同类别样本之间样本不均衡的问题。
在一个实施例中,如果异常交易样本中存在异常点,那么在生成的新的异常交易样本也可能是噪声点,对于后续异常交易检测模型识别异常交易样本与非异常交易样本的特征造成影响,学习不到异常交易样本有用的信息。因此,为解决上述问题,本实施例中训练样本处理方法还包括以下方法:
获取原始异常交易样本集合;基于原始异常交易样本集合中异常交易样本的邻域密度,从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到异常交易样本集合。
其中,原始异常交易样本集合,指的是未经过数据清洗、数据增广的异常交易样本集合,包含了属于噪音样本的异常交易样本。最终得到的异常交易样本集合指剔除了噪音样本的异常交易样本集合。
邻域密度,指处于异常交易样本的预设邻域内的异常交易样本数量。邻域密度越大,处于异常交易样本的预设邻域内的异常交易样本数量越多。
噪音样本,指的是不处于各异常交易样本的预设邻域内的样本。通常,噪音样本与异常交易样本集合中各异常交易样本均不相似。例如,关于异常交易样本中用户年龄维度的标签为500岁,该样本显然不符合常规年龄范围,因此,属于噪音样本。
具体地,服务器获取原始异常交易样本集合;服务器确定原始异常交易样本集合中每个异常交易样本的邻域密度,确定原始异常交易样本集合中不属于各异常交易样本的预设邻域内的异常交易样本为噪音样本,服务器从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到异常交易样本集合。
本实施例中,在基于异常交易样本及其邻近样本生成新的异常交易样本之前,基于原始异常交易样本集合中异常交易样本的邻域密度,从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,可以保证异常交易样本的质量,以及保证后续基于异常交易样本及其邻近样本生成的新的异常交易样本不是噪声样本,提高异常交易检测模型识别异常交易样本与非异常交易样本的精度。
在一个实施例中,基于原始异常交易样本集合中异常交易样本的邻域密度,从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,包括以下步骤:
一、计算原始异常交易样本集合中两两异常交易样本的距离。
具体地,对于原始异常交易样本集合中每个异常交易样本,服务器计算异常交易样本与原始异常交易样本集合中其它异常交易样本之间的距离。
二、对于原始异常交易样本集合中的每个异常交易样本,确定距离在异常交易样本的预设邻域距离内的样本数量。
其中,预设领域距离,指的是到指定的异常交易样本的距离不超过预设距离的范围。
具体地,服务器获取异常交易样本与原始异常交易样本集合中其它异常交易样本之间的距离之后,对于原始异常交易样本集合中的每个异常交易样本,确定到异常交易样本的距离小于或等于预设邻域距离的样本数量。
三、若样本数量大于或等于预设邻域密度,且异常交易样本是其它异常交易样本的邻域样本,则保留异常交易样本;若样本数量小于预设邻域密度,且异常交易样本不是其它异常交易样本的领域样本,则剔除异常交易样本。
其中,预设邻域密度,指预设的、处于指定的异常交易样本的预设邻域内的异常交易样本数量。通常预设邻域密度设置为5个。
具体地,若样本数量大于或等于预设邻域密度,则表征指定的异常交易样本为核心点,指定的异常交易样本的预设邻域距离内的样本形成一个临时聚类簇,临时聚类簇内的其它异常交易样本由指定的异常交易样本密度直达。若样本数量小于预设邻域密度,则表征指定的异常交易样本为边缘点,服务器选取下一个异常交易样本为指定的异常交易样本,并返回确定距离在异常交易样本的预设邻域距离内的样本数量的步骤继续执行,直至原始异常交易样本集合中每个异常交易样本均遍历后,得到多个临时聚类簇。若存在多个临时聚类簇的核心点中每个核心点与前一个核心点密度直达,则确定该多个临时聚类簇内的异常交易样本之间密度可达,将该多个临时聚类簇形成最终聚类簇,将最终聚类簇以外的异常交易样本确定为属于噪音样本的异常交易样本,并剔除噪音样本的异常交易样本。
例如,图5为一个实施例中原始异常交易样本集合中异常交易样本的分布图,由图5可知,原始异常交易样本集合包含三种类型的样本点,即核心点、边缘点和噪声点。以图5的异常交易样本为例,设置预设邻域距离为Eps,预设邻域密度为4,计算样本点R1与其它异常交易样本之间的距离,根据距离可知,在样本点R1的预设领域距离内的样本数量为5个(包含样本点R1本身),因此,样本点R1为核心点。针对样本点R2,到样本点R2的距离小于预设邻域距离Eps的样本数量为3个,因此,样本点R2为边缘点。针对样本点R3,样本点R3不是其它异常交易样本的邻域样本,因此,样本点R3为噪声点。
图6为一个实施例中原始异常交易样本集合中样本点之间的关系示意图,由图6中可知,包含四种样本点关系,即密度直达、密度可达、密度相连和非密度相连。以图6中(a)的异常交易样本为例,假设R4经过距离计算可知,样本点R4为核心点,样本点R4的预设邻域距离内的样本形成一个临时聚类簇,临时聚类簇内的其它异常交易样本由指定的异常交易样本密度直达,比如,样本点R5在样本点R4的预设领域距离内,因此,样本点R4和样本点R5之间的关系是密度直达。选取下一个样本点,按照相同的原理遍历原始异常交易样本集合中每个异常交易样本,形成如图6中(b)所示的多个临时聚类簇,其中,多个临时聚类簇中样本点R6、样本点R7、样本点R8和样本点R9属于不同的临时聚类簇,且每个样本点与前一个样本点密度直达,是其它异常交易样本的邻域样本,因此,样本点R6、样本点R7、样本点R8和样本点R9之间的关系是密度可达。对于图6的(c)中样本点P和样本点Q,若存在样本点S使得样本点P与样本点S密度可达,且样本点S与样本点Q密度可达,则样本点P与样本点Q的关系是密度相连;相反地,若样本点P和样本点Q之间并不存在一个样本点S使得样本点P和样本点Q密度可达,则样本点P和样本点Q的关系是非密度相连。
图7为一个实施例中剔除属于噪音样本的异常交易样本的示意图。遍历原始异常交易样本集合中每个异常交易样本,得到如图7的(d)所示的多个临时聚类簇。对(d)中多个临时聚类簇进行处理,确定不是其它异常交易样本的邻域样本的异常交易样本R10、R11和R12为异常点,将是其它异常交易样本的邻域样本的异常交易样本形成最终聚类簇,最终聚类簇如图7的(e)所示。其中,最终聚类簇指包含至少两个临时聚类簇的簇,因此,最终聚类簇包含多个且形状不同。将最终聚类簇以外的异常交易样本确定为属于噪音样本的异常交易样本,并剔除噪音样本的异常交易样本。
本实施例中,基于预设邻域密度聚类的方式,在原始异常交易样本集合中形成任意形状的最终聚类簇,将不属于最终聚类簇的样本点确定为属于噪音样本的异常交易样本,并剔除属于噪音样本的异常交易样本。在此过程中,能够自动识别出属于噪音样本的异常交易样本,并且聚类结果不依赖于节点的遍历顺序,计算效率和精度更高。
在一个实施例中,生成的新的异常交易样本存在与非异常交易样本相似的情况,这种情况容易导致异常交易检测模型无法区分新的异常交易样本与非异常交易样本之间的差异,增加了异常交易检测模型分类的难度。因此,为解决上述问题,本实施例在将新的异常交易样本添加至异常交易样本集合之前,训练样本处理方法还包括:
对于生成的每个新的异常交易样本,分别计算新的异常交易样本与非异常交易样本集合中每个非异常交易样本之间的相似度;若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃新的异常交易样本。
其中,新的异常交易样本与非异常交易样本之间的相似度大于或等于预设阈值,表示新的异常交易样本与非异常交易样本在特征上相似度高,不能提供有效的信息增益,异常交易检测模型分类难度大。
在一些实施例中,剔除与非异常交易样本相似的新的异常交易样本后,新的异常交易样本的总数量减少,为使得异常交易样本集合和非异常交易样本集合达到预设均衡条件,需要重新生成相应数量的新的异常交易样本,在重新生成新的异常交易样本时,可以不限制具体的采样样本。例如,剔除了5个与非异常交易样本相似的新的异常交易样本,相应地需要重新生成5个相应数量的新的异常交易样本。
具体地,对于生成的每个新的异常交易样本,服务器通过各类相似度计算方法计算新的异常交易样本与非异常交易样本集合中的非异常交易样本之间的相似度。例如,通过计算新的异常交易样本与非异常交易样本之间的欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、夹角余弦距离或相关系数等,确定新的异常交易样本与非异常交易样本之间的相似度。若存在相似度大于或等于预设阈值的非异常交易样本,则表征新的异常交易样本与非异常交易样本相似,丢弃新的异常交易样本。若不存在相似度大于或等于预设阈值的非异常交易样本,则表征新的异常交易样本与非异常交易样本不相似,将新的异常交易样本添加至异常交易样本集合。
在一些实施例中,本实施例中根据新的异常交易样本与非异常交易样本之间的欧式距离,确定新的异常交易样本与非异常交易样本之间的相似度。将新的异常交易样本记为样本p(x1,x2,x3,......,xn),将非异常交易样本记为q(x1,x2,x3,......,xn),其中,x1,x2,x3,......,xn分别表示n个不同维度的特征。根据新的异常交易样本与非异常交易样本在n个不同维度中特征之间的距离,确定新的异常交易样本与非异常交易样本之间的相似度,对应的算法如下:
其中,D(p,q)表示新的异常交易样本与非异常交易样本之间的相似度;pi表示第i个维度的新的异常交易样本;qi表示第i个维度的非异常交易样本。
在一些实施例中,确定新的异常交易样本与非异常交易样本之间的相似度,对应的代码如下:
其中,Sq表示新的异常交易样本集合;Sq表示非异常交易样本集合。代码的逻辑是如果新的异常交易样本p是新的异常交易样本集合Sq的样本,非异常交易样本q是非异常交易样本集合的样本,且新的异常交易样本p与非异常交易样本q之间的相似度大于或等于预设阈值,则将新的异常交易样本p添加至Sq表示非异常交易样本集合中。
本实施例中,对于生成的每个新的异常交易样本,计算新的异常交易样本与非异常交易样本集合中的非异常交易样本之间的相似度,并在相似度大于或等于预设阈值的情况下,丢弃新的异常交易样本,保留原始的非异常交易样本,避免引入于非异常交易样本特征相似、标签不同的新的异常交易样本到异常交易检测模型中,提高异常交易检测模型对异常交易样本和非异常交易样本的识别精度。
在一个实施例中,上述训练样本处理方法还包括:
获取目标交易对应各个预设特征维度的交易数据;根据交易数据生成与各特征维度对应的交易特征;拼接各特征维度对应的交易特征,得到目标交易对应的交易样本。
其中,目标交易指线上交易。预设特征维度指目标交易在不同预设维度上对应的特征。例如,预设特征维度包括交易时间、交易产品、交易产品类型、交易订单号、交易账号、交易场景、交易金额范围、交易方式、交易附言等维度,其中,交易场景指完成交易的具体场景,例如,红包转账、扫码支付等场景。交易附言指完成交易时交易方附注的文本信息,例如,交易附言为交易用于房租支付、交通出行等。
交易数据,指交易在预设特征维度上对应的具体数据。例如,在预设特征维度为交易时间时,对应的交易数据为具体的时刻。本实施例获取的交易数据是一笔交易相关的具体的数据,但构造样本还需要进一步地将交易数据转换成统一的交易特征。
交易特征,是根据交易数据转换而成的。例如,交易时间是凌晨12点,对应的交易特征是1代表晚上;交易场景是转账,对应的交易特征是010;交易场景是红包转账,对应的交易特征是100。
交易样本,包括异常交易样本和非异常交易样本。服务器可以根据交易金额范围、交易时间和交易附言等维度确定交易是否为异常交易,并根据判断结果生成交易样本的标签。例如,同一交易方在预设时间内连续多次出现大额消费,则确定交易为异常交易,并根据交易数据生成异常交易样本,并为交易样本分配用于标识交易样本为异常交易样本的标签。
具体地,服务器获取目标交易对应各个预设特征维度的交易数据,根据预设的转换规则以及交易数据,生成与各特征维度对应的交易特征,并拼接各特征维度对应的交易特征,得到目标交易对应的交易样本。
本实施例中,获取目标交易对应各个预设特征维度的交易数据;根据交易数据生成与各特征维度对应的交易特征,拼接各特征维度对应的交易特征,得到交易样本。上述方法通过将交易数据转换为交易特征,并对交易特征进行拼接,生成交易样本,可以将零散的交易数据,转换为统一格式的交易特征,便于训练异常交易检测模型的学习。
在一个实施例中,本实施例还提供异常交易检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其它服务器上。服务器104获取待检测交易,待检测交易根据对应各个预设特征维度的交易数据生成;服务器104使用训练好的异常交易检测模型对所述待检测交易进行检测,得到待检测交易属于异常交易的预测概率;根据预测概率确定关于待检测交易的检测结果。
在其它实施例中,也可以是,终端102获取待检测交易,并执行上述的处理,以得到待检测交易的检测结果。
在一个实施例中,提供了一种异常交易检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
获取待检测交易,待检测交易根据对应各个预设特征维度的交易数据生成;使用训练好的异常交易检测模型对所述待检测交易进行检测,得到待检测交易属于异常交易的预测概率;根据预测概率确定关于待检测交易的检测结果。
其中,待检测交易指交易即将完成、提交交易订单之前的交易。通过训练好的异常交易检测模型对待检测交易进行检测,在异常交易检测模型检测到待检测交易为异常交易时,进行提醒。
交易数据用于描述交易属性的数据,例如,交易数据包括交易时间、交易产品、交易产品类型、交易订单号、交易场景、支付方式和交易附言等信息,其中,交易场景指完成交易的具体场景,例如,红包转账、扫码支付等场景。交易附言指完成交易时交易方附注的文本信息,例如,交易附言为交易用于房租支付、交通出行等。交易方的描述数据用于描述交易方的位置和身份信息。例如,描述数据包括交易方的交易账号、交易方的网络ID、交易账号所使用的网络信息等。
训练好的异常交易检测模型,指的是使用样本数量满足预设均衡条件的异常交易样本集合与非异常交易样本集合,对异常交易检测模型进行模型训练,得到的异常交易检测模型。
待检测交易的检测结果,用于表征待检测交易是否为异常交易。在检测结果表征待检测交易为异常交易时,服务器通知相关技术人员进一步核实待检测交易是否为异常交易。
具体地,服务器获取终端上传的待检测交易,并将待检测交易输入至训练好的异常交易检测模型中,通过训练好的异常交易检测模型对待检测交易进行识别,并输出待检测交易属于异常交易的预测概率。若预测概率大于或等于预设概率,则确定关于待检测交易的检测结果用于表征待检测交易为异常交易;若预测概率小于预设概率,则确定关于待检测交易的检测结果用于表征待检测交易为非异常交易。
上述异常交易检测方法,使用训练好的异常交易检测模型对待检测交易进行检测,得到待检测交易属于异常交易的预测概率;根据预测概率确定关于待检测交易的检测结果。上述过程中,使用训练好的异常交易检测模型对待检测交易进行检测,其中,训练好的异常交易检测模型指的是使用样本数量满足预设均衡条件的异常交易样本集合与非异常交易样本集合,训练异常交易检测模型,得到训练好的异常交易检测模型;训练好的异常交易检测模型对异常交易检测样本识别精度更高,因此可以更容易区分异常交易。
在一些实施例中,训练好的异常交易检测模型通过更新的训练样本集合进行模型训练得到,更新的训练样本集合通过如下步骤得到:
一、获取初始的训练样本集合;初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件。
二、对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合。
三、当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据两个邻近的异常交易样本生成新的异常交易样本。
四、将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合。
本实施例中,使用样本数量满足预设均衡条件的异常交易样本集合与非异常交易样本集合,对异常交易检测模型进行模型训练,可以使得异常交易检测模型学习异常交易样本的特征,进而提高异常交易样本的识别精度,并提高了模型训练效果。
在一个详细的实施例中,本实施例提供一种训练样本处理方法,具体包括以下步骤:
一、获取目标交易对应各个预设特征维度的交易数据,根据交易数据生成与各特征维度对应的交易特征,拼接各特征维度对应的交易特征,得到目标交易对应的交易样本。
按照这样的方式,得到大量的交易样本,交易样本包括异常交易样本和非异常交易样本。
二、根据大量的异常交易样本,构建原始异常交易样本集合。
三、计算原始异常交易样本集合中两两异常交易样本的距离。
四、对于原始异常交易样本集合中的每个异常交易样本,确定距离在异常交易样本的预设邻域距离内的样本数量。
五、若样本数量大于或等于预设邻域密度,且异常交易样本是其它异常交易样本的邻域样本,则保留异常交易样本;若样本数量小于预设邻域密度,且异常交易样本不是其它异常交易样本的领域样本,则剔除异常交易样本,得到异常交易样本集合。
按照这样的方式,得到所需要的异常交易样本集合中,是没有噪声的异常交易样本。
六、根据异常交易样本集合与非异常交易样本集合,获取初始的训练样本集合,其中,异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件。
七、对于异常交易样本集合中的每个异常交易样本,计算异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度。
八、按照相似度从高到低的顺序,对其它异常交易样本进行排序,根据排序结果从其它异常交易样本中确定异常交易样本的邻近样本集合。
九、确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;两个邻近的异常交易样本包括采样样本和与采样样本邻近的邻近样本。
十、若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件,确定采样样本与邻近样本之间的差值。
十一、对差值进行随机线性插值,得到插值数据。
十二、对采样样本附加插值数据,得到新的异常交易样本。
十三、对于生成的每个新的异常交易样本,计算新的异常交易样本与非异常交易样本集合中的非异常交易样本之间的相似度;若相似度大于或等于预设阈值,则丢弃新的异常交易样本。
十四、将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合,更新的训练样本集合用于训练异常交易检测模型。
十五、使用更新的训练样本集合,对异常交易检测模型进行模型训练,得到训练好的异常交易检测模型。
十六、获取待检测交易,待检测交易根据交易数据、交易方的描述数据生成。
十七、使用训练好的异常交易检测模型对待检测交易进行检测,得到待检测交易属于异常交易的预测概率。
十八、根据预测概率确定关于待检测交易的检测结果。
本实施例中,在异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件时,生成新的异常交易样本,能够解决异常交易样本和非异常交易样本的样本数量不平衡问题。在生成新的异常交易样本之前,剔除属于噪音样本的异常交易样本,避免噪音样本对后续异常交易检测模型的特征识别造成影响。在生成新的异常交易样本的过程中,并未采用基于采样样本及其随机的邻近样本生成新的异常交易样本,而是对采样样本和邻近样本进行相似度计算,选取与采样样本相似的邻近样本参与新的异常交易样本的生成,保证新的异常交易样本具有原始的异常交易样本的特性,提高异常交易检测模型对异常交易样本的学习能力,并提高异常交易检测模型对异常交易样本的识别能力。在生成新的异常交易样本之后,对新的异常交易样本与非异常交易样本进行相似度计算,剔除与非异常交易样本相似的新的异常交易样本,保证了异常交易样本的纯度。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的训练样本处理方法的训练样本处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个训练样本处理装置实施例中的具体限定可以参见上文中对于训练样本处理方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种训练样本处理装置,包括:
训练样本获取模块801,用于获取初始的训练样本集合;初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件。
邻近样本获取模块802,用于对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合。
新样本生成模块803,用于当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据两个邻近的异常交易样本生成新的异常交易样本。
样本均衡模块804,用于将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合,更新的训练样本集合用于训练异常交易检测模型。
在其中一个实施例中,邻近样本获取模块802,还用于对于异常交易样本集合中的每个异常交易样本,计算异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度;按照相似度从高到低的顺序,对其它异常交易样本进行排序,根据排序结果从其它异常交易样本中确定异常交易样本的邻近样本集合。
在其中一个实施例中,新样本生成模块803,还用于确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
在其中一个实施例中,两个邻近的异常交易样本包括采样样本和与采样样本邻近的邻近样本;新样本生成模块803,还用于确定采样样本与邻近样本之间的差值;对差值进行随机线性插值,得到插值数据;对采样样本附加插值数据,得到新的异常交易样本。
在其中一个实施例中,新样本生成模块803,还用于根据异常交易样本集合的样本数量与非异常交易样本集合的样本数量,确定不平衡的原始样本比例;根据原始样本比例与预设平衡比例的比值,确定异常交易样本集合中每个异常交易样本的采样次数;按采样次数对异常交易样本集合中每个异常交易样本进行采样,作为采样样本。
在其中一个实施例中,训练样本获取模块801,还用于获取原始异常交易样本集合;基于原始异常交易样本集合中异常交易样本的邻域密度,从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到异常交易样本集合。
在其中一个实施例中,训练样本获取模块801,还用于计算原始异常交易样本集合中两两异常交易样本的距离;对于原始异常交易样本集合中的每个异常交易样本,确定距离在异常交易样本的预设邻域距离内的样本数量;若样本数量大于或等于预设邻域密度,则保留异常交易样本;若样本数量小于预设邻域密度,且异常交易样本不是其它异常交易样本的领域样本,则剔除异常交易样本。
在其中一个实施例中,样本均衡模块804,还用于对于生成的每个新的异常交易样本,分别计算新的异常交易样本与非异常交易样本集合中每个非异常交易样本之间的相似度;若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃新的异常交易样本。
在其中一个实施例中,训练样本获取模块801,还用于获取目标交易对应各个预设特征维度的交易数据;根据交易数据生成与各特征维度对应的交易特征;拼接各特征维度对应的交易特征,得到目标交易对应的交易样本。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的异常交易检测方法的异常交易检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个异常交易检测装置实施例中的具体限定可以参见上文中对于异常交易检测方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种异常交易检测装置,所述装置包括:
样本处理模块901,用于获取初始的训练样本集合;初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设不均衡条件;对于异常交易样本集合中的每个异常交易样本,从异常交易样本集合中获取相应的邻近样本集合;当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据两个邻近的异常交易样本生成新的异常交易样本;将新的异常交易样本添加至异常交易样本集合,得到更新的异常交易样本集合,更新的异常交易样本集合的样本数量与非异常交易样本集合的样本数量满足预设均衡条件,更新的异常交易样本集合与非异常交易样本集合构成更新的训练样本集合。
训练模块902,用于通过更新的训练样本集合对异常交易检测模型进行模型训练,得到训练好的异常交易检测模型。
获取模块903,用于获取待检测交易,待检测交易根据对应各个预设特征维度的交易数据生成。
检测模块904,用于使用训练好的异常交易检测模型对待检测交易进行检测,得到待检测交易属于异常交易的预测概率;根据预测概率确定关于待检测交易的检测结果。
在其中一个实施例中,样本处理模块901,还用于对于异常交易样本集合中的每个异常交易样本,计算异常交易样本与异常交易样本集合中其它异常交易样本之间的相似度;按照相似度从高到低的顺序,对其它异常交易样本进行排序,根据排序结果从其它异常交易样本中确定异常交易样本的邻近样本集合。
在其中一个实施例中,样本处理模块901,还用于确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;若交集在并集中所占比例大于或等于预设比例,则确定两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
在其中一个实施例中,两个邻近的异常交易样本包括采样样本和与采样样本邻近的邻近样本;样本处理模块901,还用于确定采样样本与邻近样本之间的差值;对差值进行随机线性插值,得到插值数据;对采样样本附加插值数据,得到新的异常交易样本。
在其中一个实施例中,样本处理模块901,还用于根据异常交易样本集合的样本数量与非异常交易样本集合的样本数量,确定不平衡的原始样本比例;根据原始样本比例与预设平衡比例的比值,确定异常交易样本集合中每个异常交易样本的采样次数;按采样次数对异常交易样本集合中每个异常交易样本进行采样,作为采样样本。
在其中一个实施例中,样本处理模块901,还用于获取原始异常交易样本集合;基于原始异常交易样本集合中异常交易样本的邻域密度,从原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到异常交易样本集合。
在其中一个实施例中,样本处理模块901,还用于计算原始异常交易样本集合中两两异常交易样本的距离;对于原始异常交易样本集合中的每个异常交易样本,确定距离在异常交易样本的预设邻域距离内的样本数量;若样本数量大于或等于预设邻域密度,则保留异常交易样本;若样本数量小于预设邻域密度,且异常交易样本不是其它异常交易样本的领域样本,则剔除异常交易样本。
在其中一个实施例中,样本处理模块901,还用于对于生成的每个新的异常交易样本,分别计算新的异常交易样本与非异常交易样本集合中每个非异常交易样本之间的相似度;若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃新的异常交易样本。
在其中一个实施例中,样本处理模块901,还用于获取目标交易对应各个预设特征维度的交易数据;根据交易数据生成与各特征维度对应的交易特征;拼接各特征维度对应的交易特征,得到目标交易对应的交易样本。
上述训练样本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始的训练样本集合和更新的训练样本集合。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种训练样本处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其它技术实现。该计算机程序被处理器执行时以实现一种训练样本处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种训练样本处理方法,其特征在于,所述方法包括:
获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合,所述更新的训练样本集合用于训练异常交易检测模型。
2.根据权利要求1所述的方法,其特征在于,所述对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合,包括:
对于所述异常交易样本集合中的每个异常交易样本,计算所述异常交易样本与所述异常交易样本集合中其它异常交易样本之间的相似度;
按照相似度从高到低的顺序,对所述其它异常交易样本进行排序,根据排序结果从所述其它异常交易样本中确定所述异常交易样本的邻近样本集合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定两个邻近的异常交易样本各自的邻近样本集合之间的交集以及并集;
若所述交集在所述并集中所占比例大于或等于预设比例,则确定所述两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件。
4.根据权利要求1所述的方法,其特征在于,所述两个邻近的异常交易样本包括采样样本和与所述采样样本邻近的邻近样本;所述根据所述两个邻近的异常交易样本生成新的异常交易样本,包括:
确定所述采样样本与所述邻近样本之间的差值;
对所述差值进行随机线性插值,得到插值数据;
对所述采样样本附加所述插值数据,得到新的异常交易样本。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量,确定不平衡的原始样本比例;
根据所述原始样本比例与预设平衡比例的比值,确定所述异常交易样本集合中每个异常交易样本的采样次数;
按所述采样次数对所述异常交易样本集合中每个异常交易样本进行采样,作为所述采样样本。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取原始异常交易样本集合;
基于所述原始异常交易样本集合中异常交易样本的邻域密度,从所述原始异常交易样本集合中剔除属于噪音样本的异常交易样本,得到所述异常交易样本集合。
7.根据权利要求6所述的方法,其特征在于,所述基于所述原始异常交易样本集合中异常交易样本的邻域密度,从所述原始异常交易样本集合中剔除属于噪音样本的异常交易样本,包括:
计算所述原始异常交易样本集合中两两异常交易样本的距离;
对于所述原始异常交易样本集合中的每个异常交易样本,确定距离在所述异常交易样本的预设邻域距离内的样本数量;
若所述样本数量大于或等于预设邻域密度,则保留所述异常交易样本;
若所述样本数量小于预设邻域密度,且所述异常交易样本不是其它异常交易样本的领域样本,则剔除所述异常交易样本。
8.根据权利要求1至5任一项所述的方法,其特征在于,在所述将所述新的异常交易样本添加至所述异常交易样本集合之前,所述方法还包括:
对于生成的每个所述新的异常交易样本,分别计算所述新的异常交易样本与所述非异常交易样本集合中每个非异常交易样本之间的相似度;
若存在相似度大于或等于预设阈值的非异常交易样本,则丢弃所述新的异常交易样本。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
获取目标交易对应各个预设特征维度的交易数据;
根据所述交易数据生成与各所述特征维度对应的交易特征;
拼接各所述特征维度对应的交易特征,得到所述目标交易对应的交易样本。
10.一种异常交易检测方法,其特征在于,所述方法包括:
获取待检测交易,所述待检测交易根据对应各个预设特征维度的交易数据生成;
使用训练好的异常交易检测模型对所述待检测交易进行检测,得到所述待检测交易属于异常交易的预测概率;
根据所述预测概率确定关于所述待检测交易的检测结果;
其中,所述训练好的异常交易检测模型通过更新的训练样本集合进行模型训练得到,所述更新的训练样本集合通过如下步骤得到:
获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成所述更新的训练样本集合。
11.一种训练样本处理装置,其特征在于,所述装置包括:
训练样本获取模块,用于获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;
邻近样本获取模块,用于对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;
新样本生成模块,用于当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;
样本均衡模块,用于将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合,所述更新的训练样本集合用于训练异常交易检测模型。
12.一种异常交易检测装置,其特征在于,所述装置包括:
样本处理模块,用于获取初始的训练样本集合;所述初始的训练样本集合包括异常交易样本集合与非异常交易样本集合,所述异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设不均衡条件;对于所述异常交易样本集合中的每个异常交易样本,从所述异常交易样本集合中获取相应的邻近样本集合;当两个邻近的异常交易样本各自的邻近样本集合满足预设相似条件时,则根据所述两个邻近的异常交易样本生成新的异常交易样本;将所述新的异常交易样本添加至所述异常交易样本集合,得到更新的异常交易样本集合,所述更新的异常交易样本集合的样本数量与所述非异常交易样本集合的样本数量满足预设均衡条件,所述更新的异常交易样本集合与所述非异常交易样本集合构成更新的训练样本集合;
训练模块,用于通过所述更新的训练样本集合对异常交易检测模型进行模型训练,得到训练好的异常交易检测模型;
获取模块,用于获取待检测交易,所述待检测交易根据对应各个预设特征维度的交易数据生成;
检测模块,用于使用所述训练好的异常交易检测模型对所述待检测交易进行检测,得到所述待检测交易属于异常交易的预测概率;根据所述预测概率确定关于所述待检测交易的检测结果。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311102312.9A CN117076930A (zh) | 2023-08-29 | 2023-08-29 | 训练样本处理方法、异常交易检测方法、装置和设备 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311102312.9A CN117076930A (zh) | 2023-08-29 | 2023-08-29 | 训练样本处理方法、异常交易检测方法、装置和设备 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117076930A true CN117076930A (zh) | 2023-11-17 |
Family
ID=88705901
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311102312.9A Pending CN117076930A (zh) | 2023-08-29 | 2023-08-29 | 训练样本处理方法、异常交易检测方法、装置和设备 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117076930A (zh) |
-
2023
- 2023-08-29 CN CN202311102312.9A patent/CN117076930A/zh active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020249125A1 (zh) | 用于自动训练机器学习模型的方法和系统 | |
| CN112231592B (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
| CN115186197B (zh) | 一种基于端到端双曲空间的用户推荐方法 | |
| CN115293919B (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
| CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
| CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
| CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
| CN112598089B (zh) | 图像样本的筛选方法、装置、设备及介质 | |
| CN115631008A (zh) | 商品推荐方法、装置、设备及介质 | |
| CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
| CN112364258B (zh) | 基于图谱的推荐方法、系统、存储介质及电子设备 | |
| CN116630630B (zh) | 语义分割方法、装置、计算机设备及计算机可读存储介质 | |
| CN113570541B (zh) | 图像质量评估方法、装置、电子设备及存储介质 | |
| CN110781929B (zh) | 信用预测模型的训练方法、预测方法及装置、介质和设备 | |
| CN113822293A (zh) | 用于图数据的模型处理方法、装置、设备及存储介质 | |
| CN115146785B (zh) | 对象筛选方法、装置、电子设备、存储介质及程序产品 | |
| CN118114123A (zh) | 识别模型的处理方法、装置、计算机设备和存储介质 | |
| CN117076930A (zh) | 训练样本处理方法、异常交易检测方法、装置和设备 | |
| CN116932935A (zh) | 地址匹配方法、装置、设备、介质和程序产品 | |
| CN118313864A (zh) | 用户购房意愿预测方法、装置、电子设备及可读存储介质 | |
| CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
| CN115617969B (zh) | 一种会话推荐方法、装置、设备和计算机存储介质 | |
| CN115238820B (zh) | 对象分类方法、装置、计算机设备和存储介质 | |
| CN116258883A (zh) | 一种目标检测方法、装置、设备及可读存储介质 | |
| CN117009556A (zh) | 一种基于评估模型的内容推荐方法及相关装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| TA01 | Transfer of patent application right | ||
| TA01 | Transfer of patent application right |
Effective date of registration: 20231212 Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Applicant after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Applicant after: Shenzhen Caifu Tong Network Finance Small Loan Co.,Ltd. Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |