[go: up one dir, main page]

CN111178435B - 一种分类模型训练方法、系统、电子设备及存储介质 - Google Patents

一种分类模型训练方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111178435B
CN111178435B CN201911398087.1A CN201911398087A CN111178435B CN 111178435 B CN111178435 B CN 111178435B CN 201911398087 A CN201911398087 A CN 201911398087A CN 111178435 B CN111178435 B CN 111178435B
Authority
CN
China
Prior art keywords
samples
sample
target
type
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911398087.1A
Other languages
English (en)
Other versions
CN111178435A (zh
Inventor
王刚锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN201911398087.1A priority Critical patent/CN111178435B/zh
Publication of CN111178435A publication Critical patent/CN111178435A/zh
Priority to US17/789,392 priority patent/US11762949B2/en
Priority to PCT/CN2020/110361 priority patent/WO2021135271A1/zh
Application granted granted Critical
Publication of CN111178435B publication Critical patent/CN111178435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种分类模型训练方法,所述分类模型训练方法包括确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;根据所述数据分布特征信息生成所述目标样本对应的新样本;利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。本申请能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。本申请还公开了一种分类模型训练系统、一种电子设备及一种存储介质,具有以上有益效果。

Description

一种分类模型训练方法、系统、电子设备及存储介质
技术领域
本申请涉及机器学习技术领域,特别涉及一种分类模型训练方法、系统、一种电子设备及一种存储介质。
背景技术
基于非均衡的数据集构建的预测模型,会对数据集中占比大的类表现出更大的倾向,造成明显的预测误差。目前,针对非均衡数据普遍采用欠缺采样处理或过采样处理以使得非均衡数据类别平衡。欠采样的基本原理是主动丢弃非均衡数据集中类别占比较大的数据,以达到类别占比均衡,但欠采样处理大多会造成数据特性遗失,给最终的预测模型造成预置的误差;传统的过采样模型,往往采取单纯的数据复制,又会使得数据特征偏移,数据分布边缘化加重和增加噪声等问题,这虽然能够均衡数据集,但会使得最终的预测模型产生过拟合和泛化能力差的问题。
因此,如何均衡数据集中的各种类样本的数量,提高分类模型的预测准确度是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种分类模型训练方法、系统、一种电子设备及一种存储介质,能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。
为解决上述技术问题,本申请提供一种分类模型训练方法,该分类模型训练方法包括:
确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
根据所述数据分布特征信息生成所述目标样本对应的新样本;
利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
可选的,根据所述目标样本之间的欧氏距离确定所述目标样本的数据分布特征信息包括:
利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为Ratim=Numxi/Numxim,Ratim为样本xi与样本xim之间的优良性比值,xi为所述目标样本中的任一样本,xim为样本xi的k个同类近邻样本中第m个近邻样本,Numxi为样本xi的k个近邻样本中目标样本的个数,Numxim为样本xim的k个近邻样本中目标样本个数。
可选的,根据所述数据分布特征信息生成所述目标样本对应的新样本,包括:
当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本xnewim;其中,所述第二公式为xnewim=xim+rand(0,1)*Ratim*(xi-xim);
当所述优良性比值大于1时,利用第三公式生成所述目标样本对应的新样本xnewim;其中,所述第三公式为xnewim=xi+rand(0,1)/Ratim*(xim-xi);
当所述优良性比值等于1时,利用第四公式生成所述目标样本对应的新样本xnewim;其中,所述第四公式为xnewim=xi+rand(0,1)*(xim-xi)。
可选的,利用所述第一类样本、所述第二类样本和所述新样本训练分类模型包括:
对所述第一类样本、所述第二类样本和所述新样本执行采样操作,并根据采样结果对所述分类模型执行训练操作。
可选的,所述第一类样本为病毒文件样本,第二类样本为非病毒文件样本,所述分类模型为文件类型检测模型。
可选的,在根据采样结果对所述分类模型执行训练操作之后,还包括:
利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
可选的,确定数据集中第一类样本和第二类样本的采样倍率包括:
根据所述数据集中的样本数量比例确定数据集中第一类样本和第二类样本的采样倍率。
本申请还提供了一种分类模型训练系统,该分类模型训练系统包括:
目标样本设置模块,用于确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
分布特征确定模块,用于根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
新样本生成模块,用于根据所述数据分布特征信息生成所述目标样本对应的新样本;
模型训练模块,用于利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述分类模型训练方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述分类模型训练方法执行的步骤。
本申请提供了一种分类模型训练方法,包括确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;根据所述数据分布特征信息生成所述目标样本对应的新样本;利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
本申请将采样倍率小于预设值的第一类样本或第二类样本设置为目标样本,目标样本为数据集中占比较小的一类样本,若直接使用数据集中的样本训练分类模型就将会导致分类模型对于数据集中占比较大的类别的具有更大的识别倾向,影响识别效果。本申请基于各个样本之间的欧氏距离确定目标样本的数据分布特征信息,根据数据分布特征信息动态的生成与目标样本类别相同的新样本,进而使得数据集中的各个类别的样本数量均衡,避免出现由于样本种类不均衡带来的模型训练效果较差的情况。可见,本申请能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。本申请同时还提供了一种分类模型训练系统、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种分类模型训练方法的流程图;
图2为本申请实施例所提供的一种非均衡数据集的采样方法的流程图;
图3为本申请实施例所提供的一种新样本的倾向性示意图;
图4为本申请实施例所提供的一种分类模型训练系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种分类模型训练方法的流程图。
具体步骤可以包括:
S101:确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
其中,本步骤中所提到的数据集中可以包括第一类样本和第二类样本,具体的第一类样本可以为正样本,第二类样本可以为负样本,本实施例可以根据所述数据集中的样本数量比例确定数据集中第一类样本和第二类样本的采样倍率,具体的数量比例越大的样本的采样倍率越大。可以理解的是,采样倍率除了与样本自身数量相关,也与训练分类模型时设置的参数相关。
本实施例将采样倍率小于预设值的样本设置为目标样本,例如当预设值为1时,若第一类样本的采样倍率小于1时将第一类样本设置为目标样本,若第二类样本的采样倍率小于1时将第二类样本设置为目标样本,当然预设值可以根据实际应用场景灵活设置,此处不进行限定。本步骤的目的是将数据集中占比较少的一类样本设置为目标样本,以便在后续步骤中生成同样类别的新样本,进而均衡数据集中的样本比例。
S102:根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;
其中,在本步骤之前可以存在计算数据集中各个样本之间的欧式距离的操作,具体的可以包括第一类样本之间的欧氏距离,可以包括第二类样本之间的欧式距离,还可以包括第一类样本和第二类样本之间的欧氏距离,欧氏距离即欧几里得距离。根据所有样本之间的欧式距离可以得到目标样本的数据分布特征,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本。本实施例将距离某一样本欧式距离小于预设值的所有样本作为该样本的近邻样本,一个样本的近邻样本中可以包同类别的样本也可以包括不同类别的样本。
S103:根据所述数据分布特征信息生成所述目标样本对应的新样本;
其中,本实施例在已经得到数据分布特征信息的基础上生成目标样本对应的新样本。具体的,目标样本分布越密集的区域其样本的噪声越小,同时边缘化问题越小,因此本实施例根据可以根据数据分布特征在目标样本分布越密集的区域对应的新样本。可以理解的是,本步骤用于根据数据集中占比较少的目标样本生成新样本,进而均衡数据集中各个类别的样本数量,作为一种可行的实施方式,本实施例可以根据数据集中第一类样本和第二类样本的样本数量差生成相应数量的新样本,使得将新样本添加至数据集后第一类样本和第二类样本的处于数量均衡的状态。具体的,数量均衡状态指第一类样本与第二类样本的样本数量差在预设范围内的状态。
S104:利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
其中,在得到了新样本的基础上,本实施可以将新样本添加至数据集中,进而利用数据集中的样本训练分类模型。本实施例中所提到的分类模型可以为人脸识别模型,进而在向分类模型输入一张图片后分类模型能够判定图片中是否包括人脸图像;该分类模型还可以为病毒检测模型,进而在向分类模型中输入未知文件后分类模型能够判定未知文件是否为病毒文件。
本实施例将采样倍率小于预设值的第一类样本或第二类样本设置为目标样本,目标样本为数据集中占比较小的一类样本,若直接使用数据集中的样本训练分类模型就将会导致分类模型对于数据集中占比较大的类别的具有更大的识别倾向,影响识别效果。本实施例基于各个样本之间的欧氏距离确定目标样本的数据分布特征信息,根据数据分布特征信息动态的生成与目标样本类别相同的新样本,进而使得数据集中的各个类别的样本数量均衡,避免出现由于样本种类不均衡带来的模型训练效果较差的情况。可见,本实施例能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。
作为对于图1对应实施例的进一步介绍,图1对应实施例中S102的操作可以具体为利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息。其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本,上述优良性比值为描述一对近邻目标样本之间区域优良性的信息,本实施例将距离特定样本预设距离内的同类样本数量作为区域优良性的评价标准,数量越多该样本所在的区域优良性越高,该样本所在的区域指距离该样本预设距离内的所有区域范围。例如,样本A存在10个相同类别的近邻样本,样本B存在20个相同类别的近邻样本,此时可以判定样本A的区域优良性高于样本B所在的区域。
具体的,上述第一公式为Ratim=Numxi/Numxim,Ratim为样本xi与样本xim之间的优良性比值,xi为所述目标样本中的任一样本,xim为样本xi的k个同类近邻样本中第m个近邻样本,Numxi为样本xi的k个近邻样本中目标样本的个数,Numxim为样本xim的k个近邻样本中目标样本个数。
若将上述将优良性比值作为数据分布特征信息的方法与图1对应的实施例相结合,图1中S103生成新样本的操作可以包括以下步骤:
当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本xnewim;其中,所述第二公式为xnewim=xim+rand(0,1)*Ratim*(xi-xim);
当所述优良性比值大于1时,利用第三公式生成所述目标样本对应的新样本xnewim;其中,所述第三公式为xnewim=xi+rand(0,1)/Ratim*(xim-xi);
当所述优良性比值等于1时,利用第四公式生成所述目标样本对应的新样本xnewim;其中,所述第四公式为xnewim=xi+rand(0,1)*(xim-xi)。
在上述实施方式中可以根据数据集中第一类样本和第二类样本的分布特点和趋势,使得新样本产生在更加优良的区域,进而提升分类模型的训练效果。Rand函数指返回大于等于0且小于1的均匀分布随机实数。
作为对于图1对应实施例的进一步介绍,S104中训练分类模型的操作可以包括:对所述第一类样本、所述第二类样本和所述新样本执行采样操作,并根据采样结果对所述分类模型执行训练操作。
进一步的,图1对应实施例中的第一类样本可以为病毒文件样本,第二类样本可以为非病毒文件样本,分类模型可以为文件类型检测模型。相应的,在根据采样结果对文件类型检测模型执行训练操作之后,还可以利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
下面通过在实际应用中的实施例说明上述实施例描述的流程。请参见图2,图2为本申请实施例所提供的一种非均衡数据集的采样方法的流程图。本实施例描述的了一种非均衡数据集的采样方法,根据非均衡数据的分布特征和采样倍率,基于已有数据集的数据分布特征,动态地生成少数类样本,通过控制样本的生成方式,使新样本产生在更加优良的区域,从而降低样本边缘化加剧的情况,也能减少新样本为噪声的可能性。
本实施例向根据样本所在的区域对样本进行分类和评估,根据样本k近邻中同类样本的占比作为分类标准。在构建新样本时,使其对k近邻样本中同类样本占比更大的样本表现出更大的倾向性,从而是新样本产生在更优良和更合理的区域。本实施例的基本思想如下:计算所有少数类样本的k近邻样本;统计该少数类样本的k近邻样本中,同类样本的数量占比,作为评估该样本优良性的标准;统计该样本同类样本中的k近邻样本;根据采样倍率,选取k近邻样本中的N个样本,作为辅助样本;计算该样本和其辅助样本的值,根据值,按照计算规则生成新样本的各个特征值,组合得到新增样本;将新增样本加入到数据集,得到最终的均衡数据集。具体本实施例可以包括以下步骤:
步骤1:确定采样倍率;
若采样倍率N<=1,直接按采样倍率N对原少数类样本集随机抽样,以随机抽样结果,作为Tency-SMOTE算法的输出结果;若采样倍率N>1,对采样倍率取整处理并执行下一步。
步骤2:计算样本所在区域优良性;
样本所在区域优良度是根据该样本k近邻样本中同类样本占比来衡量的,样本所在区域优良度如下:
对于少数类的一个样本xi,xim表示样本xi的k个同类近邻中的第m(m<=k)个近邻。Numxi表示样本xi在同时考虑两类样本的情况下,k个近邻样本中少数类样本的个数,Numxim代表样本xim在同时考虑两类样本的情况下,k个近邻中少数类样本的个数。xnewim表示通过样本xi与样本xim扩充的新样本。Ratim=Numxi/Numxim定义为样本xi与样本xim优良性比值。如果Ratxim<1说明样本xim周边的少数类样本比样本xi周边少数类样本分布的更多,也就是样本xim所在的区域比样本xi所在的区域更加优良,即通过Ratxim值来某样本和其辅助样本的优良性关系。
步骤3:依据样本所在区域优良性的不同,采取不同的生成策略;
基于上述定义,生成新样本时,应该使新样本对样本xim(或样本xim所在的区域)有更大倾向性,请参见图3,图3为本申请实施例所提供的一种新样本的倾向性示意图。
对于样本xi和其近邻样本xim,由于样本xi近邻样本中少数类样本占比(或数量)比样本xim近邻样本中负类样本占比高,为了让新样本xnewim产生在更优良的区域,所以新产生的样本xnewim应该有更大的倾向性偏于样本xi,即在图3中,新样本xnewim应该有更大可能性在直线的左侧。即根据某样本和其辅助样本的Ratxim值,采取以下不同的新样本生成策略:
Figure BDA0002346848420000091
对于上述样本生成方法详细分析如下:
(a)如果Ratxim<1,这样的样本xi可能出现在Boundary classes类样本或Sensitive class类样本中。按照新样本应该处于更优良的少数类区域的原则,此时新扩充的样本xnewim应该对样本xim表现出更大的倾向性,即:
xnewim=xim+rand(0,1)*Ratim*(xi-xim);
(b)如果Ratxim>1,Boundary classes类样本或Sensitive class类样本都可能出现这种情况。同理,此时新扩充的样本xnewim应该对样本xi表现出更大的倾向性,即:
xnewim=xi+rand(0,1)/Ratim*(xim-xi);
(c)如果Ratxim=1,Boundary classes类样本、Sensitive class类样本都可能出现这种情况,对于所有的Safety class类均满足此条件。同理,此时新扩充的样本xnewim应该对样本xi和样本xim表现出同等的倾向性,即:
xnewim=xi+rand(0,1)*(xim-xi);
需要说明的是,以上公式也是原始的SMOTE算法公式。
步骤4、根据不同的策略,生成新样本;
依次遍历某样本与其辅助样本的特征属性,按步骤2中的公式中的某一策略,依次生成新样本的特征值,最终得到新样本。
步骤5、完成过采样,输出采样结果。
本实施例先得到要进行数据处理的数据集,统计其样本特征的维度和特征值类型。遍历数据集中少数类样本点,并得到每个少数类样本的k近邻样本点,在特征值均衡化后的基础上,使用python数据处理工具sklearn得到样本的k近邻样本点;根据采样倍率,随机选择N个样本点,作为辅助样本;分别计算该样本点和其辅助样本点的Ratxim值,确定新样本的偏移量,根据Ratxim值,独立获取样本的各个特征值,各个特征值得到后,组合得到新增样本。最后将所有生成的新样本加入到数据集中,至此得到最终的类均衡数据集。本实施例解决了传统过采样方法中新样本加剧分布边缘化和增加噪声的问题,增强了过采样中新样本产生的合理性,提高了最终模型的准确性和泛化能力等性能。
请参见图4,图4为本申请实施例所提供的一种分类模型训练系统的结构示意图;
该系统可以包括:
目标样本设置模块100,用于确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
分布特征确定模块200,用于根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
新样本生成模块300,用于根据所述数据分布特征信息生成所述目标样本对应的新样本;
模型训练模块400,用于利用所述第一类样本、所述第二类样本和所述新样本训练分类模型。
本实施例将采样倍率小于预设值的第一类样本或第二类样本设置为目标样本,目标样本为数据集中占比较小的一类样本,若直接使用数据集中的样本训练分类模型就将会导致分类模型对于数据集中占比较大的类别的具有更大的识别倾向,影响识别效果。本实施例基于各个样本之间的欧氏距离确定目标样本的数据分布特征信息,根据数据分布特征信息动态的生成与目标样本类别相同的新样本,进而使得数据集中的各个类别的样本数量均衡,避免出现由于样本种类不均衡带来的模型训练效果较差的情况。可见,本实施例能够均衡数据集中的各种类样本的数量,提高分类模型的预测准确度。
进一步的,分布特征确定模块200具体用于利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为Ratim=Numxi/Numxim,Ratim为样本xi与样本xim之间的优良性比值,xi为所述目标样本中的任一样本,xim为样本xi的k个同类近邻样本中第m个近邻样本,Numxi为样本xi的k个近邻样本中目标样本的个数,Numxim为样本xim的k个近邻样本中目标样本个数。
进一步的,新样本生成模块300包括:
第一生成单元,用于当优良性比值小于1时,利用第二公式生成目标样本对应的新样本xnewim;其中,第二公式为xnewim=xim+rand(0,1)*Ratim*(xi-xim);
第二生成单元,用于当优良性比值大于1时,利用第三公式生成目标样本对应的新样本xnewim;其中,第三公式为xnewim=xi+rand(0,1)/Ratim*(xim-xi);
第三生成单元,用于当优良性比值等于1时,利用第四公式生成目标样本对应的新样本xnewim;其中,所述第四公式为xnewim=xi+rand(0,1)*(xim-xi)。
进一步的,模型训练模块400具体用于对所述第一类样本、所述第二类样本和所述新样本执行采样操作,并根据采样结果对所述分类模型执行训练操作。
进一步的,所述第一类样本为病毒文件样本,第二类样本为非病毒文件样本,所述分类模型为文件类型检测模型。
进一步的,还包括:
病毒检测模块,用于在根据采样结果对所述分类模型执行训练操作之后,利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
进一步的,目标样本设置模块100包括:
采样倍率确定单元,用于根据所述数据集中的样本数量比例确定数据集中第一类样本和第二类样本的采样倍率。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (6)

1.一种分类模型训练方法,其特征在于,包括:
确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
根据所述数据分布特征信息生成所述目标样本对应的新样本;
利用所述第一类样本、所述第二类样本和所述新样本训练分类模型;
其中,根据所述目标样本之间的欧氏距离确定所述目标样本的数据分布特征信息包括:
利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为
Figure DEST_PATH_IMAGE001
Figure 160941DEST_PATH_IMAGE002
为样本
Figure DEST_PATH_IMAGE003
与样本
Figure 705055DEST_PATH_IMAGE004
之间的优良性比值,
Figure 56402DEST_PATH_IMAGE003
为所述目标样本中的任一样本,
Figure 831722DEST_PATH_IMAGE004
为样本
Figure 243112DEST_PATH_IMAGE003
的k个同类近邻样本中第m个近邻样本,
Figure DEST_PATH_IMAGE005
为样本
Figure 884309DEST_PATH_IMAGE003
的k个近邻样本中目标样本的个数,
Figure 226297DEST_PATH_IMAGE006
为样本
Figure 433288DEST_PATH_IMAGE004
的k个近邻样本中目标样本个数;
其中,根据所述数据分布特征信息生成所述目标样本对应的新样本,包括:
当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本
Figure DEST_PATH_IMAGE007
;其中,所述第二公式为
Figure 701064DEST_PATH_IMAGE008
当所述优良性比值大于1时,利用第三公式生成所述目标样本对应的新样本
Figure 95137DEST_PATH_IMAGE007
;其中,所述第三公式为
Figure DEST_PATH_IMAGE009
当所述优良性比值等于1时,利用第四公式生成所述目标样本对应的新样本
Figure 178499DEST_PATH_IMAGE007
;其中,所述第四公式为
Figure 974417DEST_PATH_IMAGE010
其中,所述第一类样本为病毒文件样本,所述第二类样本为非病毒文件样本,所述分类模型为文件类型检测模型;
其中,在根据采样结果对所述分类模型执行训练操作之后,还包括:
利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
2.根据权利要求1所述分类模型训练方法,其特征在于,利用所述第一类样本、所述第二类样本和所述新样本训练分类模型包括:
对所述第一类样本、所述第二类样本和所述新样本执行采样操作,并根据采样结果对所述分类模型执行训练操作。
3.根据权利要求1或2所述分类模型训练方法,其特征在于,确定数据集中第一类样本和第二类样本的采样倍率包括:
根据所述数据集中的样本数量比例确定数据集中第一类样本和第二类样本的采样倍率。
4.一种分类模型训练系统,其特征在于,包括:
目标样本设置模块,用于确定数据集中第一类样本和第二类样本的采样倍率,并将采样倍率小于预设值的样本设置为目标样本;
分布特征确定模块,用于根据所述数据集中所有样本之间的欧式距离确定所述目标样本的数据分布特征信息;其中,所述数据分布特征信息为描述近邻样本中同类样本数量的信息,所述近邻样本为欧式距离小于预设距离的两个样本;
新样本生成模块,用于根据所述数据分布特征信息生成所述目标样本对应的新样本;
模型训练模块,用于利用所述第一类样本、所述第二类样本和所述新样本训练分类模型;
进一步的,分布特征确定模块具体用于利用第一公式计算任意两个近邻目标样本之间的优良性比值,并将所述优良性比值作为所述数据分布特征信息;其中,所述近邻目标样本为欧式距离小于所述预设距离的两个目标样本;
其中,所述第一公式为
Figure 681604DEST_PATH_IMAGE001
Figure 31814DEST_PATH_IMAGE002
为样本
Figure 43501DEST_PATH_IMAGE003
与样本
Figure 897188DEST_PATH_IMAGE004
之间的优良性比值,
Figure 555702DEST_PATH_IMAGE003
为所述目标样本中的任一样本,
Figure 937748DEST_PATH_IMAGE004
为样本
Figure 175963DEST_PATH_IMAGE003
的k个同类近邻样本中第m个近邻样本,
Figure 212052DEST_PATH_IMAGE005
为样本
Figure 290735DEST_PATH_IMAGE003
的k个近邻样本中目标样本的个数,
Figure 349958DEST_PATH_IMAGE006
为样本
Figure 454180DEST_PATH_IMAGE004
的k个近邻样本中目标样本个数;
进一步的,新样本生成模块包括:
第一生成单元,用于当所述优良性比值小于1时,利用第二公式生成所述目标样本对应的新样本
Figure 564350DEST_PATH_IMAGE007
其中,所述第二公式为
Figure DEST_PATH_IMAGE011
第二生成单元,用于当所述优良性比值大于1时,利用第三公式生成所述目标样本对应的新样本
Figure 220459DEST_PATH_IMAGE007
其中,所述第三公式为
Figure 298137DEST_PATH_IMAGE012
第三生成单元,用于当所述优良性比值等于1时,利用第四公式生成所述目标样本对应的新样本
Figure 206050DEST_PATH_IMAGE007
其中,所述第四公式为
Figure DEST_PATH_IMAGE013
其中,所述第一类样本为病毒文件样本,第二类样本为非病毒文件样本,所述分类模型为文件类型检测模型;
其中,还包括:
病毒检测模块,用于在根据采样结果对所述分类模型执行训练操作之后,利用训练后的文件类型检测模型对未知文件执行检测操作生成检测结果,以便根据检测结果判定所述未知文件是否为病毒文件。
5.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至3任一项所述分类模型训练方法的步骤。
6.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至3任一项所述分类模型训练方法的步骤。
CN201911398087.1A 2019-12-30 2019-12-30 一种分类模型训练方法、系统、电子设备及存储介质 Active CN111178435B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911398087.1A CN111178435B (zh) 2019-12-30 2019-12-30 一种分类模型训练方法、系统、电子设备及存储介质
US17/789,392 US11762949B2 (en) 2019-12-30 2020-08-21 Classification model training method, system, electronic device and strorage medium
PCT/CN2020/110361 WO2021135271A1 (zh) 2019-12-30 2020-08-21 一种分类模型训练方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398087.1A CN111178435B (zh) 2019-12-30 2019-12-30 一种分类模型训练方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111178435A CN111178435A (zh) 2020-05-19
CN111178435B true CN111178435B (zh) 2022-03-22

Family

ID=70652270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398087.1A Active CN111178435B (zh) 2019-12-30 2019-12-30 一种分类模型训练方法、系统、电子设备及存储介质

Country Status (3)

Country Link
US (1) US11762949B2 (zh)
CN (1) CN111178435B (zh)
WO (1) WO2021135271A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178435B (zh) 2019-12-30 2022-03-22 山东英信计算机技术有限公司 一种分类模型训练方法、系统、电子设备及存储介质
CN112417447B (zh) * 2020-11-11 2021-07-20 北京京航计算通讯研究所 一种恶意代码分类结果的精确度验证方法及装置
US12292971B2 (en) * 2020-11-13 2025-05-06 Sophos Limited Cybersecurity system evaluation and configuration
CN112991515B (zh) * 2021-02-26 2022-08-19 山东英信计算机技术有限公司 一种三维重建方法、装置及相关设备
US12456093B2 (en) * 2021-08-31 2025-10-28 S&P Global Inc. Corporate hierarchy tagging
CN113963209A (zh) * 2021-10-22 2022-01-21 上海商汤智能科技有限公司 对象识别模型训练方法及装置、电子设备和存储介质
CN119538042B (zh) * 2024-11-11 2025-08-01 江苏天创科技有限公司 基于人工智能的数据分类分级方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL195081A0 (en) * 2008-11-03 2011-08-01 Deutche Telekom Ag Acquisition of malicious code using active learning
US20110246409A1 (en) 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
US9037518B2 (en) * 2012-07-30 2015-05-19 Hewlett-Packard Development Company, L.P. Classifying unclassified samples
US9996694B2 (en) * 2013-03-18 2018-06-12 The Trustees Of Columbia University In The City Of New York Unsupervised detection of anomalous processes using hardware features
US20170032276A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets
US11042909B2 (en) * 2018-02-06 2021-06-22 Accenture Global Solutions Limited Target identification using big data and machine learning
CN108764366A (zh) 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110213222B (zh) 2019-03-08 2021-12-10 东华大学 基于机器学习的网络入侵检测方法
CN110348486A (zh) * 2019-06-13 2019-10-18 中国科学院计算机网络信息中心 基于采样与特征简约的非平衡数据集转换方法及系统
EP4050527A4 (en) * 2019-10-23 2022-11-23 Fujitsu Limited ESTIMATION PROGRAM, ESTIMATION METHOD, INFORMATION PROCESSING DEVICE, RELEARNING PROGRAM AND RELEARNING METHOD
CN111178435B (zh) * 2019-12-30 2022-03-22 山东英信计算机技术有限公司 一种分类模型训练方法、系统、电子设备及存储介质
US11501304B2 (en) * 2020-03-11 2022-11-15 Synchrony Bank Systems and methods for classifying imbalanced data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN110163261A (zh) * 2019-04-28 2019-08-23 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning;Haibo He等;《2008 International Joint Conference on Neural Networks (IJCNN 2008)》;20081231;第1322-1328页 *
基于决策准则优化的不均衡数据分类;曹鹏等;《小型微型计算机系统》;20140531;第35卷(第5期);第961-966页 *

Also Published As

Publication number Publication date
US20230038579A1 (en) 2023-02-09
CN111178435A (zh) 2020-05-19
US11762949B2 (en) 2023-09-19
WO2021135271A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111178435B (zh) 一种分类模型训练方法、系统、电子设备及存储介质
CN111352656B (zh) 使用按位运算的神经网络设备和方法
JP7527488B2 (ja) モデル訓練方法、データ強化方法、装置、電子機器及び記憶媒体
WO2019149059A1 (zh) 确定业务对应的决策策略的方法、装置和电子设备
US10346742B2 (en) Calculation device, calculation method, and recording medium
WO2020075462A1 (ja) 学習器推定装置、学習器推定方法、リスク評価装置、リスク評価方法、プログラム
CN110942034A (zh) 用于检测多类型深度网络生成图像的方法、系统、装置
WO2020065908A1 (ja) パターン認識装置、パターン認識方法およびパターン認識プログラム
CN114841288A (zh) 典型日负荷曲线的获取方法、装置、电子设备及存储介质
CN110032931B (zh) 生成对抗网络训练、网纹去除方法、装置及电子设备
Kong et al. Waveform recognition in multipath fading using autoencoder and CNN with Fourier synchrosqueezing transform
CN109376752A (zh) 一种基于不平衡数据集的ptm-wknn分类方法和装置
CN117372817A (zh) 人脸识别模型的训练方法、装置及人脸识别方法、装置
CN115511262A (zh) 变压器质量检测方法及装置
CN111078877A (zh) 数据处理、文本分类模型的训练、文本分类方法和装置
CN114662580B (zh) 数据分类模型的训练方法、分类方法、装置、设备和介质
CN114462447B (zh) 电压暂降的识别方法、装置、计算机设备、存储介质
JP2021111232A (ja) 学習用データ生成プログラム、装置、及び方法
CN111125359B (zh) 一种文本信息分类的方法、装置及设备
CN113642468A (zh) 身份认证方法及装置
CN119886228B (zh) 一种基于架构蒸馏技术的生成对抗网络架构搜索方法和系统
CN111179238A (zh) 面向子集指导一致性增强评价的子集置信比例动态选取方法
CN113486918B (zh) 基于动态调整特征向量分布趋势的图像识别方法及其设备
JP2012073750A (ja) 進化的条件判断ネットワーク
CN118887005A (zh) 信贷风险评估方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant