[go: up one dir, main page]

CN111814821A - 深度学习模型的建立方法、样本处理方法及装置 - Google Patents

深度学习模型的建立方法、样本处理方法及装置 Download PDF

Info

Publication number
CN111814821A
CN111814821A CN202010438330.4A CN202010438330A CN111814821A CN 111814821 A CN111814821 A CN 111814821A CN 202010438330 A CN202010438330 A CN 202010438330A CN 111814821 A CN111814821 A CN 111814821A
Authority
CN
China
Prior art keywords
deep learning
learning model
sample
target
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010438330.4A
Other languages
English (en)
Other versions
CN111814821B (zh
Inventor
王泽荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuanlijuhe Chongqing Information Technology Co ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010438330.4A priority Critical patent/CN111814821B/zh
Publication of CN111814821A publication Critical patent/CN111814821A/zh
Application granted granted Critical
Publication of CN111814821B publication Critical patent/CN111814821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种深度学习模型的建立方法、样本处理方法及装置,通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;对第一样本特征进行归一化处理得到第一分布特征,以及对第二样本特征进行归一化处理得到第二分布特征;根据第一分布特征与第二分布特征之间的距离值,确定权重值;获取训练集的损失函数,并通过权重值对损失函数进行加权处理,得到目标损失函数;通过目标损失函数对深度学习模型进行训练,得到目标深度学习模型。本发明可以通过不同训练集对应的权重值,优化不同训练集的训练样本对模型参数造成的影响,从而降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。

Description

深度学习模型的建立方法、样本处理方法及装置
技术领域
本发明属于计算机技术领域,特别是涉及一种深度学习模型的建立方法、样本处理方法及装置。
背景技术
深度学习模型源于对人工神经网络的研究,关于深度学习模型的模型训练过程,需要利用训练集和验证集中的数据,以获取模型较高精度的参数。
在目前,深度学习模型的训练过程,通常是从开源数据库中支架获取训练集和验证集,对训练集和验证集的内容不做过多关注,并将训练集中的数据输入深度学习模型,根据深度学习模型的输出值以及相应的损失函数,计算得出模型的参数,之后,可以将验证集中的数据输入在该参数作用下深度学习模型,并根据深度学习模型的输出,确定模型的性能优劣。
但是,目前的模型训练方法,对训练集和验证集的内容本身不作过多关注,往往会由于训练集和验证集的数据类别或采集场景不同的原因,产生通过训练集训练得到的深度学习模型,在验证集上产生性能下降的问题,从而降低了模型的训练精度。
发明内容
本发明提供一种深度学习模型的建立方法、样本处理方法及装置,以便解决现有技术中由于训练集和验证集的数据类别或采集场景不同的原因,产生的通过训练集训练得到的深度学习模型,在验证集上产生性能下降的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种深度学习模型的建立方法,该方法可以包括:
通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;
对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征;
计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值;
获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数;
通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
第二方面,本发明实施例提供了一种样本处理方法,该方法可以包括:
获取待处理样本;
将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果;
其中,所述目标深度学习模型是根据深度学习模型的建立方法所得到的。
第三方面,本发明实施例提供了一种深度学习模型的建立装置,该深度学习模型的建立装置可以包括:
获取模块,用于通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;
归一处理模块,用于对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征;
权重模块,用于计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值;
加权模块,用于获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数;
训练模块,用于通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
第四方面,本发明实施例提供了一种样本处理装置,该装置可以包括:
样本模块,用于获取待处理样本;
处理模块,用于将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果;
其中,所述目标深度学习模型是根据深度学习模型的建立方法所得到的。
本发明实施例的第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述所述的深度学习模型的建立方法的步骤。
本发明实施例的第六方面,提供了一种装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述所述的深度学习模型的建立方法的步骤。
本发明实施例的第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述所述的样本处理方法的步骤。
本发明实施例的第八方面,提供了一种装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述所述的样本处理方法的步骤。
在本发明实施例中,本发明通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;对第一样本特征进行归一化处理得到第一分布特征,以及对第二样本特征进行归一化处理得到第二分布特征;计算第一分布特征与第二分布特征之间的距离值,并根据距离值,确定权重值;获取训练集的损失函数,并通过权重值对损失函数进行加权处理,得到目标损失函数;通过目标损失函数对深度学习模型进行训练,得到目标深度学习模型。本发明可以根据分布特征之间的距离值,确定训练集的损失函数对应的权重值,并将该权重值加权至训练集对应的损失函数中,使得在通过目标损失函数训练深度学习模型的过程中,通过对应的权重值,优化该训练集的训练样本对模型参数造成的影响,即在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。
附图说明
图1是本发明实施例提供的一种深度学习模型的建立方法的步骤流程图;
图2是本发明实施例提供的一种样本处理方法的步骤流程图;
图3是本发明实施例提供的一种深度学习模型的建立方法的具体步骤流程图;
图4是本发明实施例提供的一种超球面的示意图;
图5是本发明实施例提供的一种深度学习模型的建立装置的框图;
图6是本发明实施例提供的一种样本处理装置的框图;
图7是本发明实施例提供的一种装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种深度学习模型的建立方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征。
在本发明实施例中,深度学习模型的训练过程需要通过训练集实现模型参数的确定,并通过验证集确定在该模型参数作用下深度学习模型的性能表现。训练集和验证集中的样本可以自行收集,也可以从开源的数据库或网络中进行收集。
具体的,针对图像分类或识别的深度学习模型,可以采集图片作为训练集和验证集中的样本,例如,进行人脸识别的深度学习模型,可以采用人像图片作为训练集和验证集中的样本。需要说明的是,在深度学习模型的其他应用场景下,训练集和验证集中的样本也可以为其他类型的数据,如文本、音频等。
在该步骤中,可以通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征。特征是某一样本区别于其他样本的相应特点或特性,或是这些特点和特性的集合,特征是通过测量或处理能够抽取的数据,特征提取的主要目的是降维,且其主要思想是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
对于图像信息而言,每一幅图像都具有能够区别于其他类图像的自身特征,有些是可以直观地感受到的自然特征,如亮度、边缘、纹理和色彩等;有些则是需要通过变换或处理才能得到的,如矩、直方图以及主成份等,在本申请实施例中,样本特征可以通过特征向量表达式进行表达,如,f={x1,x2…xn},常见的样本特征提取方法包括:(1)几何法特征提取,几何法是建立在图像纹理基元理论基础上的一种纹理特征分析方法。(2)模型法特征提取,模型法以图像的构造模型为基础,采用模型的参数作为纹理特征,例如卷积神经网络模型。(3)信号处理法特征提取,纹理特征的提取与匹配主要有:灰度共生矩阵、自回归纹理模型、小波变换等。
对于文本信息而言,样本特征目的是将文本表达为可以让计算机来理解的形式,即将文本向量化,样本特征的提取也可以通过相应的文本提取算法模型来实现,例如,嵌入式网络模型。
步骤102、对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征。
在实际应用中,由于训练集和验证集中样本的不确定性,往往会造成训练集和验证集的样本类别或采集场景不同,这样就会导致通过训练集训练得到的深度学习模型,在验证集上产生性能下降的问题,例如,在人脸识别模型的训练场景中,假设由于训练集和验证集是从开源数据库中直接下载得到的,开发人员并未过多关注训练集和验证集的内容,而训练集中包括的白种人的人像图片偏多,验证集中包括的黄种人的人像图片偏多,在这种情况下,通过白种人的人像图片偏多的训练集训练得到的深度学习模型,在黄种人的人像图片偏多的验证集上就会产生性能下降的问题,导致模型的训练精度下降。
在本发明实施例中,通过对样本特征进行归一化处理,可以得到样本特征对应的分布特征,而分布特征可以体现该样本特征对应样本的集中趋势、离散程度及形状,其中,集中趋势反映样本向其中心值靠拢或聚集的程度;离散程度反映样本远离其中心值的趋势;形状反映样本分布的偏态和峰态。因此通过比对两个样本特征各自的分布特征,可以得出两个样本特征对应的样本之间的相似及契合程度,从而反映训练集和验证集是否具有相似的样本类别或采集场景。
具体的,归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系,是一种简化计算,缩小量值的有效办法。归一化处理可以基于归一化算法实现,实现将样本特征转换为模长为(0,1)之间的分布特征。归一化处理具体可以采用如下公式:
对于一个n维的样本特征F∈Rn
Figure BDA0002503136200000061
Fnorm=[f1,f2,…..,fn]。
其中,Fnorm为归一化处理后得到的分布特征。
步骤103,计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值。
步骤104,获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数。
可选的,根据所述距离值,确定权重值具体可以通过将所述距离值的倒数作为所述权重值进行实现。
可选的,所述距离值为欧式距离值。
在本发明实施例中,由于分布特征可以体现该样本特征对应样本的集中趋势、离散程度及形状,则通过计算两个样本特征各自的分布特征之间的距离值,可以得出两个样本特征对应的样本之间的相似及契合程度,从而反映训练集和验证集是否具有相似的样本类别或采集场景。
具体的,第一分布特征和第二分布特征为特征向量的形式,该距离值可以为欧式距离、余弦距离等,损失函数可以为根据实际需求选择的函数,如交叉熵损失函数、指数损失函数等。需要说明的是,该距离值可以为训练集中所有训练样本的第一分布特征,与验证集中所有验证样本的第二分布特征之间的距离值的平均值。
在本发明实施例中,若第一分布特征与第二分布特征之间的距离值较大,则说明第一分布特征对应的训练样本与第二分布特征对应的验证样本之间差异较大,训练集存在样本类别或场景与验证集不匹配的问题,在这种情况下,可以确定训练集为非优选训练集,通过训练样本训练得到的深度学习模型,会在验证样本中产生性能下降的问题。此时可以将距离值的倒数作为权重值,由于距离值较大,使得距离值的倒数得到的权重值较小,将该权重值加权至训练样本对应的损失函数中,可以使得在通过训练样本对应的损失函数训练深度学习模型的过程中,通过值较小的权重值,降低该训练集的训练样本对模型参数造成的影响,提高训练精度。
若第一分布特征与第二分布特征之间的距离值较小,若第一分布特征与第二分布特征之间的距离值较小,则说明第一分布特征对应的训练样本与第二分布特征对应的验证样本之间差异较小,训练集的样本类别或场景与验证集匹配,在这种情况下,可以确定训练集为优选训练集,通过训练样本训练得到的深度学习模型,往往不会在验证样本中产生性能下降的问题。此时可将距离值的倒数作为权重值,由于距离值较小,使得距离值的倒数得到的权重值较大,将该权重值加权至训练样本对应的损失函数中,可以使得在通过训练样本对应的损失函数训练深度学习模型的过程中,通过值较大的权重值,相对提高该训练集的训练样本对模型参数造成的影响,提高训练精度。
例如,存在一个包括两个训练样本A1、A2的训练集[A1,A2]和一个包括两个验证样本B1、B2的验证集[B1,B2],并计算出样本A1、A2、B1、B2的分布特征分别为a1、a2、b1、b2,从而求得a1、b1之间的距离值x1和a2、b2之间的距离值x2,距离值的平均值x’为(x1+x2)/2,若训练样本A1的当前损失函数为L1,则加权后的目标损失函数L1’为
Figure BDA0002503136200000071
另外,若训练集的当前损失函数为L1为二维,且训练样本A1对应第一维,训练样本A2对应第二维,则目标损失函数L1’为
Figure BDA0002503136200000081
步骤105,通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
在本发明实施例中,通过目标损失函数对深度学习模型进行训练,可以使得在训练集与验证集之间分布差异较大的情况下,通过将较大距离值的倒数作为权重值,并将该权重值加权至训练样本对应的损失函数中,使得在通过训练样本对应的目标损失函数训练深度学习模型的过程中,通过值较小的权重值,降低该训练集的训练样本对模型参数造成的影响,提高训练精度。在训练集与验证集之间分布差异较小的情况下,通过将较小距离值的倒数作为权重值,并将该权重值加权至训练样本对应的损失函数中,使得在通过训练样本对应的目标损失函数训练深度学习模型的过程中,通过值较大的权重值,提升该训练集的训练样本对模型参数造成的影响,提高训练精度。本发明通过一种动态增加训练集的损失函数的权重值的方法,降低非优选训练集在训练过程中的权重影响,增加优选训练集在训练过程中的权重影响,降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。
综上,本发明实施例提供的一种深度学习模型的建立方法,通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;对第一样本特征进行归一化处理得到第一分布特征,以及对第二样本特征进行归一化处理得到第二分布特征;计算第一分布特征与第二分布特征之间的距离值,并根据距离值,确定权重值;获取训练集的损失函数,并通过权重值对损失函数进行加权处理,得到目标损失函数;通过目标损失函数对深度学习模型进行训练,得到目标深度学习模型。本发明通过目标损失函数对深度学习模型进行训练,可以使根据分布特征之间的距离值,确定训练集的损失函数对应的权重值,并将该权重值加权至训练集对应的损失函数中,使得在通过目标损失函数训练深度学习模型的过程中,通过对应的权重值,优化该训练集的训练样本对模型参数造成的影响,即在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。
图2是本发明实施例提供的一种样本处理方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取待处理样本。
步骤202、将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果。
在本发明实施例中,目标深度学习模型的获取方法可以参照上述步骤101至步骤105。目标深度学习模型可以为卷积神经网络模型,在目标深度学习模型的训练过程中,由于使用到的目标损失函数经过了对应权重值的加权处理,且该权重值为训练集与验证集之间距离值的倒数,在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的目标深度学习模型在验证集中出现性能下降的几率,因此目标深度学习模型在进行待处理样本的处理时,处理精度更高。
综上,本发明实施例提供的一种样本处理方法,获取待处理样本。将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果。本发明在目标深度学习模型的训练过程中,由于使用到的目标损失函数经过了对应权重值的加权处理,且该权重值为训练集与验证集之间距离值的倒数,在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的目标深度学习模型在验证集中出现性能下降的几率,因此目标深度学习模型在进行待处理样本的处理时,处理精度更高。
图3是本发明实施例提供的一种深度学习模型的建立方法的具体步骤流程图,如图3所示,该方法可以包括:
步骤301、通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征。
该步骤具体可以参照上述步骤101,此处不再赘述。
可选的,第一样本特征的特征维度和所述第二样本特征的特征维度相同。
例如,若第一样本特征的特征维度为1024,则第二样本特征的特征维度也为1024,通过相同的特征维度,可以提高后续计算处理的处理精度,解决由于特征维度不同而导致的精度下降问题。
步骤302、对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征。
该步骤具体可以参照上述步骤102,此处不再赘述。
步骤303、计算所述第一分布特征与所述第二分布特征之间的距离值,并将所述距离值的倒数作为所述权重值。
该步骤具体可以参照上述步骤103,此处不再赘述。
步骤304、获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数。
该步骤具体可以参照上述步骤104,此处不再赘述。
可选的,在所述深度学习模型为分类任务模型的情况下,步骤304具体可以包括:
子步骤3041、获取所述训练集的交叉熵损失函数,并通过所述权重值对所述交叉熵损失函数进行加权处理,得到目标交叉熵损失函数。
在本发明实施例中,分类任务模型具有一个或多个分类直播,针对分类任务模型,需要将其对应的训练集和验证集中的样本进行至少一种类别标定如,人脸形变识别模型,具有男性类别识别和女性类别识别两个指标。而交叉熵损失函数可以作为模型训练过程中的损失函数,假设将p表示为训练集和验证集中真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性,交叉熵值越小,两个概率p与q之间的分布越接近,通过交叉熵损失函数可以达到处理分类任务的目的。
步骤305、通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
该步骤具体可以参照上述步骤105,此处不再赘述。
可选的,在所述深度学习模型为分类任务模型的情况下,步骤305具体可以包括:
子步骤3051、通过所述目标交叉熵损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
在本发明实施例中,针对分类任务模型的训练场景,将计算得到的权重值对交叉熵损失函数进行加权处理,得到目标交叉熵损失函数,可以使得在分类任务场景中,通过目标交叉熵损失函数中的权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过目标交叉熵损失函数中的权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的目标深度学习模型在验证集中出现性能下降的几率,因此目标深度学习模型在进行待处理样本的处理时,分类任务的处理精度更高。
可选的,在步骤302之后,所述方法还可以包括:
步骤306、将所述第一分布特征与所述第二分布特征,分别映射至预设的超球面模型所包括的超球面中的对应位置。
步骤307、展示所述超球面模型。
具体的,假设第一样本特征和第二样本特征的维度为1024,由于经过归一化处理得到的分布特征f的模长恒等于1,能进一步得到f2=1,从而得到f12+f22+...+f10242=1,也即是1024维的分布特征f满足超球面方程,从而分布特征f变成了1024维超球面上的一个向量,一张样本就被可以被映射为这个超球面上的一个点,通过展示该超球面,可以使得开发人员能够直观的看到各个训练集与验证集之间的分布差异,以达到开发人员根据该训练差异,快速对训练集进行筛选的目的。
例如,参照图4,其示出了本发明实施例提供的一种超球面的示意图,假设存在训练集1、训练集2和验证集,通过将训练集1、训练集2和验证集各自的分布特征映射至该超球面10中的对应位置,在超球面10的表面可以形成三个区域,即训练集1对应的区域11,训练集2对应的区域12,验证集对应的区域13,通过展示该超球面,可以直观看见,训练集1与验证集之间的分部差异小于训练集2与验证集之间的分部差异,训练集1相对训练集2更加优选。
可选的,在步骤302之后,所述方法还可以包括:
步骤308、确定与所述第二分布特征之间的距离值大于或等于预设阈值的目标第一分布特征。
步骤309、将所述目标第一分布特征对应的目标训练集进行标记。
在本发明实施例中,参照上述图4提供的示例,通过展示的超球面可以直观看见,训练集1与验证集之间的分部差异小于训练集2与验证集之间的分部差异,训练集1相对训练集2更加优选,因此可以设定一个预设阈值,将距离值大于或等于预设阈值的训练集2确定为有缺陷训练集,并对该训练集2进行标记,以供开发人员根据该训练集2的标记,对训练集2进行筛除或优化处理。
综上所述,本发明实施例通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;对第一样本特征进行归一化处理得到第一分布特征,以及对第二样本特征进行归一化处理得到第二分布特征;计算第一分布特征与第二分布特征之间的距离值,并根据距离值,确定权重值;获取训练集的损失函数,并通过权重值对损失函数进行加权处理,得到目标损失函数;通过目标损失函数对深度学习模型进行训练,得到目标深度学习模型。本发明可以根据分布特征之间的距离值,确定训练集的损失函数对应的权重值,并将该权重值加权至训练集对应的损失函数中,使得在通过目标损失函数训练深度学习模型的过程中,通过对应的权重值,优化该训练集的训练样本对模型参数造成的影响,即在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。
图5是本发明实施例提供的一种深度学习模型的建立装置的框图,如图5所示,该装置可以包括:
获取模块401,用于通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;
可选的,所述第一样本特征的特征维度和所述第二样本特征的特征维度相同。
归一处理模块402,用于对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征;
权重模块403,用于计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值;
可选的,所述距离值为欧式距离值。
可选的,所述权重模块403,包括:
倒数子模块,用于将所述距离值的倒数作为所述权重值。
加权模块404,用于获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数;
可选的,在所述深度学习模型为分类任务模型的情况下,所述加权模块404,包括:
获取子模块,用于获取所述训练集的交叉熵损失函数,并通过所述权重值对所述交叉熵损失函数进行加权处理,得到目标交叉熵损失函数;
训练模块405,用于通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
可选的,在所述深度学习模型为分类任务模型的情况下,所述训练模块405,包括:
训练子模块,用于通过所述目标交叉熵损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
可选的,所述装置还包括:
映射模块,用于将所述第一分布特征与所述第二分布特征,分别映射至预设的超球面模型所包括的超球面中的对应位置;
展示模块,用于展示所述超球面模型。
选择模块,用于确定与所述第二分布特征之间的距离值大于或等于预设阈值的目标第一分布特征;
标记模块,用于将所述目标第一分布特征对应的目标训练集进行标记。
综上,本发明实施例提供的深度学习模型的建立装置,通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;对第一样本特征进行归一化处理得到第一分布特征,以及对第二样本特征进行归一化处理得到第二分布特征;计算第一分布特征与第二分布特征之间的距离值,并根据距离值,确定权重值;获取训练集的损失函数,并通过权重值对损失函数进行加权处理,得到目标损失函数;通过目标损失函数对深度学习模型进行训练,得到目标深度学习模型。本发明通过目标损失函数对深度学习模型进行训练,可以使根据分布特征之间的距离值,确定训练集的损失函数对应的权重值,并将该权重值加权至训练集对应的损失函数中,使得在通过目标损失函数训练深度学习模型的过程中,通过对应的权重值,优化该训练集的训练样本对模型参数造成的影响,即在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的深度学习模型在验证集中出现性能下降的几率。
图6是本发明实施例提供的一种样本处理装置的框图,如图6所示,该装置可以包括:
样本模块501,用于获取待处理样本;
处理模块502,用于将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果;
其中,所述目标深度学习模型是根据深度学习模型的建立方法所得到的。
综上,本发明实施例提供的样本处理装置,通过获取待处理样本。将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果。本发明在目标深度学习模型的训练过程中,由于使用到的目标损失函数经过了对应权重值的加权处理,且该权重值为训练集与验证集之间距离值的倒数,在训练集与验证集之间分布差异较大的情况下,通过权重值相对降低训练集对模型参数造成的影响,在训练集与验证集之间分布差异较小的情况下,通过权重值相对提高训练集对模型参数造成的影响,从而降低了通过训练集训练得到的目标深度学习模型在验证集中出现性能下降的几率,因此目标深度学习模型在进行待处理样本的处理时,处理精度更高。
另外,本发明实施例还提供一种装置,具体可以参照图7,该装置600包括处理器610,存储器620以及存储在存储器620上并可在处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述实施例的深度学习模型的建立方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的深度学习模型的建立方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
本发明实施例还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的深度学习模型的建立方法的相应步骤,并且用于实现根据本发明实施例的深度学习模型的建立装置中的相应模块。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种深度学习模型的建立方法,其特征在于,所述方法包括:
通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;
对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征;
计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值;
获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数;
通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
2.根据权利要求1所述的方法,其特征在于,在所述深度学习模型为分类任务模型的情况下,所述获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数,包括:
获取所述训练集的交叉熵损失函数,并通过所述权重值对所述交叉熵损失函数进行加权处理,得到目标交叉熵损失函数;
所述通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型,包括:
通过所述目标交叉熵损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述距离值,确定权重值,包括:
将所述距离值的倒数作为所述权重值。
4.根据权利要求1所述的方法,其特征在于,所述第一样本特征的特征维度和所述第二样本特征的特征维度相同。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一分布特征与所述第二分布特征,分别映射至预设的超球面模型所包括的超球面中的对应位置;
展示所述超球面模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定与所述第二分布特征之间的距离值大于或等于预设阈值的目标第一分布特征;
将所述目标第一分布特征对应的目标训练集进行标记。
7.根据权利要求1所述的方法,其特征在于,所述距离值为欧式距离值。
8.一种样本处理方法,其特征在于,所述方法包括:
获取待处理样本;
将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果;
其中,所述目标深度学习模型是根据权利要求1至权利要求7中任意一项深度学习模型的建立方法所得到的。
9.一种深度学习模型的建立装置,其特征在于,所述装置包括:
获取模块,用于通过深度学习模型,获取训练集中训练样本的第一样本特征,以及验证集中验证样本的第二样本特征;
归一处理模块,用于对所述第一样本特征进行归一化处理得到第一分布特征,以及对所述第二样本特征进行归一化处理得到第二分布特征;
权重模块,用于计算所述第一分布特征与所述第二分布特征之间的距离值,并根据所述距离值,确定权重值;
加权模块,用于获取所述训练集的损失函数,并通过所述权重值对所述损失函数进行加权处理,得到目标损失函数;
训练模块,用于通过所述目标损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
10.根据权利要求9所述的装置,其特征在于,在所述深度学习模型为分类任务模型的情况下,所述加权模块,包括:
获取子模块,用于获取所述训练集的交叉熵损失函数,并通过所述权重值对所述交叉熵损失函数进行加权处理,得到目标交叉熵损失函数;
所述训练模块,包括:
训练子模块,用于通过所述目标交叉熵损失函数对所述深度学习模型进行训练,得到目标深度学习模型。
11.根据权利要求9所述的装置,其特征在于,所述权重模块,包括:
倒数子模块,用于将所述距离值的倒数作为所述权重值。
12.根据权利要求9所述的装置,其特征在于,所述第一样本特征的特征维度和所述第二样本特征的特征维度相同。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
映射模块,用于将所述第一分布特征与所述第二分布特征,分别映射至预设的超球面模型所包括的超球面中的对应位置;
展示模块,用于展示所述超球面模型。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
选择模块,用于确定与所述第二分布特征之间的距离值大于或等于预设阈值的目标第一分布特征;
标记模块,用于将所述目标第一分布特征对应的目标训练集进行标记。
15.根据权利要求9所述的装置,其特征在于,所述距离值为欧式距离值。
16.一种样本处理装置,其特征在于,所述装置包括:
样本模块,用于获取待处理样本;
处理模块,用于将所述待处理样本输入目标深度学习模型进行处理,输出针对所述待处理样本的处理结果;
其中,所述目标深度学习模型是根据权利要求1至权利要求7中任意一项深度学习模型的建立方法所得到的。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的深度学习模型的建立方法的步骤,或者实现如权利要求8所述的样本处理方法的步骤。
18.一种装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的深度学习模型的建立方法的步骤,或者实现如权利要求8所述的样本处理方法的步骤。
CN202010438330.4A 2020-05-21 2020-05-21 深度学习模型的建立方法、样本处理方法及装置 Active CN111814821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010438330.4A CN111814821B (zh) 2020-05-21 2020-05-21 深度学习模型的建立方法、样本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010438330.4A CN111814821B (zh) 2020-05-21 2020-05-21 深度学习模型的建立方法、样本处理方法及装置

Publications (2)

Publication Number Publication Date
CN111814821A true CN111814821A (zh) 2020-10-23
CN111814821B CN111814821B (zh) 2024-06-18

Family

ID=72848420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010438330.4A Active CN111814821B (zh) 2020-05-21 2020-05-21 深度学习模型的建立方法、样本处理方法及装置

Country Status (1)

Country Link
CN (1) CN111814821B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN112613318A (zh) * 2020-12-31 2021-04-06 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN112699946A (zh) * 2020-12-31 2021-04-23 湖南工商大学 一种针对传感监测数据的异常检测方法、装置及相关设备
CN113240110A (zh) * 2021-05-19 2021-08-10 深圳市智影医疗科技有限公司 确定模型的方法、设备以及计算机可读存储介质
CN114550009A (zh) * 2022-04-01 2022-05-27 中国科学院空天信息创新研究院 星载遥感图像的轻量化目标检测方法、装置、设备及介质
JP7611464B1 (ja) * 2023-12-21 2025-01-09 中外製薬株式会社 情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN110033332A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种人脸识别方法、系统及电子设备和存储介质
WO2019228122A1 (zh) * 2018-05-29 2019-12-05 腾讯科技(深圳)有限公司 模型的训练方法、存储介质及计算机设备
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480261A (zh) * 2017-08-16 2017-12-15 上海荷福人工智能科技(集团)有限公司 一种基于深度学习细粒度人脸图像快速检索方法
WO2019228122A1 (zh) * 2018-05-29 2019-12-05 腾讯科技(深圳)有限公司 模型的训练方法、存储介质及计算机设备
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN110033332A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种人脸识别方法、系统及电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张延安;王宏玉;徐方;: "基于深度卷积神经网络与中心损失的人脸识别", 科学技术与工程, no. 35, 18 December 2017 (2017-12-18) *
杨海龙;田莹;王澧冰;: "基于优化损失函数的YOLOv2目标检测器", 辽宁科技大学学报, no. 01, 15 February 2020 (2020-02-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN112528016B (zh) * 2020-11-19 2024-05-07 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN112613318A (zh) * 2020-12-31 2021-04-06 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN112699946A (zh) * 2020-12-31 2021-04-23 湖南工商大学 一种针对传感监测数据的异常检测方法、装置及相关设备
CN112699946B (zh) * 2020-12-31 2022-06-21 湖南工商大学 一种针对传感监测数据的异常检测方法、装置及相关设备
CN112613318B (zh) * 2020-12-31 2022-10-14 上海交通大学 实体名称归一化系统及其方法、计算机可读介质
CN113240110A (zh) * 2021-05-19 2021-08-10 深圳市智影医疗科技有限公司 确定模型的方法、设备以及计算机可读存储介质
CN113240110B (zh) * 2021-05-19 2023-09-29 深圳市智影医疗科技有限公司 确定模型的方法、设备以及计算机可读存储介质
CN114550009A (zh) * 2022-04-01 2022-05-27 中国科学院空天信息创新研究院 星载遥感图像的轻量化目标检测方法、装置、设备及介质
JP7611464B1 (ja) * 2023-12-21 2025-01-09 中外製薬株式会社 情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法
WO2025134327A1 (ja) * 2023-12-21 2025-06-26 中外製薬株式会社 情報処理システム、情報処理方法、情報処理プログラム、および分子化合物の製造方法

Also Published As

Publication number Publication date
CN111814821B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN111814821A (zh) 深度学习模型的建立方法、样本处理方法及装置
CN108229509B (zh) 用于识别物体类别的方法及装置、电子设备
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN111860674A (zh) 样本类别识别方法、装置、计算机设备及存储介质
US9070041B2 (en) Image processing apparatus and image processing method with calculation of variance for composited partial features
CN112232241A (zh) 一种行人重识别方法、装置、电子设备和可读存储介质
JP5214760B2 (ja) 学習装置、方法及びプログラム
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
CN114842343B (zh) 一种基于ViT的航空图像识别方法
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
JP2014232533A (ja) Ocr出力検証システム及び方法
US9025889B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
CN109582813B (zh) 一种文物展品的检索方法、装置、设备和存储介质
CN113947140A (zh) 人脸特征提取模型的训练方法和人脸特征提取方法
CN111814717B (zh) 人脸识别方法、装置及电子设备
CN108564102A (zh) 图像聚类结果评价方法和装置
WO2019230666A1 (ja) 特徴量抽出装置、方法、及びプログラム
CN111753618B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN114842330B (zh) 一种多尺度背景感知池化弱监督建筑物提取方法
CN114596546A (zh) 车辆重识别方法、装置及计算机、可读存储介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN109993178B (zh) 一种特征数据生成和特征匹配方法及装置
CN115761397B (zh) 模型训练方法、图像分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20251112

Address after: No. 257, 2nd Floor, Building 9, No. 2 Huizhu Road, Liangjiang New District, Yubei District, Chongqing 401120

Patentee after: Yuanlijuhe (Chongqing) Information Technology Co.,Ltd.

Country or region after: China

Address before: 100086 Beijing City, Haidian District Academy of Sciences A Road Section Information Center No. 2 block 316-318

Patentee before: MEGVII (BEIJING) TECHNOLOGY Co.,Ltd.

Country or region before: China