[go: up one dir, main page]

CN109815971B - 信息处理方法和信息处理装置 - Google Patents

信息处理方法和信息处理装置 Download PDF

Info

Publication number
CN109815971B
CN109815971B CN201711159683.5A CN201711159683A CN109815971B CN 109815971 B CN109815971 B CN 109815971B CN 201711159683 A CN201711159683 A CN 201711159683A CN 109815971 B CN109815971 B CN 109815971B
Authority
CN
China
Prior art keywords
class
distance
samples
threshold
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711159683.5A
Other languages
English (en)
Other versions
CN109815971A (zh
Inventor
王梦蛟
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201711159683.5A priority Critical patent/CN109815971B/zh
Priority to US16/191,090 priority patent/US10990853B2/en
Priority to JP2018215457A priority patent/JP7119935B2/ja
Priority to DE102018219763.6A priority patent/DE102018219763A1/de
Publication of CN109815971A publication Critical patent/CN109815971A/zh
Application granted granted Critical
Publication of CN109815971B publication Critical patent/CN109815971B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种信息处理方法和信息处理装置,其中信息处理方法包括:将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及对于多个样本,通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。根据本公开的实施例,可以提高提取的样本的特征的可判别性。

Description

信息处理方法和信息处理装置
技术领域
本公开涉及信息处理领域,具体涉及能够提高提取的样本的特征的可判别性的信息处理方法和信息处理装置。
背景技术
在卷积神经网络训练的过程中,损失函数的设计扮演着重要的角色。不同的损失函数可以导致卷积神经网络产生完全不同的性能。在以分类为目标的卷积神经网络模型中,最常见的损失函数是softmax损失函数。使用softmax损失函数可以使得不同类别样本之间具有可分性。对于分类问题而言,样本特征不仅要可分,同时还要具有可判别性。后者要求样本特征要具有更小的类内距离以及更大的类间距离。softmax损失函数则仅仅保证了样本特征的可分性,而没有考虑特征的可判别性。最近提出了一种新型的损失函数centerloss,其通过最小化各个样本的特征向量至类的中心向量的距离,从而使得样本特征具有更小的类内距离。然而,根据样本可判别性的定义,样本特征不仅要具有更小的类间距离,还要有更大的类间距离。而在centerloss损失函数中,类间距离并没有得到体现。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能解决现有技术中的一个或多个缺点的信息处理方法和信息处理装置。
根据本公开的一方面,提供了一种信息处理方法,包括:可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及对于多个样本,可以通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
根据本公开的另一方面,提供了一种信息处理装置,包括:提取特征向量单元,可以被配置成将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及更新参数单元,被配置成对于多个样本,可以通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
根据本公开的又一方面,提供了一种记录有指令的计算机可读记录介质,所述指令在被执行时使得:可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及对于多个样本,可以通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图;
图2是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;以及
图3是示出作为本公开的实施例中可采用的信息处理装置的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
在卷积神经网络分类器中,经常使用的softmax损失函数的定义如下:
Figure BDA0001474438280000031
在公式(1)中,LS是softmax损失函数的结果,W是系数矩阵,b是偏置向量,m是总样本的个数,xi(i=1,2,…,m)是一个样本的特征向量(下面为了方便描述,用样本的特征向量xi来表示该样本),yi是样本xi的类别标签,n是总的类别数。
现有技术中的centerloss损失函数描述了样本的特征向量至类的中心向量的距离。通过最小化这个距离,可以使得样本的类内距离变小。centerloss损失函数可以用如下公式表示:
Figure BDA0001474438280000032
在公式(2)中,LC是centerloss损失函数的结果,m是总样本的个数,
Figure BDA0001474438280000041
是样本xi所属的类yi的中心向量。
centerloss损失函数的结果LC相对于xi的梯度为:
Figure BDA0001474438280000042
Figure BDA0001474438280000043
的更新如下:
Figure BDA0001474438280000044
在公式(4)中,δ(X)是条件函数,当满足X条件时,δ(X)=1,否则δ(X)=0。
现有技术中的centerloss损失函数通过最小化各个样本的特征向量至类的中心向量的距离,从而使得样本特征具有更小的类内距离。然而,根据样本可判别性的定义,样本特征不只要具有更小的类间距离,还要有更大的类间距离。而在centerloss损失函数中,类间距离并没有得到体现。
本申请提出了一种改进的损失函数,该损失函数考虑样本的特征向量之间的类内距离和类间距离,其使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离。这里,我们使用两个阈值来定量衡量类内距离和类间距离:类内边距和类间边距。使得样本特征的类内距离小于类内边距,同时类间距离大于类间边距,则提取的特征满足可判别性的要求。通过这种方法,可以保证所提取的样本特征具有小的类内距离以及大的类间距离。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开实施例的信息处理方法100的流程示例。图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图。如图1所示,根据本公开的实施例的信息处理方法100包括提取特征向量步骤S102和更新参数步骤S104。
在提取特征向量步骤S102中,可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量。
所述多个样本可以是样本集中的所有样本。但是由于内存占用问题,一种折中的方式是每次迭代训练分类器时选取固定数目的样本,每次迭代训练分类器中选取的具体样本可以不同。
分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。
在更新参数步骤S104中,对于多个样本,通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
在根据本公开实施例的信息处理方法100的损失函数中,同时考虑用于衡量属于同一类的样本的特征向量之间的距离的类内距离和用于衡量属于不同类的样本的特征向量之间的距离的类间距离,使损失函数与类内距离正相关,与类间距离负相关。并且,引入了类内边距D1(即,如上所述的第一阈值)和类间边距D2(即,如上所述的第二阈值)来衡量类内距离和类间距离,使得多个样本中的每个样本的类内距离均小于类内边距D1,两个不同的类之间的类间距离大于类间边距D2。为了使两个类分离,类间边距D2大于类内边距D1的两倍。
优选地,分类器包括卷积神经网络。卷积神经网络仅是例示而非限制,分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。
优选地,在根据本公开实施例的信息处理方法100中,计算每个样本的特征向量与该样本所属的类的中心向量之间的距离,作为该样本的类内距离。
在下面,假设m是总样本的个数,xi(i=1,2,…,m)是一个样本的特征向量(下面为了方便描述,用样本的特征向量xi来表示该样本)。
将每个样本的特征向量与该样本所属的类的中心向量之间的距离作为该样本的类内距离(如上所述,类内距离用于衡量属于同一类的样本的特征向量之间的距离),该样本的类内距离可以表示为
Figure BDA0001474438280000051
其中,
Figure BDA0001474438280000052
是样本xi所属的类yi的中心向量。
定义类内损失函数L′C为:
Figure BDA0001474438280000061
在公式(5)中,m是总样本的个数,D1是类内边距。通过最小化L′C,可以保证每个样本的特征向量与该样本所属的类的中心向量之间的距离小于D1
优选地,在根据本公开实施例的信息处理方法100中,对于两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离。
用于衡量属于不同类的样本的特征向量之间的距离的类间距离可以用两个类的中心向量之间的距离表示,即类间距离可以表示为||ca-cb||,其中,ca是一个类别的中心向量,cb是另一个类别的中心向量。
定义类间边距为D2。类间损失函数可以用如下公式来表示:
Figure BDA0001474438280000062
在公式(6)中,n是总的类别数。由公式(6)可知,通过最小化LD,每两个类别的中心向量之间的距离大于类间边距D2。为了使两个类分离,类间边距D2应该至少为类内边距D1的两倍。
优选地,每个类的中心向量是属于该类的所有样本的特征向量的平均值。作为示例,将属于每个类的所有样本的特征向量的平均值作为该类的中心向量。
这样,考虑类内距离和类间距离的损失函数可以表示为:
Figure BDA0001474438280000063
在公式(7)中,λ是系数,可以根据经验确定。由公式(7)可知,损失函数L与类内距离正相关,与类间距离负相关。
由公式(5)可知,L′C相对于xi的梯度为:
Figure BDA0001474438280000071
在公式(8)中,
Figure BDA0001474438280000072
是类别yi的样本个数。
由公式(6)可知,LD相对于xi的梯度为:
Figure BDA0001474438280000073
在公式(9)中,
Figure BDA0001474438280000074
是类别yi的样本个数,n是总的类别数。
对于中心向量
Figure BDA0001474438280000075
的更新而言,则与现有的centerloss损失函数中相同。
优选地,基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为第一阈值。如上所述,第一阈值也称为类内边距。作为具体示例,如果所计算出的最小特征向量方差和最大特征向量方差为smin和smax,则类内边距D1可以表示为:
D1=(smin+smax)/2 (10)
类间边距D2可以根据D1来得到。由于D2应当远大于2D1,因此D2与D1之间应当满足如下关系:
D2≥2D1*10 (11)
优选地,在迭代训练分类器时,根据损失函数更新分类器的参数,从而更新样本的特征向量,并且在每迭代预定次数时,更新所述第一阈值和所述第二阈值。作为具体示例,在迭代训练分类器时,应该根据损失函数来更新分类器的参数,从而更新样本的特征向量。此外,对类内边距D1和类间边距D2的计算应当在迭代一定次数后便更新一次。举例来说,假设最大的迭代次数为Niter,那么至少应该在Niter/10次迭代后便更新一次D1和D2参数,从而保证类间距离和类内距离收敛到一个合理的值。
优选地,除了类内距离和类间距离之外,损失函数还可以包括softmax损失函数。作为具体示例,在考虑softmax损失函数时,整体的损失函数可以用如下公式表达:
Figure BDA0001474438280000081
假设分类器的输入为:训练数据{xi};初始化的分类器参数θ;损失函数参数w和{cj|j=1,2,...n};cj学习速率α和参数更新速率μ;λ;迭代条件∈;迭代次数t=0。分类器的输出为经训练的分类器参数θ。基于公式(12),下面的式子简单描述了分类器的整体的训练过程。
当|Lt-Lt-1|≥∈
t:=t+1
Lt-1:=Lt
Figure BDA0001474438280000082
对于每个i:
Figure BDA0001474438280000083
对于每个j:
Figure BDA0001474438280000084
Figure BDA0001474438280000085
Figure BDA0001474438280000086
由上可见,该训练方法更易于实际应用。
综上所述,在根据本公开实施例的信息处理方法100中,同时考虑样本的特征向量之间的类内距离和类间距离,使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离,并且使用类内边距和类间边距两个阈值来定量衡量类内距离和类间距离,使得样本特征的类内距离小于类内边距,同时类间距离大于类间边距,从而提高了提取的样本的特征的可判别性。此外,该信息处理方法100更易于实际应用。
与上述信息处理方法实施例相对应地,本公开还提供了以下信息处理装置的实施例。
图2是示出根据本公开的实施例的信息处理装置200的功能配置示例的框图。
如图2所示,根据本公开的实施例的信息处理装置200可以包括提取特征向量单元202和更新参数单元204。接下来将描述提取特征向量单元202和更新参数单元204的功能配置示例。
在提取特征向量单元202中,可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量。
所述多个样本可以是样本集中的所有样本。但是由于内存占用问题,一种折中的方式是每次迭代训练分类器时选取固定数目的样本,每次迭代训练分类器中选取的具体样本可以不同。
分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。
在更新参数单元204中,对于多个样本,通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
在根据本公开实施例的信息处理装置200的损失函数中,同时考虑用于衡量属于同一类的样本的特征向量之间的距离的类内距离和用于衡量属于不同类的样本的特征向量之间的距离的类间距离,使损失函数与类内距离正相关,与类间距离负相关。并且,引入了类内边距(即,如上所述的第一阈值)和类间边距(即,如上所述的第二阈值)来衡量类内距离和类间距离,使得多个样本中的每个样本的类内距离均小于类内边距,两个不同的类之间的类间距离大于类间边距。为了使两个类分离,类间边距大于类内边距的两倍。
优选地,分类器包括卷积神经网络。卷积神经网络仅是例示而非限制,分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。
优选地,在更新参数单元204中,计算每个样本的特征向量与该样本所属的类的中心向量之间的距离,作为该样本的类内距离。
将每个样本的特征向量与该样本所属的类的中心向量之间的距离作为该样本的类内距离。有关类内距离和类内损失函数的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,在更新参数单元204中,对于两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离。
用于衡量属于不同类的样本的特征向量之间的距离的类间距离可以用两个类的中心向量之间的距离表示。有关类间距离和类间损失函数的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,每个类的中心向量是属于该类的所有样本的特征向量的平均值。作为示例,将属于每个类的所有样本的特征向量的平均值作为该类的中心向量。
优选地,基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为第一阈值。有关第一阈值(类内边距)和第二阈值(类间边距)的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,在迭代训练分类器时,根据损失函数更新分类器的参数,从而更新样本的特征向量,并且在每迭代预定次数时,更新所述第一阈值和所述第二阈值。作为具体示例,在迭代训练分类器时,应该根据损失函数来更新分类器的参数,从而更新样本的特征向量。有关更新第一阈值(类内边距)和第二阈值(类间边距)的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,除了类内距离和类间距离之外,损失函数还可以包括softmax损失函数。有关包括softmax的损失函数的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
此外,对分类器的整体的训练过程可以参见以上方法实施例中相应位置的描述,在此不再重复。
综上所述,在根据本公开实施例的信息处理装置200中,同时考虑样本的特征向量之间的类内距离和类间距离,使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离,并且使用类内边距和类间边距两个阈值来定量衡量类内距离和类间距离,使得样本特征的类内距离小于类内边距,同时类间距离大于类间边距,从而提高了提取的样本的特征的可判别性。此外,该信息处理装置200更易于实际应用。
应指出,尽管以上描述了根据本公开的实施例的信息处理装置的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。
此外,本申请还提供了一种记录有指令的计算机可读记录介质,所述指令在被执行时使得:可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及对于多个样本,可以通过使损失函数最小化来更新分类器的参数,其中,损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且第二阈值大于第一阈值的两倍。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息处理方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
根据本公开的另一方面,还提供了利用根据上述信息处理方法训练的分类器对输入进行分类的方法和装置。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图3所示的通用个人计算机300安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图3中,中央处理单元(CPU)301根据只读存储器(ROM)302中存储的程序或从存储部分308加载到随机存取存储器(RAM)303的程序执行各种处理。在RAM 303中,也根据需要存储当CPU 301执行各种处理等时所需的数据。
CPU 301、ROM 302和RAM 303经由总线304彼此连接。输入/输出接口305也连接到总线304。
下述部件连接到输入/输出接口305:输入部分306,包括键盘、鼠标等;输出部分307,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分308,包括硬盘等;和通信部分309,包括网络接口卡比如LAN卡、调制解调器等。通信部分309经由网络比如因特网执行通信处理。
根据需要,驱动器310也连接到输入/输出接口305。可拆卸介质311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器310上,使得从中读出的计算机程序根据需要被安装到存储部分308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质311。可拆卸介质311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 302、存储部分308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种信息处理方法,包括:
将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中,所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于所述第一阈值的两倍。
附记2.根据附记1所述的信息处理方法,其中,所述分类器包括卷积神经网络。
附记3.根据附记1所述的信息处理方法,其中,对于所述两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离。
附记4.根据附记1所述的信息处理方法,其中,计算每个样本的特征向量与该样本所属的类的中心向量之间的距离,作为该样本的类内距离。
附记5.根据附记3或4所述的信息处理方法,其中,每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。
附记6.根据附记1所述的信息处理方法,其中,基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。
附记7.根据附记1所述的信息处理方法,其中,在迭代训练所述分类器时,根据所述损失函数更新所述分类器的参数,从而更新样本的特征向量,并且在每迭代预定次数时,更新所述第一阈值和所述第二阈值。
附记8.根据附记1所述的信息处理方法,其中,除了所述类内距离和所述类间距离之外,所述损失函数还包括softmax损失函数。
附记9.一种信息处理装置,包括:
提取特征向量单元,被配置成将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
更新参数单元,被配置成对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于或等于所述第一阈值的两倍。
附记10.根据附记9所述的信息处理装置,其中,所述分类器包括卷积神经网络。
附记11.根据附记9所述的信息处理装置,其中,在更新参数单元中,对于所述两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离。
附记12.根据附记9所述的信息处理装置,其中,在更新参数单元中,计算每个样本的特征向量与该样本所属的类的中心向量之间的距离,作为该样本的类内距离。
附记13.根据附记11或12所述的信息处理装置,其中,每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。
附记14.根据附记9所述的信息处理装置,其中,在更新参数单元中,基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。
附记15.根据附记9所述的信息处理装置,其中,在迭代训练所述分类器时,根据所述损失函数更新所述分类器的参数,从而更新样本的特征向量,并且在每迭代预定次数时,更新所述第一阈值和所述第二阈值。
附记16.根据附记9所述的信息处理装置,其中,在更新参数单元中,除了所述类内距离和所述类间距离之外,所述损失函数还包括softmax损失函数。
附记17.一种记录有指令的计算机可读记录介质,所述指令在被执行时使得:
将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中,所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于所述第一阈值的两倍。

Claims (8)

1.一种信息处理方法,包括:
将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中,所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于所述第一阈值的两倍,
其中,对于所述两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离,以及
基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。
2.根据权利要求1所述的信息处理方法,其中,所述分类器包括卷积神经网络。
3.根据权利要求1所述的信息处理方法,其中,计算每个样本的特征向量与该样本所属的类的中心向量之间的距离,作为该样本的类内距离。
4.根据权利要求1或3所述的信息处理方法,其中,每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。
5.根据权利要求1所述的信息处理方法,其中,在迭代训练所述分类器时,根据所述损失函数更新所述分类器的参数,从而更新样本的特征向量,并且在每迭代预定次数时,更新所述第一阈值和所述第二阈值。
6.根据权利要求1所述的信息处理方法,其中,除了所述类内距离和所述类间距离之外,所述损失函数还包括softmax损失函数。
7.一种信息处理装置,包括:
提取特征向量单元,被配置成将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
更新参数单元,被配置成对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于或等于所述第一阈值的两倍,
其中,在所述更新参数单元中,对于所述两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离,以及
基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。
8.一种记录有指令的计算机可读记录介质,所述指令在被执行时使得:
将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量;以及
对于所述多个样本,通过使损失函数最小化来更新所述分类器的参数,其中,所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关,与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关,其中,所述多个样本中的每个样本的类内距离均小于第一阈值,两个不同的类之间的类间距离大于第二阈值,并且所述第二阈值大于所述第一阈值的两倍,
其中,对于所述两个不同的类,计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离,作为所述两个不同的类之间的类间距离,以及
基于每个类中的所有样本的特征向量计算每个类的特征向量方差,将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。
CN201711159683.5A 2017-11-20 2017-11-20 信息处理方法和信息处理装置 Expired - Fee Related CN109815971B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201711159683.5A CN109815971B (zh) 2017-11-20 2017-11-20 信息处理方法和信息处理装置
US16/191,090 US10990853B2 (en) 2017-11-20 2018-11-14 Information processing method and information processing apparatus for improving the discriminality of features of extracted samples
JP2018215457A JP7119935B2 (ja) 2017-11-20 2018-11-16 情報処理方法及び情報処理装置
DE102018219763.6A DE102018219763A1 (de) 2017-11-20 2018-11-19 Informationsverarbeitungsverfahren und Informationsverarbeitungsvorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711159683.5A CN109815971B (zh) 2017-11-20 2017-11-20 信息处理方法和信息处理装置

Publications (2)

Publication Number Publication Date
CN109815971A CN109815971A (zh) 2019-05-28
CN109815971B true CN109815971B (zh) 2023-03-10

Family

ID=66336666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711159683.5A Expired - Fee Related CN109815971B (zh) 2017-11-20 2017-11-20 信息处理方法和信息处理装置

Country Status (4)

Country Link
US (1) US10990853B2 (zh)
JP (1) JP7119935B2 (zh)
CN (1) CN109815971B (zh)
DE (1) DE102018219763A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906434A (zh) * 2019-12-03 2021-06-04 富士通株式会社 信息处理装置和信息处理方法
US20210192318A1 (en) * 2019-12-23 2021-06-24 Dts, Inc. System and method for training deep-learning classifiers
CN111222551A (zh) * 2019-12-30 2020-06-02 成都云尚物联环境科技有限公司 污水管道缺陷图像识别方法、装置、存储介质及电子设备
US20230126191A1 (en) 2020-03-31 2023-04-27 Toray Industries, Inc. Data classification device, data classification method, and data classification program
US20230153393A1 (en) * 2020-04-23 2023-05-18 Nippon Telegraph And Telephone Corporation Parameter optimization method, non-transitory recording medium, feature amount extraction method, and parameter optimization device
JP7566497B2 (ja) * 2020-06-05 2024-10-15 キヤノンマーケティングジャパン株式会社 情報処理装置、システム、情報処理装置の制御方法、及びプログラム
CN111915021B (zh) * 2020-08-14 2024-03-12 北京达佳互联信息技术有限公司 图像处理模型的训练和使用方法、装置、服务器及介质
CN112115989A (zh) * 2020-09-04 2020-12-22 西安外事学院 一种蠕虫时间序列分类典型样本确认方法
CN114519375A (zh) * 2020-10-30 2022-05-20 富士通株式会社 用于神经网络的领域自适应的方法、设备和存储介质
US20230072533A1 (en) * 2021-08-27 2023-03-09 Takehiko Mizoguchi Ordinal classification through network decomposition
US20230386450A1 (en) * 2022-05-25 2023-11-30 Samsung Electronics Co., Ltd. System and method for detecting unhandled applications in contrastive siamese network training

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
CN104751166A (zh) * 2013-12-30 2015-07-01 中国科学院深圳先进技术研究院 基于光谱角和欧氏距离的遥感影像分类方法
CN105138993A (zh) * 2015-08-31 2015-12-09 小米科技有限责任公司 建立人脸识别模型的方法及装置
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
WO2016033965A1 (zh) * 2014-09-05 2016-03-10 华为技术有限公司 图像分类器的生成方法、图像分类方法和装置
CN106257495A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种数字识别方法及装置
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法
CN107085164A (zh) * 2017-03-22 2017-08-22 清华大学 一种电网故障类型确定方法及装置
CN107103281A (zh) * 2017-03-10 2017-08-29 中山大学 基于聚集损失深度度量学习的人脸识别方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5638465A (en) * 1994-06-14 1997-06-10 Nippon Telegraph And Telephone Corporation Image inspection/recognition method, method of generating reference data for use therein, and apparatuses therefor
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US6976016B2 (en) * 2001-04-02 2005-12-13 Vima Technologies, Inc. Maximizing expected generalization for learning complex query concepts
US7248659B2 (en) * 2002-02-20 2007-07-24 Freescale Semiconductor, Inc. Method for adjusting acquisition speed in a wireless network
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US7555153B2 (en) * 2004-07-01 2009-06-30 Arthrovision Inc. Non-invasive joint evaluation
US7353472B2 (en) * 2005-08-12 2008-04-01 International Business Machines Corporation System and method for testing pattern sensitive algorithms for semiconductor design
WO2009088963A2 (en) * 2008-01-02 2009-07-16 Bio-Tree Systems, Inc. Methods of obtaining geometry from images
US8340385B2 (en) * 2008-12-05 2012-12-25 Siemens Aktiengesellschaft Method and system for left ventricle detection in 2D magnetic resonance images using ranking based multi-detector aggregation
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
JP5355708B2 (ja) * 2009-11-12 2013-11-27 株式会社東芝 計量空間学習装置及びパターン認識装置
JP5588165B2 (ja) * 2009-12-24 2014-09-10 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
US8873843B2 (en) * 2011-05-31 2014-10-28 Nec Laboratories America, Inc. Fast methods of learning distance metric for classification and retrieval
US8948500B2 (en) * 2012-05-31 2015-02-03 Seiko Epson Corporation Method of automatically training a classifier hierarchy by dynamic grouping the training samples
JP2014095967A (ja) * 2012-11-08 2014-05-22 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP2016511397A (ja) * 2013-01-31 2016-04-14 ユニベルシテ ドゥ モンペリエ 希少事象を同定する方法
US9471886B2 (en) * 2013-10-29 2016-10-18 Raytheon Bbn Technologies Corp. Class discriminative feature transformation
IL239191A0 (en) * 2015-06-03 2015-11-30 Amir B Geva Image sorting system
US10565496B2 (en) * 2016-02-04 2020-02-18 Nec Corporation Distance metric learning with N-pair loss
WO2018081135A1 (en) * 2016-10-25 2018-05-03 Vmaxx Inc. Point to set similarity comparison and deep feature learning for visual recognition
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
EP3629898A4 (en) * 2017-05-30 2021-01-20 Arterys Inc. AUTOMATED LESION DETECTION, SEGMENTATION AND LENGTH IDENTIFICATION

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014049118A (ja) * 2012-08-31 2014-03-17 Fujitsu Ltd 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途
CN104751166A (zh) * 2013-12-30 2015-07-01 中国科学院深圳先进技术研究院 基于光谱角和欧氏距离的遥感影像分类方法
WO2016033965A1 (zh) * 2014-09-05 2016-03-10 华为技术有限公司 图像分类器的生成方法、图像分类方法和装置
CN106257495A (zh) * 2015-06-19 2016-12-28 阿里巴巴集团控股有限公司 一种数字识别方法及装置
CN105138993A (zh) * 2015-08-31 2015-12-09 小米科技有限责任公司 建立人脸识别模型的方法及装置
CN105243398A (zh) * 2015-09-08 2016-01-13 西安交通大学 基于线性判别分析准则的改进卷积神经网络性能的方法
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
CN106897390A (zh) * 2017-01-24 2017-06-27 北京大学 基于深度度量学习的目标精确检索方法
CN107103281A (zh) * 2017-03-10 2017-08-29 中山大学 基于聚集损失深度度量学习的人脸识别方法
CN107085164A (zh) * 2017-03-22 2017-08-22 清华大学 一种电网故障类型确定方法及装置

Also Published As

Publication number Publication date
US20190156155A1 (en) 2019-05-23
US10990853B2 (en) 2021-04-27
DE102018219763A1 (de) 2019-05-23
JP2019096313A (ja) 2019-06-20
CN109815971A (zh) 2019-05-28
JP7119935B2 (ja) 2022-08-17

Similar Documents

Publication Publication Date Title
CN109815971B (zh) 信息处理方法和信息处理装置
Clarkson et al. Sublinear optimization for machine learning
US11398062B2 (en) Face synthesis
CN110889487A (zh) 神经网络架构搜索装置和方法及计算机可读记录介质
Su et al. Order-preserving wasserstein distance for sequence matching
TW201812615A (zh) 情感傾向的識別方法、對象分類方法及資料處理系統
US20120059788A1 (en) Rating prediction device, rating prediction method, and program
US20180039911A1 (en) Method and system of selecting training features for a machine learning algorithm
US10796205B2 (en) Multi-view vector processing method and multi-view vector processing device
CN111461155A (zh) 训练分类模型的装置和方法
CN109685087B9 (zh) 信息处理方法和装置以及信息检测方法
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
CN104346622A (zh) 卷积神经网络分类器及其分类方法和训练方法
CN110633725A (zh) 训练分类模型的方法和装置以及分类方法和装置
CN101877064B (zh) 图像分类方法及图像分类装置
CN110276362A (zh) 训练图像模型的方法和装置以及分类预测方法和装置
CN112819020A (zh) 训练分类模型的方法和装置及分类方法
US8369611B2 (en) Compact handwriting recognition
Han et al. Compact and discriminative descriptor inference using multi-cues
CN105843818A (zh) 训练设备和训练方法、判断设备、以及推荐设备
Hidru et al. EquiNMF: Graph regularized multiview nonnegative matrix factorization
CN108133224B (zh) 用于评估分类任务复杂度的方法
CN112784635A (zh) 信息处理装置和方法以及利用模型分类的装置
CN107305565A (zh) 信息处理装置、信息处理方法以及信息处理设备
CN112132169B (zh) 信息处理装置和信息处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230310

CF01 Termination of patent right due to non-payment of annual fee