CN109815971B

CN109815971B - 信息处理方法和信息处理装置

Info

Publication number: CN109815971B
Application number: CN201711159683.5A
Authority: CN
Inventors: 王梦蛟; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2023-03-10
Anticipated expiration: 2037-11-20
Also published as: US20190156155A1; US10990853B2; DE102018219763A1; JP2019096313A; CN109815971A; JP7119935B2

Abstract

公开了一种信息处理方法和信息处理装置，其中信息处理方法包括：将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及对于多个样本，通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。根据本公开的实施例，可以提高提取的样本的特征的可判别性。

Description

信息处理方法和信息处理装置

技术领域

本公开涉及信息处理领域，具体涉及能够提高提取的样本的特征的可判别性的信息处理方法和信息处理装置。

背景技术

在卷积神经网络训练的过程中，损失函数的设计扮演着重要的角色。不同的损失函数可以导致卷积神经网络产生完全不同的性能。在以分类为目标的卷积神经网络模型中，最常见的损失函数是softmax损失函数。使用softmax损失函数可以使得不同类别样本之间具有可分性。对于分类问题而言，样本特征不仅要可分，同时还要具有可判别性。后者要求样本特征要具有更小的类内距离以及更大的类间距离。softmax损失函数则仅仅保证了样本特征的可分性，而没有考虑特征的可判别性。最近提出了一种新型的损失函数centerloss，其通过最小化各个样本的特征向量至类的中心向量的距离，从而使得样本特征具有更小的类内距离。然而，根据样本可判别性的定义，样本特征不仅要具有更小的类间距离，还要有更大的类间距离。而在centerloss损失函数中，类间距离并没有得到体现。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能解决现有技术中的一个或多个缺点的信息处理方法和信息处理装置。

根据本公开的一方面，提供了一种信息处理方法，包括：可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及对于多个样本，可以通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

根据本公开的另一方面，提供了一种信息处理装置，包括：提取特征向量单元，可以被配置成将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及更新参数单元，被配置成对于多个样本，可以通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

根据本公开的又一方面，提供了一种记录有指令的计算机可读记录介质，所述指令在被执行时使得：可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及对于多个样本，可以通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图；

图2是示出根据本公开的实施例的信息处理装置的功能配置示例的框图；以及

图3是示出作为本公开的实施例中可采用的信息处理装置的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

在卷积神经网络分类器中，经常使用的softmax损失函数的定义如下：

在公式(1)中，L_S是softmax损失函数的结果，W是系数矩阵，b是偏置向量，m是总样本的个数，x_i(i＝1,2,…,m)是一个样本的特征向量(下面为了方便描述，用样本的特征向量x_i来表示该样本)，yⁱ是样本x_i的类别标签，n是总的类别数。

现有技术中的centerloss损失函数描述了样本的特征向量至类的中心向量的距离。通过最小化这个距离，可以使得样本的类内距离变小。centerloss损失函数可以用如下公式表示：

在公式(2)中，L_C是centerloss损失函数的结果，m是总样本的个数，

是样本x_i所属的类yⁱ的中心向量。

centerloss损失函数的结果L_C相对于x_i的梯度为：

的更新如下：

在公式(4)中，δ(X)是条件函数，当满足X条件时，δ(X)＝1，否则δ(X)＝0。

现有技术中的centerloss损失函数通过最小化各个样本的特征向量至类的中心向量的距离，从而使得样本特征具有更小的类内距离。然而，根据样本可判别性的定义，样本特征不只要具有更小的类间距离，还要有更大的类间距离。而在centerloss损失函数中，类间距离并没有得到体现。

本申请提出了一种改进的损失函数，该损失函数考虑样本的特征向量之间的类内距离和类间距离，其使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离。这里，我们使用两个阈值来定量衡量类内距离和类间距离：类内边距和类间边距。使得样本特征的类内距离小于类内边距，同时类间距离大于类间边距，则提取的特征满足可判别性的要求。通过这种方法，可以保证所提取的样本特征具有小的类内距离以及大的类间距离。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的信息处理方法100的流程示例。图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图。如图1所示，根据本公开的实施例的信息处理方法100包括提取特征向量步骤S102和更新参数步骤S104。

在提取特征向量步骤S102中，可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量。

所述多个样本可以是样本集中的所有样本。但是由于内存占用问题，一种折中的方式是每次迭代训练分类器时选取固定数目的样本，每次迭代训练分类器中选取的具体样本可以不同。

分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。

在更新参数步骤S104中，对于多个样本，通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

在根据本公开实施例的信息处理方法100的损失函数中，同时考虑用于衡量属于同一类的样本的特征向量之间的距离的类内距离和用于衡量属于不同类的样本的特征向量之间的距离的类间距离，使损失函数与类内距离正相关，与类间距离负相关。并且，引入了类内边距D₁(即，如上所述的第一阈值)和类间边距D₂(即，如上所述的第二阈值)来衡量类内距离和类间距离，使得多个样本中的每个样本的类内距离均小于类内边距D₁，两个不同的类之间的类间距离大于类间边距D₂。为了使两个类分离，类间边距D₂大于类内边距D₁的两倍。

优选地，分类器包括卷积神经网络。卷积神经网络仅是例示而非限制，分类器可以是现有技术中已知的、可以提取表征每个样本的特征的特征向量的分类器。

优选地，在根据本公开实施例的信息处理方法100中，计算每个样本的特征向量与该样本所属的类的中心向量之间的距离，作为该样本的类内距离。

在下面，假设m是总样本的个数，x_i(i＝1,2,…,m)是一个样本的特征向量(下面为了方便描述，用样本的特征向量x_i来表示该样本)。

将每个样本的特征向量与该样本所属的类的中心向量之间的距离作为该样本的类内距离(如上所述，类内距离用于衡量属于同一类的样本的特征向量之间的距离)，该样本的类内距离可以表示为

其中，

是样本x_i所属的类yⁱ的中心向量。

定义类内损失函数L′_C为：

在公式(5)中，m是总样本的个数，D₁是类内边距。通过最小化L′_C，可以保证每个样本的特征向量与该样本所属的类的中心向量之间的距离小于D₁。

优选地，在根据本公开实施例的信息处理方法100中，对于两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离。

用于衡量属于不同类的样本的特征向量之间的距离的类间距离可以用两个类的中心向量之间的距离表示，即类间距离可以表示为||c_a-c_b||，其中，c_a是一个类别的中心向量，c_b是另一个类别的中心向量。

定义类间边距为D₂。类间损失函数可以用如下公式来表示：

在公式(6)中，n是总的类别数。由公式(6)可知，通过最小化L_D，每两个类别的中心向量之间的距离大于类间边距D₂。为了使两个类分离，类间边距D₂应该至少为类内边距D₁的两倍。

优选地，每个类的中心向量是属于该类的所有样本的特征向量的平均值。作为示例，将属于每个类的所有样本的特征向量的平均值作为该类的中心向量。

这样，考虑类内距离和类间距离的损失函数可以表示为：

在公式(7)中，λ是系数，可以根据经验确定。由公式(7)可知，损失函数L与类内距离正相关，与类间距离负相关。

由公式(5)可知，L′_C相对于x_i的梯度为：

在公式(8)中，

是类别yⁱ的样本个数。

由公式(6)可知，L_D相对于x_i的梯度为：

在公式(9)中，

是类别yⁱ的样本个数，n是总的类别数。

对于中心向量

的更新而言，则与现有的centerloss损失函数中相同。

优选地，基于每个类中的所有样本的特征向量计算每个类的特征向量方差，将所计算出的最小特征向量方差和最大特征向量方差的平均值作为第一阈值。如上所述，第一阈值也称为类内边距。作为具体示例，如果所计算出的最小特征向量方差和最大特征向量方差为s_min和s_max，则类内边距D₁可以表示为：

D₁＝(s_min+s_max)/2 (10)

类间边距D₂可以根据D₁来得到。由于D₂应当远大于2D₁，因此D₂与D₁之间应当满足如下关系：

D₂≥2D₁*10 (11)

优选地，在迭代训练分类器时，根据损失函数更新分类器的参数，从而更新样本的特征向量，并且在每迭代预定次数时，更新所述第一阈值和所述第二阈值。作为具体示例，在迭代训练分类器时，应该根据损失函数来更新分类器的参数，从而更新样本的特征向量。此外，对类内边距D₁和类间边距D₂的计算应当在迭代一定次数后便更新一次。举例来说，假设最大的迭代次数为N_iter，那么至少应该在N_iter/10次迭代后便更新一次D₁和D₂参数，从而保证类间距离和类内距离收敛到一个合理的值。

优选地，除了类内距离和类间距离之外，损失函数还可以包括softmax损失函数。作为具体示例，在考虑softmax损失函数时，整体的损失函数可以用如下公式表达：

假设分类器的输入为:训练数据{x_i}；初始化的分类器参数θ；损失函数参数w和{c_j|j＝1，2，...n}；c_j学习速率α和参数更新速率μ；λ；迭代条件∈；迭代次数t＝0。分类器的输出为经训练的分类器参数θ。基于公式(12)，下面的式子简单描述了分类器的整体的训练过程。

当|L^t-L^t-1|≥∈

t:＝t+1

L^t-1:＝L^t

对于每个i：

对于每个j：

由上可见，该训练方法更易于实际应用。

综上所述，在根据本公开实施例的信息处理方法100中，同时考虑样本的特征向量之间的类内距离和类间距离，使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离，并且使用类内边距和类间边距两个阈值来定量衡量类内距离和类间距离，使得样本特征的类内距离小于类内边距，同时类间距离大于类间边距，从而提高了提取的样本的特征的可判别性。此外，该信息处理方法100更易于实际应用。

与上述信息处理方法实施例相对应地，本公开还提供了以下信息处理装置的实施例。

图2是示出根据本公开的实施例的信息处理装置200的功能配置示例的框图。

如图2所示，根据本公开的实施例的信息处理装置200可以包括提取特征向量单元202和更新参数单元204。接下来将描述提取特征向量单元202和更新参数单元204的功能配置示例。

在提取特征向量单元202中，可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量。

在更新参数单元204中，对于多个样本，通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

在根据本公开实施例的信息处理装置200的损失函数中，同时考虑用于衡量属于同一类的样本的特征向量之间的距离的类内距离和用于衡量属于不同类的样本的特征向量之间的距离的类间距离，使损失函数与类内距离正相关，与类间距离负相关。并且，引入了类内边距(即，如上所述的第一阈值)和类间边距(即，如上所述的第二阈值)来衡量类内距离和类间距离，使得多个样本中的每个样本的类内距离均小于类内边距，两个不同的类之间的类间距离大于类间边距。为了使两个类分离，类间边距大于类内边距的两倍。

优选地，在更新参数单元204中，计算每个样本的特征向量与该样本所属的类的中心向量之间的距离，作为该样本的类内距离。

将每个样本的特征向量与该样本所属的类的中心向量之间的距离作为该样本的类内距离。有关类内距离和类内损失函数的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，在更新参数单元204中，对于两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离。

用于衡量属于不同类的样本的特征向量之间的距离的类间距离可以用两个类的中心向量之间的距离表示。有关类间距离和类间损失函数的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，基于每个类中的所有样本的特征向量计算每个类的特征向量方差，将所计算出的最小特征向量方差和最大特征向量方差的平均值作为第一阈值。有关第一阈值(类内边距)和第二阈值(类间边距)的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，在迭代训练分类器时，根据损失函数更新分类器的参数，从而更新样本的特征向量，并且在每迭代预定次数时，更新所述第一阈值和所述第二阈值。作为具体示例，在迭代训练分类器时，应该根据损失函数来更新分类器的参数，从而更新样本的特征向量。有关更新第一阈值(类内边距)和第二阈值(类间边距)的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

优选地，除了类内距离和类间距离之外，损失函数还可以包括softmax损失函数。有关包括softmax的损失函数的示例可以参见以上方法实施例中相应位置的描述，在此不再重复。

此外，对分类器的整体的训练过程可以参见以上方法实施例中相应位置的描述，在此不再重复。

综上所述，在根据本公开实施例的信息处理装置200中，同时考虑样本的特征向量之间的类内距离和类间距离，使得样本特征具有更小的类内距离并且样本特征具有更大的类间距离，并且使用类内边距和类间边距两个阈值来定量衡量类内距离和类间距离，使得样本特征的类内距离小于类内边距，同时类间距离大于类间边距，从而提高了提取的样本的特征的可判别性。此外，该信息处理装置200更易于实际应用。

应指出，尽管以上描述了根据本公开的实施例的信息处理装置的功能配置，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的装置实施例是与上述方法实施例相对应的，因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述，在此不再重复描述。

此外，本申请还提供了一种记录有指令的计算机可读记录介质，所述指令在被执行时使得：可以将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及对于多个样本，可以通过使损失函数最小化来更新分类器的参数，其中，损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且第二阈值大于第一阈值的两倍。

应理解，根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息处理方法，因此在此未详细描述的内容可参考先前相应位置的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

根据本公开的另一方面，还提供了利用根据上述信息处理方法训练的分类器对输入进行分类的方法和装置。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图3所示的通用个人计算机300安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图3中，中央处理单元(CPU)301根据只读存储器(ROM)302中存储的程序或从存储部分308加载到随机存取存储器(RAM)303的程序执行各种处理。在RAM 303中，也根据需要存储当CPU 301执行各种处理等时所需的数据。

CPU 301、ROM 302和RAM 303经由总线304彼此连接。输入/输出接口305也连接到总线304。

下述部件连接到输入/输出接口305：输入部分306，包括键盘、鼠标等；输出部分307，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分308，包括硬盘等；和通信部分309，包括网络接口卡比如LAN卡、调制解调器等。通信部分309经由网络比如因特网执行通信处理。

根据需要，驱动器310也连接到输入/输出接口305。可拆卸介质311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器310上，使得从中读出的计算机程序根据需要被安装到存储部分308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图3所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质311。可拆卸介质311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 302、存储部分308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种信息处理方法，包括：

将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及

对于所述多个样本，通过使损失函数最小化来更新所述分类器的参数，其中，所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，所述多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且所述第二阈值大于所述第一阈值的两倍。

附记2.根据附记1所述的信息处理方法，其中，所述分类器包括卷积神经网络。

附记3.根据附记1所述的信息处理方法，其中，对于所述两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离。

附记4.根据附记1所述的信息处理方法，其中，计算每个样本的特征向量与该样本所属的类的中心向量之间的距离，作为该样本的类内距离。

附记5.根据附记3或4所述的信息处理方法，其中，每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。

附记6.根据附记1所述的信息处理方法，其中，基于每个类中的所有样本的特征向量计算每个类的特征向量方差，将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。

附记7.根据附记1所述的信息处理方法，其中，在迭代训练所述分类器时，根据所述损失函数更新所述分类器的参数，从而更新样本的特征向量，并且在每迭代预定次数时，更新所述第一阈值和所述第二阈值。

附记8.根据附记1所述的信息处理方法，其中，除了所述类内距离和所述类间距离之外，所述损失函数还包括softmax损失函数。

附记9.一种信息处理装置，包括：

提取特征向量单元，被配置成将多个样本分别输入到分类器中以提取表征每个样本的特征的特征向量；以及

更新参数单元，被配置成对于所述多个样本，通过使损失函数最小化来更新所述分类器的参数，其中所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，所述多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且所述第二阈值大于或等于所述第一阈值的两倍。

附记10.根据附记9所述的信息处理装置，其中，所述分类器包括卷积神经网络。

附记11.根据附记9所述的信息处理装置，其中，在更新参数单元中，对于所述两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离。

附记12.根据附记9所述的信息处理装置，其中，在更新参数单元中，计算每个样本的特征向量与该样本所属的类的中心向量之间的距离，作为该样本的类内距离。

附记13.根据附记11或12所述的信息处理装置，其中，每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。

附记14.根据附记9所述的信息处理装置，其中，在更新参数单元中，基于每个类中的所有样本的特征向量计算每个类的特征向量方差，将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。

附记15.根据附记9所述的信息处理装置，其中，在迭代训练所述分类器时，根据所述损失函数更新所述分类器的参数，从而更新样本的特征向量，并且在每迭代预定次数时，更新所述第一阈值和所述第二阈值。

附记16.根据附记9所述的信息处理装置，其中，在更新参数单元中，除了所述类内距离和所述类间距离之外，所述损失函数还包括softmax损失函数。

附记17.一种记录有指令的计算机可读记录介质，所述指令在被执行时使得：

Claims

1.一种信息处理方法，包括：

对于所述多个样本，通过使损失函数最小化来更新所述分类器的参数，其中，所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，所述多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且所述第二阈值大于所述第一阈值的两倍，

其中，对于所述两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离，以及

基于每个类中的所有样本的特征向量计算每个类的特征向量方差，将所计算出的最小特征向量方差和最大特征向量方差的平均值作为所述第一阈值。

2.根据权利要求1所述的信息处理方法，其中，所述分类器包括卷积神经网络。

3.根据权利要求1所述的信息处理方法，其中，计算每个样本的特征向量与该样本所属的类的中心向量之间的距离，作为该样本的类内距离。

4.根据权利要求1或3所述的信息处理方法，其中，每个类的所述中心向量是属于该类的所有样本的特征向量的平均值。

5.根据权利要求1所述的信息处理方法，其中，在迭代训练所述分类器时，根据所述损失函数更新所述分类器的参数，从而更新样本的特征向量，并且在每迭代预定次数时，更新所述第一阈值和所述第二阈值。

6.根据权利要求1所述的信息处理方法，其中，除了所述类内距离和所述类间距离之外，所述损失函数还包括softmax损失函数。

7.一种信息处理装置，包括：

更新参数单元，被配置成对于所述多个样本，通过使损失函数最小化来更新所述分类器的参数，其中所述损失函数与用于衡量属于同一类的样本的特征向量之间的距离的类内距离正相关，与用于衡量属于不同类的样本的特征向量之间的距离的类间距离负相关，其中，所述多个样本中的每个样本的类内距离均小于第一阈值，两个不同的类之间的类间距离大于第二阈值，并且所述第二阈值大于或等于所述第一阈值的两倍，

其中，在所述更新参数单元中，对于所述两个不同的类，计算所述两个不同的类中的一个类的中心向量与另一个类的中心向量之间的距离，作为所述两个不同的类之间的类间距离，以及

8.一种记录有指令的计算机可读记录介质，所述指令在被执行时使得：