CN110892477B

CN110892477B - 用于神经网络的梯度方向数据分割的方法和计算机系统

Info

Publication number: CN110892477B
Application number: CN201880047073.2A
Authority: CN
Inventors: J·K·贝克尔
Original assignee: D5AI LLC
Current assignee: D5AI LLC
Priority date: 2017-06-08
Filing date: 2018-06-01
Publication date: 2024-06-07
Anticipated expiration: 2038-06-01
Also published as: EP3635716A1; US20200134451A1; EP3635716A4; CN110892477A; US10956818B2; WO2018226527A1

Abstract

系统和方法通过分割训练数据来改善已经收敛的网络的性能，使得网络的梯度和所有偏导数为零(或接近零)，使得在分割的训练数据的每个子集上，一些节点或弧(即节点和网络的先前层或后续层之间的连接)具有在分割的数据子集上不同于零的单独偏导数值，尽管它们在整个训练数据集上的偏导数平均值接近零。本系统和方法可以通过分割从零发散的候选节点或弧来创建新的网络，并且然后利用在相应的数据集群上训练的每一个选择的节点来训练结果网络。

Description

用于神经网络的梯度方向数据分割的方法和计算机系统

优先权声明

本PCT申请要求2017年6月8日提交的名称为“Data and Node Splitting byGradient Direction”的美国临时专利申请(序列号62/516,785)的优先权，同一发明人如上所述，并且其通过引用全文并入本文。

背景技术

机器学习是一个由计算机实现的自学习算法的过程，其可以通过从样本数据输入建立模型来对数据进行预测。存在许多种类型的机器学习系统，例如，人工神经网络(ANN)、决策树、支持向量机(SVM)以及其他类型。这些系统在利用新数据做出有意义的预测之前首先需要根据一些采样输入受到训练。例如，ANN通常由多层神经元组成。每个神经元与许多其他神经元相连接，并且链路可以增强或抑制它们对相连接的神经元的激活状态的影响。每个单独的神经元单元可以具有将其所有输入的值合并在一起的集成函数。可以存在对每个连接和对神经元自身的阈值函数或者极限函数，使得信号在传播到其他神经元之前必须超越极限。用于输入到节点的每个相应输入的权重可以通过误差成本函数的偏导数的反向传播受到训练，同时估计值在训练数据样本上累积。大型复杂ANN可以在节点之间具有数百万的连接，并且需要学习针对每个连接的权重。

在训练数据上训练ANN，直到它们收敛到误差成本函数的最小值。一旦ANN被训练成收敛，目前就没有不改变网络结构就能进一步改善网络性能的技术。此外，没有系统的方式来改变网络以改善性能。这可能是有问题的，因为人们一直希望ANN更有效率地运行，特别是当它们变得更大、更复杂时。

发明内容

在一个总体方面，本发明涉及一种计算机实现的系统和方法，用于改善已经收敛的网络的性能，使得网络的梯度和所有偏导数为零(或接近零)。在一个实施例中，该方法包括基于梯度方向的相似性，将网络的训练数据分割成N组训练数据，其中N>1。然后，训练(或重新训练)神经网络，其中在N组训练数据中的相应一组上训练神经网络的N个子网络部分中的每个子网络部分。可以分割训练数据，使得在分割的训练数据的每个子集上，一些节点或弧(即，节点和网络的先前层或后续层之间的连接)具有在数据的分割的子集上不同于零的单独偏导数值，尽管它们在整个训练数据集上的平均偏导数接近零。在本发明的特定实施例中，通过分割神经网络中从零发散的一个或多个候选节点或弧，并且然后用在相应的数据组(或集群)上训练的每个所选择的节点来训练所得网络，以创建新的、改善的网络。

因为分割的每个节点或弧的梯度方向不同，所以新网络中的节点及其弧将训练成不同。因此，新网络不是在固定点上，即不是在最小值上。当新网络从与先前训练的最小值相匹配的初始点开始训练时，其可以导致误差成本函数的降低，从而改善网络的性能。通过梯度相似性分割数据至关重要。因为梯度将仍然接近零，所以节点分割本身就没有那么有效。

从下面的描述中，本发明实施例的这些和其他益处将是显而易见的。

附图说明

本文结合以下附图通过示例描述了本发明的各种实施例，其中：

图1是示出根据本公开的一个或多个方面，根据梯度的方向分割用于训练具有分割组件的网络的数据的过程的逻辑流程图；

图2是示出根据本公开的一个或多个方面的用于评估候选用于分割的系统的框图；

图3是示出根据本公开的一个或多个方面，根据图1的过程和图2的框图的已经被分割的系统的框图；

图4是示出根据本公开的一个或多个方面的过程和系统的框图，其中单个弧已经被分割，而没有分割与该节点相关联的所有弧；

图5是根据本发明的一个或多个方面的用于执行图1中所示出方法的计算机系统的框图；

图6是示出根据本发明的一个或多个方面使用的聚类过程的框图；

图7A至图7B示出一个实施例，其中集成网络包括作为基础神经网络副本的集成成员，使得可以在不同的训练数据集群或组上训练每个集成成员，该训练数据集群或组通过梯度方向被聚类或分组；以及

图8A至8C示出一个实施例，其中在按照梯度方向聚类或分组的不同训练数据集群或组上训练基础神经网络的不同子网络。

具体实施方式

本公开描述了一种系统和方法，用于在神经网络已经被训练成在其误差成本函数中收敛到最小值或接近最小值之后，改善神经网络的性能和鲁棒性。神经网络通常通过诸如随机梯度下降的迭代过程来训练。在随机梯度下降中，梯度是在称为“小批次”的小批量数据上估计的。对每个小批次上梯度的估计仅仅是对全组训练数据上梯度的随机样本估计。因此，迭代训练过程在数学意义上并不完全收敛，而仅仅接近成本函数的最小值，从一个小批次到另一个小批次的随机波动很小。

即使整组训练数据上的梯度也只是真实函数梯度的估计，因此训练数据上的误差可能与独立验证数据上的误差不同。因此，在神经网络的迭代训练中，通常有一个停止标准，当进一步的迭代似乎没有提供性能的一致改善时，停止迭代训练。因此，在误差成本函数的最小值处为零的误差成本函数的梯度在训练终止的点处可能仅仅接近零，但不完全为零。

被这样的停止规则终止的迭代训练过程被称为“收敛的”，尽管其在数学意义上没有完全收敛。出于继续训练的目的，在数学上收敛到具有零梯度的静止点的迭代过程和具有停止规则的迭代过程之间几乎没有实际差异，所述停止规则已经在接近这种静止点的点处停止。对一个恰好处于静止点处的过程的轻微随机扰动产生与停止规则(是一个接近局部最小值的点)相同的情况。然而，在这两种情况下，继续学习将是缓慢的，因为梯度的大小非常小，并且梯度的估计是有噪声的。

本系统和方法可以对已经训练的神经网络进行改善，即使神经网络已经训练到的最小值是全局最小值。本系统和方法选择性地改变训练的神经网络的结构，以创建具有更低误差成本和更强鲁棒性的新网络或集成。

图1是根据本公开的一个或多个方面，根据梯度方向用于分割用于训练分割的网络的数据的过程的逻辑流程图。下面结合图5描述根据本发明各种实施例的用于执行图1的过程的示例计算机系统。该过程中的第一步是训练101基础网络收敛或到达某个其他设计的停止点。基础网络可以通过本领域已知的用于训练机器学习系统的任何手段被训练为收敛，诸如通过随机梯度下降，其中偏导数通过反向传播计算，更新通过小批次计算。这种训练技术的说明性实施例在下面的伪代码中示出：

梯度归一化和学习教练控制的随机梯度下降的伪代码

1.a_/-1，0(m)＝1是常数，所以w_l，0，j是层/中的节点j的偏置

2.对每一个时期，直到满足停止标准

a.输入一组(小批次号t)训练示例；对时期中的每个小批次重复上述操作

1.对于每个训练示例m，设置a_0，i(rn)并且执行以下步骤：

1.前馈(softmax输出)：对于每1＝1、2、……、L-1，计算

和a_l，j(m)＝σ(z_l，j(m)；T_l，j，t)；

2.Softmax输出：s_L，n＝1；

3.输出误差梯度(m)：

1.

4.反向传播误差梯度：每1＝L-1，L-2、……、2、1，计算

2.计算小批次的梯度：

3.计算动量：

v_l，i，j→v′_l，i，j＝μ_l，i，jv_l，i，j-η_l，i，jΔ_l-1，i

4.计算层的范数：

s_l＝Max_i|Δ_l，i|

5.梯度下降：对于每1＝L-1，L-2、……、2、1，更新权重

w_l，i，j→w′_l.i.j＝w_l，i，j(1-λ_l，i，j)-v′_l，i，j

在训练基础网络之后，该过程评估102基础网络中的每个节点作为候选用于分割，并且然后选择103最佳候选用于分割。参考图2，更详细地讨论用于评估102和选择103候选用于分割的系统和方法的各种实施例。在一个实施例中，在已经选择了最佳候选之后，该过程然后通过创建两个或更多个新节点来代替候选节点群中的每个所选择的节点来创建104新网络。参考图3，更详细地讨论用于创建新网络的系统和方法的各种实施例。

图2是示出根据本公开的一个或多个方面的用于评估候选用于分割的系统的框图。在一个说明性实施例中，基础网络已经被训练成通过随机梯度下降收敛。训练网络收敛意味着当根据训练数据估计时，梯度和所有偏导数为零，或(在零附近的阈值范围内)至少接近零。根据训练数据估计的梯度整体上是单个数据示例的估计的平均值，在图2中表示为示例数m的函数的量。梯度为零意味着当在所有训练数据上平均时，对于网络中的每个节点和每个弧，误差成本函数的偏导数的平均值为零。然而，单个训练示例的梯度值可能与零截然不同。图2中的说明性示例计算位于基础网络层中的每个节点202的训练数据上的偏导数总和的范数，其中每个节点202从网络的下部201接收具有n个连接的权重w_n的输入，并且产生具有n个连接的权重w_n的输出，这些输出由网络的上部203接收。计算偏导数的范数的技术的三个说明性示例如下所示：(1)节点本身的偏导数的范数210(2)进入节点的弧的权重梯度的范数211/>其中i在入弧上变化；或(3)离开节点的弧上权重的梯度的范数212/>其中i在出弧上变化。

各种实施例可以利用这些范数中的任何一个或其组合作为对节点进行排序以供选择的标准。在一个实施例中，根据所选择的技术对网络中的所有节点进行排序，并且选择具有最高范数的节点或具有超过特定阈值的范数的所有节点。在另一个实施例中，一次仅评估、排序和选择单层中的节点，因为一层中节点的进一步训练将影响其他层中节点和弧的偏导数。在又另一个实施例中，该过程的每个应用仅选择单个节点。

一旦选择了一个节点或一组节点，所选择的数据示例将被聚类到两个或更多个集群中。为每个训练示例获得一个待聚类的向量。例如，向量可以是相对于一组节点的偏导数集，其中m是单个示例，j在一组节点上变化。作为另一个示例，向量可以是相对于一个或多个所选择的节点的出弧或入弧的梯度。例如，用于聚类的向量可以是通过首先计算离开每个所选择的节点的所有弧的梯度向量，并且然后通过级联为每个所选节点创建的向量来形成更长的向量而创建的向量。在另一个说明性实施例中，分别聚类每个选择的节点。

在一个说明性实施例中，向量被归一化为具有单位长度，因为梯度的方向在比向量的长度更大的程度上确定了后续的进一步训练。

集群并不一定要良好分开；相反，仅需要至少两个集群中心足够不同，以便在修改后的网络的进一步训练期间产生差异。换句话说，数据项或示例不必被分配给任何数据集群，或其可以被分配给多个集群。因为所有数据的平均梯度为零，并且所选择的节点具有显著不同于零的梯度范数，所以很容易找到两个或更多个显著不同的集群，因为它们的范数非零，但是它们的平均数为零。可以使用产生足够不同集群的任何合适的聚类算法。例如，在各种实施例中，可以使用K-均值聚类。作为另一个示例，向量可以被建模为从高斯分布的混合物中提取。高斯混合模型可以通过例如众所周知的期望最大化(EM)算法来训练，并且每个混合分量是一个集群。

作为本发明的说明性实施例，级联梯度向量的聚类可以通过以softmax向量作为瓶颈层的自动编码器的监督或无监督训练来完成，如图6中所示。自动编码器是一种神经网络，当被迫通过瓶颈层对输入进行编码时，自动编码器会尽可能多地利用网络来再现其输入。在图6中所示的自动编码器中，瓶颈层是softmax层或hard max层，其中激活最大的节点表示集群身份。

图6中所示的说明性实施例添加了类别标签的可选附加输出目标，因为聚类是在具有已知类别标签的训练数据上进行的。另外，此实施例可选地使用类别标签作为附加输入数据。softmax瓶颈层中的最大激活表示与每个输入数据项相关联的集群。

在说明性实施例中，通过将训练数据分割成多个组(诸如通过聚类算法分割成集群)来确定节点分割和后续训练。关于分割训练数据的方法的更多细节可以在2017年6月12日提交的名称为“Robust Anti-Adversarial Machine Learning”的美国临时申请(序列号62/518,302)和2018年1月30日提交的名称为“Self-Organizing Partially OrderedNetworks”的美国临时申请(序列号62/623,773)中找到，这两个申请都通过引用整体并入本文。

在各种实施例中，如图3中所示，每个选择的节点被分割成多个节点，每个集群一个新节点。作为示例，图3的左侧示出了“旧网络”或基础网络，在网络的下部/层201与网络的上部/层203之间的层中具有一个节点202。在此示例中，节点202具有来自下层201的三个入弧，分别具有权重w₁、w₂和w₃。旧网络/基础网络中的节点202有一个到上层203的出弧，在此示例中权重为w₄。在分割节点202之后，图3的右侧所示的“新网络”包括节点集，在此示例中，该节点集具有N＝2个新节点，即节点202a、202b。每个新节点202a、202b与旧网络中的节点202具有相同数量的入弧和出弧。此外，如图3中所描绘的，新节点202a、202b的入弧和出弧的权重最初可以被设置为等于旧网络的节点202的权重。当然，在其他实施例中，新节点集可以包括比两个更多的新节点；也就是说，通常，新节点集中新节点的数量N可以是N≥2。此外，与图3中所示的示例相比，被分割的旧网络中的节点202可以具有更少或更多的入弧和出弧，其中新节点集中的新节点202a、202b具有相应数量的入弧和出弧。

然后，对于具有新节点202a、202b的新网络上的一定量的后续训练，对于每一项训练数据，在本发明的各种实施例中，除了每个新节点集中的一个节点之外，所有节点都从反向传播计算中退出。未退出的一个节点是对应于当前数据输入项的集群的节点。例如，参考图3中的示例，有N＝2个训练数据集群，其中每个新节点202a、202b对应于一个(并且仅一个)集群。当使用来自对应于新节点202a的集群中的训练项时，退出新节点202b，反之亦然。在这种情况下，“退出”意味着在对某个数据项进行网络训练时，会忽略为此数据项退出的节点。特别地，在对此数据项进行网络训练的反向传播阶段中，可以忽略该节点。也就是说，选择性地停止或中断反向传播穿过或考虑退出的节点，例如，退出的节点的反向传播值被设置为零。

每个新节点以及连接到此节点的每个弧的梯度估计将仅包括来自给定集群的数据。因为聚类将具有相似梯度的数据分组在一起，并且其分成具有不同梯度方向的不同集群数据，所以连接到给定新节点的弧的权重向量将在随后的训练中以不同于一组新节点中的任何其他节点的方向移动。换句话说，虽然在分割之前用与原始网络相等的权重初始化具有新节点分割的网络，但是在新网络中，这种权重配置不在固定点附近。事实上，连接到新模式的弧之间的新权重将很快彼此发散。

在一个说明性实施例中，对于与每个集群相关联的节点的不同数据选择仅在进一步训练的第一个时期进行。之后，所有数据用于所有节点的反向传播，正常的退出除外(如果有的话)。

在另一个说明性实施例中，克隆整个基础网络，为每个集群创建具有原始网络副本的集成。然后，网络的每个副本都只根据来自相应集群的数据进行训练。例如，如图7A至7B中所示，基础网络70(图7A中所示)可以被训练为收敛或一些其他适用的训练标准。然后，如果训练数据在梯度方向上被分割成N个组(例如，N个集群)，则可以创建包括N个集成成员的集成72，如图7B中所示，其中每个集成成员70A至70C是原始基础网络70的副本，至少在训练集成之前最初是这样的。在此说明性实施例中，N等于3。对于第一组中的训练数据项，可以退出(或忽略)集成成员70B和70C，而第一集成成员70A用第一组中的数据项训练。类似地，对于第二组中的训练数据项，可以退出(或忽略)集成成员70A和70C，而第二集成成员70B用第二组中的数据项训练等。

在其他实施例中，可以用不同的数据组来训练神经网络的不同子网络。例如，图8A示出简单的神经网络，并且图8B和图8C示出图8A的网络的两个不同的子网络。具体地，图8B和图8C中所示的子网络中的每一个子网络有效地退出“x-ed”节点，因此在子网络中删除到退出节点的所有入弧和出弧。作为一个示例，假设有两组按梯度方向分割的训练数据，图8B的子网络可以在第一组训练数据中的训练数据项上进行训练，并且图8C的子网络可以在第二组中的训练数据项上进行训练。可以理解，图8A的网络可以具有许多子网，这些子网不一定相互排斥(即，它们可以重叠)。

为了清楚起见，参考图7A至图7B和图8A至图8C，应当注意，本文描述的神经网络包括输入层、输出层以及输入层与输出层之间的一个或多个隐藏层，其中每个层具有一个或多个节点。在这些图中，节点由圆圈表示，节点之间的弧由节点之间的箭头表示。在这些示例性图中，没有弧跳过一层，但是在其他实施例中，网络中的弧可以跳过一层或多层。

在一些实施例中，来自其他集群的一部分数据与来自相应集群的数据混合。

由于新网络的初始化与旧网络相同，新网络的性能最初与基础网络相同。但是，与基础网络不同，新网络在进一步的训练中并不处于静止点，即，不收敛于或接近其训练集的局部最小值。为不同梯度方向已经选择的数据的分割导致训练过程不再处于静止点。新网络的节点和弧的梯度明显不同于零。因此，进一步训练中的随机梯度下降将导致误差成本函数C的降低。因为初始化新网络以与原始网络相匹配，所以与之前已经被训练为收敛的网络相比，后续的训练的性能得到改善。

对于本领域的技术人员来说，有一些众所周知的梯度下降优化方法增加训练过程收敛到具有特别好性能的局部最小值的可能性。例如，一个简单的技术是从许多不同的随机选择的起点独立运行迭代训练，并且然后选择性能最好的一个。本发明的一个说明性实施例以这样选择的最佳性能网络开始数据和节点分割过程。

因此，根据各种实施例，两种创新可以结合起来以实现表面上似乎不可能的效果：用于改善已经达到其最佳性能的网络性能的系统过程。节点选择过程为选择将网络更改到扩展网络提供了指导，该扩展网络的性能优于原始网络的最佳性能。数据分割和专用子网部分训练(例如，未退出的节点)允许梯度下降过程从与先前最佳性能匹配的性能开始，但是具有幅度与零显著不同的梯度。

因为误差成本函数的梯度将仍然接近零，所以节点分割本身就没有那么有效。

数据聚类和分割具有进一步的有益效果，即一组新的分割节点中的节点将倾向于相互学习不同的特性。这种有益效果也出现在说明性实施例中，其中使用节点分割来创建新网络的集成。

只要在至少一些数据示例中存在梯度明显不同于零的一些节点或弧，就可以迭代地利用评估、分割和进一步训练网络的过程来继续改善网络。一旦单个数据示例的梯度都接近零，网络将是稳定和鲁棒的，这是因为输入或内部节点的任何激活中的任何微小变化将仅产生输出的微小变化，因为偏导数不仅将在训练数据中平均时为零，而且对于每个单个数据示例也是如此。

图4是示出根据本公开的一个或多个方面的过程和系统的框图，其中单个弧已经被分割，而没有分割与该节点相关联的所有弧。在某些情况下，可能希望分割单个弧而不干扰与节点相关联的所有其他弧，诸如其中单个弧具有明显不同于零的梯度，但是节点本身没有明显不同于零的梯度的情况。该过程从多个层的基础网络401开始，该基础网络包括通过弧连接到上层网络203的下层网络201。首先，通过将虚拟节点202'引入弧的中间来创建临时网络402，其中该节点被初始化为身份函数。例如，该节点可以具有整流线性单元(ReLU)激活，其中其偏置和弧的目的节点的偏置最初被调整，使得ReLU节点202'对于所有数据最初处于其线性区域。如先前所述，一旦添加虚拟节点202'，就可以通过将其分割成两个或更多个节点202a、202b来创建新的网络403。

本文描述的说明性系统和方法(包括根据图1中描述的梯度方向分割网络的系统、图2中描述的用于评估候选用于分割的系统、图3中描述的已经分割的系统、用于分割单个弧而不分割与图4中描述的节点相关联的所有弧的系统、以及用于图6中描述的具有softmax瓶颈层的自动编码器的监督或无监督训练的系统)可以用计算机硬件和软件来实现。例如，图5是根据本发明各种实施例的用于执行图1中所示方法的计算机系统的图。如图5中所示，计算机系统包括一个或多个处理器和一个或多个存储器单元。存储器单元存储由处理器执行的计算机软件。具体地，软件可以包括当由处理器执行时使处理器执行图1的方法的指令。例如，存储器单元可以包括训练模块，该训练模块包括当由处理器执行时使处理器训练基于网络收敛的软件。存储器单元还可以包括节点分割模块，该节点分割模块包括软件，当由处理器执行时，该软件例如使得处理器执行例如图1中的步骤102至104的功能。训练数据可以存储在与计算机系统通信的数据库中，或例如作为数据总线上的数据馈送来提供。

每个处理器可以有一个或多个内核。例如，内核可以是CPU、图形处理单元(GPU)内核和/或AI加速器。例如，在一个具有多个CPU内核的实施例中，一组内核可以执行用于训练基础神经网络的程序指令，另一组用于评估每个节点的梯度扩展等。GPU内核并行运行，并且因此，通常可以比一组CPU内核更有效地处理数据，但所有内核同时执行相同的代码。AI加速器是一类被设计用来加速人工神经网络的微处理器，其有成百上千个并行的、精度相对低的处理单元(或内核)。存储器单元可以包括可由处理内核访问的计算机存储器，诸如例如RAM、ROM、处理器寄存器或处理器高速缓存。

如图5中所示，计算机系统可以是单个计算机设备，诸如单个服务器。在其他实施例中，计算机系统可以用分布式计算机设备的网络来实现，例如，共同执行本文描述的网络分割功能的服务器的网络。可以使用合适的数据链路，诸如数据总线(优选高速数据总线)或网络链路(例如以太网)，来在各种计算机设备之间共享数据。

本发明的实施例可用于在各种应用中改善许多不同类型的机器学习系统，包括深层神经网络。例如，仅举几个示例，本发明的实施例可以改善推荐系统、语音识别系统和分类系统，包括图像和诊断分类系统。

因此，在一个总体方面，本发明涉及用于生成改善的神经网络的方法和系统。根据本发明实施例的生成改善的神经网络的方法可以包括：基于梯度方向的相似性，将第一训练数据分割成N组训练数据，其中N>1；以及用第一训练数据训练基础神经网络，其中基础神经网络包括N个子网络部分，并且其中N个子网络部分中的每一个子网络部分在N组训练数据中的相应一组上训练。根据本发明实施例的用于生成改善的神经网络的计算机系统可以包括一个或多个计算机，其中，该一个或多个计算机包括至少一个处理器和相关联的存储器，其中，相关联的存储器存储软件，当软件由该至少一个处理器执行时，使得至少一个处理器：基于梯度方向的相似性，将第一训练数据分割成N组训练数据，其中N>1；以及用第一训练数据训练基础神经网络，其中基础神经网络包括N个子网络部分，并且其中N个子网络部分中的每一个在N组训练数据中的相应一组上训练。

根据各种实施方式，在训练基础神经网络之前，基础神经网络的第一节点被分割成包括N个新节点的节点集，使得节点集中的一个新节点对应于N组训练数据中的每一组中的一个并且仅一个。在那种情况下，训练基础神经网络的步骤包括，对于属于N组训练数据中的一组的第一训练数据中的每个数据项，从该数据项的训练中退出节点集中与该数据项的组不对应的所有节点。在这样的实施例中，第一节点在分割之前可以包括一个或多个入弧和一个或多个出弧，其中第一节点的每个入弧和出弧在分割之前具有各自的权重。在那种情况下，将第一节点分割成新节点集可以包括：在分割之前，使新节点集中的每个新节点具有与第一节点相同数量的入弧和出弧；以及在分割之前用与第一节点相等的权重初始化新节点集中每个新节点的入弧和出弧，使得在训练之后，新节点集中的每个新节点N的入弧和出弧的权重发散。此外，训练基础神经网络可以包括，在退出第一训练数据的节点之后，用新的节点集训练基础神经网络，而不退出不同于第一训练数据的第二训练数据的节点。

在另外的其他实施方式中，在训练基础神经网络之前，生成N个集成成员网络的集成，其中N个集成成员中的每一个都与基础神经网络相同，并且使得一个集成成员对应于N组训练数据中的每一个中的一个并且仅一个。在那种情况下，训练基础神经网络的步骤可以包括训练集成，其中，对于属于N组训练数据中的一组的第一训练数据中的每个数据项，训练集成包括从该数据项的训练中退出集成中不对应于该数据项的组的所有集成成员。在这样的实施例中，训练集成可以包括，在退出第一训练数据的集成成员之后，训练集成而不退出不同于第一训练数据的第二训练数据的集成成员。

在各种实施方式中，在用第一训练数据训练基础神经网络之前，基础神经网络被预训练到期望的性能水平，诸如收敛，这可以包括通过梯度下降迭代地预训练基础神经网络，直到可应用的误差成本函数的梯度低于阈值最小值。

另外，将第一训练数据分割成N个组可以包括将第一训练数据聚类成N个集群。这可以通过为第一训练数据中的每个训练示例生成向量并且将向量聚类成N个集群来实现。聚类也可以用聚类算法和/或通过用瓶颈层训练自动编码器来执行。

本文描述的各种机器学习系统的软件，诸如图5中所示的软件模块，以及本文描述的其他计算机功能，可以使用诸如.NET、C、C++、Python的任何合适的计算机编程语言和使用常规的、功能性的或面向对象的技术在计算机软件中实现。用于计算机软件和其他由计算机实现的指令的编程语言可以在执行之前通过编译器或汇编程序翻译成机器语言，和/或可以在运行时由解释器直接进行翻译。汇编语言的示例包括ARM、MIPS以及x86；高级语言的示例包括Ada、BASIC、C、C++、C#、COBOL、Fortran、Java、Lisp、Pascal、Object Pascal、Haskell、ML；并且脚本语言的示例包括Bourne script、JavaScript、Python、Ruby、Lua、PHP以及Perl。

本文中所给出的示例旨在例示说明本发明的可能和具体实施方式。可以意识到，示例主要旨在用于为本领域技术人员例示说明本发明的目的。示例的特定方面或多个方面未必旨在限制本发明的范围。而且，应当理解的是，本发明的附图和描述已经简化，以例示说明用于清楚地理解本发明的相关元件，与此同时为明确起见去除了其他元件。尽管本文中已经描述了各种实施例，但是应当显而易见的是，在实现至少一些优点的前提下本领域技术人员可以想到对这些实施例的各种修改、改变和调整。因此，在不脱离本文中所阐述实施例的范围的前提下，所公开的实施例旨在包括此类修改、改变和调整。

Claims

1.一种生成改善的神经网络分类器的方法，所述方法包括：

通过计算机系统将基础神经网络预先训练为分类器；

在预先训练所述基础神经网络之后，通过计算机系统将第一训练数据集合分割成N组训练数据，其中N>1，其中第一训练数据集合基于相应于所述第一训练数据集合的误差成本函数的梯度方向的相似性被分割成N个组，使得所述N个组中每一组中的训练数据项分别具有误差成本函数的相似梯度方向并且相应N个组具有每个相应组在所述训练数据项上平均的不同梯度方向；以及

在将第一训练数据集合分割成所述N个组之后，通过计算机系统用所述第一训练数据集合重新训练所述基础神经网络，其中所述基础神经网络包括N个子网络部分，并且其中所述N个子网络部分中的每个子网络部分在所述N组训练数据中的相应一组上训练，

其中所述分类器包括图像分类器或语音识别系统。

2.根据权利要求1所述的方法，其中：

所述方法进一步包括，在重新训练所述基础神经网络之前，通过计算机系统将所述基础神经网络的第一节点分割成包括N个新节点的节点集，使得所述节点集中的一个新节点对应于所述N个组中的每一组中的一个并且仅一个；以及

重新训练所述基础神经网络的步骤包括，对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，从此数据项的所述重新训练中退出所述节点集中与所述数据项的所述组不对应的所有节点。

3.根据权利要求1所述的方法，其中：

所述方法进一步包括，在重新训练所述基础神经网络之前，通过计算机系统生成N个集成成员网络的集成，其中所述N个集成成员中的每个集成成员都与所述基础神经相同，并且使得一个集成成员对应于所述N个组中的每一组的一个并且仅一个；以及

重新训练所述基础神经网络的步骤包括训练所述集成，其中，对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，训练所述集成包括从此数据项的训练中退出所述集成中不对应于所述数据项的所述组的所有集成成员。

4.根据权利要求1所述的方法，其中，预先训练所述基础神经网络包括将所述基础神经网络预先训练至期望的性能水平。

5.根据权利要求4所述的方法，其中预先训练所述基础神经网络包括预先训练所述基础神经网络至收敛。

6.根据权利要求5所述的方法，其中预先训练所述基础神经网络至收敛包括通过梯度下降迭代地预先训练所述基础神经网络，直至可应用的误差成本函数的梯度低于阈值最小值。

7.根据权利要求1至3中任一项所述的方法，其中将所述第一训练数据集合分割成N个组包括将所述第一训练数据集合中的训练数据项聚类成所述N个组。

8.根据权利要求2所述的方法，其中：

所述第一节点在分割之前包括一个或多个入弧和一个或多个出弧，其中在分割之前，所述第一节点的所述入弧和所述出弧中的每一个具有各自的权重；以及

将所述第一节点分割成所述节点集包括：

使所述节点集中的每一个新节点具有与在分割之前的所述第一节点相同数量的入弧和出弧；并且

用与在分割之前的所述第一节点相等的权重初始化所述节点集中每个新节点的所述入弧和所述出弧，使得在所述重新训练之后，所述节点集中的每个新节点N的所述入弧和所述出弧的所述权重发散。

9.根据权利要求2所述的方法，其中重新训练所述基础神经网络包括，在退出所述第一训练数据集合的节点之后，用新节点集重新训练所述基础神经网络，而不退出不同于所述第一训练数据集合的第二训练数据集合的节点。

10.根据权利要求3所述的方法，其中训练所述集成包括，在退出所述第一训练数据集合的集成成员之后，训练所述集成而不退出不同于所述第一训练数据集合的第二训练数据集合的集成成员。

11.根据权利要求1所述的方法，其中将所述第一训练数据集合分割成N个组包括：

计算所述基础神经网络中每个节点的所述第一训练数据集合上的偏导数的范数；以及

基于梯度方向的相似性将所述第一训练数据集合分组成所述N个组。

12.根据权利要求2所述的方法，其中将所述第一训练数据集合分割成所述N个组包括：计算所述基础神经网络中每个节点的所述第一训练数据集合上的偏导数的范数；以及

13.根据权利要求12所述的方法，进一步包括，在分割所述第一节点之前，选择所述第一节点进行分割，其中选择所述第一节点进行分割包括：

基于所述计算的偏导数的范数对所述基础神经网络中的所有节点进行排序；以及

从所述基础神经网络中计算的偏导数的范数高于阈值的所有节点中选择所述第一节点。

14.根据权利要求12所述的方法，进一步包括，在分割所述第一节点之前，选择所述第一节点进行分割，其中选择所述第一节点进行分割包括：

基于所述计算的偏导数的范数对所述基础神经网络的所选择的单层中的所有节点进行排序；以及

从所述基础神经网络的所选择的单层中的计算的偏导数的范数高于阈值的所有节点中选择所述第一节点。

15.根据权利要求12所述的方法，其中为所述基础神经网络中的每个节点计算第一训练数据集合上的偏导数的所述范数包括为所述基础神经网络的每个节点计算所述节点的所述偏导数的所述范数。

16.根据权利要求12所述的方法，其中，为所述基础神经网络中的每个节点计算第一训练数据集合上的偏导数的所述范数包括为每个节点计算进入所述节点的弧上的权重的梯度的所述范数。

17.根据权利要求12所述的方法，其中，为所述基础神经网络中的每个节点计算第一训练数据集合上的偏导数的所述范数包括为每个节点计算离开所述节点的弧上的权重的梯度的所述范数。

18.根据权利要求7所述的方法，其中将所述第一训练数据集合聚类成所述N个集群包括：

为所述第一训练数据集合中的每个训练示例生成向量；并且

将所述向量聚类成N个集群。

19.根据权利要求18所述的方法，其中为每个训练示例生成所述向量包括为每个训练示例生成向量，所述向量包括所述基础神经网络中节点的一组偏导数。

20.根据权利要求18所述的方法，其中为每个训练示例生成所述向量包括为每个训练示例生成向量，所述向量包括所述基础神经网络的一个或多个节点的入弧的偏导数的梯度。

21.根据权利要求18所述的方法，其中为每个训练示例生成所述向量包括为每个训练示例生成向量，所述向量包括所述基础神经网络的一个或多个节点的出弧的偏导数的梯度。

22.根据权利要求18所述的方法，其中为每个训练示例生成所述向量包括为每个训练示例生成级联梯度向量。

23.根据权利要求18所述的方法，其中聚类所述向量包括使用聚类算法对所述向量进行聚类。

24.根据权利要求18所述的方法，其中聚类所述向量包括用瓶颈层训练自动编码器。

25.一种用于生成改善的神经网络分类器的计算机系统，所述计算机系统包括一个或多个计算机，其中所述一个或多个计算机包括至少一个处理器和相关联的存储器，其中所述相关联的存储器存储软件，当所述软件由所述至少一个处理器执行时，使得所述至少一个处理器：

将基础神经网络预先训练为分类器；

在预先训练所述基础神经网络之后，将第一训练数据集合分割成N组训练数据，其中N>1，其中第一训练数据集合分基于相应于所述第一训练数据集合的误差成本函数的梯度方向的相似性被割成N个组，使得所述N个组中每一组中的训练数据项分别具有误差成本函数的相似梯度方向并且相应N个组具有每个相应组在所述训练数据项上平均的不同梯度方向；并且

在将第一训练数据集合分割成所述N个组之后，用所述第一训练数据集合重新训练所述基础神经网络，其中所述基础神经网络包括N个子网络部分，并且其中所述N个子网络部分中的每个子网络部分在所述N组训练数据中的相应一组上训练，

其中所述分类器包括图像分类器或语音识别系统。

26.根据权利要求25所述的计算机系统，其中所述至少一个处理器被编程为：

在重新训练所述基础神经网络之前，将所述基础神经网络的第一节点分割成包括N个新节点的节点集，使得所述节点集中的一个新节点对应于所述N个组中的每一组中的一个并且仅一个；以及

对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，通过从此数据项的所述重新训练中退出所述节点集中与所述数据项的所述组不对应的所有节点重新训练所述基础神经网络。

27.根据权利要求25所述的计算机系统，其中所述至少一个处理器被编程为：

在重新训练所述基础神经网络之前，生成N个集成成员网络的集成，其中N个集成成员中的每个集成成员都与所述基础神经相同，并且使得一个集成成员对应于所述N个组中的每一组中的一个并且仅一个；以及

通过训练所述集成重新训练所述基础神经网络，其中，对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，训练所述集成包括从此数据项的所述重新训练中退出所述集成中不对应于所述数据项的所述组的所有集成成员。

28.根据权利要求25所述的计算机系统，其中所述至少一个处理器被编程为预先训练所述基础神经网络至期望的性能水平。

29.根据权利要求28中所述的计算机系统，其中所述至少一个处理器被编程为通过预先训练所述基础神经网络至收敛来预先训练所述基础神经网络。

30.根据权利要求29所述的计算机系统，其中所述至少一个处理器被编程为通过梯度下降迭代地预先训练所述基础神经网络，直至可应用的误差成本函数的梯度低于阈值最小值，来预先训练所述基础神经网络至收敛。

31.根据权利要求25至27中任一项所述的计算机系统，其中所述至少一个处理器被编程为通过将所述第一训练数据集合聚类成所述N个组来将所述第一训练数据集合分割成N个组。

32.根据权利要求26所述的计算机系统，其中：

所述至少一个处理器被编程为通过以下方式将所述第一节点分割成所述节点集：

使所述节点集中的每个新节点具有与在分割之前的所述第一节点相同数量的入弧和出弧；以及

33.根据权利要求26所述的计算机系统，其中所述至少一个处理器被编程为通过在退出所述第一训练数据集合的节点之后，用新节点集重新训练所述基础神经网络，而不退出不同于所述第一训练数据集合的第二训练数据集合的节点。

34.根据权利要求27所述的计算机系统，其中所述至少一个处理器被编程为通过在退出所述第一训练数据集合的集成成员之后，通过训练所述集成而不退出不同于所述第一训练数据集合的第二训练数据集合的集成成员来训练所述集成。

35.根据权利要求25至27和32至34中任一项所述的计算机系统，其中所述至少一个处理器被编程为通过以下方式将所述第一训练数据集合分割成所述N个组：

36.根据权利要求26所述的计算机系统，其中所述至少一个处理器被编程为通过以下方式分组所述第一训练数据集合：

37.根据权利要求36所述的计算机系统，其中所述至少一个处理器被编程为在分割所述第一节点之前，选择所述第一节点进行分割，其中所述至少一个处理器被编程为通过以下方式选择所述第一节点进行分割：

基于所述计算的偏导数的范数对所述基础神经网络中的所有节点进行排序；并且

38.根据权利要求36所述的计算机系统，其中所述至少一个处理器被编程为在分割所述第一节点之前，选择所述第一节点进行分割，其中所述至少一个处理器被编程为通过以下方式选择所述第一节点进行分割：

从所述基础神经网络的所述选择的单层中的计算的偏导数的范数高于阈值的所有节点中选择所述第一节点。

39.根据权利要求36所述的计算机系统，其中所述至少一个处理器被编程为通过为所述基础神经网络的每个节点计算所述节点的偏导数的范数来为所述基础神经网络中的每个节点计算第一训练数据集合上的偏导数的所述范数。

40.根据权利要求36所述的计算机系统，其中所述至少一个处理器被编程为通过为每个节点计算进入所述节点的弧上的权重的梯度的所述范数来为所述基础神经网络中的每个节点计算第一训练数据上的偏导数的所述范数。

41.根据权利要求36所述的计算机系统，其中所述至少一个处理器被编程为通过为每个节点计算离开所述节点的弧上的权重的梯度的所述范数来为所述基础神经网络中的每个节点计算第一训练数据集合上的偏导数的所述范数。

42.根据权利要求31所述的计算机系统，其中所述至少一个处理器被编程为通过以下方式将所述第一训练数据集合聚类成所述N个集群：

为所述第一训练数据集合中的每个训练示例生成向量；并且

将所述向量聚类成N个集群。

43.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为通过为每个训练示例生成包括所述基础神经网络中节点的一组偏导数的向量来为每个训练示例生成所述向量。

44.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为通过为每个训练示例生成包括所述基础神经网络的一个或多个节点的入弧的偏导数的梯度的向量来为每个训练示例生成所述向量。

45.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为通过为每个训练示例生成包括所述基础神经网络的一个或多个节点的出弧的偏导数的梯度的向量来为每个训练示例生成所述向量。

46.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为通过为每个训练示例生成级联梯度向量来为每个训练示例生成所述向量。

47.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为使用聚类算法聚类所述向量。

48.根据权利要求42所述的计算机系统，其中所述至少一个处理器被编程为通过用瓶颈层训练自动编码器来聚类所述向量。

49.一种用于生成改善的神经网络分类器的计算机系统，所述计算机系统包括：

第一组一个或多个处理内核，用于将基础神经网络预先训练为具有期望的性能水平的分类器；以及

第二组一个或多个处理内核，用于：

将基础神经网络预先训练为分类器；

在预先训练之后，将第一训练数据集合分割成N组训练数据，其中N>1，其中第一训练数据集合基于相应于所述第一训练数据集合的误差成本函数的梯度方向的相似性被分割成N个组，使得所述N个组中每一组中的训练数据项分别具有误差成本函数的相似梯度方向并且相应N个组具有每个相应组在所述训练数据项上平均的不同梯度方向；并且

用所述第一训练数据集合重新训练所述基础神经网络，其中所述基础神经网络包括N个子网络部分，并且其中所述N个子网络部分中的每个子网络部分在所述N组训练数据中的相应一组上训练，

其中所述分类器包括图像分类器或语音识别系统。

50.根据权利要求49所述的计算机系统，其中所述第二组一个或多个处理内核：

进一步用于在重新训练所述基础神经网络之前，将所述基础神经网络的第一节点分割成包括N个新节点的节点集，使得所述节点集中的一个新节点对应于所述N个组中的每一组中的一个并且仅一个；以及

对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，通过从此数据项的所述训练中退出所述节点集中与所述数据项的所述组不对应的所有节点重新训练所述基础神经网络。

51.根据权利要求49所述的计算机系统，其中所述第二组一个或多个处理内核：

进一步用于在重新训练所述基础神经网络之前，生成N个集成成员网络的集成，其中所述N个集成成员中的每个集成成员与所述基础神经相同，并且使得一个集成成员对应于所述N个组中的每一组中的一个并且仅一个；以及

通过训练所述集成来重新训练所述基础神经网络，其中，对于所述第一训练数据集合中属于所述N个组中的一组的每个数据项，训练所述集成包括从此数据项的所述训练中退出所述集成中不对应于所述数据项的所述组的所有集成成员。