CN111226236A

CN111226236A - 深度学习中的多目标生成器

Info

Publication number: CN111226236A
Application number: CN201880067035.3A
Authority: CN
Inventors: J·K·贝克尔
Original assignee: D5AI LLC
Current assignee: D5AI LLC
Priority date: 2017-09-28
Filing date: 2018-09-28
Publication date: 2020-06-02
Anticipated expiration: 2038-09-28
Also published as: EP3688676A4; US11410050B2; EP3688677A4; US11687788B2; US12423586B2; CN111542843A; CN111226232B; US11531900B2; US11461661B2; CN111226232A; US20200279188A1; US20200279165A1; US20220335305A1; US10679129B2; US20220383131A1; US20200285939A1; EP3688678A4; WO2019067236A1; EP3688678A1; US20250209333A1

Abstract

机器学习数据生成器使用附加的目标来避免生成与任何先前已知的数据示例过于相似的数据。这可以防止剽窃或简单复制现有数据示例，从而增强生成器有效生成新数据的能力。将生成对抗网络(GAN)学习作为零和博弈的混合策略极小极大解，解决了GAN学习的收敛性和稳定性问题，而不会出现模式崩溃。

Description

深度学习中的多目标生成器

优先权要求

本申请要求(i)2017年9月28日提交的、标题为“协作生成器的积极发展(Aggressive Development with Cooperative Generators)”的、序列号62/564,754的美国临时专利申请和(ii)2018年9月14日提交的、标题为“多生成器模型(MixtureofGenerators Model)”的、申请号为PCT/US 18/51069的PCT申请的优先权，这两个专利申请通过引用整体并入本文。

背景技术

生成建模是无监督和半监督机器学习中一个活跃且不断发展的分支。生成模型的目标是表示描述数据分布的潜在变量，这些变量可以在高维空间中产生或再现数据示例。变分自动编码器(VAE)和生成对抗网络(GAN)这两种方法已经成为人工智能和深度学习中生成建模的主要技术。一个典型的示例是图像，其中生成模型可以用于产生新的图像，这些图像看起来是真实的并且与一组训练示例中的图像非常相似，而不需要精确地再现生成模型被训练的现有图像。利用与作为通用函数逼近器的深层神经网络协调的随机梯度下降进行训练，VAE和GAN可用于生成多种类型的真实数据。

生成模型的一个关键方面是，它们不应简单地再现训练中使用的数据示例，而是应该能够生成与训练集中的任何示例相似但不同的新数据。VAE和GAN都是通过尝试最小化目标成本函数来训练的，目标成本函数通过精确地再现训练数据来达到最小值。进一步，GAN经常遭受模式崩溃，其中GAN仅生成多模式分布的模式的小的适当子集的代表，在某些情况下仅生成单一模式的代表。这降低了生成的数据的多样性，并限制了GAN在某些应用中的实用性。

还有一个特定于GAN的问题：GAN学习的稳定性仍然是一个悬而未决的问题。作为零和博弈的原始表述未能收敛。非零和博弈的另一种表述应该在理论上趋于收敛，但在实践中似乎并没有改善这种收敛。

发明内容

在一个总体方面，本发明被设计成通过使用附加的目标来避免生成与任何先前已知的数据示例过于相似的数据，以克服在VAE和GAN中的这些和其它限制。这可以防止剽窃或简单复制现有数据示例，从而增强生成器有效生成新数据的能力。将GAN学习表述为零和博弈的混合策略极小极大解，解决了GAN学习的收敛性和稳定性问题。同时，本发明不像GAN那样遭受模式崩溃。

通过以下描述，本发明的这些和其它优点将变得显而易见。

附图说明

本发明的各种实施例在本文中通过示例结合以下附图进行描述，其中：

图1示出了根据本公开的一个方面的具有附加目标的自动编码器的框图；

图2示出了根据本公开的一个方面的包含真实与生成判别器的生成器的框图；

图3示出了根据本公开的一个方面的包含真实与生成判别器的生成器的框图；

图3A示出了根据本公开的一个方面的具有多个生成器和多个分类器的系统的框图；

图4是根据本公开的一个方面的可用于实现各种实施例的计算机系统的图；以及

图5是示出可用于本发明各种实施例的各个方面的深层神经网络的图。

具体实施方式

图1、2和3是根据本发明的各种实施例的机器学习系统的框图，机器学习系统可以在诸如图4中的计算机系统400的计算机系统上实现。图1-3中的机器学习系统的许多组件是神经网络。在进一步解释本发明的组件之前，提供了神经网络的概要解释。

图5中示出了一个示例神经网络图。如这个图中所示，神经网络是节点和有向弧的集合。神经网络中的节点通常被组织成层。如图5中所示，在前馈神经网络中，这些层可自下而上编号。分层的前馈神经网络中的每个有向弧连接较低层的源节点和较高层的目的地节点。图5中所示的前馈神经网络有输入层、输出层和三个内层(尽管深层神经网络可以有更少或更多的内层)。神经网络的内层也被称为“隐藏”层。每个有向弧都与称为“权重”的数值相关联。通常，除输入节点之外的每个节点都与称为“偏差”的数值相关联。神经网络的权重和偏差被称为“学习”参数。在训练期间，学习参数的值由诸如图4中所示的计算机系统400的计算机系统来调整。控制训练过程的其它参数称为超参数。

前馈神经网络可以由计算机系统400使用随机梯度下降的迭代过程来训练，其中对每个小批次的学习参数进行一次迭代更新。整批训练数据通常被排列成一组较小的、不相交的集，称为小批次。一个历元包括计算机系统400对包含在整批训练数据中的每个小批次进行随机梯度下降更新。对于每个小批次，计算机系统400通过首先使用前馈激活计算来计算网络中每个节点的激活，来估计训练数据项的目标(或成本)函数的梯度。计算机系统400然后使用称为“反向传播”的过程(该过程基于微积分的链式法则来计算偏导数)来估计目标相对于学习参数的偏导数，向后通过网络的各层。随机梯度下降、前馈计算和反向传播的过程对于训练神经网络领域的技术人员是众所周知的。图1至3的机器学习系统的可以包括神经网络的一些组件包含例如编码器102、202、302，解码器104、204、304，真实与生成判别器219、319，分类器321，机器学习系统208、328以及失真(或噪声)检测器322。

上文已经概括了神经网络，现在注意图1，其示出了自动编码器的框图。自动编码器是一种机器学习系统，可以学习有效的数据编码，并可用于生成数据示例。使用自动编码器作为生成器对于神经网络领域的技术人员来说是众所周知的。尽管图1中所示的说明性实施例使用变分自动编码器(VAE)作为生成器111，但应理解，可以使用一些其它形式的生成器，诸如随机分类自动编码器网络(SCAN)。2018年9月7日提交、标题为“随机分类自动编码器网络(Stochastic Categorical AutoencoderNetwork)”、序列号为16/124,977的美国专利申请中描述了关于SCAN的更多细节。如图1中所示，典型的自动编码器包含编码器102，该编码器被训练成从训练示例101中产生层103，该层在传统自动编码器的情况下是瓶颈层，或者在VAE或SCAN的情况下是随机层。解码器104然后被训练以根据情况从瓶颈层或随机层103产生训练示例101。

自动编码器网络有时被称为通过“无监督”训练来学习，因为自动编码器网络不需要标记的训练数据。更准确地，自动编码器网络通过“自我监督”训练来学习。自动编码器网络的学习可以使用随机梯度下降训练，就像在监督训练中一样。然而，自动编码器提供自己的目标，其仅为输入数据101的副本。

对于任何输入数据项101，计算机系统向自动编码器系统111提供输入101。在训练期间，计算机系统400还提供输入101的副本作为解码器104的输出的目标，该输出也为自动编码器系统111的输出。如果自动编码器系统111是传统的确定性自动编码器，则自动编码器系统111通过前馈激活神经网络102、103和104中的节点来计算其输出。如果自动编码器系统111是随机自动编码器(诸如VAE或SCAN)，则编码器102产生确定参数概率分布的参数值作为输出。例如，参数可以指定一组高斯随机变量的均值和标准差(或其它中心趋势和离差统计)。如果自动编码器系统111是VAE，除了通过将解码器103的输出与作为目标的输入的副本进行比较来最小化误差函数的目标之外，将这些参数训练以最小化在训练数据上平均的概率分布的Kullbach-Leibler散度，作为强加的正则化。如果自动编码器系统111是SCAN，则训练这些参数只是为了最小化误差函数，但受到确定概率分布的参数的约束。例如，均值可以全部被限制为绝对值小于或等于1.0，并且标准差可以全部被限制为大于或等于1.0。对于任何类型的随机自动编码器，计算机系统400根据编码器102为输入101输出的参数指定的概率分布生成一组随机变量。这些随机变量的值然后是解码器104的输入。编码器104的输出(也是自动编码器系统111的输出)然后可以由计算机系统400作为前馈激活来计算。

图1中所示的说明性实施例与常规的确定性或随机自动编码器之间的差异包括框105(最近邻查找器)、106(相似度计算)和107(最小距离约束)。这些表示过程和/或约束(与机器学习系统或网络相反)的框为自动编码器111提供了如下所述的用于训练自动编码器111的附加目标。为了生成附加目标，计算机系统400首先在框107中设置最小距离标准。最小距离标准可以由超参数确定。

在最近邻查找器框105处，计算机系统400在一组最近邻候选113中找到其能找到的与解码器104为输入数据项101生成的输出模式最近的邻居。任何合适的算法(诸如k-最近邻算法)都可以用来找到最近邻。在一些实施例中，在最近邻查找器框105处的计算机系统400通过从鲁棒的自关联存储器112中检索它们作为输出来找到最近邻候选，诸如Hopfield网络或如在2018年9月19日提交的、标题为“具有循环神经网络的鲁棒的自关联存储器(Robust Auto-Associative Memory withRecurrent Neural Network)”的第PCT/US18/51683号PCT申请中所描述鲁棒的自关联存储器，该PCT申请通过引用整体并入本文。从解码器104到最近邻查找器框105的虚线箭头指示最近邻查找器框105从解码器104接收数据(例如，解码器104的输出)，但不直接将偏导数反向传播到解码器104。相反，以在最小距离约束框107处检测到违反最小距离约束为条件，惩罚项的偏导数可以从最小距离约束框107直接传播到解码器104。在图1中所示的说明性实施例中，如结合最小距离约束框107所解释的，当解码器104的输出越来越接近这个邻居时，在最近邻查找器框105处的计算机系统400准确地确定最近邻更重要。当检索这种接近的匹配时，自动关联存储器往往具有最准确的特性。

在相似度计算框106处，计算机系统400基于距离度量计算(i)在最近邻查找器框105处找到的最近邻和(ii)来自解码器104的输出模式之间的距离。可以使用任何合适的距离度量，诸如Euclidean距离度量或输入变量的数据空间中的一些其它度量。在一些实施例中，其可为一些编码中的距离度量，诸如特征向量。例如，可以通过训练为非随机自动编码器的编码器获得特征向量，其中特征向量作为瓶颈层。在一些实施例中，特征向量可以作为分类器中的中间阶段获得，例如在Word2Vec系统中的向量表示。

无论距离度量如何，在最小距离约束框107处，计算机系统400将在相似度计算框106处计算的距离与设置该距离的最小允许值的约束进行比较。在最小距离约束框107处，如果违反了最小距离约束(即，如果距离小于最小允许距离)，则计算机系统400可以向生成器/自动编码器111的反向传播的成本函数添加额外的正惩罚项。这防止了生成器111简单地复制输入，并且有助于生成器111学习从训练数据101中进行归纳。包含附加目标函数的自动编码器系统(诸如结合图1描述的系统)，可以被用作例如通过能够检测与原始模式接近但不完全匹配的模式来检测剽窃的系统。

对于任何违反，惩罚项可以是恒定的，或者可以根据违反的范围而变化。例如，当到最近邻的距离接近(但仍然小于)最小距离时，惩罚项可以更小，而当到最近邻的距离接近零时，惩罚项可以更大。惩罚的可变性可以随着到最近邻的距离和最小距离约束之间的差异而线性或非线性变化。优选地，由最小距离约束框107添加的惩罚项在解码器104的输出和最近邻之间的距离为零时具有最大值，该距离由最近邻查找器框105确定。如果该距离大于最小距离约束，则没有惩罚。一般地，如上所述，对于计算机系统400来说，在最近邻查找器框105处，准确地确定离这个邻居更近的最近邻更重要。

图2和图3是使用真实与生成判别器的生成器，诸如在生成对抗网络(GAN)中使用的。图2和3中的生成器211、311可以是传统的自动编码器、VAE、SCAN或GAN。然而，生成器211、311中的每一个还具有其它目标，这些目标有助于在它们的训练期间防止模式崩溃。

图2类似于图1，除了添加了真实与生成判别器219之外。图2的各种实施例可以代表对VAE、SCAN或GAN的增强。对于作为生成器211的VAE或SCAN，编码器202和原始模式201仅用于训练生成器211。对于作为生成器211的GAN，根本不使用它们；GAN具有随机层203作为其到解码器204的输入，并且不具有编码器202。不同类型的生成器具有不同的随机层203。GAN直接生成随机变量的向量，而不训练潜在变量作为编码器202的输出。SCAN和VAE在随机层203处的潜在变量的训练中具有不同的约束。

类似于图1，图2的系统使用类似于图1的框105、106和107的框205、206和207处的步骤，以允许子系统起到反剽窃检测器的作用。来自真实与生成判别器219的输出也被反向传播到生成器211。也就是说，真实与生成判别器219可以确定(或“判别”)生成器211的输出是真实的还是生成的。如果生成器211的输出是为真实与生成判别器219生成的，则真实与生成判别器219可以在其训练中将附加惩罚项反向传播到生成器211，从而有效地奖励生成器211生成真实的输出模式。框205-207还防止真实与生成判别器219使生成器211仅仅记忆训练数据101。从解码器204到最近邻查找器框205的虚线箭头指示最近邻查找器框205从解码器204接收数据，但不直接将偏导数反向传播到解码器204。相反，以最小距离约束框207检测到违反为条件，惩罚项的偏导数可以从最小距离约束框207直接传播到解码器204。在一些实施例中，真实与生成判别器219已经在与最近邻集213不相交的数据集上被训练。

图2的系统还可以包括附加的机器学习系统208，其为生成器211的训练提供附加目标(例如，除了输入数据目标和真实与生成判别器219之外的目标)。例如，机器学习系统208可以包括在训练生成器之前已经被训练的分类器，或者机器学习系统208可以在从解码器204的输出接收的数据上被训练。在任一情况下，机器学习系统208将其分类目标的偏导数反向传播到解码器204的输出。这个附加的目标有助于训练生成器211学习生成对区分分类器208中的类别有用的数据。除了提高分类器208的性能之外，这个附加目标还对生成器211具有正则化效果。在另一实施例中，机器学习系统208可以是分类器的集成或具有不同目标或不同类别的多个分类器。图3中所示的附加目标321和322可以替代地被视为来自图2中的机器学习系统208的其它目标的可能示例。一般地，来自机器学习系统208的额外目标有助于任何类型的生成器211从训练示例201中进行归纳，并且有助于防止可能由真实与生成目标219引起的模式崩溃。

图3是另一系统的框图，该系统可以代表任何生成器类型的增强版本。类似于图2，图3具有真实与生成判别器319和组件(例如框305、306和307)，其可用于允许子系统作为反剽窃检测器。这些组件的操作类似于图1的框105、106和107，并且防止真实与生成判别器319使生成器311仅仅记忆训练数据。从解码器304到最近邻查找器框305的虚线箭头指示最近邻查找器框305从解码器304接收数据，但不直接将偏导数反向传播到解码器304。相反，以检测违反最小距离约束框307为条件，惩罚项的偏导数可以从最小距离约束框307直接传播到解码器304。

图3添加了两种新类型的目标。机器学习失真(或噪声)检测器322可以被训练来检测解码器304的输出中的噪声或失真。在一些实施例中，失真(或噪声)检测器322被训练为具有监督训练的判别器，该训练包含在(i)原始图像和(ii)相同图像的噪声和失真版本之间。当失真(或噪声)检测器322确定解码器304的输出高于噪声的阈值水平时，失真(或噪声)检测器322可以将惩罚项反向传播到生成器311，从而有效地奖励生成器311生成没有噪声的模式。

机器学习分类器321提供不同种类的目标；其可为与生成器311分开训练的分类器，并且不一定在图3中所示系统的训练过程中被训练。在图3中的训练中，分类器321从其反向传播到生成器311的目标是多目标。即，分类器321的目标输出不是单个类别，而是包含多个类别的目标激活级别。例如，目标可以是类别A和类别B都具有0.5的激活。因为分类器321的训练数据中没有数据示例应该具有这样的模糊分数，所以分类器321施加了隐含的约束，即从解码器304生成的模式与分类器321的训练数据不匹配。分类器321的训练数据可以包含真实与生成判别器319的训练数据。分类器321的多类别目标然后防止来自解码器304的匹配鉴别器319的训练数据中的一个示例的输出模式对于整个目标是最优的。

因此，尽管真实与生成判别器319的目标奖励生成器311产生了真实的模式(包含判别器319的训练数据)，但是来自最小距离约束307和来自分类器321的目标阻止生成器311精确匹配训练数据301，并且鼓励解码器304归纳到新的模式。

可选地，图3中所示的系统还可以具有来自机器学习系统328的附加反向传播训练目标。例如，机器学习系统328可以包括一个或多个分类器，如结合图2的框208所解释的。一般地，来自机器学习系统328的附加目标可以具有正则化效果，使得生成器311的训练不太可能过拟合训练数据，并且不太可能具有模式崩溃。

图2和图3提供了两个说明性示例，说明如何对GAN、SCAN和VAE的多目标增强进行训练，以便从其训练数据中进行归纳，并以真实与生成判别器作为其目标之一，避免模式崩溃。

具有多个目标有助于避免模式崩溃，即使没有反剽窃子系统(例如，图2中的组件205、206、207或图3中的组件305、306、307)。在一些实施例中，可以省略包括图2中的组件205、206、207或图3中的组件305、306、307的子系统。在这些实施例中，具有其它多个目标，即使没有最小距离约束框207或307，也将增强系统(例如，数据生成器211、311)学习归纳到新数据的能力。多个目标还将提供正则化，降低自由度的有效数量，并且降低过拟合训练数据的趋势。除了真实与生成判别器219或319之外的多个目标也将降低GAN训练中模式崩溃的趋势。

图3A示出了本发明的另一方面，其中有多个生成器331、332、333以及多个检测器341、342、343，每个检测器可以体现图2和3中所示的多个目标的更鲁棒的版本。图3A是作为聚类的混合的数据集合的生成模型的说明性实施例的框图，每个聚类由相应的生成器-检测器对92A-C表示。在所示实施例中，输入数据的每个类别或其它集合被建模为聚类的混合，并且每个聚类有一个生成器-检测器对。因此，系统90被称为多生成器模型(MGM)。在图3A中所示的说明性实施例中，每个检测器341、342或343不是简单的检测器，而是可以为复杂的多目标分类器，其中每个分类器的每个输出节点被更鲁棒的3节点输出代替，该输出区分三个结果：检测(D)、拒绝(R)或中性(N，无决策)。每个检测器341、342或343可以体现图2和3中的一个或多个分类目标，即真实与生成判别器(219或319)、具有多类目标的分类器321、其它目标(228或328)或最小距离约束(207或307)。为简单明了起见，每个检测器只显示了一组三个节点D、R和N。在图3A中，只有三个聚类，都属于同一类别；因此，仅示出了三个生成器-检测器对92A-C，但是应理解，在无监督训练中，每个类别可以有任何数量的聚类/生成器-检测器对和任何数量的类别或任何数量的聚类。在一些实施例中，检测器341、342、343的3节点输出可以是单个节点，在这种情况下，检测器基本上等同于图3的子系统，即解码器(诸如图3的解码器304)，以及一个或多个目标(诸如图3的307、319、321、322和328)。

对于机器学习系统中的每个目标，带有softmax约束的两节点输出实际上等同于带有sigmoid激活函数的单个输出节点。如图3A中所示，具有softmax约束和“中性”选择的三节点输出是一节点输出或二节点输出的更鲁棒版本，其中一些数据不被分类为检测或拒绝。从“中性”类别在接受与拒绝选项之间创建了一个裕量或缓冲区的意义上来说，其更鲁棒。存在用于训练三节点检测器的各种实施例。一个实施例是简单地将一些训练数据标记为中性。另一实施例是在训练期间，将被不同类别的多个聚类检测器分类为“检测”或者没有被任何聚类检测器标记为“检测”的任何数据标记为中性。又一实施例是基于对与训练数据不相交的开发数据的测试中的优化性能，将训练数据动态地重新标记为“检测”、“拒绝”或“中性”。

如图3A中所示，每个生成器-检测器对92A-C可以包括一个生成器和一个检测器，并且优选地，对于该类别中的每个聚类有一个生成器-检测器对92A-C。参考图3A，假设有三个聚类，因此有三个生成器-检测器对，即：生成器1(框331)和检测器1(框341)形成聚类1的生成器-检测器对92A；生成器2(框332)和检测器2(框342)形成聚类2的生成器-检测器对92B；以及生成器3(框333)和检测器3(框343)形成聚类3的生成器-检测器对92C。如结合图2和3所述，生成器-检测器对由计算机系统400单独训练。

在计算机系统400的控制下，传输交换机340(以软件实现)根据系统90执行的操作在图3A中的元件之间建立不同的连接。在单独训练期间，每个生成器(331、332或333)连接到其相应的检测器(341、342或343)。在开发测试期间，生成器可以交叉连接到不同的检测器，以测试每一个对用于训练另一个的数据的归纳程度如何。在一些实施例中，每个生成器-检测器对的真实数据训练数据集与其它对的数据不相交。在一些实施例中，在用于生成器-检测器对的真实数据训练数据中存在一些重叠。训练生成器以优化其目标，诸如在GAN的情况下产生真实数据以愚弄真实与生成判别器207或307，或者在VAE的情况下最小化随机层203或303的KL散度，但是生成器没有被明确地限制产生也可能由另一生成器产生的数据。

在一个说明性实施例中，每个检测器341、342和343是多目标检测器，包括真实与生成检测器和其它目标，因此每个生成器331、332和333是“聚类”GAN，用于生成具有附加目标的唯一数据集合(例如，具有多个聚类的数据类别)内的数据示例。总的来说，聚类GAN331、332、333可以构成复合GAN。为了生成表示类别的数据，在节点330中，计算机系统400选择类别中的一个聚类。可以基于通过计算机系统400指定的概率分布来选择每个聚类。在作为两人博弈的GAN训练的说明性实施例中，存在两种概率分布，其中概率分布指定两个玩家中的每一个的vonNeumann混合策略。对于复合GAN，生成器331-333的集合代表一个玩家。计算机系统400将概率训练为学习参数，该学习参数指定复合GAN从每个聚类生成数据的频率，代表玩家的von Neumann混合策略。计算机系统400使用所选聚类的生成器(比如聚类2的生成器2等)为所选聚类(例如聚类2)生成数据示例，该数据示例被发送到传输交换机340。

当系统90训练检测器341、342、343时，在交换机340处，计算机系统400可以从框335接收真实的或生成的数据。真实的或生成的数据305可以存储在计算机系统400的板上和/或板外。如果数据305是生成的数据，则其可以由数据生成器(未示出)生成。交换机340将来自框305的数据发送到每个检测器111-113，一个检测器对应一个聚类。

在选择用于训练复合GAN的真实数据时，计算机系统400使用一组相似的概率350来选择真实数据的每个训练数据项，其中真实数据上的概率总和为1.0，从而表示第二个玩家(即真实与生成判别器)的von Neumann混合策略。在没有附加目标的情况下，由生成器331-333的集合表示的玩家的最佳策略是仅生成训练数据项，并且以相等的概率生成每个训练数据项。对于由检测器341-343的集合表示的玩家，最佳策略是拒绝与训练数据项不匹配的任何数据项，并且指定每个真实数据项的概率等于每个其它真实数据项的概率。附加目标迫使生成器-检测器对从训练数据中进行归纳，以共同满足多个目标。

从每个聚类检测器341-343，计算机系统400优选地将“检测”激活馈送到两个节点。一个目的地是“Max节点”351。Max节点351的激活是特定类别中所有聚类的“检测”输出的最大激活。例如，如图3A中所示，Max节点351的激活值等于检测器1至3的检测输出的单个最大激活值。节点351的激活可以用作类别分类任务中类别的分数。节点351优选地在分类任务的训练期间接收反向传播，并且反过来计算机系统400将误差成本函数导数反向传播到具有最大值的检测器341-343。

在聚类分类模式中，第二目的地是节点集361中的专用节点。对于每个检测器341-343，在节点集361中有一个节点，因此对于指定类别中的每个聚类有一个节点。计算机系统400将每个聚类检测器341-343的“检测”激活发送到节点集361中其各自的专用节点。在说明性实施例中，计算机系统400对节点集361执行softmax操作；即，其将节点的激活归一化为一。在训练期间，计算机系统400将节点集361训练用于聚类分类。对于每个数据示例，节点集361的目标对于正确的聚类是值一，而对于所有其它节点是值零。在节点集361中，计算机系统400将此目标分别反向传播到聚类检测器341、342和343。

如果图3A中的多个生成器331、332、333是GAN(即，“聚类GAN”)，则在节点330中引入概率从根本上改变了复合GAN学习过程。在GAN的两人博弈解释中，节点330中的概率表示由聚类GAN生成器表示的玩家选择聚类的von Neumann混合策略的概率。节点350中的概率表示von Neumann混合策略的概率，该策略用于由玩家选择真实数据355，该玩家由多目标检测器中的真实与生成判别器表示。多目标检测器中的其它目标有助于提高系统90学习归纳的能力，但不受GAN训练的假想两人博弈中“玩家”的控制。博弈数学理论的基本定理是von Neumann的不动点极小极大定理，它保证任何两人零和博弈都有唯一的值，并且每个玩家都有一个概率混合策略，保证至少有唯一的值，不管其它玩家可能使用什么策略。如图3A所示，这个定理意味着基于von Neumann混合策略的GAN学习方法将收敛到vonNeumann不动点值。换句话说，基于如图3A中所示的实施例的GAN学习方法避免了其它GAN学习方法的稳定性问题。特别地，其避免了基于玩家在两人零和博弈模型中交替选择纯策略的原始GAN实现方式的周期性非收敛行为。其还避免了非零和博弈中多重Nash均衡所带来的问题，这是因为零和博弈的von Neumann解是唯一的。图3A中所示的3节点检测器341、342、343的鲁棒性和多个目标对于von Neumann解的稳定性不是必需的。例如，图3A的一个实施例是每个检测器341、342、343仅仅是具有多个目标的解码器的副本，诸如具有图3中所示目标307、319、321、322和328的解码器304。此外，图3A中所示的系统可以通过使每个模式具有单独的聚类生成器331、332、333来避免模式崩溃。另一方面，尽管von Neumann混合策略本身解决了稳定性问题，但在优选实施例中，期望的是多目标、鲁棒检测器以及交叉训练和开发测试，这是因为它们有助于生成器学习归纳到不包含在训练数据中的新数据的能力。

图4是可用于实现上述实施例的计算机系统400的图。图示的计算机系统400包括多个处理器单元402A-B，在图示的实施例中，每个处理器单元包括多(N)组处理器核404A-N。每个处理器单元402A-B可以包括板上存储器(ROM或RAM)(未示出)和板外存储器406A-B。板上存储器可以包括主要的、易失性和/或非易失性存储器(例如，可由处理器核404A-N直接访问的存储器)。板外存储器406A-B可以包括辅助的非易失性存储器(例如，处理器核404A-N不能直接访问的存储器)，诸如ROM、HDD、SSD、闪存等。处理器核404A-N可以是CPU核、GPU核和/或AI加速器核。GPU核并行操作(例如，通用GPU(GPGPU)管线)，因此通常可以比CPU核的集合更有效地处理数据，但是GPU的所有核同时执行相同的代码。AI加速器是一类设计用来加速人工神经网络的微处理器。它们通常也用作具有主CPU410的设备中的协处理器。AI加速器通常有数万个矩阵乘法器单元，它们的运算精度低于CPU核，诸如AI加速器中的8位精度与CPU核中的64位精度。

在各种实施例中，不同的处理器核404可以训练和/或实现不同的网络或子网或组件。例如，在一个实施例中，第一处理器单元402A的核可以实现图1中的编码器102，并且第二处理器单元402B可以实现解码器104。在其它实施例中，第一处理器单元402A中不同组的核可以负责编码器102和解码器104。此外，处理器核404中的一个或多个和/或处理器单元中的一个或多个可以实现本文的系统中的其它组件，诸如近邻查找器105、真实与生成判别器219、失真或噪声检测器322、多类别分类器321等。一个或多个主处理器410可以协调和控制处理器单元402A-B。

在其它实施例中，系统400可以用一个处理器单元402来实现。在存在多个处理器单元的实施例中，处理器单元可以是协同定位的或分布式的。例如，处理器单元402可以使用合适的有线和/或无线数据通信链路通过诸如LAN、WAN、互联网等数据网络互连。可以使用合适的数据链路(诸如数据总线(优选地是高速数据总线)或网络链路(例如以太网))在各种处理单元402之间共享数据。

本文描述的各种计算机系统400的软件和本文描述的其它计算机功能可以使用任何合适的计算机编程语言(诸如.NET、C、C++、Python)并使用传统的、功能性的或面向对象的技术在计算机软件中实现。用于计算机软件和其它计算机实现的指令的编程语言可以在执行之前由编译器或汇编器翻译成机器语言，和/或可以在运行时由解释器直接翻译。汇编语言的示例包含ARM、MIPS和x86；高级语言的示例包含Ada、BASIC、C、C++、C#、COBOL、Fortran、Java、Lisp、Pascal、Object Pascal、Haskell、ML；并且脚本语言的示例包含Bourne script、JavaScript、Python、Ruby、Lua、PHP和Perl。

因此，在一个总体方面，本发明涉及机器学习计算机系统和用于训练机器学习数据生成器的计算机实现的方法。在一个实施例中，该方法包括用包括一组处理器核404A-N的计算机系统400来训练机器学习数据生成器111、211、311，其中训练数据生成器包括通过具有多个目标的机器学习来训练数据生成器，目标包含：第一目标，数据生成器生成匹配目标数据模式集中的数据模式的数据模式作为输出模式；以及第二目标，其不同于第一目标。

根据本发明一个实施例的计算机系统包括一组处理器核404A-N和与该组处理器核通信的计算机存储器(例如，板上或板外存储器406A-B)。计算机存储器存储软件，当一组处理器核执行该软件时，使该组处理器核通过具有多个目标的机器学习来训练机器学习数据生成器111、211、311，目标包含：第一目标，数据生成器生成匹配目标数据模式集中的数据模式的数据模式作为输出模式；以及第二目标，其不同于第一目标。

在各种实施方式中，数据生成器包括前馈神经网络，并且训练数据生成器包括使用随机梯度下降来训练数据生成器。此外，数据生成器的第一目标是生成输入到数据生成器的输入模式作为输出模式。在这种情况下，数据生成器可以包括确定性自动编码器或随机自动编码器，诸如变分自动编码器或随机分类自动编码器网络。在其它实施例中，数据生成器可以包括生成对抗网络。

在上述任何示例中，第二目标可以包括来自反剽窃子系统的目标(例如，图1的组件105-107)。当来自数据生成器的输出模式在作为输出模式的最近邻候选模式集中的最近邻的最近邻模式的最小阈值距离内时，来自反剽窃子系统的目标可以通过数据生成器反向传播反剽窃惩罚项的偏导数。该计算机软件可以存储软件，当一组处理器核执行该软件时，使得该组处理器核利用Hopfield网络或自动关联存储器生成一组最近邻候选模式。计算机存储器可以存储软件，当一组处理器核执行该软件时，使得该组处理器核计算输出模式和最近邻候选模式之间的距离。该距离可以包括输出模式和最近邻候选模式之间的Euclidean距离。此外，反剽窃惩罚项优选地与输出模式和最近邻候选模式之间的距离成反比。

除了或代替反剽窃第二目标，多个目标可包括第三(或第二，视情况而定)目标，第三目标是真实与生成判别器的输出，使得当来自数据生成器的输出模式被确定为由真实与生成判别器生成时，所生成的数据惩罚项被反向传播到数据生成器。

除了或代替上述目标，多个目标可以包括附加目标，该附加目标是包括分类器的机器学习子系统的输出，使得机器学习子系统的分类目标的偏导数被反向传播到数据生成器。机器学习子系统可以包括分类器集成或多目标分类目标。

除了或代替上述目标，多个目标可以包括作为机器学习失真检测器的输出的目标，使得这个目标将过度失真惩罚项反向传播到数据生成器。

在另一总体方面，本发明涉及一种计算机实现的方法，该方法包括以下步骤：由包括一组处理器核402A-N的计算机系统400训练用于在数据集合中产生数据示例的复合生成对抗网络(GAN)。复合GAN包括N个生成器-检测器对92A-C，其中N>1。N个生成器-检测器对中的每一个包括：聚类GAN 331-333，用于为数据集合中的一个聚类生成数据，使得有N个聚类，一个聚类对应一个生成器-检测器对；以及相应的多目标分类器341-343，用于对生成器-检测器对的相应聚类GAN的聚类中的数据进行分类。N个多目标分类器341-343中的每一个包括真实与生成判别器，用于判别多目标分类器的输入数据是真实的数据还是生成的数据。在训练多个生成器-检测器对92A-C的聚类GAN 331-333时，基于第一指定概率分布选择N个聚类中的一个。附加地，在训练多目标分类器341-343时，基于第二指定概率分布设置多目标分类器的训练示例是真实数据的特定示例的概率。

在另一总体方面，本发明涉及一种计算机系统400，其包括一组处理器核402A-N和计算机存储器(例如，板外存储器406A-B)，该计算机存储器存储软件，当该组处理器核执行该软件时，使得该组处理器核训练复合生成对抗网络(GAN)，用于如上所述在数据集合中产生数据示例。

在各种实施方式中，第一指定概率分布对应于二人玩家GAN训练博弈中第一玩家的第一von Neumann混合策略，并且第二指定概率分布对应于二人玩家GAN训练博弈中第二玩家的第二von Neumann混合策略。此外，数据集合可以包括数据类别

通过上面的描述，显而易见的是，根据本发明实施例的机器学习数据生成器可以避免生成与任何先前已知的数据示例过于相似的数据。这种生成的或“合成的”数据可用于多种应用，诸如训练计算机视觉系统、图像分类器或其它类型的分类器等。

本文给出的示例旨在说明本发明的潜在的和具体的实现方式。应理解，这些示例主要是为了向本领域技术人员说明本发明。示例的一个或多个特定方面并不旨在限制本发明的范围。进一步，应理解，已经简化了本发明的附图和描述，以说明与清楚理解本发明相关的元件，同时，为了清楚起见，消除了其它元件。尽管本文已经描述了各种实施例，但明显的是，本领域技术人员在获得至少一些优点的情况下，可以对这些实施例进行各种修改、变更和改编。因此，在不脱离本文阐述的实施例的范围的情况下，所公开的实施例旨在包含所有这样的修改、变更和改编。

Claims

1.一种计算机实现的方法，包括：

用包括一组处理器核的计算机系统训练机器学习数据生成器，其中训练所述数据生成器包括通过具有多个目标的机器学习来训练所述数据生成器，其中所述多个目标包括：

第一目标，所述数据生成器生成匹配目标数据模式集中的数据模式的数据模式作为输出模式；以及

第二目标，其不同于所述第一目标。

2.根据权利要求1所述的计算机实现的方法，其中：

所述数据生成器包括前馈神经网络；以及

训练所述数据生成器包括使用随机梯度下降训练所述数据生成器。

3.根据权利要求2所述的计算机实现的方法，其中所述数据生成器的所述第一目标是生成输入到所述数据生成器的输入模式作为所述输出模式。

4.根据权利要求3所述的计算机实现的方法，其中所述数据生成器包括确定性自动编码器。

5.根据权利要求3所述的计算机实现的方法，其中所述数据生成器包括随机自动编码器。

6.根据权利要求5所述的计算机实现的方法，其中所述随机自动编码器包括变分自动编码器。

7.根据权利要求5所述的计算机实现的方法，其中所述随机自动编码器包括随机分类自动编码器网络。

8.根据权利要求1所述的计算机实现的方法，其中所述数据生成器包括生成对抗网络。

9.根据权利要求1至8中任一项所述的计算机实现的方法，其中所述第二目标包括来自反剽窃子系统的目标。

10.根据权利要求9所述的计算机实现的方法，其中当来自所述数据生成器的输出模式在作为所述输出模式的最近邻候选模式集中的最近邻的最近邻模式的最小阈值距离内时，来自所述反剽窃子系统的所述目标通过所述数据生成器反向传播反剽窃惩罚项的偏导数。

11.根据权利要求10所述的计算机实现的方法，还包括所述计算机系统利用Hopfield网络生成所述最近邻候选模式集。

12.根据权利要求10所述的计算机实现的方法，还包括所述计算机系统利用自动关联存储器生成所述最近邻候选模式集。

13.根据权利要求10所述的计算机实现的方法，还包括所述计算机系统计算所述输出模式和所述最近邻候选模式之间的距离。

14.根据权利要求10所述的计算机实现的方法，其中计算所述距离包括计算所述输出模式和所述最近邻候选模式之间的Euclidean距离。

15.根据权利要求13所述的计算机实现的方法，其中所述反剽窃惩罚项与所述输出模式和所述最近邻候选模式之间的所述距离成反比。

16.根据权利要求1至8中任一项所述的计算机实现的方法，其中所述多个目标包括第二目标，所述第二目标是真实与生成判别器的输出，使得当来自所述数据生成器的输出模式被确定为由所述真实与生成判别器生成时，所生成的数据惩罚项被反向传播到所述数据生成器。

17.根据权利要求9所述的计算机实现的方法，其中所述多个目标包括第三目标，所述第三目标是真实与生成判别器的输出，使得当来自所述数据生成器的输出模式被确定为由所述真实与生成判别器生成时，所生成的数据惩罚项被反向传播到所述数据生成器。

18.根据权利要求17所述的计算机实现的方法，其中所述多个目标包括作为机器学习子系统的输出的第四目标。

19.根据权利要求18所述的计算机实现的方法，其中机器学习子系统包括分类器，使得所述机器学习子系统的分类目标的偏导数被反向传播到所述数据生成器。

20.根据权利要求19所述的计算机实现的方法，其中所述机器学习子系统包括分类器的集成。

21.根据权利要求19所述的计算机实现的方法，其中所述分类器包括多目标分类目标。

22.根据权利要求17所述的计算机实现的方法，其中所述多个目标包括第四目标，所述第四目标是机器学习失真检测器的输出，使得所述第四目标将过度失真惩罚项反向传播到所述数据生成器。

23.根据权利要求18所述的计算机实现的方法，其中所述多个目标包括第五目标，所述第五目标是机器学习失真检测器的输出，使得所述第五目标将过度失真惩罚项反向传播到所述数据生成器。

24.一种机器学习计算机系统，包括：

一组处理器核；以及

计算机存储器，其与所述一组处理器核通信，其中所述计算机存储器存储软件，当所述一组处理器核执行所述软件时，使得所述一组处理器核训练机器学习数据生成器，其中训练所述数据生成器包括通过具有多个目标的机器学习来训练所述数据生成器，其中所述多个目标包括：

第二目标，其不同于所述第一目标。

25.根据权利要求24所述的机器学习计算机系统，其中：

所述数据生成器包括前馈神经网络；以及

26.根据权利要求25所述的机器学习计算机系统，其中所述数据生成器的所述第一目标是生成输入到所述数据生成器的输入模式作为所述输出模式。

27.根据权利要求26所述的机器学习计算机系统，其中所述数据生成器包括确定性自动编码器。

28.根据权利要求26所述的机器学习计算机系统，其中所述数据生成器包括随机自动编码器。

29.根据权利要求28所述的机器学习计算机系统，其中所述随机自动编码器包括变分自动编码器。

30.根据权利要求28所述的机器学习计算机系统，其中所述随机自动编码器包括随机分类自动编码器网络。

31.根据权利要求24所述的机器学习计算机系统，其中所述数据生成器包括生成对抗网络。

32.根据权利要求24至31中任一项所述的机器学习计算机系统，其中所述第二目标包括来自反剽窃子系统的目标。

33.根据权利要求32所述的机器学习计算机系统，其中当来自所述数据生成器的输出模式在作为所述输出模式的最近邻候选模式集中的最近邻的最近邻模式的最小阈值距离内时，来自所述反剽窃子系统的所述目标通过所述数据生成器反向传播反剽窃惩罚项的偏导数。

34.根据权利要求33所述的机器学习计算机系统，其中所述计算机存储器存储软件，当所述一组处理器核执行所述软件时，使得所述一组处理器核利用Hopfield网络生成所述一组最近邻候选模式。

35.根据权利要求33所述的机器学习计算机系统，其中所述计算机存储器存储软件，当所述一组处理器核执行所述软件时，使得所述一组处理器核利用自动关联存储器生成所述一组最近邻候选模式。

36.根据权利要求33所述的机器学习计算机系统，其中所述计算机存储器存储软件，当所述一组处理器核执行所述软件时，使得所述一组处理器核计算所述输出模式和所述最近邻候选模式之间的距离。

37.根据权利要求33所述的机器学习计算机系统，其中所述距离包括所述输出模式和所述最近邻候选模式之间的Euclidean距离。

38.根据权利要求36所述的机器学习计算机系统，其中所述反剽窃惩罚项与所述输出模式和所述最近邻候选模式之间的所述距离成反比。

39.根据权利要求24至31中任一项所述的机器学习计算机系统，其中所述多个目标包括第二目标，所述第二目标是真实与生成判别器的输出，使得当来自所述数据生成器的输出模式被确定为由所述真实与生成判别器生成时，所生成的数据惩罚项被反向传播到所述数据生成器。

40.根据权利要求32所述的机器学习计算机系统，其中所述多个目标包括第三目标，所述第三目标是真实与生成判别器的输出，使得当来自所述数据生成器的输出模式被确定为由所述真实与生成判别器生成时，所生成的数据惩罚项被反向传播到所述数据生成器。

41.根据权利要求40所述的机器学习计算机系统，其中所述多个目标包括第四目标，所述第四目标是包括分类器的机器学习子系统的输出，使得所述机器学习子系统的分类目标的偏导数被反向传播到所述数据生成器。

42.根据权利要求41所述的机器学习计算机系统，其中所述机器学习子系统包括分类器的集成。

43.根据权利要求41所述的机器学习计算机系统，其中所述分类器包括多目标分类目标。

44.根据权利要求40所述的机器学习计算机系统，其中所述多个目标包括第四目标，所述第四目标是机器学习失真检测器的输出，使得所述第四目标将过度失真惩罚项反向传播到所述数据生成器。

45.根据权利要求41所述的机器学习计算机系统，其中所述多个目标包括第五目标，所述第五目标是机器学习失真检测器的输出，使得所述第五目标将过度失真惩罚项反向传播到所述数据生成器。

46.一种计算机实现的方法，包括：

包括一组处理器核的计算机系统训练用于在数据集合中产生数据示例的复合生成对抗网络(GAN)，其中所述复合GAN包括N个生成器-检测器对，其中N>1，使得：

所述N个生成器-检测器对中的每一个包括：

聚类GAN，用于为所述数据集合中的一个聚类生成数据，使得有N个聚类，一个聚类对应一个生成器-检测器对；以及

相应的多目标分类器，用于对所述生成器-检测器对的所述相应聚类GAN的所述聚类中的数据进行分类，其中所述N个多目标分类器中的每一个都包括真实与生成判别器，用于判别所述多目标分类器的输入数据是真实数据还是生成数据，以及

其中：

在训练所述多个生成器-检测器对的所述聚类GAN时，基于第一指定概率分布选择所述N个聚类中的一个；以及

在训练所述多目标分类器时，基于第二指定概率分布设置所述多目标分类器的训练示例是真实数据的特定示例的概率。

47.根据权利要求46所述的方法，其中：

所述第一指定概率分布对应于二人玩家GAN训练博弈中第一玩家的第一von Neumann混合策略；以及

所述第二指定概率分布对应于所述二人玩家GAN训练博弈中第二玩家的第二vonNeumann混合策略。

48.根据权利要求47所述的方法，其中所述数据集合包括数据类别。

49.一种机器学习计算机系统，包括：

一组处理器核；以及

计算机存储器，其存储软件，当所述一组处理器核执行所述软件时，使得所述一组处理器核训练复合生成对抗网络(GAN)，用于在数据集合中产生数据示例，其中所述复合GAN包括N个生成器-检测器对，其中N>1，使得：

所述N个生成器-检测器对中的每一个包括：

其中：

50.根据权利要求49所述的机器学习计算机系统，其中：