CN116569188A

CN116569188A - 数据集空间中的梯度流

Info

Publication number: CN116569188A
Application number: CN202180065409.XA
Authority: CN
Inventors: D·阿尔瓦雷斯-梅利斯; N·富西
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-09-24
Filing date: 2021-06-30
Publication date: 2023-08-08
Also published as: US20220092037A1; WO2022066258A1; US20230385247A1; US11709806B2; US12189584B2; EP4217940A1

Abstract

总体上，在此讨论的是通过使数据集朝向目标数据集流动而用于机器学习(ML)的设备、系统和方法。一种方法可以包括：接收对包括第一特征标签配对的第一数据集操作的请求，从多个数据集标识第二数据集，第二数据集包括第二特征标签配对，确定第一特征标签配对和第二特征标签配对之间的距离，以及使用基于所确定的距离操作的数据集目标来使第一数据集流动，以生成经优化的数据集。

Description

数据集空间中的梯度流

背景技术

机器学习(ML)的当前实践是以模型为中心的。当前的实践在假设数据要么是固定的，要么是受制于外在的和不可避免的变化的同时将问题归结为对模型参数的调整。这种实践未能捕捉到ML的重要现有方面，诸如数据操作(例如，增强)，而这些操作涉及到通常的ML设计、训练和操作。此外，这种实践不适合将新的以数据为中心的问题(诸如模型不可知的迁移学习或数据集合成)形式化。

发明内容

提供该概要部分是为了以简化的形式介绍实施例的各方面，在详细描述中对以下实施例进一步解释。本概要部分不旨在标识所要求保护的主题的基本或所需特征，并且本概要部分中列出的元素的组合和顺序不旨在对所要求保护主题的元素提供限制。

实施例可以以不同于传统ML范式的方式执行机器学习(ML)的操作。实施例可以基于指定目标使第一数据集朝向第二数据集流动。实施例可以允许修改(“流动”)数据集以满足目标，而不是修改模型参数以满足目标。

方法、系统、计算机可读介质、设备等可以被配置为实现一个或多个实施例。使数据集朝向目标数据集流动的ML方法可以包括接收对包括第一特征标签配对的第一数据集操作的请求。该方法可以包括从多个数据集标识第二数据集，该第二数据集包括第二特征标签配对。该方法可以包括确定第一特征标签配对和第二特征标签配对之间的距离。该方法可以包括使用基于所确定的距离操作的数据集目标来使第一数据集流动，以生成经优化的数据集。

该方法还可以包括，其中每个标签由在距离确定中映射到标签的特征的概率分布表示。该方法还可以包括以经改变的第一数据集作为输入来操作在第二数据集上训练的第一ML模型以提供结果。该方法还可以包括使用第二数据集的至少一部分和经改变的第一数据集来训练第二ML模型。该方法还可以包括提供经改变的第一数据集。

该方法还可以包括在训练期间保持第一ML模型静态。该方法还可以包括，其中确定距离包括确定可微分距离。该方法还可以包括，其中该距离包括最优运输距离(OTD)。该方法还可以包括，其中确定OTD包括基于第一数据集和第二数据集的与第一数据集和第二数据集的相应标签相关联的数据点的特征来确定相应标签之间的距离。该方法还可以包括，其中使第一数据集流动包括确定数据集目标相对于第一数据集的梯度，并且使第一数据集流动还包括使用所确定的梯度来更新第一数据集。该方法还可以包括，其中数据集目标包括以下至少一项：最小化内能、最小化势能、最小化距离或最小化相互作用能。

该方法还可以包括，其中数据集目标包括最小化特征标签配对之间的距离。该方法还可以包括，其中使用所确定的梯度更新第一数据集包括使用特征驱动的更新、联合驱动的固定标签更新或联合驱动的变量标签更新。该方法还可以包括，其中第一数据集和第二数据集包括图像数据集，或者第一数据集和第二数据集包括自然语言处理(NLP)数据集。

附图说明

图1以示例的方式示出了用于数据集优化的系统的实施例的逻辑框图。

图2以示例的方式示出了用于数据集优化的系统的另一实施例的逻辑框图。

图3以示例的方式示出了用于数据集优化的系统的又一实施例的逻辑框图。

图4以示例的方式示出了用于数据集优化的技术的实施例的流程图。

图5以示例的方式示出了用于数据集优化的技术的另一实施例的流程图。

图6以示例的方式示出了在各种时间步长处的梯度流的一系列图。

图7以示例的方式示出了在各种时间步长处的梯度流的另一系列图。

图8以示例的方式示出了使用四个图像分类数据集的用于迁移学习的不同技术中的误差条形图。

图9以示例的方式示出了在实施例中的几个图像序列，该实施例示出了在梯度流过程期间的各个时间的图像。

图10以示例的方式示出了用于实现一个或多个实施例的机器(例如，计算机系统)的实施例的框图。

具体实施方式

在下面的描述中，参考构成本文一部分的附图，并且其中通过说明的方式示出了可以实践的具体实施例。这些实施例被充分详细地描述以使本领域技术人员能够实践这些实施例。应当理解，可以使用其他实施例，并且可以在不脱离实施例的范围的情况下进行结构、逻辑和/或电气改变。因此，实施例的以下描述不应被理解为有限的意义，并且实施例的范围由所附权利要求限定。

在一些实施例中，本文描述的操作、功能或算法可以在软件中实现。该软件可以包括存储在计算机或其他机器可读介质或存储设备上的计算机可执行指令，诸如一个或多个非暂时性存储器(例如，非暂时性机器可读介质)或其他类型的基于硬件的存储设备(本地或网络)。此外，这样的功能可以与子系统对应，子系统可以是软件、硬件、固件或其组合。根据需要，可以在一个或多个子系统中执行多个功能，所描述的实施例仅仅是示例。软件可以在数字信号处理器、ASIC、微处理器、中央处理器(CPU)、图形处理器(GPU)、现场可编程门阵列(FPGA)或在计算机系统(诸如个人计算机、服务器或其他计算机系统)上操作的其他类型的处理器上执行，从而将这样的计算机系统变成专门编程的机器。可以使用处理电路来实现功能或算法，诸如可以包括电气部件和/或电子部件(例如，一个或多个晶体管、电阻器、电容器、电感器、放大器、调制器、解调器、天线、无线电、调节器、二极管、振荡器、复用器、逻辑门、缓冲器、高速缓存、存储器、GPU、CPU、现场可编程门阵列(FPGA)，等等)。

在传统的ML过程中，学习任务侧重于从以模型为中心的角度进行推理、正则化和数据预处理。在传统的ML范式中，优化问题被转换为在给定数据集上找到最小化某些数据集目标(例如，经验风险)的模型参数。在整个过程中，通常假设数据分布是固定的和不可变的。如果不是，诸如在迁移学习和领域适应范式中，则假设变化的来源是外在的，并且无法控制。因此，这些范式也被转换为学习最优模型参数，并添加了一个约束，即这些范式应考虑数据分布的变化。因此，从优化的角度来看，大多数ML可以被理解为模型参数优化。

与正常ML实践相反，实施例将数据集视为变量并优化数据集。此视图将ML任务视为对数据生成分布的优化。实施例通过数据集概率空间中的梯度流来处理这类问题。实施例提供了针对各种数据集目标灵活且表现良好的实用且高效的基于粒子的方法。实施例提供了一种框架，该框架对于ML中的数据集插值、合成、聚合、数据隐私以及其他应用是有效的。

实施例提供了使用基本不同的优化问题类生成的设备、系统和方法。优化问题侧重于动态数据集而不是动态模型。广义地说，优化问题涉及找到或修改数据集以优化感兴趣的数据集目标函数。数据集目标可以与特定模型相关(例如，该模型在哪个数据集上表现最好？)，也可以是模型不可知的(例如，什么是最相似的线性可分离数据集？)。这种数据集优化范式与模型参数优化是一种非常不同的ML方法。实施例提供了使用传统ML范式无法解决的常见ML问题(诸如数据集生成)的解决方案。保留足够的数据来训练跨感兴趣的领域中足够准确的ML模型可能非常具有挑战性。这至少部分是因为将ML模型训练到足够的精度可能需要数千、数万、数十万甚至数百万个数据样本(特征、标签)对。注释(确定或验证粒子特征集的标签)可能非常耗时，而且成本高昂。此外，在包括具有第一分布的特征的数据集上训练的ML模型在对具有第二不同分布(即使分布相似)的数据进行操作时可能不够准确。因此，生成数据集是一个技术问题。实施例提供了这样的问题以及其他问题的技术解决方案。

实施例提供了用于形式化各种公知的数据处理启发式的工具，这些启发式形成了大多数最先进的ML管线的一部分，诸如数据增强、数据集池或实例混合。实施例还允许在新的视角下提出新问题或解决现有问题，诸如具有特定(例如，大小或隐私)约束的数据集合成、缺失数据插补或数据压缩。元学习是另一个以数据集为中心的方法相关的问题。元学习可以将新任务“改造(retro-fit)”到训练模型的专业领域，而不是通常的方案，即通过基于数据集目标优化数据集，使模型参数适应任务。

至少两个特征将模型参数优化和数据集优化范式分开。首先，数据集优化范式本质上与模型无关。这允许不针对特定模型进行数据集操作。生成的数据集可以为在生成的数据集中训练或操作的所有模型提供益处。其次，虽然模型参数优化通常被转换为有限维问题(例如，在针对具有k个参数的模型的R^k之上)，但数据集优化最自然地被表述为无限维空间之上的一个数据集优化。虽然数据集可由有限多个样本组成，但精确的数量很少相关，而且通常未指定(例如，在流设置中)。相反，真正感兴趣的对象是产生数据集的生成过程。例如，在监督学习的上下文中，数据集可以通过联合分布p(X，Y)来表征，其中X和Y分别是特征和标签，并且可以通过特征和标签对的分布来表示。在这种情况下，优化问题将定义在联合分布P(X×Y)的空间上(例如，找到最小化给定数据集目标F(p)的P*∈P(X×Y))。有多种方法来处理和形式化这一问题。实施例可以使用梯度流，这是在非常一般的无限维空间中建模动力学的应用数学的关键。使用梯度下降的梯度流是一种求可微函数局部最小值的一阶导数迭代技术。为了使用梯度下降找到函数的局部最小值，在当前点处采取与函数的梯度(或近似梯度)的负值成比例的步骤。梯度流具有各种吸引人的特性：它们在基础空间和可以建模的动态类型方面都具有内在的灵活性，可以进行严格的收敛分析，除了最终的最小化解决方案外，它们还可以生成完整的迭代轨迹，这通常很有用。

但利用梯度流进行标记数据集优化带来了各种挑战。很难在数据集之间定义特征-标签配对的适当表示和有意义的度量。然后，必须找到一类流，这些流具有足够的表现力，可以在数据集上建模感兴趣的数据集目标函数，但表现得足够好以允许易于处理的优化。响应于这些挑战中的第一个挑战，实施例利用了最近提出的基于最优运输(OT)的数据集之间距离的概念，称为最优运输距离(OTD)或最优运输数据集距离(OTDD)，其为联合分布的空间提供了有意义的度量。通过使该度量可微，可以对其进行优化。实施例可以使用数据集目标，该数据集目标可以被重新用于编码各种与数据集相关的数据集目标。结果，实施例提供了一种灵活且高效的数据集优化框架。

通常，实施例可以使用差分距离度量和基于确定的距离的梯度流来优化数据集目标的数据集。下面进一步讨论示例可微分距离度量(OTDD)和梯度流的细节。现在将参考附图以提供实施例的进一步细节和应用。

图1以示例的方式示出了用于数据集优化的系统100的实施例的图。所示的系统100包括具有设备102的用户101。设备102可以向数据优化ML系统106发出请求104。请求104可以指示第一数据集的位置、包括第一数据集，等等。请求104可以指示期望的结果，诸如ML模型、满足特定标准的数据，等等。

设备102是计算设备，诸如计算机(例如，膝上型计算机、台式机、手持机、智能手机、平板电脑、平板手机，等等)。设备102可以访问数据优化ML系统106。数据优化ML系统106可以对第一数据集操作以满足数据集目标。在图1的示例中，用户101请求了更多的数据，诸如用于训练或分类(例如，使用传统的ML范式)。数据优化ML系统106可以包括被配置为实现操作110、操作112的处理电路。

处理电路可以包括电气部件或电子部件、在电气部件或电子部件上执行的软件或固件或其组合。电气部件或电子部件可以包括一个或多个电阻器、晶体管、电容器、二极管、电感器、逻辑门(例如，与、或、异或、反转、缓冲器，等等)、开关、电源、振荡器、模数转换器、数模转换器、放大器、存储器设备、处理设备(例如，中央处理器(CPU)、现场可编程门阵列(FPGA)、图形处理器(GPU)、专用集成电路(ASIC)，等等)、其组合，等等)。

所示的请求104包括第一数据集或第一数据集的分布以及期望的输出(分类、数据集、ML模型，等等)。第一数据集的分布可以包括均值、协方差、形状(例如，高斯混合，等等)。

操作110包括确定用户101提供的第一数据集的特征标签配对和一个或多个第二数据集的特征标签配对之间的可微分距离。可微分距离可以包括OTDD。操作110可以包括标识最接近第一数据集的一个或多个第二数据集。与距离较远的数据集相比，距离较近的数据集可能需要较少的处理(较少的迭代次数)来实现数据集目标。在操作112，可以改变所标识的第二数据集以最大化目标。操作112可以包括使用梯度流和所确定的可微分距离来最小化数据集目标。数据集目标可以包括势能、瓦瑟斯坦距离、内能、相互作用能或其组合。数据集目标可以对数据改变实施约束，诸如标签之间的可分离性(例如，通过势能或相互作用能)、对特征范数的约束、数据集相似性(例如，通过距离数据集目标)、熵考虑(例如，使用内能)另一约束或其组合。

表1示出了各种数据集之间的可微分距离：

	MNIST	EMNIST	FashionMNIST	KMNIST	USPS
						MNIST		1.04	1.74	1.41	1.26
EMNIST	1.04		1.57	1.28	1.32
						FashionMNIST	1.74	1.57		1.67	1.10
KMNIST	1.41	1.28	1.67		1.30
						USPS	1.26	1.32	1.10	1.30

表1：一些国家标准与技术研究所(NIST)数据集与美国邮政服务数据集之间的OTDD。

表1的结果表明，MNIST和EMNIST在表1的数据集中最接近(最相似)，而fashionMNIST(时装MNIST)与MNIST在表1数据集中最远(最不相似)。如果第一数据集是USPS，fashionMNIST可以是第二数据集108，因为它在可用数据集中最接近USPS。

然后，例如，可以经由设备102将改变的第二数据集108提供给用户101。然后，改变的第二数据集108可以用作第一数据集的附加数据，特别是如果距离是操作112处的数据集目标。然后，用户101可以有更多的数据来使用传统的ML范式来训练和/或测试ML模型。

附加地或备选地，与第一数据集或第二数据集中的数据相关联的人员的隐私可以通过朝向另一数据集改变数据集，然后对改变的数据集进行操作来保护。改变的第二数据集108可以被认为是来自表示第一数据集的分布的样本。由改变的第二数据集108提供的附加数据可以帮助提高用户101关注的ML模型的准确性、减少偏差等。

图2以示例的方式示出了用于数据集优化的另一系统200的实施例的图。系统200类似于系统100，系统200的请求220不同于系统100的请求104，使得数据优化ML系统106提供不同的输出(图2的示例中的经微调的模型222)。系统200的数据优化ML系统106接收由设备102传送的请求220。在图2的示例中，请求220是针对ML模型222的。数据优化ML系统106可以像在系统100中那样执行操作110。

在操作112处，数据优化ML系统106可以基于所确定的可微分距离和数据集目标来改变第二数据集。然后，在操作226处，第一数据集可以用于微调基于改变的第二数据集训练的ML模型。经微调的ML模型222可以被提供给设备102。

图3以示例的方式示出了用于数据集优化的系统300的另一实施例的图。系统300类似于系统100和系统200，图3的数据优化ML系统106执行与系统100、系统200不同的一些操作。在系统300中，用户101发出分类336的请求338。在系统100、系统200、系统300中的任一个中，用户101可以提供(i)映射到第一数据集的标签的特征的分布(例如，均值和协方差)，其中待分类的数据是第一数据集的标签的成员，(ii)与标签相关联的特征，(iii)第一数据集，或其组合。

在操作110处，数据优化ML系统106可以基于用户101提供的数据来确定可微分距离。在操作330处，数据优化ML系统106可以基于所确定的可微分距离和数据集目标来改变第一数据集或由用户101提供的其他数据。如果数据集目标是最小化第一数据集和第二数据集之间的OTDD或其他距离，则操作330可以将第一数据集的分布朝向第二数据集的分布移动。这是有益的，因为第二数据集可以用于训练ML模型。如果由用户101提供的待分类的第一数据集或其他数据在第二数据集的分布内，则ML模型可以操作以确定数据的分类，但是在第二数据集的域中，该域可以不具有与第一数据集重叠的标签。由于梯度流和距离确定是可微分的，因此该过程是可逆的。这意味着可以将第二数据集的域中的分类流回到第一数据集的域中，保持标签变量，以基于第二数据集域中的分类确定第一数据集域中的适当标签。

为了执行数据流，在操作332处，在第二数据集域中训练的ML模型被用于对改变的第一数据集或由用户101提供的改变的其他数据进行操作。然后，在操作334处，对在操作332处生成的特征和标签执行与操作330相反的操作。操作334包括基于所确定的结果与第一数据集之间的可微分距离来改变结果，以将结果流动到第一数据集域。

图3的操作可以用于例如自然语言处理(NLP)中。在NLP中，存储来自转换器的双向编码器表示(BERT)是禁止的，因为BERT太大了。在用户的电子邮件模型中，通常基于用户特定的数据对模型(BERT)进行预训练。使用图3的操作，可以在标准语料库(例如ENRON电子邮件)上学习BERT，并且可以将用户域数据移动到BERT域，而不是将BERT改变为用户域。然后，BERT可用于对改变的用户域数据进行操作。然后，操作BERT的结果可以移向用户域以生成用户特定的NLP数据。

关于改变数据集和确定可微分距离的操作可以包括分别使用梯度流和OTDD(或其他可微分距离度量)对数据集进行反向传播。下面将更详细地讨论这些操作，包括数学描述。

确定特征标签配对之间的距离的问题是特征是连续的(矢量)，而标签是离散的。可以通过多种方式确定特征之间的距离。然而，标签的离散性使得确定特征标签配对之间的距离变得更加困难。由实施例提供的解决方案是将标签表示为映射到标签的特征的分布。然后，可以使用可微分距离度量来确定分布(标签)之间的距离。

图4以示例的方式示出了按标签分组特征标签配对以及确定每个标签的特征的分布(均值和协方差)的逻辑图。在图4中，第一数据集440包括样本，该样本包括特征标签配对442、444、446、448、450、452。每个特征诸如通过ML技术、人工分析等被映射到相关联的标签。映射到标签的特征相互关联并形成特征标签配对442、444、446、448、450、452。

特征标签配对442、444、446、448、450、452按标签分组、排序，等等。在操作454处，映射到标签0的特征用于确定与标签0相关联的特征的分布(均值和变分(例如，标准偏差、协方差、方差，等等)以及形状)。在操作456处，映射到标签1的特征用于确定与标签1相关联的特征的分布。在操作456处，映射到标签2的特征用于确定与标签2相关联的特征的分布。请注意，可以使用更多或更少的标签。

在操作460处，然后使用在操作454、456和458处所确定的特征的分布以及特征来确定特征标签配对之间的可微分距离(其中标签对的标签由所确定的分布表示)。在操作462处，然后基于距离和数据集目标(其可以进行最小化距离，诸如具有或不具有约束或另一数据集目标)来改变第一数据集或第二数据集。然后，改变的第一数据集或第二数据集可以用于传统ML范式中的应用，诸如迁移学习、分类、特征标签配对生成、数据集插值等。

提供了OTD、OTDD、梯度流及其互操作性的数学描述和讨论。设χ是度量为d的波利西(Polish)空间，P(χ)是Polish空间上具有有限二阶矩的一组非负博雷尔(Borel)测量。考虑连续和离散测量，后者表示为经验分布：其中δ_x是位置x∈χ处的狄拉克(Dirac)。对于测量ρ和可测映射T：χ→χ，T_#ρ表示推进测量。实施例在受监督的ML设置中操作；因此，数据集被定义为一组特征标签配对{(x_i，y_i)}。可以假设数据集是从某种分布中采样的，使得数据集表示为D_α以使采样显式。速记符号和被使用。Δ·表示收敛算子。

通常，OTD是可微分距离度量。OTD与模型无关，不涉及训练。OTD依赖于最优运输。OTD在跨域(不同数据集)的特征-标签配对之间使用混合欧几里德-瓦瑟斯坦(hybridEuclidean-Wasserstein)。每个标签被建模为与标签相关联的特征向量的分布。以这种方式对特征向量进行建模允许对数据集进行比较，即使标签集完全不相交(不重叠)。

在数学术语中，最优运输可被描述为用于测量α，β∈P(χ)和成本函数c：如下所示：

其中Π(α，β)是α和β之间的耦合(运输计划)集，使得:

其中，针对p≥1，c(x，y)＝d(x，y)^p,被称为p-Wasserstein距离。W_p定义了P(χ)上的距离。是一个度量空间，被称为(p-)Wasserstein空间。

其中被称为Kantorovich势，并且是其c-共轭：针对c(x，x′)＝||x-x′||²，φ^c是芬切尔(Fenchel)共轭。

最佳运输(OT)的动态公式为：

其中最小值取自满足μ₀＝α，μ₁＝β和连续性方程的对：

在这个公式中，针对测量μ_t的路径中的最短路径从α到β对流。形式上，这是度量导数的最小值。与等式1中呈现的静态公式中的全局对应关系(通过π)相比，动态公式侧重于局部传递(通过μ_t)。

OT可用于定义数据集之间的距离(OTD)。但对于标记的数据集，这是非常重要的。问题是距离问题的解决方案包括元素方式的度量d，对于经标记的数据集，该度量包括定义不同数据集的特征标签对之间的距离。对于是离散集的一般的分类情况，这是困难的。为了克服这个问题，可以将标签y表示为映射到相应标签的特征上的分布。对于简单的数字分类问题，α₁是在具有特定标签的图像上的分布，诸如y＝1(数字＝1)。

在z上使用度量作为在等式1中使用地面成本，得出数据集上的测量之间的距离。这被称为OT数据集距离(OTDD)，并在等式6中正式被定义：

OTDD的优点在于，即使两个数据集的标签集不重叠，或者它们之间没有明确的已知对应关系(例如，数字到字母、猫到衣服，等等)，OTDD也是有效的。标签重叠的距离独立于特征和标签的几何处理。

梯度流在函数和点x₀∈χ上被定义。梯度流是从F的最陡下降方向中的x₀演化而来的连续曲线x(t)。当χ是希尔伯特(Hilbertian)(完整，使得微积分可以被使用并且具有内积的结构，其允许长度和角度被测量)并且F足够光滑时，梯度流可以表示为具有初始条件x(0)＝x₀的可微分等式的解。一些离散梯度下降技术包括动量和加速度。

OTDD和梯度下降的公式现在被用来解释使用相同的数据集优化。给定以函数表示的数据集的数据集目标确定实现等式7的联合测量ρ∈P(Z)：

梯度流方法(沿最陡下降曲线移动，在ρ₀处开始直到到达解ρ^*。不幸的是，是无限维的并且时非Hilbertian的。为了克服这一点，提供了导数(变分)的概念：给定函数考虑扰动χ，使得至少对于每一个ε∈[0，ε₀]，ρ+εχ∈P(Ω)。如果存在一个函数G，对于每一个这样的扰动χ，使得G被称为F在ρ处的第一变分，并由表示。然后，F的梯度流(ρ_t)_t≥0被表征为等式8的解：

等式8包括类似于Wasserstein度量中的梯度的项，即等式8是针对ρ_t和速度场的连续性等式。

一个数据集目标是到目标分布的Wasserstein距离：这可以使用如前所述的OTDD来被确定。其他数据集目标也是可能的，诸如等式9、10和11中定义的数据集目标。

其中是凸性的和超线性的，并且是凸性的并且足够光滑。这些术语分别具有内能、势能和相互作用能的物理解释。这些数据集目标可以通过自动区分与反向传播一起使用。这些数据集目标中的一个或多个数据集目标的组合可以用作数据集目标。因此，感兴趣的数据集目标可以如等式12所示：

等式13中提供了每个数据集目标的第一变分：

其中*表示可测函数和测量之间的卷积算子，并且是双OT公式中的Kantorovich势(等式3)。等式12形式的针对数据集目标的梯度流是等式14的解：

在概率密度和数据集的上下文中，概率密度等式(PDE)可以理解为质量守恒原理：在上求解这个系统的密度序列中，不会产生或破坏概率质量。对于只有和项的等式12形式的数据集目标，由等式14定义的对应PDE称为扩散-对流-相互作用等式。数据集目标和的特定选择恢复已知PDE。例如，取并且f(t)＝tlogt，F的梯度流将由福克-普朗克(Fokker-Planck)等式的解定义。在数据集空间中，该等式可以被解释为由势函数V施加的漂移力和由熵诱导数据集目标F产生的恒定方差扩散项(Δρ)影响的数据集的时间演化。数据集目标的其他选择提供了对流等式、多孔介质等式和各种其他扩散-对流-相互作用PDE。

PDE可以用随机变量来描述。考虑随机过程(Z_t)_t，其中每个都是具有规律ρ_t∈P(Z)的随机变量。等式8与Z_t上的随机可微分等式(SDE)相关联，根据等式15被称为McKean-Vlasov过程：

对于等式15可以被解释为粒子的轨迹，具有初始位置ρ₀并根据势函数移动，该势函数捕捉其内在动力学和与其他粒子的相互作用，所有这些都由F驱动。梯度流的这种粒子视图适用于对有限多个样本进行操作的计算方案。由等式15定义的过程是在Z(有限维空间)上定义的，而不是在无限维P(Z)上定义的，这使得它可以修正计算。

求解SDE的数值方法，如等式15中定义的方法，可以包括离散化，诸如等式16中定义的前向欧拉(Euler)方案：

在计算上，该离散化方案由同时演化的粒子系统近似。从开始，每个粒子z⁽ⁱ⁾根据等式16被演化，得到由n个更新组成的系统，如等式17所示：

然后，ρ_t可以被近似为其中ρ_N，t是F的梯度流。对于性能良好的数据集目标，此流继承了精确数据集目标的所有凸性和稳定性的特性，并且ρ_N，t(x)→ρ_t(x)。

距离数据集目标可以被定义为其中β是(固定的)目标数据集分布。各种应用(诸如数据集插值或用于迁移学习的样本生成)都可以用这个数据集目标来建模。距离数据集目标可以与其他数据集目标相结合，以“塑造”感兴趣的分布ρ。该形状可以包括标签之间的分隔(线性分隔)、分布中的点的规律性、分布的大小(例如，样本的平均幅度、数学范数，等等)或其他约束。

势能数据集目标可以被用于强制执行局部(每个实例)约束。例如，数据集的特征的范数可以由设置V(z)＝V_(x，y)＝||x||或者更一般地由针对某些的V(z)＝||Ax-b||来约束。这些约束可以按每个类强制执行，例如使用V(z)＝|(|A_yx-b_y|)|的每个类具有不同的约束。在另一个示例中，数据集之间的线性可分离性可以使用边缘诱导势V(z)＝max{0，y(x^Tw-b)}来实现。

相互作用能势可以对数据集目标进行编码，该数据集目标对数据集中的样本之间的相互作用或聚集进行建模。例如，如果y≠y′，类排斥约束包括否则类排斥约束包括0。这通过惩罚具有不同标签但相似特征的(z，z′)对来鼓励类分离。

内能数据集目标需要封闭形式的显式密度ρ(z)。熵项可以通过取f(t)＝tlogt被用于数据集目标。

提供了关于OTDD和梯度流应用的一些实际的实现考虑。在确定可微分数据集距离时，诸如OTDD。确定OTDD的困难在于标签y的离散性。回想一下，每个点(粒子)是一对特征x和表示为(x，y)的对应标签y，其中(连续r维空间)并且y∈{c_i，....，c_K}(离散空间)。关于等式6的OTDD讨论将特征和标签对的备选表示提供为(x，v)，其中v∈P(χ)是与标签y相关联的χ之上的测量。

实现这一点的一种方法是将梯度反向传播到x⁽ⁱ⁾，对这些特征执行梯度步长调整，然后计算均值和协方差(因此，标签v_y的概率表示)。形式上，这表示为：

注意，均值和协方差响应于样本上的梯度变化而演化。在此公式中，梯度不直接作用于均值和协方差。这种公式有时被称为特征驱动的方法。这种方法的可能的缺点是标签分配是随时间固定的。如果第一数据集和目标数据集包括相同数目的标签，这是可以接受的。联合驱动的固定标签公式可以在保持标签分配固定的同时对均值和协方差执行独立的梯度更新。形式上，联合驱动的固定标签更新表示为：

放宽通过梯度流过程固定的标签分配的约束可以包括单独地演化与每个点相关联的分布。每个标签的分布可以解耦，产生每个样本的分布，而不是每个类的分布。然后，每个样本(有时称为粒子)可以独立演化，并且标签可以被恢复，诸如通过演化后的聚类。这被称为联合驱动的变量标签公式。形式上，联合驱动的变量标签更新表示为：

为了恢复标签，聚类技术(例如，不需要指定聚类数目的非参数聚类技术)可以对均值和协方差对(μ_i，∑_i)进行操作。

现在为数据集目标F(ρ)提供了一些实际的实现注意事项。势能数据集目标的第一变分是标量值函数，因此可以使用自动微分计算第一变分。相互作用能数据集目标的第一变分可以近似为对样本的经验期望。如果密度可用并且可以反向传播，则可以确定内能数据集目标的第一变分。在这种情况下，可以使用自动微分来确定梯度。

梯度应用的步长可以是固定的或可变的。为了加速收敛并说明数据集目标中凸性假设的潜在违规，可以使用自适应步长技术，如动量随机梯度下降(SGD)、自适应矩估计(ADAM)或自适应梯度算法(ADAGARD)。这种自适应步长有助于避免局部极小值。

图5以示例的方式示出了用于数据集优化的方法500的实施例的图。如图所示的方法500包括在操作502处接收对包括第一特征标签配对的第一数据集操作的请求；在操作504处，从多个数据集标识第二数据集，第二数据集包括第二特征标签配对；在操作506处，确定第一特征标签配对和第二特征标签配对之间的距离；以及在操作508处，使用基于所确定的距离操作的数据集目标来使第一数据集流动以生成经优化的数据集。

方法500还可以包括，其中每个标签由在距离确定中映射到标签的特征的概率分布表示。方法500还可以包括以经改变的第一数据集作为输入来操作在第二数据集上训练的第一ML模型以提供结果。方法500还可以包括在训练期间保持第一ML模型静态。

方法500还可以包括使用第二数据集的至少一部分和经改变的第一数据集来训练第二ML模型。方法500还可以包括提供经改变的第一数据集。方法500还可以包括，其中确定距离包括确定可微分距离。方法500还可以包括，其中该距离包括最优运输距离(OTD)。方法500还可以包括，其中确定OTD包括基于第一数据集和第二数据集的与第一数据集和第二数据集的相应标签相关联的数据点的特征来确定相应标签之间的距离。

方法500还可以包括，其中使第一数据集流动包括确定数据集目标相对于第一数据集的梯度，并且使第一数据集流动还包括使用所确定的梯度更新第一数据集。方法500还可以包括，其中数据集目标包括以下至少一项：最小化内能、最小化势能、最小化距离或最小化相互作用能。

方法500还可以包括，其中数据集目标包括最小化特征标签配对之间的距离。方法500还可以包括，其中使用所确定的梯度更新第一数据集包括使用特征驱动的更新、联合驱动的固定标签更新或联合驱动的变量标签更新。方法500还可以包括，其中第一数据集和第二数据集包括图像数据集，或者第一数据集和第二数据集包括自然语言处理(NLP)数据集。

本文中使用的“流”是指使用由目标约束的梯度下降技术迭代应用和更新数据样本的特征(有时是标签)。现在提供使用实施例的一些实验结果。实验结果考虑使第一数据集(D_ρ)朝向具有函数的第二数据集(D_B)流动。

图6以示例的方式示出了在不同时间步长的梯度流的一系列图600。图6中的梯度流的示例对梯度流使用联合驱动的固定标签技术。在图600中，有两个数据集。第数据集包括映射到标签“0”的样本660、映射到标签“1”的样本662、映射到标签“2”的样本664、映射到标签“3”的样本666和映射到标签“4”的样本668。第二数据集包括映射到标签“A”的样本670、映射到标签“B”的样本672、映射到标签“C”的样本674、映射到标签“D”的样本676和映射到标签“E”的样本678。随着时间的推移，数据样本660变得更接近数据样本670，数据样本662变得更接近数据样本678，数据样本664变得更接近数据样本672，数据样本666变得更接近数据样本674，并且数据样本668变得更接近数据样本676。

图7以示例的方式示出了在不同时间步长的梯度流的另一系列图700。图7中的梯度流的示例对梯度流使用联合驱动的变量标签技术。在图700中，两个数据集与图6中的数据集相同，其中第一数据集能够在梯度流过程期间被映射到不同的标签。随着时间的推移，第一数据集的一些数据样本包括与流开始时不同的标签。数据样本680中的一些被映射到标签“5”，数据样本682中的一些被映射到标签“6”，一些数据样本684被映射到标签“7”，样本686中的一些被映射到标签“8”，并且一些样本被映射到标签“9”。

图8以示例的方式示出了使用四个图像分类数据集(MNIST、USPS、fashion-MNIST和KMNIST)进行迁移学习的不同技术中的误差条形图800，这里分别表示为m、u、f、k。条形图800包括表示6种不同的迁移学习技术的6个条形的组880、882、884、886、888和890。每组的条形图从左到右描述为：(i)没有额外的学习，(ii)在没有修改的情况下对附加数据进行学习，(iii)使用近似于梯度流过程的神经网络(NN)对修改后的附加数据进行学习，(iv)对朝向目标数据集流动的附加数据的最终状态进行学习，(v)关于朝向目标数据集流动的附加数据的所有状态的学习(在流的每次迭代之后的附加数据状态)，以及(vi)关于朝向目标数据集流动的附加数据和在使用NN修改之后的附加数据的学习。组880表示从MNIST到USPS的迁移学习(使用USPS数据样本进一步训练MNIST经训练的模型)，组882表示从USPS到MNIST的迁移学习、组884表示从MNIS到KMNIST的迁移学习、组886表示从KMNIST到MNIST的迁移学习、组888表示从MNIST到fashion-MNIST的迁移学习、组890表示从fashion-MNIST到MNIST的迁移学习。

图9以示例的方式示出了实施例中的几个系列图像，该实施例示出了在梯度流过程期间的不同时间的图像。在第一系列992中，MNIST数据样本朝向USPS数据集流动，在第二系列994中，MNIST数据样本朝向fashion MNIST数据集流动，在第三系列996中，MNIST数据样本朝向KMNIST数据集流动，并且在第四系列998中，KMNIST数据样本朝向MNIST数据集流动。

图10以示例的方式示出了用于实现一个或多个实施例的机器1000(例如，计算机系统)的实施例的框图。一个示例机器1000(以计算机的形式)可以包括处理单元1002、存储器1003、可移动存储装置1010和不可移动存储装置1012。尽管示例计算设备被示出和描述为机器1000，但是在不同的实施例中，计算设备可以是不同的形式。例如，计算设备可以替代地是智能手机、平板电脑、智能手表或包括与如图10所示和描述的相同或类似元件的其他计算设备。智能手机、平板电脑和智能手表等设备通常统称为移动设备。此外，尽管各种数据存储元件被示出为机器1000的一部分，但是该存储装置还可以或备选地包括经由网络(诸如因特网)可访问的基于云的存储装置。

存储器1003可以包括易失性存储器1014和非易失性存储器1008。机器1000可以包括各种计算机可读介质的计算环境或者可以访问包括各种计算机可读介质的计算环境，诸如易失性存储器1014和非易失性存储器1008、可移动存储装置1010和不可移动存储装置1012。计算机存储装置包括随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、闪存或其他存储技术、光盘只读存储器(CD ROM)、数字多功能盘(DVD)或其他光盘存储、盒式磁带、磁带、磁盘存储装置或能够存储计算机可读指令以执行本文描述的功能的其他磁存储设备。

机器1000可以包括或可以访问包括输入1006、输出1004和通信接口1016的计算环境。输出1004可以包括也可以用作输入设备的显示设备，诸如触摸屏。输入1006可以包括以下一项或多项：触摸屏、触摸板、鼠标、键盘、相机、一个或多个设备专用按钮、集成在机器1000内或经由有线或无线数据连接耦合到机器1000的一个或多个传感器以及其他输入设备。计算机可以使用通信连接在联网环境中操作，以连接到一个或多个远程计算机，诸如数据库服务器，包括基于云的服务器和存储装置。远程计算机可以包括个人计算机(PC)、服务器、路由器、网络PC、对等设备或其他公共网络节点等。通信连接可以包括局域网(LAN)、广域网(WAN)、蜂窝、电气和电子工程师协会(IEEE)802.11(Wi-Fi)、蓝牙或其他网络。

存储在计算机可读存储设备上的计算机可读指令由机器1000的处理单元1002可执行。硬盘驱动器、CD-ROM和RAM是包括诸如存储设备之类的非暂时性计算机可读介质的物品的一些示例。例如，计算机程序1018可以被用于使处理单元1002执行本文描述的一个或多个方法或算法。

其他注释和示例：

示例1包括一种用于通过使数据集朝向目标数据集流动来机器学习(ML)的计算机实现的方法，该方法包括：接收对包括第一特征标签配对的第一数据集操作的请求，从多个数据集标识第二数据集，第二数据集包括第二特征标签配对，确定第一特征标签配对和第二特征标签配对之间的距离；使用基于所确定的距离操作的数据集目标来使第一数据集流动，以生成经优化的数据集。

在示例2中，示例1还可以包括，其中每个标签由在距离确定中映射到标签的特征的概率分布表示。

在示例3中，示例1-2中的至少一个还可以包括：以经改变的第一数据集作为输入来操作在第二数据集上训练的第一ML模型，以提供结果。

在示例4中，示例1-3中的至少一个还可以包括：使用第二数据集的至少一部分和经改变的第一数据集来训练第二ML模型。

在示例5中，示例1-4中的至少一个还可以包括：提供经改变的第一数据集。

在示例6中，示例3-5中的至少一个还可以包括：在训练期间保持第一ML模型静态。

在示例7中，示例1-6中的至少一个还可以包括，其中确定距离包括确定可微分距离。

在示例8中，示例7还可以包括，其中该距离包括最优传输距离(OTD)。

在示例9中，示例8还可以包括，其中确定OTD包括基于第一数据集和第二数据集的与第一数据集和第二数据集的相应标签相关联的数据点的特征，来确定第一相应标签之间的距离。

在示例10中，示例1-9中的至少一个还可以包括，其中使第一数据集流动包括确定数据集目标相对于第一数据集的梯度，并且使第一数据集流动还包括使用所确定的梯度来更新第一数据集。

在示例11中，示例1-10中的至少一个还可以包括，其中数据集目标包括以下至少一项：最小化内能、最小化势能、最小化距离或最小化相互作用能。

在示例12中，示例11还可以包括，其中数据集目标包括最小化特征标签配对之间的距离。

在示例13中，示例10还可以包括，其中使用确定的梯度更新第一数据集包括：使用特征驱动的更新、联合驱动的固定标签更新或联合驱动的变量标签更新。

在示例14中，示例1-13中的至少一个还可以包括，其中第一数据集和第二数据集包括图像数据集，或者第一数据集和第二数据集包括自然语言处理(NLP)数据集。

示例15可以包括包括存储器和处理电路的系统，该存储器和处理电路被配置为实现示例1-14中的任一个示例的方法。

示例16可以包括机器可读介质，该机器可读介质包括指令，该指令当由机器执行时使机器执行示例1-14中的任一个示例的方法。

尽管上面已经详细描述了一些实施例，但是其他修改也是可能的。例如，图中所示的逻辑流程不需要所示的顺序或序列顺序来实现期望的结果。可以从所描述的流程中提供其他步骤，或者可以删除步骤，并且可以向所描述的系统添加或从所描述的系统中移除其他组件。其他实施例可以在以下权利要求的范围内。

Claims

1.一种用于通过使数据集朝向目标数据集流动来机器学习(ML)的计算机实现的方法，所述方法包括：

接收对包括第一特征标签配对的第一数据集操作的请求；

标识或接收第二数据集，所述第二数据集包括第二特征标签配对；

确定所述第一特征标签配对和所述第二特征标签配对之间的距离；以及

使用基于所确定的所述距离操作的数据集目标来使所述第一数据集流动，以生成经优化的数据集。

2.根据权利要求1所述的计算机实现的方法，其中每个标签由在所述距离确定中映射到所述标签的特征的概率分布表示。

3.根据权利要求1所述的计算机实现的方法，还包括：以经改变的所述第一数据集作为输入来操作在所述第二数据集上训练的第一ML模型，以提供结果。

4.根据权利要求1所述的计算机实现的方法，还包括：使用所述第二数据集的至少一部分和经改变的所述第一数据集来训练第二ML模型。

5.根据权利要求1所述的计算机实现的方法，还包括：提供经改变的所述第一数据集。

6.根据权利要求3所述的计算机实现的方法，还包括：在训练期间保持所述第一ML模型静态。

7.根据权利要求1所述的计算机实现的方法，其中确定所述距离包括确定可微分距离。

8.根据权利要求7所述的计算机实现的方法，其中所述距离包括最优运输距离(OTD)。

9.根据权利要求8所述的计算机实现的方法，其中确定所述OTD包括：基于所述第一数据集和所述第二数据集的与所述第一数据集和所述第二数据集的相应标签相关联的数据点的特征，来确定所述标签之间的距离。

10.根据权利要求9所述的计算机实现的方法，其中使所述第一数据集流动包括确定所述数据集目标相对于所述第一数据集的梯度，并且使所述第一数据集流动还包括使用所确定的所述梯度来更新所述第一数据集。

11.根据权利要求10所述的计算机实现的方法，其中所述数据集目标包括以下至少一项：最小化内能、最小化势能、最小化距离或最小化相互作用能。

12.根据权利要求11所述的计算机实现的方法，其中所述数据集目标包括最小化特征标签配对之间的距离。

13.根据权利要求11所述的计算机实现的方法，其中使用所确定的所述梯度更新所述第一数据集包括：使用特征驱动的更新、联合驱动的固定标签更新或联合驱动的变量标签更新。

14.根据权利要求1所述的计算机实现的方法，其中所述第一数据集和所述第二数据集包括图像数据集，或者所述第一数据集和所述二数据集包括自然语言处理(NLP)数据集。

15.一种机器可读介质，包括指令，所述指令当由机器执行时使所述机器执行根据权利要求1-14中的任一项所述的方法。