CN118661179A

CN118661179A - 量化稳健联合机器学习

Info

Publication number: CN118661179A
Application number: CN202380017780.8A
Authority: CN
Inventors: K·古普塔; M·福尔纳拉基斯; M·雷瑟; C·路易索斯; M·纳格尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2022-01-28
Filing date: 2023-01-04
Publication date: 2024-09-17
Also published as: KR20240141737A; EP4469941A1; WO2023147206A1

Abstract

本文所描述的各方面提供了用于执行机器学习模型的量化稳健联合学习的技术，包括：从联合学习服务器接收模型；使用本地目标函数来训练模型，其中该本地目标函数包括被配置成增加客户端设备处的量化稳健性的修改；以及向联合学习服务器传送经更新的模型。

Description

量化稳健联合机器学习

相关申请的交叉引用

本申请要求于2022年1月28日提交的希腊专利申请No.20220100083的优先权，该申请被转让给本申请受让人并且藉此通过援引如同在下文全面阐述那样且出于所有适用目的明确纳入于此。

引言

本公开的各方面涉及量化稳健联合机器学习。

机器学习一般是产生经训练模型(例如，人工神经网络、树或其他结构)的过程，其表示训练数据集的广义拟合。将经训练模型应用于新数据会产生推断，这可被用于获得关于新数据的洞察。

随着机器学习在各种技术领域(有时被称为人工智能任务)中的使用激增，更高效地处理机器学习模型数据变得更加重要。例如，“边缘处理”设备(诸如移动设备、常开设备、物联网(IoT)设备等)必须平衡高级机器学习能力的实现与各种相互关联的设计约束(诸如封装尺寸、本地计算能力、电源存储和使用、数据通信能力和成本、存储器大小、散热，等等)。

联合学习是一种分布式机器学习范式，用于从设备上保留的去中心化数据中学习机器学习模型。一般而言，中央服务器协调联合学习过程，并且每个参与方客户端仅与中央服务器传达模型参数信息，同时保持其本地数据私有。在许多情形中，这种分布式方法缓解了数据隐私问题。

尽管联合学习通常会限制服务器和客户端之间的任何单个传输中的模型数据量(反之亦然)，但联合学习的迭代性质可能仍然会在训练期间产生大量的数据传输业务，这取决于设备和连接类型而可能昂贵。虽然本地更新方法可减少通信轮次的总数，但是模型压缩方案(诸如稀疏化、子采样和量化)可显著减少在每轮次处传达的消息的大小。然而，消息可能易于经受干扰和量化噪声。

设备上学习的能量需求和硬件设计引起的限制仍然是一个挑战。具体而言，对设备上学习的基本需求是基于跨联合客户端的能量需求和异构硬件设计来使得经训练的模型能够在移动中被量化为各种位宽。

发明内容

某些方面一种用于在客户端设备处执行机器学习模型的联合学习的方法，包括：从联合学习服务器接收模型；使用本地目标函数来训练模型，其中该本地目标函数包括被配置成增加客户端设备处的量化稳健性的修改；以及向联合学习服务器传送经更新的模型。

进一步方面提供了一种用于执行机器学习模型的联合学习的方法，包括：在联合学习服务器处从客户端设备接收模型更新数据，其中该模型更新数据基于由该客户端设备使用的本地目标函数并且包括被配置成增加该客户端设备处的量化稳健性的修改；以及由联合学习服务器基于模型更新数据来更新全局模型。

以下描述和相关附图详细阐述了一个或多个方面的某些解说性特征。

附图描述

附图描绘了该一个或多个方面中的某些方面，并且因此不被认为限制本公开的范围。

图1描绘了用于量化稳健联合学习的示例训练流程。

图2描绘了用于执行量化稳健联合机器学习的示例方法。

图3描绘了用于执行量化稳健联合机器学习的另一示例方法。

图4描绘了用于执行具有峰度正则化的联合平均的示例算法。

图5描绘了用于通过可选的加性伪量化噪声、量化感知训练和多位量化感知训练步骤来执行联合平均的示例算法。

图6描绘了可被配置成执行本文所描述的联合机器学习方法的各方面的示例处理系统。

为了促成理解，在可能之处使用了相同的附图标记来指定各附图共有的相同要素。构想了一个方面的要素和特征可有益地被纳入到其他方面中而无需进一步引述。

具体实施方式

本公开的各方面提供了用于量化稳健联合机器学习的装置、方法、处理系统和计算机可读介质。

随着机器学习模型变得更复杂并且因此更大，在除了高功率计算机(诸如服务器)之外的任何东西上训练它们变得越来越困难。联合学习是一种分布式机器学习框架，它使得许多客户端(包括低功率设备，诸如边缘处理设备)能够协作地训练共享全局模型。在此设置中，通常期望减少客户端设备计算以及总体通信成本。特别地，高通信成本可能会使通过移动数据的联合学习不太实用。可显著减小在每一轮次传达的消息的大小的一种方法是模型数据(例如，权重和偏置)的量化。然而，经量化消息中的量化噪声仍然是一个挑战。量化稳健联合学习有助于学习可以被量化到不同位宽的模型，而当在这些位宽中的每一者中进行推断时，模型性能不会显著降低。

将多种量化稳健性方法(诸如(但不限于)峰度正则化(KURE)和加性伪量化噪声(APQN))集成到联合学习中有助于实现量化稳健模型，这些量化稳健模型可被用于在多个位宽下的有效推断。此外，由于集成到联合学习中的量化感知训练(QAT)的标准形式未能跨多个位宽泛化，因此本文描述了一种称为多位量化感知训练(MQAT)的新技术，以实现在去中心化训练设置中学习的量化稳健模型。

与现有方法相比，本文所描述的各方面提供了显著的优点。例如，本文所提出的技术可产生对多种位宽的量化具有稳健性的模型，尽管这些模型是联合学习的。此外，利用本文所公开的技术可提供这些优点，而无需显著折衷模型的全精度准确性。在较小的经量化位宽下维持模型性能的能力意味着在训练(例如，通信资源)和推断(例如，计算资源)期间花费更少资源。

用于量化稳健联合学习的示例训练流程

图1描绘了用于量化稳健联合学习的示例训练流程。示例训练流程可使用例如联合平均(FEDAVG)算法来执行，该算法经由一系列轮次来操作，其中每轮次被划分为客户端更新阶段和服务器更新阶段。

初始地，服务器102生成或维持处于第一状态的全局模型104。在此示例中，全局模型104与表示全局模型的参数(例如，模型权重和偏置)的w相关联。

在110，在轮次t开始时，服务器102与客户端106A-N共享(例如，向其广播)全局模型参数w_t，其中每个客户端106A-N可表示参与与服务器102的联合学习的客户端设备(例如，智能电话、膝上型计算机或平板)。在一些方面，轮次t的范围为0至T-1，其中T表示轮次总数。

在一些方面，客户端106A-N被称为从所有客户端的池进行采样的经采样客户端集合S，其中N是参与联合学习的经采样客户端的数目。任意的客户端i可以是客户端106A-N中的任何一者。为了简单起见，以下的讨论假设客户端106A-N中的每一者等同于客户端i，并且客户端i与每个客户端106A-N是可互换的。此外，以下具有i的下标或上标的参数可被解释为由每个客户端106A-N生成或在每个客户端106A-N处使用的参数。

基于此信息，客户端i基于从服务器102接收到的参数来生成具有参数的本地机器学习模型108A-N，其中k指定在本地机器学习模型训练期间的训练步骤的当前索引。在一些方面，迭代次数k的范围从0到K-1，其中K表示客户端的训练步骤总数。此外，表示从服务器102到客户端i的初始参数，并且因此

在112，也称为客户端更新阶段，每个客户端106A-N分别训练其本地机器学习模型108A-N。一般地，每个客户端106A-N仅利用私有本地数据，其不与联合中的其他参与者(诸如其他客户端或服务器102)共享。每个客户端106A-N生成经更新的本地机器学习模型108A’-N’，而在表示在轮次t结束时的本地机器学习模型108A’-N’处的参数。

本地数据经常变化，有利地捕获跨客户端106A-N的数据异构性。由于每个客户端106A-N在不同的数据上训练，因此每个经更新的本地机器学习模型108A’-N’在其经训练参数的方面可能是不同的，这有助于全局模型104泛化到所有客户端106A-N的共享域。

在客户端更新阶段期间，各种方法可帮助在联合学习中引入量化稳健性，特别是在本文所讨论的示例FEDAVG框架内。一般地，在FEDAVG框架中，客户端i处的本地目标函数可被编制为F_i(w，D_i)＝E_ξ～Di[f_i(w，ξ)]，其中w表示全局模型的参数，D_i表示本地数据分布，并且ξ是本地数据分布D_i中的样本。

在下面的讨论中，为了简单起见，w、D_i和ξ继续分别表示全局模型的参数、本地数据分布和本地数据分布D_i中的样本。

然而，在量化稳健联合学习中，客户端i处的量化稳健性的本地目标可被编制为如下：

其中B是量化位宽集合，针对该量化位宽集合模型正被训练为稳健的。代替直接优化上述目标(其涉及针对不同位宽中的每一者通过同一批次样本的多个前向-反向传递)，下面将详细介绍和解释用于在联合平均框架中引入量化稳健性的各种技术。

可通过如下修改每个客户端106A-N的损失函数来将用于实施权重张量的均匀分布的正则化方法(诸如(但不限于)峰度正则化(KURE))纳入联合平均框架：

其中L_KURE(w)是所提出的峰度正则化项。对于L层神经网络，其中其中μ是w的平均值，σ是w的标准差。因此值得注意的是，是通过L_KURE(w)修改的F_i(w，D_i)。

图4描绘了用于执行具有峰度正则化的联合平均的示例算法400。特别地，算法的第8-9行指第7行的常规联合平均步骤的峰度正则化。

除了基于正则化的量化之外，稳健性方案可被用于实施量化稳健性。为了稳健地学习网络，尤其是在低位宽的情况下，此类方案可学习其中权重参数或激励被约束到固定量化水平的模型。尽管下面的公式仅针对权重量化显式地实施对不同位宽的稳健性，但是同样能够针对激励实施量化稳健性。

联合学习中的量化感知训练(QAT)

被称为量化感知训练(QAT)的训练规程可提高量化稳健性。在一个示例中，QAT目标可被作为每个客户端106A-N处的本地优化目标来实施以将FEDAVG与QAT结合。在量化感知联合学习中，每个客户端106A-N的损失函数可被编制为：

其也是基于F_i(w，D_i)来修改的。此外，对于b位量化器Q(·)，量化步长Δ_b可被定义为：

其中，表示舍入到最接近整数的运算。量化步长Δ_b可被学习为参数或者在训练开始之前被估计并且此后保持固定。量化器Q(·)将参数w量化为目标位宽b。

一个挑战是量化器Q(·)由于舍入运算而不是可微的。为了克服这个问题，直通估计器(STE)近似可被执行来估计舍入算子的梯度，这允许在反向传递期间更新本地机器学习模型。

联合学习中的多位量化感知训练(MQAT)

尽管量化感知联合学习中的QAT可训练在经训练较低位宽下执行良好的模型，但是当用其他未训练位宽量化时，它通常导致性能降级。为了解决这个问题，多位量化感知训练(MQAT)可被用于显式地利用不同位宽训练模型。特别地，MQAT旨在学习对于属于集合B的不同位宽稳健的模型。在MQAT中，位宽b∈B可被随机采样或在开始处针对每个客户端106A-N预定。然后可遵循上述QAT规程。

类似于QAT，不同位宽的量化步长Δ_b可作为参数学习，或者在训练开始之前首先估计，并且在此后保持固定。针对不同位宽的量化步长Δ_b随后可沿着全局模型104与所有客户端106A-N共享。

联合学习中的加性伪量化噪声(APQN)

提高量化稳健性的另一种方式是将量化噪声添加到权重张量(例如，参数w)或中间激励。被称为加性伪量化噪声(APQN)的量化稳健性方法涉及在训练规程期间添加随机伪量化噪声。

APQN的目的是学习对可变量化噪声水平稳健的模型，该可变量化噪声水平可被量化到不同的位宽。在FEDAVG框架中，每个客户端106A-N处的量化稳健联合学习的本地损失函数可被编制为：

因此，可以看出，是经修改的F_i(w，D_i)。具有位宽b的伪量化器添加从均匀分布U[-Δ_b/2，Δ_b/2]进行采样的噪声可被定义为：

由于噪声可从分布进行随机采样，所以经训练的模型可实现对不同位宽的稳健性。噪声也可从其他分布(诸如在一个示例中的高斯分布)进行采样。

在客户端更新阶段期间，例如，在客户端i的训练步骤k处的轮次t，客户端i可基于损失函数(例如，上面对于KURE、QAT、MQAT和APQN讨论的损失函数)中的一者来对其本地数据运行本地随机梯度下降(SGD)。在一些方面，在客户端更新阶段期间，客户端i可基于各种示例损失函数的组合来对其本地数据运行SGD。在一些方面，代替批量归一化，客户端i可在SGD期间利用群归一化。在一些方面，客户端i在完成轮次t期间的所有训练步骤之后生成指示局部模型108A’-N’中一者的本地模型参数

在114，被称为服务器更新阶段，每个客户端106A-N将模型更新数据传送回服务器102。例如，模型更新数据可包括每个客户端106A-N的本地模型参数在轮次t结束处，服务器102使用模型更新数据来生成经更新的全局模型104’。在一些方面，客户端106A-N的模型更新数据可被平均以获得伪反梯度，该伪反梯度可以是由服务器102广播的参数与从客户端106A-N接收到的参数之间的差的加权平均。服务器102随后采取更新步骤以基于服务器学习率和伪反梯度来生成经更新的全局模型104’。

值得注意的是，为了简单起见，图1描绘了单轮次训练，并且该过程可被迭代地重复任何次数，直到例如达到训练目标(例如，某一数量次迭代或步骤完成、权重收敛、达到准确性阈值等)。

图5描绘了用于利用可选的加性伪量化噪声、量化感知训练和多位量化感知训练步骤来执行联合平均的示例算法500。具体而言，第8行描绘了用于利用加性伪量化噪声的常规联合平均框架的可选修改；第9行描绘了用于利用量化感知训练的常规联合平均框架的可选修改；而第6行和第10行描绘了用于利用多位量化感知训练的常规联合平均框架的可选修改。

执行联合学习的示例方法

图2描述了用于执行量化稳健联合学习的示例方法200，该方法可例如由联合学习客户端(诸如图1中的客户端106A-N中的一者)执行。

在框202，客户端可从联合学习服务器(例如，图1中的服务器102)接收模型。

方法200随后前进至框204，其中客户端使用本地目标函数来训练模型。本地目标函数可包括被配置成增加客户端设备处的量化稳健性的修改(举例而言，诸如关于图1的框112中所描述的)。

方法200随后行进至框206，其中客户端向联合学习服务器传送经更新的模型(举例而言，诸如关于图1的框114中所描述的)。

在方法200的一些方面，方法200进一步包括：客户端针对多个量化位宽优化模型，而不针对量化位宽中的每一者在训练迭代中执行多个前向-反向传递。

在方法200的一些方面，修改包括量化正则化项。

在方法200的一些方面，使用本地目标函数来训练模型包括：使用峰度正则化项。

在方法200的一些方面，修改包括量化器函数，该量化器函数被配置成将模型的权重量化到目标位宽。

在方法200的一些方面，使用本地目标函数来训练模型包括：使用直通估计器近似来估计量化舍入算子的梯度。

在方法200的一些方面，修改包括伪量化器函数，该伪量化器函数被配置成通过添加从与量化步长相关联的分布进行采样的伪量化噪声来将模型的权重和/或激励量化到目标位宽。

在方法200的一些方面，配置量化器函数进一步包括：通过从与量化步长相关联的分布进行采样，而从联合学习服务器使用的可能位宽集合中确定用于在客户端设备处训练模型的位宽。

值得注意的是，图2仅是与本文的公开一致的模型的一个示例，并且具有附加、更少和/或替换步骤的进一步示例是可能的。

图3描述了用于执行量化稳健联合学习的另一示例方法300，示例方法300可例如由联合学习服务器(诸如图1中的服务器102)执行。

在框302，服务器可从客户端设备接收模型更新数据。模型更新数据可基于由客户端设备使用的本地目标函数，并且包括被配置成增加该客户端设备处的量化稳健性的修改(举例而言，诸如关于图1的框114中所描述的)。在各方面，框302可对应于图2的框206。

方法300随后行进至框304，其中服务器基于模型更新数据来更新全局模型(举例而言，诸如关于图1的框114中所描述的)。

在一些方面，方法300进一步包括：向客户端设备发送被配置成在该客户端设备处的训练期间被随机采样的位宽集合。

在一些方面，方法300可继续至：向客户端发送经更新的全局模型(例如，返回到图2中的框202)。

值得注意的是，图3仅是与本文的公开一致的模型的一个示例，并且具有附加、更少和/或附加步骤的进一步示例是可能的。

示例处理系统

图6描绘了示例处理系统600，处理系统600可被配置成执行本文所描述的联合学习方法的各方面，分别包括例如图2和图3的方法200和300，以及图4和图5的算法400和500。

处理系统600包括中央处理单元(CPU)602，在一些示例中其可以是多核CPU。在CPU602处执行的指令可例如从与CPU 602相关联的程序存储器加载，或者可从存储器624加载。

处理系统600还包括为特定功能定制的附加处理组件，诸如图形处理单元(GPU)604、数字信号处理器(DSP)606、神经处理单元(NPU)608、多媒体处理单元610和无线连通性组件612。

NPU(诸如608)一般是被配置成用于实现用于执行机器学习算法(诸如用于处理人工神经网络(ANN)、深度神经网络(DNN)、随机森林(RF)等的算法)的控制和算术逻辑的专用电路。NPU有时可被替换地称为神经信号处理器(NSP)、张量处理单元(TPU)、神经网络处理器(NNP)、智能处理单元(IPU)、或视觉处理单元(VPU)。

NPU(诸如608)可被配置成加速常见机器学习任务(诸如图像分类、声音分类、以及各种其他预测模型)的执行。在一些示例中，多个NPU可在单个芯片(诸如片上系统(SoC))上实例化，而在其他示例中，多个NPU可以是专用神经网络加速器的一部分。

NPU可被优化用于训练或推断，或者在一些情形中被配置成平衡两者之间的性能。对于能够执行训练和推断两者的NPU，这两个任务一般仍可独立地执行。

被设计成加速训练的NPU一般被配置成加速新模型的优化，这是涉及输入现有数据集(一般是被标记的或含标签的)、在数据集上进行迭代、并且随后调整模型参数(诸如权重和偏置)以便提高模型性能的高度计算密集的操作。一般地，基于错误预测进行优化涉及往回传递通过模型的各层并确定梯度以减少预测误差。

被设计成加速推断的NPU一般被配置成在完整模型上操作。此类NPU由此可被配置成：输入新的数据片段并通过已经训练的模型对其快速处理以生成模型输出(例如，推断)。

在一种实现中，NPU 608是CPU 602、GPU 604和/或DSP 606中的一者或多者的一部分。

在一些示例中，无线连通性组件612可包括例如用于第三代(3G)连通性、第四代(4G)连通性(例如，4G LTE)、第五代连通性(例如，5G或NR)、Wi-Fi连通性、蓝牙连通性、以及其他无线数据传输标准的子组件。无线连通性处理组件612进一步连接到一个或多个天线614。

处理系统600还可包括与任何方式的传感器相关联的一个或多个传感器处理单元616、与任何方式的图像传感器相关联的一个或多个图像信号处理器(ISP)618、和/或导航处理器620，该导航处理器620可包括基于卫星的定位系统组件(例如，GPS或GLONASS)以及惯性定位系统组件。

处理系统600还可包括一个或多个输入和/或输出设备622，诸如屏幕、触敏表面(包括触敏显示器)、物理按钮、扬声器、话筒等等。

在一些示例中，处理系统600的一个或多个处理器可基于ARM或RISC-V指令集。

处理系统600进一步包括存储器624，存储器624表示一个或多个静态和/或动态存储器，诸如动态随机存取存储器、基于闪存的静态存储器等。在该示例中，存储器624包括计算机可执行组件，其可由处理系统600的前述处理器中的一者或多者来执行。

在此示例中，存储器624包括：传送组件624A、接收组件624B、训练组件624C、推断组件624D、采样组件624E、模型参数624F(举例而言，诸如以上所讨论的权重和激励等模型参数)和模型624G。所描绘的组件以及其他未描绘的组件可被配置成执行本文中所描述的方法的各个方面。

处理系统600仅仅是一个示例，并且一般可执行本文所描述的服务器和/或客户端/客户机的操作。然而，在其他方面中，某些方面可省略。例如，服务器可省略移动设备中常见的某些特征，诸如多媒体组件610、无线连通性组件612、天线614、传感器616、ISP 618和导航组件620。所描述的示例并不具有限制性。

示例条款

在以下经编号条款中描述了各实现示例：

条款1：一种用于在客户端设备处执行机器学习模型的联合学习的方法，包括:从联合学习服务器接收模型；使用本地目标函数来训练模型，其中该本地目标函数包括被配置成增加客户端设备处的量化稳健性的修改；以及基于训练来向联合学习服务器传送经更新的模型。

条款2：如条款1的方法，进一步包括：针对多个量化位宽优化模型，而不针对量化位宽中的每一者在训练迭代中执行多个前向-反向传递。

条款3：如条款1的方法，其中修改包括量化正则化项。

条款4：如条款3的方法，其中使用本地目标函数来训练模型包括：使用峰度正则化项。

条款5：如条款3-4中任一者的方法，其中本地目标包括并且L_KURE(w)是峰度正则化项。

条款6：如条款1的方法，其中修改包括量化器函数，该量化器函数被配置成将模型的权重量化到目标位宽。

条款7：如条款6的方法，其中使用本地目标函数来训练模型包括：使用直通估计器近似来估计量化舍入算子的梯度。

条款8：如条款6-7中任一者的方法，其中本地目标包括

条款9：如条款1的方法，其中修改包括伪量化器函数，该伪量化器函数被配置成通过添加从与量化步长相关联的分布进行采样的伪量化噪声来将模型的权重和/或激励量化到目标位宽。

条款10：如条款9的方法，其中分布是部分由指定位宽来参数化的均匀分布。

条款11：如条款1的方法，进一步包括：通过从与量化步长相关联的随机分布进行采样，而从联合学习服务器使用的可能位宽集合中确定用于在客户端设备处训练模型的位宽。

条款12：如条款11的方法，其中随机分布是均匀分布。

条款13：如条款11-12中任一者的方法，进一步包括：在训练期间学习量化步长。

条款14：如条款1-13中任一者的方法，其中使用本地目标函数来训练模型包括：使用随机梯度下降。

条款15：一种用于执行机器学习模型的联合学习的方法，包括：在联合学习服务器处从客户端设备接收模型更新数据，其中该模型更新数据基于由该客户端设备使用的本地目标函数并且包括被配置成增加该客户端设备处的量化稳健性的修改；以及由联合学习服务器基于模型更新数据来更新全局模型。

条款16：如条款15的方法，进一步包括：向客户端设备发送被配置成在该客户端设备处的训练期间被随机采样的位宽集合。

条款17：一种处理系统，包括：包括计算机可执行指令的存储器；处理器，该处理器被配置成执行这些计算机可执行指令并使该处理系统执行根据条款1-16中任一者的方法。

条款18：一种处理系统，包括用于执行根据条款1-16中任一者的方法的装置。

条款19：一种包括计算机可执行指令的非瞬态计算机可读介质，这些计算机可执行指令在由处理系统的处理器执行时使该处理系统执行根据条款1至16中任一者的方法。

条款20：一种被包含在计算机可读存储介质上的计算机程序产品，包括用于执行根据条款1-16中任一者的方法的代码。

附加考虑

提供先前描述是为了使本领域任何技术人员均能够实践本文中所描述的各个方面。本文中所讨论的示例并非是对权利要求中阐述的范围、适用性或者方面的限定。对这些方面的各种修改将容易为本领域技术人员所明白，并且在本文中所定义的普适原理可被应用于其他方面。例如，可对所讨论的要素的功能和布置作出改变而不会脱离本公开的范围。各种示例可恰适地省略、替代、或添加各种规程或组件。例如，可以按与所描述的次序不同的次序来执行所描述的方法，并且可以添加、省略、或组合各种步骤。而且，参照一些示例所描述的特征可在一些其他示例中被组合。例如，可使用本文中所阐述的任何数目的方面来实现装置或实践方法。另外，本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各个方面的补充或者不同于本文中所阐述的本公开的各个方面的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解，本文中所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。

如本文中所使用的，措辞“示例性”意指“用作示例、实例或解说”。本文中描述为“示例性”的任何方面不必被解读为优于或胜过其他方面。

如本文中所使用的，引述一列项目“中的至少一者”的短语是指这些项目的任何组合，包括单个成员。作为示例，“a、b或c中的至少一者”旨在涵盖：a、b、c、a-b、a-c、b-c、和a-b-c，以及具有多重相同元素的任何组合(例如，a-a、a-a-a、a-a-b、a-a-c、a-b-b、a-c-c、b-b、b-b-b、b-b-c、c-c、和c-c-c，或者a、b和c的任何其他排序)。

如本文中所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明及诸如此类。而且，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)及诸如此类。而且，“确定”可包括解析、选择、选取、建立及诸如此类。

本文中所公开的各方法包括用于实现方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之，除非指定了步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。此外，上述方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块，包括但不限于电路、专用集成电路(ASIC)、或处理器。一般地，在存在附图中解说的操作的场合，这些操作可具有带相似编号的相应配对装置加功能组件。

以下权利要求并非旨在被限定于本文中示出的各方面，而是应被授予与权利要求的语言相一致的全部范围。在权利要求内，对单数元素的引用不旨在意指“有且只有一个”(除非专门如此声明)，而是“一个或多个”。除非特别另外声明，否则术语“一些/某个”指的是一个或多个。权利要求的任何要素都不应当在35U.S.C.§112(f)的规定下来解释，除非该要素是使用短语“用于……的装置”来明确叙述的或者在方法权利要求情形中该要素是使用短语“用于……的步骤”来叙述的。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此，且旨在被权利要求所涵盖。此外，本文所公开的任何内容都不旨在捐献于公众，无论此类公开内容是否明确记载在权利要求书中。

Claims

1.一种用于在客户端设备处执行机器学习模型的联合学习的计算机实现方法，包括：

在所述客户端设备处从联合学习服务器接收模型；

在所述客户端设备处使用本地目标函数来训练所述模型，其中所述本地目标函数包括被配置成增加所述客户端设备处的量化稳健性的修改；以及

基于所述训练来从所述客户端设备向所述联合学习服务器传送经更新的模型。

2.如权利要求1所述的方法，进一步包括针对多个量化位宽优化所述模型，而不针对量化位宽中的每一者在训练迭代中执行多个前向-反向传递。

3.如权利要求1所述的方法，其中所述修改包括量化正则化项。

4.如权利要求3所述的方法，其中使用所述本地目标函数来训练所述模型包括：使用峰度正则化项。

5.如权利要求3所述的方法，其中所述本地目标包括并且L_KURE(w)是峰度正则化项。

6.如权利要求1所述的方法，其中所述修改包括量化器函数，所述量化器函数被配置成将所述模型的权重量化到目标位宽。

7.如权利要求6所述的方法，其中使用所述本地目标函数来训练所述模型包括：使用直通估计器近似来估计量化舍入算子的梯度。

8.如权利要求6所述的方法，其中所述本地目标包括

9.如权利要求1所述的方法，其中所述修改包括伪量化器函数，所述伪量化器函数被配置成通过添加从与量化步长相关联的分布进行采样的伪量化噪声来将所述模型的权重和/或激励量化到目标位宽。

10.如权利要求9所述的方法，其中所述分布是部分由指定位宽来参数化的均匀分布。

11.如权利要求1所述的方法，进一步包括通过从与量化步长相关联的随机分布进行采样，而从所述联合学习服务器使用的可能位宽集合中确定用于在所述客户端设备处训练所述模型的位宽。

12.如权利要求11所述的方法，其中所述随机分布是均匀分布。

13.如权利要求11所述的方法，进一步包括在所述训练期间学习量化步长。

14.如权利要求1所述的方法，其中使用所述本地目标函数来训练所述模型包括：使用随机梯度下降。

15.一种用于执行机器学习模型的联合学习的计算机实现方法，包括：

在联合学习服务器处从客户端设备接收模型更新数据，其中所述模型更新数据基于由所述客户端设备使用的本地目标函数并且包括被配置成增加所述客户端设备处的量化稳健性的修改；以及

由所述联合学习服务器基于所述模型更新数据来更新全局模型。

16.如权利要求15所述的方法，进一步包括向所述客户端设备发送被配置成在所述客户端设备处的训练期间被随机采样的位宽集合。

17.一种处理系统，包括：包括计算机可执行指令的存储器；以及处理器，所述处理器被配置成执行所述计算机可执行指令并使所述处理系统：

在所述客户端设备处从联合学习服务器接收模型；

18.如权利要求17所述的处理系统，其中所述处理器被进一步配置成执行所述计算机可执行指令并使所述处理系统：针对多个量化位宽优化所述模型，而不针对量化位宽中的每一者在训练迭代中执行多个前向-反向传递。

19.如权利要求17所述的处理系统，其中所述修改包括量化正则化项。

20.如权利要求19所述的处理系统，其中使用所述本地目标函数来训练所述模型包括：使用峰度正则化项。

21.如权利要求19所述的处理系统，其中所述本地目标包括其中L_KURE(w)是峰度正则化项。

22.如权利要求17所述的处理系统，其中所述修改包括量化器函数，所述量化器函数被配置成将所述模型的权重量化到目标位宽。

23.如权利要求22所述的处理系统，其中使用所述本地目标函数来训练所述模型包括：使用直通估计器近似来估计量化舍入算子的梯度。

24.如权利要求22所述的处理系统，其中所述本地目标包括

25.如权利要求17所述的处理系统，其中：

所述修改包括伪量化器函数，所述伪量化器函数被配置成通过添加从与量化步长相关联的分布进行采样的伪量化噪声来将所述模型的权重和/或激励量化到目标位宽；以及

所述分布是部分由指定位宽来参数化的均匀分布。

26.如权利要求17所述的处理系统，其中所述处理器被进一步配置成执行所述计算机可执行指令并使所述处理系统：通过从与量化步长相关联的随机分布进行采样，而从所述联合学习服务器使用的可能位宽集合中确定用于在所述客户端设备处训练所述模型的位宽。

27.如权利要求26所述的处理系统，其中所述随机分布是均匀分布。

28.如权利要求26所述的处理系统，其中所述处理器被进一步配置成执行所述计算机可执行指令并使所述处理系统：在所述训练期间学习量化步长。

29.如权利要求17所述的处理系统，其中使用所述本地目标函数来训练所述模型包括：使用随机梯度下降。

30.一种处理系统，包括：包括计算机可执行指令的存储器；以及处理器，所述处理器被配置成执行所述计算机可执行指令并使所述处理系统：