CN109388779A

CN109388779A - 一种神经网络权重量化方法和神经网络权重量化装置

Info

Publication number: CN109388779A
Application number: CN201710656027.XA
Authority: CN
Inventors: 南楠; 叶丽萍; 李晓会
Original assignee: Allwinner Technology Co Ltd
Current assignee: Allwinner Technology Co Ltd
Priority date: 2017-08-03
Filing date: 2017-08-03
Publication date: 2019-02-26

Abstract

本发明公开了一种神经网络权重量化方法和装置，所述方法包括：步骤1，获取待量化矩阵集合；步骤2，将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值，并得到量化矩阵集合；步骤3,根据所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行补偿量化，得到所述权重量化值的补偿量化值，并得到补偿量化矩阵集合；步骤4，将所述量化矩阵集合和所述补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中等待使用。本发明中的补偿量化通过给较重要权重叠加偏移项，使其量化采样间隔更加稠密，从而减小了量化误差所带来的神经网络模型的性能损失。

Description

一种神经网络权重量化方法和神经网络权重量化装置

技术领域

本发明涉及人工神经网络技术领域，尤其涉及一种神经网络权重量化方法和神经网络权重量化装置。

背景技术

近年来，随着人工智能技术的迅猛发展，深度学习神经网络在模式识别方面取得了巨大的成功，例如图像分类、目标检测、图像分割、语音识别以及机器翻译等。在上述领域中，深度学习模型的性能远超传统的浅度模型，甚至在某些方面达到了人类的水准。然而，性能较好的神经网络通常具有规模较大的模型参数，使得其计算复杂度较高。计算的复杂度同时体现在空间存储量(庞大的模型存储体积和运行时的内存占用)和时间计算量(单次推理所需数百亿次浮点运算)两方面上。因此，对神经网络进行压缩和加速变得尤为重要，特别是对运行在诸如嵌入式设备、集成硬件设备以及大规模数据处理中心上的应用来说。

通过权重量化的方式，或将权重转化为定点数，或建立量化权重码本，实现权重共享，可以有效压缩模型，降低神经网络的存储量。因而，如何设计有效的量化方法，进而针对该量化方法设计高效的硬件结构，是神经网络技术领域亟待解决的问题。

发明内容

本发明提供一种神经网络权重量化方法和神经网络权重量化装置，用以解决现有技术中神经网络权重量化时计算复杂，效率低的问题。

依据本发明的一个方面，提供一种神经网络权重量化方法，包括：

步骤1，获取待量化矩阵集合；

步骤2，将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合；

步骤3,根据所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行补偿量化，得到所述权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合；

步骤4，将所述量化矩阵集合和所述补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中等待使用。

本发明还提供一种神经网络权重量化装置，包括：

获取模块，用于获取待量化矩阵集合；

权重量化模块，用于将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合；

补偿量化模块，用于根据所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行补偿量化，得到所述权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合；

量化结果存储模块，用于将所述量化矩阵集合和所述补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中等待使用。

本发明所提供的神经网络权重量化方法，先将待量化矩阵集合量化至对数空间，得到量化矩阵集合后，再将初步量化矩阵的量化差值进行补偿量化，得到量化补偿矩阵，所述量化矩阵和所述量化补偿矩阵即为所述待量化矩阵的量化结果。通过对初步量化矩阵进行补偿量化，对量化所产生的量化差值做进一步的补偿量化，所述补偿量化通过给较重要权重叠加偏移项，使其量化采样间隔更加稠密，从而减小了量化误差所带来的神经网络模型的性能损失。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明方法实施例1中的神经网络权重量化方法的流程图；

图2为本发明方法实施例2中的神经网络权重量化方法的流程图；

图3为本发明方法实施例3中的神经网络权重量化方法的流程图；

图4为本发明方法实施例4中的神经网络权重量化方法的流程图；

图5为本发明方法实施例5中的神经网络权重量化方法的流程图；

图6为本发明方法实施例6中的神经网络权重量化方法的流程图；

图7为权重幂次量化采样示意图；

图8为权重幂次量化(带补偿)采样示意图；

图9为本发明方法实施例7中的神经网络权重量化装置的结构示意图；

图10为本发明方法实施例8中的神经网络权重量化装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了公开的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1为本发明方法实施例1中的神经网络权重量化方法的流程图，如图1 所示的本发明方法实施例1中的神经网络权重量化方法，包括：

步骤1，获取待量化矩阵集合。

具体地，首先，对于神经网络权重量化行为的激发，是由网络训练状态所决定的，其中，网络训练状态至少包括：网络当前训练的进度和网络当前训练的稳定程度。例如网络当前训练的进度为完成了25％的训练量，网络处于平稳状态(无法收敛)。

神经网络是由多个层组成的，每层的权重参数(权重值)可以表示为一个矩阵。在对神经网络的权重进行量化的过程中，可以一次将神经网络的所有层的所有权重值组成待量化矩阵集合进行量化，也可选择其中的一层或多个层的全部权重值组成待量化矩阵集合进行量化，或选择全部层或部分层的部分权重值组成待量化矩阵集合进行量化，根据需求进行灵活设定即可。

步骤2，将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合。

具体地，确定好待量化矩阵集合后，一次将所述待量化矩阵集合中的所有待量化的权重值进行量化，得到量化矩阵集合。

步骤3，根据所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行补偿量化，得到所述权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

具体地，假设一个待量化权重值为某实数A，其量化结果的权重量化值为A*，则A与A*之间的差值为diff_A，每个权重量化值，均根据与之对应的diff_A进行补偿量化，进行补偿量化后，量化采样间隔更密，量化后的权重矩阵集合也更加贴切地拟合原始的待量化权重矩阵集合，保证了神经网络的计算性能。

具体地，所述量化矩阵集合，和所述补偿量化矩阵集合，即为所述待量化矩阵集合的量化结果。

本实施例所提供的神经网络权重量化方法，先将待量化矩阵集合量化至对数空间，得到量化矩阵集合后，再将初步量化矩阵的量化差值进行补偿量化，得到量化补偿矩阵，所述量化矩阵和所述量化补偿矩阵即为所述待量化矩阵的量化结果。通过对初步量化矩阵进行补偿量化，对量化所产生的量化差值做进一步的补偿量化，所述补偿量化通过给较重要权重叠加偏移项，使其量化采样间隔更加稠密，从而减小了量化误差所带来的神经网络模型的性能损失。

图2为本发明方法实施例2中的神经网络权重量化方法的流程图，如图2 所示的本发明方法实施例2中的神经网络权重量化方法，包括：

步骤1A，获取待量化矩阵集合和权重量化信息，所述权重量化信息包括重要性参数和部分量化目标。

具体地，所述重要性参数，包括权重的模值、基于权重对激活值的累计贡献、基于权重对输出值的累计贡献等，根据所述重要性参数，对权重进行后续的量化步骤，不同的重要性参数，会导致不同的量化结果。

所述部分量化目标，用于将所述待量化矩阵集合分为至少两个部分进行逐次量化，包括每次量化涵盖的权重的范围，可用预设的权重值范围或预设的权重阈值的方式表示，例如大于预设的权重阈值的权重参数，或者处于某预设的权重值范围内的权重参数，在本次部分量化的部分中被量化。

步骤21，根据所述重要性参数和所述部分量化目标，在所述待量化矩阵集合中确定部分待量化权重值。

具体地，根据所述重要性参数对所述待量化矩阵集合中的待量化权重值进行排序，再根据所述部分量化目标，确定本次需要被量化的部分待量化权重值。由于不同的重要性参数会给出不同的排序结果，根据相同的部分量化目标，最终给出不同的部分待量化权重值。

例如，选择权重的模值相对较大作为所述重要性参数，将20％的待量化权重集合作为预设的量化范围，则根据所述权重的模值由大到小对所有待量化权重矩阵集合中的待量化权重值进行排序后，由模值最大到小选择前20％的待量化权重值作为本次部分量化的目标。

步骤22，将所述部分待量化权重值量化至对数空间，得到所述部分待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合。

具体地，将选取的前20％模值最大的待量化权重值，量化至对数空间后，得到前20％模值最大的待量化权重值的量化结果，部分权重量化值，并得到部分量化矩阵集合。在实际使用中，如优先选择量化模值相对较大(较重要)的待量化权重值，最后一阶段量化模值相对小的权重，可有效避免最后一阶段量化(无重新训练过程)中神经网络性能的下降。

具体地，同实施1中的步骤3。

步骤3A，根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行预定训练，并根据所述预定训练的训练结果更新所述待量化矩阵集合。

具体地，由于进行了部分量化，需要更新尚未被量化部分的权重，以保证整个神经网络的模型性能的恢复。

步骤3B，返回步骤21，直至所述待量化矩阵集合内的待量化权重值全部量化完成。

具体地，在更新后的待量化矩阵集合中，返回步骤21后，根据所述重要性参数和所述部分量化目标，在所述待量化矩阵集合中确定另外一个部分待量化权重值，并继续执行后续步骤，直至所有的所述待量化矩阵集合全部量化完成。

具体地，同实施例1中的步骤4，由于采用了逐次量化的方式，最终最后一次获取到的量化矩阵集合，和所述逐次量化中每次获取到的补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果。

本实施例所提供的神经网络权重量化方法，先将待量化矩阵集合根据预设的重要性参数和预设的部分量化目标，逐次量化至对数空间，得到量化矩阵集合后，再将初步量化矩阵的量化差值进行补偿量化，得到量化补偿矩阵，然后根据所述量化矩阵集合和所述量化补偿矩阵集合对待量化权重矩阵集合进行更新，并根据重要性参数和部分量化目标对神经网络进行训练，更新未量化的待量化权重值，最终获取到的量化矩阵集合和所述量化补偿矩阵集合，即为所述待量化矩阵的量化结果。由于采用了逐次量化的方法，先量化一部分，再逐渐扩大量化比例的方式，使得量化的精度更高，使得神经网络最终的性能更好。

在其中一个实施例中，所述根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行训练，并根据训练结果更新所述待量化矩阵集合，包括：根据所述部分量化矩阵集合和所述补偿量化矩阵集合，在神经网络中进行前向传播运算，得到前向传播运算值；根据所述前向传播运算值，对神经网络进行后向传播运算，得到所述待量化矩阵集合中未量化部分的权重更新值；根据所述权重更新值、所述部分量化矩阵集合和所述补偿量化矩阵集合，更新所述待量化矩阵集合。

具体地，由于权重量化值是进行了对数变换(以2为底)的幂次权重值，因此在所述前向传播运算过程中的卷积运算乘法可用移位来替代，大大加快了前向传播运算的速度。在后向传播运算中，采用梯度下降法，针对未量化部分的权重，计算损失函数对其的偏导数，得到更新值。

在本实施例中，在对神经网络进行训练的过程中，幂次权重使得权重量化的结果取得良好的压缩和加速效果的同时，硬件实现更加的高效简洁，经济价值和实用价值均较高。

图3为本发明方法实施例3中的神经网络权重量化方法的流程图，如图3 所示的本发明方法实施例3中的神经网络权重量化方法，包括：

步骤1B，获取待量化矩阵集合和权重量化信息，所述权重量化信息包括重要性参数和补偿量化目标。

具体地，所述重要性参数，同实施例2中的阐述。所述补偿量化目标，用于将所述量化矩阵集合的一部分量化权重值而不是全部的量化权重值进行补偿量化。所述补偿量化目标包括每次补偿量化涵盖的量化权重值的范围，可用预设的量化权重值范围或预设的量化权重阈值的方式表示，例如大于预设的量化权重阈值的权重参数，或者处于某预设的量化权重值范围内的权重参数，被补偿量化。

具体地，对于将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值的过程，采用实施例1中的一次完成的方式，或采用实施例2中的逐次完成的方式均可，不做限定。

步骤31，根据所述重要性参数和所述补偿量化目标，在所述权重量化值中确定待补偿权重量化值。

具体地，如步骤2中将所述待量化矩阵集合中的待量化权重值量化至对数空间过程，采用逐次完成的方式，则在确定待补偿权重量化值的过程中所使用的重要性参数，和确定部分待量化权重值的过程中使用的重要性参数相同。

所述重要性参数和所述补偿量化目标配合使用，确定待补偿权重量化值的过程，与实施例2中的步骤21类似，不再赘述。

步骤32，根据所述待补偿权重量化值与所述待补偿权重量化值对应的所述待量化权重值的差值，对所述待补偿权重量化值进行补偿量化，得到所述待补偿权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

具体地，只将选定的待补偿权重量化值，进行补偿量化。

具体地，如步骤2中将所述待量化矩阵集合中的待量化权重值量化至对数空间过程，采用逐次完成的方式，则在步骤3之后，同实施例2，还包括步骤 3A和步骤3B等步骤。

在本实施例中，采用了选取部分权重量化值进行补偿量化的方式，可以根据预设的重要性参数和补偿量化目标，对量化矩阵集合中的量化权重值进行补偿量化的范围进行灵活控制，进一步提高了本发明所提供的神经网络权重量化的灵活性，在保证性能的同时，提高了压缩率和计算效率。

图4为本发明方法实施例4中的神经网络权重量化方法的流程图，如图4 所示的本发明方法实施例4中的神经网络权重量化方法，包括：

步骤1C，获取待量化矩阵集合和权重量化信息，所述权重量化信息包括重要性参数、补偿量化的迭代次数、各所述迭代次数的迭代补偿比例。

具体地，所述重要性参数，同实施例2中的阐述。所述补偿量化的迭代次数、各所述迭代次数的迭代补偿比例，用于进行多次补偿量化计算，以使补偿量化的结果更加精确。其中，所述补偿量化的迭代次数为进行补偿量化的次数，可根据需求任意设定，各所述迭代次数的迭代补偿比例，为每次迭代计算时，从上次补偿量化的结果中选取的下次待补偿量化的范围或阈值，可每次相同，也可每次的迭代补偿比例比上次的迭代补偿比例减少。

步骤3’，根据所述重要性参数、所述补偿量化的迭代次数、各所述迭代次数的迭代补偿比例、所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行迭代补偿量化，得到迭代补偿量化值，并根据所述迭代补偿量化值得到迭代补偿量化矩阵集合。

具体地，根据所述重要性参数、预设的补偿量化的迭代次数、各所述迭代次数的迭代补偿比例，选取每次迭代补偿量化的待量化权重值，过程与实施例2 中的步骤21类似，不再赘述。

经过了预设的迭代次数次的补偿量化后，获取到多个补偿量化矩阵集合，均作为迭代补偿量化矩阵集合。

具体的，如步骤2中将所述待量化矩阵集合中的待量化权重值量化至对数空间过程，采用逐次完成的方式，则在步骤3之后，同实施例2，还包括步骤 3A和步骤3B等步骤。

在本实施例中，通过预设的带补偿量化的迭代次数和各所述迭代次数的迭代补偿比例，将量化权重值进行了多次补偿量化，获取多个补偿量化矩阵集合。进一步提高了本发明所提供的神经网络权重量化的灵活性，在保证性能的同时，提高了压缩率和计算效率。

图5为本发明方法实施例5中的神经网络权重量化方法的流程图，如图5 所示的本发明方法实施例5中的神经网络权重量化方法，包括：

步骤1D，获取待量化矩阵集合和权重量化信息，所述权重量化信息包括重要性参数、补偿量化期望值。

具体地，所述重要性参数，同实施例2中的阐述。所述补偿量化期望值，为预设的补偿量化需要达到的期望值。

具体地，将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值的过程，采用实施例1中的一次完成的方式，或采用实施例2中的逐次完成的方式均可，不做限定。

具体地，同实施例1中的步骤3。

步骤3C，根据所述补偿量化期望值与所述补偿量化值的差值，对所述补偿量化值继续进行补偿量化，直至得到符合所述补偿量化期望值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

具体地，根据预设的补偿量化期望值，和所述补偿量化矩阵集合中的补偿量化值之间的量化差值，确定是否进行补偿量化，并根据所述补偿量化期望值确定是否继续进行补偿量化，根据需求设定所述补偿量化期望值，对所述补偿量化矩阵集合的精度进行控制，可通过一次或多次的补偿量化，得到符合所述补偿量化期望值的补偿量化矩阵集合。

在本实施例中，通过预设补偿量化期望值，进行一次或多次的补偿量化后，得到符合所述补偿量化期望值的补偿量化矩阵集合，由于所述预设的补偿量化期望值可根据需求灵活设定，因此可以方便的对于补偿量化的精度进行控制。进一步提高了本发明所提供的神经网络权重量化的灵活性，在保证性能的同时，提高了压缩率和计算效率。

图6为本发明方法实施例6中的神经网络权重量化方法的流程图，如图6 所示的本发明方法实施例6中的神经网络权重量化方法，包括：

步骤1E，获取待量化矩阵集合。

具体地，同实施例1中的步骤1。

步骤20E，判断待量化权重值的符号是否为正，若为正，接步骤21E，若不为正，接步骤22E。

具体地，在将所述待量化权重值进行量化之前，判断所述待量化权重值的符号为正还是为负，并进入相应的处理流程。

步骤21E，将所述待量化矩阵集合中符号为正的待量化权重值，量化至对数空间，得到正权重量化值，并根据所述正权重量化值得到正权重矩阵集合。接步骤31E。

步骤22E，将所述待量化矩阵集合中符号为负的待量化权重值，量化至对数空间，得到负权重量化值，并根据所述负权重量化值得到负权重矩阵集合。接步骤32E。

具体地，根据权重正负符号的不同，步骤21E和步骤22E得到LOG参数集合L₁和L₂。其中，L₁中正权重值对应位置的元素值为将其模值进行LOG变换得到的中间参数，负权重值对应位置的元素值为预设量化比特数所能表示的最大负数，以使得解码后对应的权重值近似为0。反之，L₂中负权重值对应位置的元素值为将其模值进行LOG变换得到的中间参数，正权重值对应位置的元素值为预设量化比特数所能表示的最大负数，以使得解码后对应的权重值近似为0。由此，步骤21E和步骤22E得到了两个分别表示正权重值和负权重值的具有稀疏结构的幂次权重矩阵L₁和L₂。映射方式包括但不限于：

1)根据公式1实现对模型待量化权重集合N中的元素x_i进行LOG变换：

y_i＝round(log₂(|x_i|)) (1)

其中，y_i为幂次权重量化值，y_i∈L。

2)根据待量化权重集合N的统计信息，分别确定网络中每个可学习层的量化码本C1，该码本在对数空间上按照2ⁿ划分，然后将集合N中的每个权重映射到相应层的码本值。

对两个幂次权重矩阵L₁,L₂进行稀疏化。步骤21E和步骤22E对正负权重分别进行了对数变换，以及部分模值接近于0的权重在对数变换之后被量化为0，即便不考虑预训练得到的权重矩阵的稀疏性，LOG参数集合L₁和L₂仍具有明显的稀疏结构，因此，可采用稀疏矩阵表达形式进行存储和运算。

本实施例所述基于稀疏矩阵表达形式可使模型权重存储体积得到多倍压缩，基于稀疏矩阵乘法可使模型前向推理运算速度加快，压缩率越高，运算加速越明显。

步骤31E，对所述正权重矩阵集合中的正权重量化值，和与所述正权重量化值对应的待量化权重值的差值进行补偿量化，得到正权重偏移项值，并根据所述正权重偏移值得到正权重偏移矩阵集合。

步骤32E，对所述负权重矩阵集合中的负权重量化值，和与所述负权重量化值对应的待量化权重值的差值进行补偿量化，得到负权重偏移项值，并根据所述负权重偏移值得到负权重偏移矩阵集合。

具体地，针对较为重要(例如量化采样间隔较疏的大模值权重)的权重，对数变换所产生的量化误差对模型性能的影响尤为明显，本实施例对该较为重要的权值集合进行补偿量化，即对量化差值作进一步的对数变换(公式2)：

该权重实际量化模值通过公式3得到:

根据权重正负符号的不同，得到LOG参数集合L₁'和L₂'，其中L₁'中正权重值对应位置的元素值为将其量化差值进行LOG变换得到的中间参数，负权重值对应位置的元素值为预设量化比特数所能表示的最大负数，以使得解码后对应的权重值近似为0。反之，L₂'中负权重值对应位置的元素值为将其量化差值进行LOG变换得到的中间参数，正权重值对应位置的元素值为预设量化比特数所能表示的最大负数，以使得解码后对应的权重值近似为0。由此，得到了两个分别表示正权重值和负权重值的稀疏度更高的幂次权重偏移项矩阵。

无需补偿量化的权值，其补偿量化值设定为预设量化比特数所能表示的最大负数，以使得解码后对应的补偿权重值近似为0。所述需要补偿量化的权重集合P通过补偿量化重要性选择模块产生，产生方法包括但不限于：在网络中各可学习层确定好的量化码本C1(采样间隔示意如图7)中，摒弃码本两端较大和较小部分的值，生成补偿量化码本C2(C2∈C1)。假设码本C1中的码数为 n1,码本C2中的码数为n2(n2<n1)，C1与C2排列组合叠加产生一个码数为 n1*n2，较大采样值间隔更稠密的码本C(采样间隔示意如图8)。针对码本C的量化实际是在根据C1进行量化的基础上，选择性的叠加了针对码本C2的量化。

本实施例中，补偿量化码本中的码数n2小于第一次量化所用码本的码数n1，相应的，补偿量化所预设量化比特数就少于第一次量化所预设量化比特数。例如，第一次量化位数预设为4比特，补偿量化仅需2比特就可达到要求。

步骤4E，将所述正权重矩阵集合、所述负权重矩阵集合、所述正权重偏移矩阵集合、所述负权重偏移矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中使用。

在本实施例中，模型权重量化将正负权重分别映射到相应的幂次权重矩阵，得到两个稀疏的权重矩阵。正负权重分别量化，能有效避免乘法运算(在本发明中通过移位运算实现)中对权重符号的判断，因此加快了运算速度，同时本发明将所述稀疏矩阵采用压缩稀疏行(Compressed Sparse Row,CSR)或压缩稀疏列(Compressed Sparse Column,CSC)的格式对稀疏矩阵的非零元素进行存储，节省了大量的存储空间。经过补偿量化，得到两个稀疏度更高的权重偏移项矩阵。所述补偿量化通过给较重要权重叠加偏移项，使其量化采样间隔更加稠密，从而减小了量化误差所带来的模型性能损失。通过本发明得到的压缩DCNN，可适用于移动终端、嵌入式装置、机器人等计算和存储受限的高新产业领域，经济实用价值高。

图9为本发明方法实施例7中的神经网络权重量化装置的结构示意图，如图9所示的本发明方法实施例7中的神经网络权重量化装置，包括：

获取模块10，用于获取待量化矩阵集合。

权重量化模块20，用于将所述待量化矩阵集合中的待量化权重值量化至对数空间，得到所述待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合。

补偿量化模块30，用于根据所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行补偿量化，得到所述权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

量化结果存储模块40，用于将所述量化矩阵集合和所述补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中等待使用。

本实施例所提供的神经网络权重量化装置，先将待量化矩阵集合量化至对数空间，得到量化矩阵集合后，再将初步量化矩阵的量化差值进行补偿量化，得到量化补偿矩阵，所述量化矩阵和所述量化补偿矩阵即为所述待量化矩阵的量化结果。通过对初步量化矩阵进行补偿量化，对量化所产生的量化差值做进一步的补偿量化，所述补偿量化通过给较重要权重叠加偏移项，使其量化采样间隔更加稠密，从而减小了量化误差所带来的神经网络模型的性能损失。

图10为本发明方法实施例8中的神经网络权重量化装置的结构示意图，如图10所示的本发明方法实施例8中的神经网络权重量化装置，包括：

获取模块10，用于获取待量化矩阵集合；还用于获取权重量化信息，所述权重量化信息包括重要性参数和部分量化目标。

部分量化权重值获取单元21，用于根据所述重要性参数和所述部分量化目标，在所述待量化矩阵集合中确定部分待量化权重值。

部分量化单元22，用于将所述部分待量化权重值量化至对数空间，得到所述部分待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合。

训练模块30A，用于根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行预定训练，并根据所述预定训练的训练结果更新所述待量化矩阵集合。

训练终止模块30B，用于返回所述部分量化权重值获取单元，直至所述待量化矩阵集合内的待量化权重值全部量化完成。

量化结果存储模块40，将所述量化矩阵集合和所述补偿量化矩阵集合，作为所述待量化矩阵集合的量化结果存储在神经网络中等待使用。

本实施例所提供的神经网络权重量化装置，先将待量化矩阵集合根据预设的重要性参数和预设的部分量化目标，逐次量化至对数空间，得到量化矩阵集合后，再将初步量化矩阵的量化差值进行补偿量化，得到量化补偿矩阵，然后根据所述量化矩阵集合和所述量化补偿矩阵集合对待量化权重矩阵集合进行更新，并根据重要性参数和部分量化目标对神经网络进行训练，更新未量化的待量化权重值，最终获取到的量化矩阵集合和所述量化补偿矩阵集合，即为所述待量化矩阵的量化结果。由于采用了逐次量化的方法，先量化一部分，再逐渐扩大量化比例的方式，使得量化的精度更高，使得神经网络最终的性能更好。

在其中一个实施例中，所述训练模块30A，包括前向传播运算单元，用于根据所述部分量化矩阵集合和所述补偿量化矩阵集合，在神经网络中进行前向传播运算，得到前向传播运算值；后向传播运算单元，用于根据所述前向传播运算值，对神经网络进行后向传播运算，得到所述待量化矩阵集合中未量化部分的权重更新值；待量化矩阵集合更新单元，用于根据所述权重更新值、所述部分量化矩阵集合和所述补偿量化矩阵集合，更新所述待量化矩阵集合。

在其中一个实施例中，所述权重量化信息，包括待补偿权重量化值获取单元，用于根据所述重要性参数和所述补偿量化目标，在所述权重量化值中确定待补偿权重量化值；第一补偿量化单元，用于根据所述待补偿权重量化值与所述待补偿权重量化值对应的所述待量化权重值的差值，对所述待补偿权重量化值进行补偿量化，得到所述待补偿权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

在其中一个实施例中，所述权重量化信息，包括重要性参数、补偿量化的迭代次数、各所述迭代次数的迭代补偿比例；所述补偿量化模块，包括：迭代补偿单元，用于根据所述重要性参数、所述补偿量化的迭代次数、各所述迭代次数的迭代补偿比例、所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行迭代补偿量化，得到迭代补偿量化值，并根据所述迭代补偿量化值得到迭代补偿量化矩阵集合。

在其中一个实施例中，所述权重量化信息，包括补偿量化期望值；所述神经网络权重量化装置，还包括期望值补偿量化模块，用于根据所述补偿量化期望值与所述补偿量化值的差值，对所述补偿量化值继续进行补偿量化，直至得到符合所述补偿量化期望值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

在本实施例中，通过预设补偿量化期望值，进行一次或多次的补偿量化后，得到符合所述补偿量化期望值的补偿量化矩阵集合，由于所述预设的补偿量化期望值可根据需求灵活设定，因此可以方便地对补偿量化的精度进行控制。进一步提高了本发明所提供的神经网络权重量化的灵活性，在保证性能的同时，提高了压缩率和计算效率。

在其中一个实施例中，所述权重量化模块20，包括：正负权重矩阵集合获取单元，用于将所述待量化矩阵集合中的待量化权重值根据正负符号的不同，量化至对数空间，分别得到正权重量化值和负权重量化值，并根据所述正权重量化值得到正权重矩阵集合，根据所述负权重量化值得到负权重矩阵集合；所述补偿量化模块30包括：正负权重偏移矩阵集合获取单元，用于对所述正权重矩阵集合中的正权重量化值，和与所述正权重量化值对应的待量化权重值的差值进行补偿量化，得到正权重偏移项值，并根据所述正权重偏移值得到正权重偏移矩阵集合，以及对所述负权重矩阵集合中的负权重量化值，和与所述负权重量化值对应的待量化权重值的差值进行补偿量化，得到负权重偏移项值，并根据所述负权重偏移值得到负权重偏移矩阵集合。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

总之，以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种神经网络权重量化方法，其特征在于，所述方法包括：

步骤1，获取待量化矩阵集合；

2.如权利要求1所述的神经网络权重量化方法，其特征在于，在步骤2之前，所述方法还包括：

获取权重量化信息，所述权重量化信息包括：重要性参数和部分量化目标；

所述步骤2，包括：

步骤21，根据所述重要性参数和所述部分量化目标，在所述待量化矩阵集合中确定部分待量化权重值；

步骤22，将所述部分待量化权重值量化至对数空间，得到所述部分待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合；

在步骤3之后，所述方法还包括：

步骤3A，根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行预定训练，并根据所述预定训练的训练结果更新所述待量化矩阵集合；

3.如权利要求2所述的神经网络权重量化方法，其特征在于，所述根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行训练，并根据训练结果更新所述待量化矩阵集合，包括：

根据所述部分量化矩阵集合和所述补偿量化矩阵集合，在神经网络中进行前向传播运算，得到前向传播运算值；

根据所述前向传播运算值，对神经网络进行后向传播运算，得到所述待量化矩阵集合中未量化部分的权重更新值；

根据所述权重更新值、所述部分量化矩阵集合和所述补偿量化矩阵集合，更新所述待量化矩阵集合。

4.如权利要求1所述的神经网络权重量化方法，其特征在于，

所述权重量化信息包括：重要性参数和补偿量化目标；

所述步骤3，包括：

根据所述重要性参数和所述补偿量化目标，在所述权重量化值中确定待补偿权重量化值；

根据所述待补偿权重量化值与所述待补偿权重量化值对应的所述待量化权重值的差值，对所述待补偿权重量化值进行补偿量化，得到所述待补偿权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

5.如权利要求1所述的神经网络权重量化方法，其特征在于：

所述权重量化信息包括：重要性参数、补偿量化的迭代次数、各所述迭代次数的迭代补偿比例；

所述步骤3，包括：

根据所述重要性参数、所述补偿量化的迭代次数、各所述迭代次数的迭代补偿比例、所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行迭代补偿量化，得到迭代补偿量化值，并根据所述迭代补偿量化值得到迭代补偿量化矩阵集合。

6.如权利要求1所述的神经网络权重量化方法，其特征在于，

所述权重量化信息包括：补偿量化期望值；

在所述步骤3之后，所述方法还包括：

根据所述补偿量化期望值与所述补偿量化值的差值，对所述补偿量化值继续进行补偿量化，直至得到符合所述补偿量化期望值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

7.如权利要求1所述的神经网络权重量化方法，其特征在于，

所述步骤2，包括：

将所述待量化矩阵集合中的待量化权重值根据正负符号的不同，量化至对数空间，分别得到正权重量化值和负权重量化值，并根据所述正权重量化值得到正权重矩阵集合，根据所述负权重量化值得到负权重矩阵集合；

所述步骤3，包括：

对所述正权重矩阵集合中的正权重量化值，和与所述正权重量化值对应的待量化权重值的差值进行补偿量化，得到正权重偏移项值，并根据所述正权重偏移值得到正权重偏移矩阵集合，以及

对所述负权重矩阵集合中的负权重量化值，和与所述负权重量化值对应的待量化权重值的差值进行补偿量化，得到负权重偏移项值，并根据所述负权重偏移值得到负权重偏移矩阵集合。

8.一种神经网络权重量化装置，其特征在于，包括：

获取模块，用于获取待量化矩阵集合；

9.如权利要求8所述的神经网络权重量化装置，其特征在于，还包括：

所述获取模块，还用于获取权重量化信息，所述权重量化信息包括重要性参数和部分量化目标；

所述权重量化模块，包括：

部分量化权重值获取单元，用于根据所述重要性参数和所述部分量化目标，在所述待量化矩阵集合中确定部分待量化权重值；

部分量化单元，用于将所述部分待量化权重值量化至对数空间，得到所述部分待量化权重值的权重量化值，并根据所述权重量化值得到量化矩阵集合；

所述神经网络权重量化装置，还包括：

训练模块，用于根据所述部分量化矩阵集合和所述补偿量化矩阵集合，对神经网络进行预定训练，并根据所述预定训练的训练结果更新所述待量化矩阵集合；

训练终止模块，用于返回所述部分量化权重值获取单元，直至所述待量化矩阵集合内的待量化权重值全部量化完成。

10.如权利要求9所述的神经网络权重量化装置，其特征在于，所述训练模块，包括：

前向传播运算单元，用于根据所述部分量化矩阵集合和所述补偿量化矩阵集合，在神经网络中进行前向传播运算，得到前向传播运算值；

后向传播运算单元，用于根据所述前向传播运算值，对神经网络进行后向传播运算，得到所述待量化矩阵集合中未量化部分的权重更新值；

待量化矩阵集合更新单元，用于根据所述权重更新值、所述部分量化矩阵集合和所述补偿量化矩阵集合，更新所述待量化矩阵集合。

11.如权利要求8所述的神经网络权重量化装置，其特征在于，

所述权重量化信息包括：重要性参数和补偿量化目标；

所述补偿量化模块，包括：

待补偿权重量化值获取单元，用于根据所述重要性参数和所述补偿量化目标，在所述权重量化值中确定待补偿权重量化值；

第一补偿量化单元，用于根据所述待补偿权重量化值与所述待补偿权重量化值对应的所述待量化权重值的差值，对所述待补偿权重量化值进行补偿量化，得到所述待补偿权重量化值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

12.如权利要求8所述的神经网络权重量化装置，其特征在于：

所述补偿量化模块，包括：

迭代补偿单元，用于根据所述重要性参数、所述补偿量化的迭代次数、各所述迭代次数的迭代补偿比例、所述权重量化值与所述权重量化值对应的所述待量化权重值的差值，对所述权重量化值进行迭代补偿量化，得到迭代补偿量化值，并根据所述迭代补偿量化值得到迭代补偿量化矩阵集合。

13.如权利要求8所述的神经网络权重量化装置，其特征在于，

所述权重量化信息包括：补偿量化期望值；

所述神经网络权重量化装置，还包括：

期望值补偿量化模块，用于根据所述补偿量化期望值与所述补偿量化值的差值，对所述补偿量化值继续进行补偿量化，直至得到符合所述补偿量化期望值的补偿量化值，并根据所述补偿量化值得到补偿量化矩阵集合。

14.如权利要求8所述的神经网络权重量化装置，其特征在于，所述权重量化模块，包括：

正负权重矩阵集合获取单元，用于将所述待量化矩阵集合中的待量化权重值根据正负符号的不同，量化至对数空间，分别得到正权重量化值和负权重量化值，并根据所述正权重量化值得到正权重矩阵集合，根据所述负权重量化值得到负权重矩阵集合；

所述补偿量化模块包括：

正负权重偏移矩阵集合获取单元，用于对所述正权重矩阵集合中的正权重量化值，和与所述正权重量化值对应的待量化权重值的差值进行补偿量化，得到正权重偏移项值，并根据所述正权重偏移值得到正权重偏移矩阵集合，以及