CN109002881A

CN109002881A - 基于fpga的深度神经网络的定点化计算方法及装置

Info

Publication number: CN109002881A
Application number: CN201810690696.3A
Authority: CN
Inventors: 于福海; 张纪伟; 景璐
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-14

Abstract

本发明公开了一种基于FPGA的深度神经网络的定点化计算方法及装置，该方法包括：对图像数据进行定点化处理，将图像数据中的浮点数转化为定点数；将神经网络的滤波器中的全部数值均量化为0或2的指数次幂；对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果；本发明通过将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，可以使深度神经网络卷积过程中的点积操作转化为了较为廉价的移位加法操作，由于FPGA设备上的移位加法操作是基于逻辑单元进行实现的，因此能够从根本上使得神经网络在运算过程中摆脱对于硬件DSP的依赖，拓展了FPGA设备上神经网络单元的并行度、计算效率以及能耗比。

Description

基于FPGA的深度神经网络的定点化计算方法及装置

技术领域

本发明涉及计算机信息技术领域，特别涉及一种基于FPGA的深度神经网络的定点化计算方法及装置。

背景技术

随着现代社会科技的发展，尽管当前的FPGA(Field－Programmable Gate Array，现场可编程门阵列)设备已经在一定程度上支持了各种复杂的浮点或定点运算，但是浮点运算效率对于FPGA设备上DSP(Digital Signal Processing，数字信号处理)的数目存在严重的依赖性，而且FPGA设备本身通过硬件电路来实现程序中的计算，其资源一旦消耗不会再进行回收重分配。

现有技术中，当前的FPGA设备的总体计算效率在很大程度上受到FPGA设备上硬件DSP数目的限制，尽管可以通过定点化运算来替代浮点运算能够在一定程度上降低DSP的使用量，但是复杂程序的并行度仍然受限于DSP的数目。因此，如何对FPGA的神经网络卷积过程中的定点化计算进行优化，降低FPGA设备上硬件DSP的使用量以及能耗，是现今亟需解决的问题。

发明内容

本发明的目的是提供一种基于FPGA的深度神经网络的定点化计算方法及装置，以优化FPGA的神经网络卷积过程中的定点化计算，降低FPGA设备上硬件DSP的使用量以及能耗。

为解决上述技术问题，本发明提供一种基于FPGA的深度神经网络的定点化计算方法，包括：

对图像数据进行定点化处理，将所述图像数据中的浮点数转化为定点数；

将神经网络的滤波器中的全部数值均量化为0或2的指数次幂；

对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果。

可选的，所述对图像数据进行定点化处理，将所述图像数据中的浮点数转化为定点数，包括：

通过快速定点化方法对所述图像数据进行定点化处理，将所述图像数据中的浮点数转化为预设精度的定点数。

可选的，所述将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，包括：

将所述滤波器中的全部数值逐步量化为0或2的指数次幂。

可选的，所述将所述滤波器中的全部数值逐步量化为0或2的指数次幂，包括：

依次将所述滤波器中未量化为0或2的指数次幂的数值中的数值较大的部分的数值量化为0或2的指数次幂。

此外，本发明还提供了一种基于FPGA的深度神经网络的定点化计算装置，包括：

定点化模块，用于对图像数据进行定点化处理，将所述图像数据中的浮点数转化为定点数；

量化模块，用于将神经网络的滤波器中的全部数值均量化为0或2的指数次幂；

卷积模块，用于对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果。

可选的，所述定点化模块，包括：

定点化子模块，用于通过快速定点化方法对所述图像数据进行定点化处理，将所述图像数据中的浮点数转化为预设精度的定点数。

可选的，所述量化模块，包括：

逐步量化子模块，用于将所述滤波器中的全部数值逐步量化为0或2的指数次幂。

可选的，所述逐步量化子模块，包括：

逐步量化单元，用于依次将所述滤波器中未量化为0或2的指数次幂的数值中的数值较大的部分的数值量化为0或2的指数次幂。

本发明所提供的一种基于FPGA的深度神经网络的定点化计算方法，包括：对图像数据进行定点化处理，将图像数据中的浮点数转化为定点数；将神经网络的滤波器中的全部数值均量化为0或2的指数次幂；对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果；

可见，本发明通过将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，可以使深度神经网络卷积过程中的点积操作转化为了较为廉价的移位加法操作，由于在FPGA设备上移位加法操作是基于逻辑单元进行实现的，因此能够从根本上使得神经网络在运算过程中摆脱对于硬件DSP的依赖，极大地拓展了FPGA设备上神经网络单元的并行度、计算效率以及能耗比。此外，本发明还提供了一种基于FPGA的深度神经网络的定点化计算装置，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的一种基于FPGA的深度神经网络的定点化计算方法的流程图；

图2为本发明实施例所提供的另一种基于FPGA的深度神经网络的定点化计算方法中卷积核的逐步量化示意图；

图3为现有技术中基于OpenCL的点积操作的代码展示图；

图4为本发明实施例所提供的另一种基于FPGA的深度神经网络的定点化计算方法中基于OpenCL的移位加和操作的代码展示图；

图5为本发明实施例所提供的一种基于FPGA的深度神经网络的定点化计算装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种基于FPGA的深度神经网络的定点化计算方法的流程图。该方法可以包括：

步骤101：对图像数据进行定点化处理，将图像数据中的浮点数转化为定点数。

可以理解的是，本步骤的目的可以为通过对图像数据进行定点化处理，将图像数据中的浮点数转化为定点数。对于本步骤中对图像数据进行定点化处理的具体方式，可以由设计人员根据实用场景和用户需求自行设置，如可以将采用快速定点化方法实现图像数据中浮点数到定点数的一步转化，即本步骤可以为通过快速定点化方法对图像数据进行定点化处理，将图像数据中的浮点数转化为预设精度的定点数。只要可以将图像数据中的浮点数转化为定点数，本实施例对此不做任何限制。

对应的，通过快速定点化方法对图像数据进行定点化处理时，由于快速定点化方法具有能够人为准确的控制数据的长度(short型，int型或者long型)，能够根据运算精度要求定制浮点-定点的转化精度，并且可以按照图片特征以及实际应用需要选择不同的特征表示精度的特点，因此，图像数据中的浮点数转化为的定点数的精度，即预设精度的具体设置，可以有设计人员或用户自行设置，本实施例对此不做任何限制。

步骤102：将神经网络的滤波器中的全部数值均量化为0或2的指数次幂。

其中，本步骤中的神经网络的滤波器可以为对图像数据进行卷积操作所需的如Squeezene(轻量且高效的CNN模型)的模型。

可以理解的是，本步骤的目的可以为通过对神经网络的滤波器中的全部数值(卷积核)进行量化，即对模型进行重训练，将神经网络的滤波器中的全部数值均量化为0或2的指数次幂。对于本步骤中神经网络的滤波器中的全部数值(卷积核)进行量化的具体方式，可以为直接将神经网络的滤波器中的全部数值一次量化为0或2的指数次幂；也可以为将神经网络的滤波器中的全部数值逐步量化为0或2的指数次幂，即采用动态的逐步量化的方式将神经网络的滤波器逐步量化到0值或者2的指数次幂，如可以依次将神经网络的滤波器中未量化为0或2的指数次幂的数值中的数值较大的部分的数值量化为0或2的指数次幂，直至将神经网络的滤波器中的全部数值均量化为0或2的指数次幂。只要可以将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，本实施例对此不做任何限制。

具体的，如图2所示，本步骤可以采用浪潮集团的Caffe-MPI(一款高性能高可扩展的深度学习计算框架)对当前的模型(滤波器)进行量化以及重训练，在重训练过程中，采用逐步量化的方式来对模型进行量化。在模型压缩过程中，采用区别于全局量化的方法，只将数值较大的50％的卷积核进行量化，转化为0值或者2的指数次幂。在接下来的训练过程中，固定已经量化的数值不变，仅更新其他未量化的卷积核数值来弥补量化卷积核造成的模型精度的降低。在此基础上，可以逐步提高模型的量化比例，从而将卷积核的全部数值转化为0值或者2的指数次幂。在训练过程中，模型只需要5-7个周期的重训练即可将模型恢复到初始的精度。对于每次将神经网络的滤波器中未量化为0或2的指数次幂的数值中的数值较大的部分的数值量化为0或2的指数次幂的具体方式，可以由设计人员根据实用场景和用户需求自行设置，可以如上述描述第一次将神经网络的滤波器中未量化为0或2的指数次幂的数值中的数值较大的50％的数值量化为0或2的指数次幂，接下来的每次逐步提高量化比例，将神经网络的滤波器中未量化为0或2的指数次幂的数值中的数值较大的大于50％的数值量化为0或2的指数次幂。只要可以通过逐步量化的方式将神经网络的滤波器的全部数值均量化为0或2的指数次幂，本实施例对此不做任何限制。

对应的，本实施例采用如图2所示的逐步量化方式在Squeezene模型中进行了相应的量化，并基于Imagenet(计算机视觉系统识别项目名称)数据集进行了相应的训练以及验证，的到了模型的准确性数据如表1所示：

表1模型量化前后的准确性

从表1中可以发现，尽管已经基于Squeezenet模型进行了量化压缩，使得模型的存储尺寸降低到了原本的1/8，但是模型在Imagenet数据集中仍然具有非常高的预测精度。对于验证集而言，其Top1以及Top5准确性分别取得了0.44％以及2.16％的提升。

步骤103：对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果。

可以理解的是，由于深度神经网络卷积过程中的点积操作(如图3所示的OpenCL代码)占据了极大地计算资源，并且对FPGA设备上的DSP具有较强的依赖性，尽管FPGA设备上的DSP设备能够提高FPGA设备对于浮点以及定点操作的性能，但是由于FPGA设备上硬件资源不能自行回收，从而导致程序的并行性在很大程度上收到设备上硬件资源的限制。本实施例的目的可以为通过对神经网络的滤波器(滤波器)进行相应的压缩，使卷积核均为0值或者2的指数次幂，因而可以通过本步骤将卷积核和特征图的点积操作转变成较为廉价的移位加和操作(如图4所示的OpenCL代码)。从而从根本上消除了程序对于硬件DSP的依赖，从而使得程序能够摆脱DSP资源的依赖性，提高程序的并行效率。此外，DSP资源的节省也会在很大程度上降低硬件设备的功耗，提高整体能耗比。

具体的，本步骤的目的可以通过对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，完成深度神经网络卷积过程，获取卷积结果。对于对定点化处理后的图像数据和量化后的滤波器进行位移加和操作的具体实现方式，可以由设计人员根据实用场景和用户需求自行设置，如对定点化处理后的图像数据和量化后的滤波器进行二进制位移加和操作。本实施例对此不做任何限制。同样的，对于本步骤获取卷积结果之后的深度神将网络计算过程，即对获取的图像数据进行卷积操作之后的过程，同样可以由设计人员根据实用场景和用户需求自行设置，本实施例对此同样不做任何限制。

需要说明的是，在基于Intel的Arria10FPGA设备上，采用本实施例所提供的计算方式能够在极大程度上提高的并行效率，从而缩短程序的运行时间。对于传统的点积操作而言，最大并行度下，Squeezenet模型每秒钟最多只能处理400张左右226*226的图片。相同的情况下，采用移位加法操作则能在初始的点积操作的基础上进一步提高程序的并行效率，相比于传统的点积操作，取得将近3倍的性能提升，达到每秒处理1200张图片(该性能已基本与Nvidia的P4计算卡相同)，而对应的功耗仅为P4的一半左右，从而取得了将近两倍的能耗比。

本实施例中，本发明实施例通过将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，可以使深度神经网络卷积过程中的点积操作转化为了较为廉价的移位加法操作，由于在FPGA设备上移位加法操作是基于逻辑单元进行实现的，因此能够从根本上使得神经网络在运算过程中摆脱对于硬件DSP的依赖，极大地拓展了FPGA设备上神经网络单元的并行度、计算效率以及能耗比。

请参考图5，图5为本发明实施例所提供的一种基于FPGA的深度神经网络的定点化计算装置的结构图。该装置可以包括：

定点化模块100，用于对图像数据进行定点化处理，将图像数据中的浮点数转化为定点数；

量化模块200，用于将神经网络的滤波器中的全部数值均量化为0或2的指数次幂；

卷积模块300，用于对定点化处理后的图像数据和量化后的滤波器进行位移加和操作，获取卷积结果。

可选的，定点化模块100，可以包括：

定点化子模块，用于通过快速定点化方法对图像数据进行定点化处理，将图像数据中的浮点数转化为预设精度的定点数。

可选的，量化模块200，可以包括：

逐步量化子模块，用于将滤波器中的全部数值逐步量化为0或2的指数次幂。

可选的，逐步量化子模块，包括：

逐步量化单元，用于依次将滤波器中未量化为0或2的指数次幂的数值中的数值较大的部分的数值量化为0或2的指数次幂。

本实施例中，本发明实施例通过量化模块200将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，可以使深度神经网络卷积过程中的点积操作转化为了较为廉价的移位加法操作，由于在FPGA设备上移位加法操作是基于逻辑单元进行实现的，因此能够从根本上使得神经网络在运算过程中摆脱对于硬件DSP的依赖，极大地拓展了FPGA设备上神经网络单元的并行度、计算效率以及能耗比。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于FPGA的深度神经网络的定点化计算方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于FPGA的深度神经网络的定点化计算方法，其特征在于，包括：

2.根据权利要求1所述的基于FPGA的深度神经网络的定点化计算方法，其特征在于，所述对图像数据进行定点化处理，将所述图像数据中的浮点数转化为定点数，包括：

3.根据权利要求1或2所述的基于FPGA的深度神经网络的定点化计算方法，其特征在于，所述将神经网络的滤波器中的全部数值均量化为0或2的指数次幂，包括：

将所述滤波器中的全部数值逐步量化为0或2的指数次幂。

4.根据权利要求3所述的基于FPGA的深度神经网络的定点化计算方法，其特征在于，所述将所述滤波器中的全部数值逐步量化为0或2的指数次幂，包括：

5.一种基于FPGA的深度神经网络的定点化计算装置，其特征在于，包括：

6.根据权利要求5所述的基于FPGA的深度神经网络的定点化计算装置，其特征在于，所述定点化模块，包括：

7.根据权利要求5或6所述的基于FPGA的深度神经网络的定点化计算装置，其特征在于，所述量化模块，包括：

8.根据权利要求7所述的基于FPGA的深度神经网络的定点化计算装置，其特征在于，所述逐步量化子模块，包括：