CN106203617A

CN106203617A - 一种基于卷积神经网络的加速处理单元及阵列结构

Info

Publication number: CN106203617A
Application number: CN201610482653.7A
Authority: CN
Inventors: 宋博扬; 赵秋奇; 马芝; 刘记朋; 韩宇菲; 王明江
Original assignee: SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER; Harbin Institute of Technology Shenzhen
Current assignee: SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER; Harbin Institute of Technology Shenzhen
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-12-07
Anticipated expiration: 2036-06-27
Also published as: CN106203617B

Abstract

本发明公开一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算，所述局部数据包括多个多媒体数据，所述加速处理单元包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器。单个加速处理单元通过对第一多路选择器和第二多路选择器的控制，使得乘法器和加法器可重复使用，从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算，减少了乘法器和加法器的使用，在实现同样的卷积运算时，减少乘法器和加法器的使用将会提高处理速度并降低能耗，同时单个加速处理单元片上面积更小。

Description

一种基于卷积神经网络的加速处理单元及阵列结构

技术领域

本发明涉及卷积神经网络，具体涉及卷积神经网络的卷积层中的加速处理单元及阵列结构。

背景技术

深度学习(dee加速处理单元Plea2ning)相对于浅层学习，是指机器通过算法，从历史数据中学习规律，并对事物作出智能识别和预测。

卷积神经网络(Convolutional Neu2al Netwo2k，CNN)属于dee加速处理单元Plea2ning netwo2k的一种，其发明于1980年代初，由多层排列的人工神经元组成，卷积神经网络反映出了人类大脑处理视觉的方法。随着摩尔定律推动着计算机技术越来越强大，卷积神经网络能够更好的模仿生物神经网络的实际运作方式，避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用，目前已成功应用于手写字符识别、人脸识别、人眼检测、行人检测和机器人导航中。

卷积神经网络的基本机构中包括多个卷积层，每层由多个二维平面组成，而每个平面由多个独立神经元组成。每个神经元用于对多媒体数据的局部数据进行卷积运算，并且其一输入端还与前一卷积层的局部感受野相连，通过对前一卷积层的局部感受野的数据进行卷积运算，以提取该局部感受野的特征。

现有技术中，通常也采用加速处理单元来作为神经元，对多媒体数据的局部数据进行卷积运算。现有的加速处理单元对输入的每个多媒体数据都设计有一个加法器和一个乘法器，当该加速处理单元需要处理的局部数据有多个时，意味着每个加速处理单元包括多个加法器和多个乘法器，这种设计导致加速处理单元片的面积较大，功耗大，处理速度也有待提高。

发明内容

本申请提供一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算，所述局部数据包括多个多媒体数据，所述加速处理单元包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器；

第一寄存器用于输入多媒体数据，其输出端与乘法器的输入端连接，将多媒体数据发送到乘法器；

第二寄存器用于输入滤波器权值，其输出端与乘法器的输入端连接，将滤波器权值发送到乘法器；

乘法器用于将多媒体数据和滤波器权值相乘，其输出端与第三寄存器连接，将相乘后的结果发送到第三寄存器；

第三寄存器的输出端与第一多路选择器的第一端连接；

所述第一多路选择器的第二端连接加法器，第三端为前一加速处理单元的部分和输入端，所述第一多路选择器通过状态切换将第三寄存器和加法器连接，或将前一加速处理单元的部分和输入端和加法器连接；

所述加法器还与第五寄存器和第四寄存器连接，用于将第一多路选择器传送的相乘后的结果或前一加速处理单元的部分和与第五寄存器中的数据进行加法运算，并将相加后的结果输出到第四寄存器；

所述第二多路选择器的第一端和第二端分别连接第四寄存器和第五寄存器，所述第四寄存器通过第二多路选择器连接到第五寄存器。

优选地，所述第一多路选择器在加速处理单元未完成局部数据的乘加操作时保持第一状态，将第三寄存器连接到加法器，在加速处理单元完成局部数据的乘加操作后切换为第二状态，将前一加速处理单元的部分和输入端连接到加法器。

优选地，所述第二多路选择器在加速处理单元未完成局部数据的乘加操作时保持为第一状态，将第四寄存器连接到第五寄存器，在加速处理单元完成局部数据的乘加操作后切换为第二状态，以将第五寄存器清零。

优选地，所述第二多路选择器的第三端为重置端，所述第二多路选择器在加速处理单元完成局部数据的乘加操作后切换为第二状态，将重置端连接到第五寄存器。

优选地，还包括第一存储器、第二存储器和第三存储器，所述第一存储器与第一寄存器的输入端连接，用于输入并存储需要进行卷积运算的局部数据，并将局部数据中的多个多媒体数据依次发送给第一寄存器；所述第二存储器与第二寄存器的输入端连接，用于输入并存储滤波器权值，并将滤波器权值发送给第二寄存器；所述第三存储器与第四寄存器的输入端连接，用于输入并存储加法器输出的相加后的结果，并将相加后的结果发送给第四寄存器。

优选地，其特征在于，所述加法器还将相加后的结果输出到后一加速处理单元。

本申请提供还一种基于卷积神经网络的阵列结构，包括多个所述加速处理单元，多个加速处理单元呈现为3行N列的矩阵形态，其中3和N为大于或等于1的整数，每一列的加速处理单元前后相连。

优选地，每一列中，前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。

优选地，同一行的加速处理单元中，输入的滤波器权值相同；位于同一对角线上的加速处理单元中，输入的局部数据相同。

优选地，不同行的加速处理单元中，输入的滤波器权值不同。

本发明的有益效果是：单个加速处理单元通过对第一多路选择器和第二多路选择器的控制，使得乘法器和加法器可重复使用，从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算，减少了乘法器和加法器的使用，在实现同样的卷积运算时，减少乘法器和加法器的使用将会提高处理速度并降低能耗，同时单个加速处理单元片上面积更小。

附图说明

图1为本发明实施例提供的一种基于卷积神经网络的加速处理单元结构框图；

图2为本发明实施例提供的一种基于卷积神经网络的加速处理单元的卷积运算过程示意图；

图3为本发明实施例一种基于卷积神经网络的阵列结构列向分布示意图；

图4为本发明实施例一种基于卷积神经网络的阵列结构行向分布示意图；

图5为本发明实施例一种基于卷积神经网络的阵列结构对角线分布示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。

实施例一：

请参考图1，本实施例提供一种基于卷积神经网络的加速处理单元，加速处理单元61包括第一寄存器21、第二寄存器22、第三寄存器23、第四寄存器24、第五寄存器25、乘法器41、加法器51和第一多路选择器31和第二多路选择器32。

第一寄存器21与乘法器41的一输入端连接，第一寄存器21用于输入多媒体数据，并将多媒体数据发送到乘法器41。第二寄存器22与乘法器41的另一输入端连接，第二寄存器22用于输入滤波器权值，并将滤波器权值发送到乘法器41。乘法器41的输出端与第三寄存器23连接，用于将多媒体数据和滤波器权值相乘，并将相乘后的结果发送到第三寄存器23。

第一多路选择器31的第一端与第三寄存器23的输出端连接，第二端连接加法器51的一输入端，第三端为前一加速处理单元的部分和输入端。当第一多路选择器31切换到第一状态(例如置0)时，第一多路选择器31将第三寄存器23和加法器51连接，将第三寄存器23中的数据发送到加法器51；当第一多路选择器31切换到第二状态(例如置1)时，第一多路选择器31将其第三端和加法器51连接，将前一加速处理单元的部分和发送到加法器51。

加法器51的另一输入端与第五寄存器25连接，加法器51的输出端与第四寄存器24连接，加法器51输入第三寄存器23和第五寄存器25中的数据，将两寄存器中的数据进行加法运算，并将相加后的结果(也称为内部部分和)输出到第四寄存器24。

第二多路选择器32的第一端和第二端分别连接第四寄存器24和第五寄存器25，第二多路选择器32的第三端为重置端。当第二多路选择器32切换到第一状态(例如置0)时，第二多路选择器32将第四寄存器24和第五寄存器25连接，将第四寄存器24中的内部部分和发送到第五寄存器25；当第二多路选择器32切换到第二状态(例如置1)时，第二多路选择器32将其第三端和第五寄存器25连接，重置第五寄存器25，使第五寄存器25中数据清零。

在有的实施例中，为方便向寄存器发送数据，加速处理单元61还包括第一存11、第二存储器12和第三存储器13，第一存储器11与第一寄存器21的输入端连接，用于输入并存储需要进行卷积运算的局部数据，并将局部数据中的多个多媒体数据依次发送给第一寄存器21；第二存储器12与第二寄存器22的输入端连接，用于输入并存储滤波器权值，并将滤波器权值发送给第二寄存器22；第三存储器13与第四寄存器24的输入端连接，用于输入并存储加法器51输出的内部部分和，并将内部部分和发送给第四寄存器24。

加速处理单元61用于对局部数据进行卷积运算，局部数据包括多个多媒体数据，多媒体数据可以是视频数据，图像数据，也可以是音频数据。当多媒体数据是视频数据时，可以认为每个多媒体数据对应一个像素。

下面以图像数据为例，说明加速处理单元61的卷积运算过程。

结合图1和图2，单个基于卷积神经网络的加速处理单元61的工作过程如下：

步骤10，读取需要进行卷积运算的视频数据和滤波器权值。若图像数据不为0，图像数据被存储于第一存储器11，在需要的时候被发送至第一寄存器21用来提取图像数据，若图像数据为0，图像数据0直接被发送至第一寄存器21而无需提取，采取跳过或门控的策略避免非必要的读取和计算；滤波器权值被存储于第二存储器12，在需要的时候被发送至第二寄存器22用来滤波器权值数据，其中，数据提取方式为依次串行提取，即在第一个循环中，将由本加速处理单元61进行卷积运算的局部数据中的第一个图像数据发送到第一寄存器21；在第二个循环中，将第二个图像数据发送到第一寄存器21，后面依次读入图像数据。滤波器权值由处理器根据卷积算法要求产生。

步骤20，乘法运算。第一寄存器21中的图像数据和第二寄存器22中的滤波器权值被发送到乘法器41中执行乘法运算，经过乘法器41相乘后的结果被输出到第三寄存器23。

步骤30，加法运算。由于加速处理单元61中的乘加操作还没有结束，此时第一多路选择器31置0，当第一多路选择器31被置0时，第三寄存器23中图像数据被发送到加法器51中，加法器51将图像数据与第五寄存器25中的前一次内部部分和相加。对于第一次的内部卷积操作，第五寄存器25中为零，对于后续的内部卷积操作，第五寄存器25中为前一次卷积操作后的内部部分和。本次卷积操作中相加后的结果(即内部部分和)被输出到第四寄存器24，此时便完成了一次内部卷积操作，最终得到第一个图像数据和滤波器权值的部分和。由于加速处理单元61中的乘加操作还没有结束，此时第二多路选择器32置0，当第二多路选择器32被置0时，内部部分和被第四寄存器24发送至第五寄存器25。

步骤40，本加速处理单元61判断是否完成了所有局部数据的内部卷积操作，若内部卷积操作未完成时，将依次重复步骤10、步骤20和步骤30，提取第二个图像数据，并输入到第一寄存器21，第二个滤波器权值输入到第二寄存器22，第一寄存器21中的图像数据和第二寄存器22中的滤波器权值都发送到乘法器41中，图像数据和滤波器权值相乘，得出的结果由乘法器41发送到第三寄存器中，由于加速处理单元61中的乘加操作还没有结束，此时第一多路选择器31置0，第三寄存器23中的数据通过第一多路选择器发送到加法器51中，与来自第五寄存器25中的数据求和，最终得到第二次的图像数据和滤波器权值的部分和。加法器51中的部分和发送到第四寄存器24中，此时，由于加速处理单元中的乘加操作还没有结束，此时第二多路选择器32置0，第四寄存器24中的数据通过第二多路选择器31发送到第五寄存器25中。从而完成对第二个图像数据的内部卷积操作。直到提取局部数据的最后一个图像数据，该图像信息和滤波器权值经过上述的相乘和相加操作后，得到本加速处理单元的部分和，该部分和通过与前述相同的操作，最终进入第五寄存器25中。当所有内部卷积操作已完成时，则将进行步骤50。

步骤50，当加速处理单元61中的对局部数据的乘加操作结束后，第一多路选择器31和第二多路选择器32置1，当第一多路选择器32被置1时，前一个加速处理单元中的部分和通过第一多路选择器31发送到加法器51中，第五寄存器25将本加速处理单元61中的最终部分和发送到加法器51中，最后，前一个加速处理单元的部分和与本加速处理单元61中的部分和求和，得到两个加速处理单元叠加的部分和，该叠加的部分和输出，发送到下一个加速处理单元。当第二多路选择器32将由状态0被置1，第四寄存器24不再向第五寄存器25发送数据，并且第五寄存器25中的数据将被清零。

本实施例中，单个加速处理单元通过对第一多路选择器31和第二多路选择器32的控制，使得乘法器41和加法器51可重复使用，从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算，减少了乘法器和加法器的使用，在实现同样的卷积运算时，减少乘法器和加法器的使用将会提高处理速度并降低能耗，同时单个加速处理单元片上面积更小。

实施例二：

请参考图3至图5，示出了一种基于卷积神经网络的阵列结构，包括多个所述加速处理单元，多个加速处理单元呈现为M行N列的矩阵形态，其中M和N为大于或等于1的整数，每一列的加速处理单元前后相连。

本实施例中，多个加速处理单元呈现为3行3列的矩阵形态，每一列中，前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。

同一行的加速处理单元中，输入的滤波器权值相同；位于同一对角线上的加速处理单元中，输入的局部数据相同。

不同行的加速处理单元中，输入的滤波器权值不同。

下面结合附图，说明多个加速处理单元的卷积层运算过程。

结合图1至图5，基于卷积神经网络的阵列结构的运算过程如下：

如图3所示，前一个加速处理单元的加法器51连接后一个加速处理单元的第一多路选择器31,每一行输出的部分和都垂直移动，将前后两个加速处理单元的部分和累加，在计算过程结束时可以在顶行被读出，在下一个计算过程的开始由缓冲器送到阵列的底行。

例如，加速处理单元PE1.1、加速处理单元PE2.1和加速处理单元PE3.1，先分别进行内部卷积运算，最终结果存储在各自的第五寄存器25中，然后，加速处理单元PE3.1中输出的部分和与加速处理单元PE2.1中第五寄存器25的部分和在加速处理单元PE2.1的加法器51中再次求和累加，得到第一次累加的部分和，所述第一次累加的部分和由加速处理单元PE2.1发送到加速处理单元PE1.1中，与加速处理单元PE1.1中第五寄存器25的部分和在加速处理单元PE1.1的加法器51中再次求和，最终输出本列所有加速处理单元1的部分和。

还需指出的是，如图4和图5所示，同一行的加速处理单元中，输入的滤波器权值相同，位于同一对角线上的加速处理单元中，输入的图像数据相同，不同行的加速处理单元中，输入的滤波器权值不同。由于整个图像数据有若干行，而每个加速处理单元只是处理整个图像数据中的单行数据，因此就需要将加速处理单元分别处理完每一行数据再对每一行数据的卷积结果进行累加操作。同一对角线上的输入数据相同，不同对角线上的输入图像数据不同，相当于不同对角线上的输入的图像数据是图像数据的不同行数据。而处理不同行的图像数据需要不同的滤波器权值，例如一个滤波器权值只是用来处理第一行的图像数据，当要处理第二行的图像数据的时候，就需要用新的滤波器权值。因此可使同一行的加速处理单元采用相同的滤波器权值，不同行的加速处理单元采用不同的滤波器权值。

例如，加速处理单元PE1.1、加速处理单元PE1.2和加速处理单元PE1.3中的滤波器权值相同，加速处理单元PE2.1和加速处理单元PE1.2中输入的图像数据相同，加速处理单元PE1.1、加速处理单元PE2.2和加速处理单元PE3.1中的滤波器权值不相同。

如此实现了，同时处理一行的多媒体数据，再对不同行的多媒体数据使用不同的滤波器权值，在分别处理完每一行数据后，在对前后各行多媒体数据进行累加操作，从而快速、可靠地处理全部的多媒体数据。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算，所述局部数据包括多个多媒体数据，其特征在于包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器；

第三寄存器的输出端与第一多路选择器的第一端连接；

2.如权利要求1所述的加速处理单元，其特征在于，所述第一多路选择器在加速处理单元未完成局部数据的乘加操作时保持第一状态，将第三寄存器连接到加法器，在加速处理单元完成局部数据的乘加操作后切换为第二状态，将前一加速处理单元的部分和输入端连接到加法器。

3.如权利要求1所述的加速处理单元，其特征在于，所述第二多路选择器在加速处理单元未完成局部数据的乘加操作时保持为第一状态，将第四寄存器连接到第五寄存器，在加速处理单元完成局部数据的乘加操作后切换为第二状态，以将第五寄存器清零。

4.如权利要求3所述的加速处理单元，其特征在于，所述第二多路选择器的第三端为重置端，所述第二多路选择器在加速处理单元完成局部数据的乘加操作后切换为第二状态，将重置端连接到第五寄存器。

5.如权利要求1至4中任一项所述的加速处理单元，其特征在于，还包括第一存储器、第二存储器和第三存储器，所述第一存储器与第一寄存器的输入端连接，用于输入并存储需要进行卷积运算的局部数据，并将局部数据中的多个多媒体数据依次发送给第一寄存器；所述第二存储器与第二寄存器的输入端连接，用于输入并存储滤波器权值，并将滤波器权值发送给第二寄存器；所述第三存储器与第四寄存器的输入端连接，用于输入并存储加法器输出的相加后的结果，并将相加后的结果发送给第四寄存器。

6.如权利要求1至4中任一项所述的加速处理单元，其特征在于，所述加法器还将相加后的结果输出到后一加速处理单元。

7.一种基于卷积神经网络的阵列结构，其特征在于，包括多个如权利要求1至6中任一项所述的加速处理单元，多个加速处理单元呈现为M行N列的矩阵形态，其中M和N为大于或等于1的整数，每一列的加速处理单元前后相连。

8.如权利要求7所述的阵列结构，其特征在于，每一列中，前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。

9.如权利要求7或8所述的阵列结构，其特征在于，同一行的加速处理单元中，输入的滤波器权值相同；位于同一对角线上的加速处理单元中，输入的局部数据相同。

10.如权利要求9所述的阵列结构，其特征在于，不同行的加速处理单元中，输入的滤波器权值不同。