WO2018196863A1

WO2018196863A1 - 卷积加速和计算处理方法、装置、电子设备及存储介质

Info

Publication number: WO2018196863A1
Application number: PCT/CN2018/084948
Authority: WO
Inventors: 卢丽强; 梁云; 肖倾城; 颜深根
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-04-28
Filing date: 2018-04-27
Publication date: 2018-11-01
Anticipated expiration: 2019-10-28
Also published as: CN108229645A; US20200057938A1; SG11201910024PA; CN108229645B; US11429852B2

Abstract

一种卷积加速和计算处理方法、装置、电子设备及存储介质，其中，加速方法包括：通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在所述加速器的片上内存中第一缓存区的至少一个输入缓存区；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；通过FIFO端口依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。本卷积加速和计算处理方法、装置、电子设备及存储介质可以避免加速器片上内存和带宽不足、处理器资源有限的情况，并且提高了卷积计算处理的效率，可以适用于FPGA、ASIC等硬件平台。

Description

卷积加速和计算处理方法、装置、电子设备及存储介质

本申请要求在2017年04月28日提交中国专利局、申请号为CN 201710300171.X、发明名称为“卷积加速和计算处理方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术，尤其是一种卷积加速和计算处理方法、装置、电子设备及存储介质。

背景技术

神经网络作为一种模仿生物神经结构的信息处理技术，在近年来得到了迅速的发展。神经网络有着非常强大的非线性映射能力，其中，深度卷积神经网络(Deep convolutional neural network，CNN)在图像分类、物体检测、语义分割等各种计算机视觉任务处理中，表现出了显著性能。

由于需要对图像中区域的特征图进行处理，CNN计算精度的提升，其计算复杂度也成倍增加。针对巨大的计算压力，采用图形处理器(Graphics Processing Unit，GPU)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)等硬件加速器来加速CNN的计算过程。在现有加速器中，FPGA作为嵌入式平台中的高效加速器，拥有可重构、并行计算性、开发周期短、低功耗、灵活性高等特点，近年来，使用FPGA加速CNN的技术得到快速发展。

发明内容

本申请实施例提供一种使用FPGA加速CNN的技术方案，包括：卷积加速方法和加速器、卷积计算处理方法和装置、电子设备，计算机存储介质。

根据本申请实施例的一个方面，提供的一种卷积加速方法，包括：

通过先进先出FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在所述加速器的片上内存中第一缓存区的至少一个输入缓存区；其中，所述片上内存包括第一缓存区、第二缓存区和第三缓存区，所述第一缓存区包括至少一个输入缓存区，所述第二缓存区中缓存有至少一组卷积核数据；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；

通过FIFO端口依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。

根据本申请实施例的另一个方面，提供的一种卷积计算处理方法，包括：

采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；

对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；所述卷积核数据由第一常数矩阵对卷积核进行转换获得；

采用第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果。

根据本申请实施例的又一个方面，提供的一种卷积加速器，包括：

数据读取模块，用于通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在第一缓存区的至少一个输入缓存区；

第一缓存区，包括至少一个输入缓存区，用于缓存所述待处理数据；

第二缓存区，用于缓存至少一组卷积核数据；

计算模块，用于在有输入缓存区中存入待处理数据时，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；

第三缓存区，包括至少一个输出缓存区，用于缓存输出窗口数据；

数据输出模块，用于通过FIFO端口，依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。

根据本申请实施例的又一个方面，提供的一种卷积计算处理装置，包括：

第一转换模块，用于采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；

点乘模块，用于对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；所述卷积核数据由第一常数矩阵对卷积核进行转换获得；

第二转换模块，用于采用第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果。

根据本申请实施例的又一个方面，提供的一种电子设备，包括本申请任一实施例所述的卷积加速器。

根据本申请实施例的又一个方面，提供的另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本申请任一实施例所述的卷积加速方法的操作。

根据本申请实施例的又一个方面，提供的计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本申请任一实施例所述的卷积加速方法的操作。

根据本申请实施例的又一个方面，提供的又一种电子设备，包括本申请任一实施例所述的卷积计算处理装置。

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本申请任一实施例所述的卷积计算处理方法的操作。

根据本申请实施例的又一个方面，提供的计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行本申请任一实施例所述的卷积计算处理方法的操作。

基于本申请上述实施例提供的卷积加速方法和加速器、及其相应的电子设备和计算机存储介质，加速器的片上内存包括第一缓存区、第二缓存区和第三缓存区，第一缓存区包括至少一个输入缓存区，第二缓存区中缓存有至少一组卷积核数据。通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在加速器的片上内存中第一缓存区的至少一个输入缓存区；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；然后通过FIFO端口依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。本申请实施例每次从加速器的片外存储器读取待处理任务中预设大小的待处理数据存入片上内存进行处理，并实现了从片外存储器读取待处理数据存入片上内存、和对待处理数据进行卷积计算处理等过程的流水线处理，可以充分利用加速器较为有限的片上内存、带宽、DSP等资源，显著提高了卷积计算处理的效率，可以适用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现卷积加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

基于本申请上述实施例提供的卷积计算处理方法和装置、及其相应的电子设备和计算机存储介质，可以针对任一输入通道和任一输出通道，采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；采用第三常数矩阵对点乘后矩阵进行转换，获得卷积结果。本申请实施例提供了一种基于Winograd算法对输入窗口数据进行面对面的卷积计算的方法，相对于传统的点对点的卷积算法，减少了乘法次数，从而减少了对处理器资源的占用，并提升了计算效率。本申请实施例可以应用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现卷积加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请卷积加速方法一个实施例的流程图；

图2为本申请实施例中片上内存的一个示例图；

图3为本申请实施例中对待处理的输入窗口数据进行卷积计算一个实施例的流程图；

图4为本申请实施例中对Pn个输入通道并行执行计算处理操作的示意图；

图5为本申请实施例中对Pm个输出通道并行执行计算处理操作的示意图；

图6为本申请卷积计算处理方法一个实施例的流程图；

图7为本申请卷积计算处理方法另一个实施例的流程图；

[根据细则91更正 11.07.2018]　
图8为图3、图6、图7所示实施例的一个计算过程示意；

图9为本申请卷积加速器一个实施例的结构示意图；

图10为本申请实施例中计算模块一个实施例的结构示意图；

图11为本申请卷积计算处理装置一个实施例的结构示意图；

图12为本申请卷积计算处理装置另一个实施例的结构示意图；

图13为本申请电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本申请卷积加速方法一个实施例的流程图。如图1所示，本申请实施例卷积加速方法包括：

102，通过先进先出(First Input First Output，FIFO)端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在加速器的片上内存中第一缓存区的至少一个输入缓存区；以及响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中。

其中，片上内存包括第一缓存区、第二缓存区和第三缓存区，第一缓存区包括至少一个输入缓存区，第二缓存区中缓存有至少一组卷积核数据。

本申请各实施例的卷积加速方法可应用于任何加速器，特别是在片上内存和带宽资源相对较小的FPGA、ASIC等嵌入式平台。

本申请各实施例中，待处理任务例如可以包括：至少一个通道的输入图像、或者至少一个通道的输入特征图，待处理任务处理完成后，可以得到至少一个通道的输出特征图。为了便于对输入图像、输入特征图和输出特征图的通道进行区分，本申请各实施例中，将输入图像、输入特征图的通道称为输入通道，将输出特征图的通道称为输出通道。输入图像、输入特征图的每个灰度对应一个通道，例如，红绿蓝(RGB)三种色彩的输入图像、输入特征图分别对应一个通道，同时包含红绿蓝三种色彩的输入图像、输入特征图具有三个输入通道。另外，每组卷积核数据分别对应于一个输出通道，每组卷积核数据包括至少一个卷积核数据，每个卷积核数据分别对应于一个输入通道。

在一个可选示例中，该操作102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据读取模块和计算模块执行。

104，通过FIFO端口依次将第三缓存区中的输出窗口数据存储至片外存储器中。

基于本申请上述实施例提供的卷积加速方法，加速器的片上内存包括第一缓存区、第二缓存区和第三缓存区，第一缓存区包括至少一个输入缓存区，第二缓存区中缓存有至少一组卷积核数据。通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在加速器的片上内存中第一缓存区的至少一个输入缓存区；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；然后通过FIFO端口依次将第三缓存区中的输出窗口数据存储至片外存储器中。本申请实施例每次从加速器的片外存储器读取待处理任务中预设大小的待处理数据存入片上内存进行处理，实现了从片外存储器读取待处理数据存入片上内存、和对待处理数据进行卷积计算处理等过程的流水线处理，可以充分利用加速器较为有限的片上内存、带宽、DSP等资源，显著提高了卷积计算处理的效率，可以适用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现卷积加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

在一个可选示例中，该操作104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的数据输出模块执行。

在图1所示实施例的一个可选示例中，第一缓存区包括两个输入缓存区。在待处理任务的处理过程中，这两个输入缓存区的其中一个输入缓存区被轮流存入待处理数据、读取待处理的输入窗口数据，两个输入缓存区中的另一个输入缓存区被轮流读取待处理的输入窗口数据、存入待处理数据，两个输入缓存区中一个被存入待处理数据时，另一个被读取待处理的输入窗口数据，在前述一个被读取待处理的输入窗口数据时，另一个被存入待处理数据，从而实现存入待处理数据、读取待处理的输入窗口数据的流水线处理，重叠存入待处理数据所需时间和读取待处理的输入窗口数据所需时间，减少整个加速过程所需时间，提高了CNN的加速效率。

本申请实施例中，将卷积核数据对应的卷积核的尺寸表示为r×r，输入窗口数据对应的输入窗口的尺寸表示为n×n，输入窗口数据对应的输入窗口的滑动步长表示为m，输入窗口数据对应的输出窗口的尺寸表示为m×m。其中，r、m、n的取值分别为大于0的整数，且满足n＝m+r-1。由此，m的取值小于或等于n的取值。在r的取值大于1时，m的取值均小于n的取值。在r的取值为1时，m的取值等于n的取值。

在图1所示实施例的另一个可选示例中，输入缓存区为行缓存区，第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储待处理任务所有通道中的同一行数据。如图2所示，为本申请实施例中片上内存的一个示例图。其中，M表示输入特征图的通道数，即：输入通道数，H表示输入特征图的高度，W表示输入特征图的宽度，M×W表示输入特征图的尺寸，计算模块表示用于对第一缓存区中的输入窗口数据进行卷积计算的单元，C表示输出特征图的通道数，即：输出通道数，R表示输出特征图的高度，N表示输出特征图的宽度，N×C表示输入特征图的尺寸。

相应地，在该另一个可选示例中，从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

首次从片外存储器读取待处理任务所有通道的前n行数据，并将前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；

之后每次从片外存储器读取待处理任务所有通道的相邻后续m行数据，并将本次读取的m行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的相邻后续m个行缓存区中。

由此，在r的取值为1时，m的取值等于n的取值，此时每次均从片外存储器读取待处理任务所有通道的m(＝n)行数据，与上次读取的数据不重叠的相邻存入第一缓存区中的m个行缓存区中。

在r的取值大于1时，m的取值均小于n的取值，此时非首次读取从片外存储器读取待处理任务的数据的行数m小于首次读取的数据的行数n，可以与上次读取的数据不重叠的相邻存入第一缓存区中的m个行缓存区中；也可以每次均从片外存储器读取待处理任务所有通道的相邻后续n行数据，并将其存入第一缓存区中、基于预定循环方向确定的n个行缓存区中，非首次存入数据的n个行缓存区包括上次缓存数据的最后(r-1)个行缓存区和相邻后续m个行缓存区中，此时会发生上述r-1个行缓存区数据的重叠覆盖。相对于每次从片外存储器读取n行数据存入第一缓存区中而言，非首次每次从片外存储器读取m行数据存入第一缓存区中的方案，可以减少数据传输量，从而节约传输带宽，提高数据读取、传输和存入效率。

例如，n＝6、m＝4、r＝3时，可以首次从片外存储器读取待处理任务所有通道的前6行数据存入第一缓存区中、基于预定循环方向确定的前n个行缓存区中。后续每次从片外存储器读取待处理任务所有通道的相邻后续4行数据，并将本次读取的4行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的相邻后续4个行缓存区中；或者，也可以后续每次从片外存储器读取待处理任务所有通道的相邻后续6行数据，并将本次读取的6行数据存储在第一缓存区中、基于预定循环方向确定的，由相邻后续4个行缓存区与上次存入数据的最后2个行缓存区中确定的6个行缓存区中。

或者，在又一个可选示例中，从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

每次从片外存储器读取待处理任务所有通道的n行数据；

对于首次从待处理任务中读取的前n行数据，将前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；对于非首次读取的n行数据，基于预定循环方向，将第一缓存区中存储上一次读取的n行数据的前n个行缓冲区滑动m行后对应的n个行缓冲区作为本次读取的n行数据的目标行缓存区，并将本次读取的n行数据对应存入目标行缓存区中的各行缓冲区中。

在该又一个可选示例中，将非首次读取的n行数据存入第一缓存区中时，会覆盖掉上一次存入第一缓存区中的n个行缓存区中的最后n-m个行缓存区中的数据。与上述另一个可选示例和又一个可选示例相应地，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，包括：

针对待处理任务，首次读取待处理的输入窗口数据时，选取前n个行缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个行缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，直至新的计算缓存区中的待处理数据均被读取。

另外，在本申请上述各卷积加速方法实施例中，第三缓存区包括至少一个输出缓存区，则获得输出窗口数据并存储在第三缓存区中时，是获得输出窗口数据并依次存储在至少一个输出缓存区中；相应地，操作104包括：响应于首个输出缓存区存入输出窗口数据，依次读取至少一个输出缓存区中的输出窗口数据，并通过FIFO端口将读取的输出窗口数据存储至片外存储器中。

可选地，第三缓存区可以包括两个输出缓存区。在待处理任务的处理过程中，两个输出缓存区的其中一个输出缓存区被轮流存入输出窗口数据、读取输出窗口数据，两个输出缓存区中的另一个输出缓存区被轮流读取输出窗口数据、存入输出窗口数据。两个输出缓存区中一个被存入输出窗口数据时，另一个被读取输出窗口数据，在前述一个被存入输出窗口数据时，另一个被存入输出窗口数据，从而实现存入输出窗口数据、读取输出窗口数据的流水线处理，重叠存入输出窗口数据所需时间和读取输出窗口数据所需时间，进一步减少了整个加速过程所需时间，提升了加速器的工作效率。

可选地，每个输出缓存区可以包括m个行缓存区。相应地，上述各实施例中，获得输出窗口数据并依次存储在至少一个输出缓存区中，包括：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中的操作；

依次将第三缓存区中的输出窗口数据存储至片外存储器中，包括：

响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，将当前输出缓存区中的输出窗口数据存储至片外存储器中。

另外，在图1所示实施例的再一个可选示例中，输入缓存区为列缓存区；第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储待处理任务所有通道中的同一列数据；

相应地，在该再一个可选示例中，从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

首次从片外存储器读取待处理任务所有通道的前n列数据，并将前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；

之后每次从片外存储器读取待处理任务所有通道的相邻后续m列数据，并将本次读取的m列数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的相邻后续m个列缓存区中。

或者，在下一个可选示例中，从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

每次从片外存储器读取待处理任务所有通道的n列数据；

对于首次从待处理任务中读取的前n列数据，将前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；对于非首次读取的n列数据，基于预定循环方向，将第一缓存区中存储上一次读取的n列数据的前n个列缓冲区滑动m列后对应的n个列缓冲区作为本次读取的n列数据的目标列缓存区，并将本次读取的n列数据对应存入目标列缓存区中的各列缓冲区中。

在该下一个可选示例中，将非首次读取的n列数据存入第一缓存区中时，会覆盖掉上一次存入第一缓存区中的n个列缓存区中的最后n-m个列缓存区中的数据。

与上述再一个可选示例相应地，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，包括：

针对待处理任务，首次读取待处理的输入窗口数据时，选取前n个列缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个列缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，直至新的计算缓存区中的待处理数据均被读取。

与上述又一个可选示例相应地，输出缓存区也可以包括m个列缓存区。相应地，获得输出窗口数据并依次存储在至少一个输出缓存区中，包括：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中的操作；

响应于当前计算列缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，将当前输出缓存区中的输出窗口数据存储至片外存储器中。

可选地，输入缓存区为列缓存区与输入缓存区为行缓存区的技术方案类似，相关之处可相互参考。

图3为本申请实施例中对待处理的输入窗口数据进行卷积计算的一个实施例的流程图。如图3所示，通过卷积核数据对待处理的输入窗口数据进行卷积计算，获得输出窗口数据，包括：

302，分别针对任一输入通道执行如下计算处理操作：采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对点乘后矩阵进行转换，获得卷积结果。

其中，上述实施例中的至少一组卷积核数据包括至少一组转换后的卷积核，其中，任一组转换后的卷积核由对应的第一常数矩阵对对应于一个输出通道的卷积核进行转换获得。

在一个可选示例中，该操作302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的处理单元执行。

304，响应于获得所有输入通道的卷积结果，对一个输出通道对应的所有输入通道的卷积结果中的对应点进行累加，获得该一个输出通道的输出窗口数据。

可选地，在另一个实施例中，采用对应的第二常数矩阵对待处理的输入窗口数据进行转换时，还可以执行如下操作：采用对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行转换，获得至少一组转换后的卷积核。

或者，可选地，也可以预先采用对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行转换，获得至少一组转换后的卷积核，并存储在第二缓冲区中，这样就避免了临时执行该操作消耗计算资源，进一步提升了计算效率。

在一个可选示例中，该操作304可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的累加单元执行。

示例性地，在图3所示至少一个实施例中，采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，可以通过如下方式实现：根据对应的第二常数矩阵，通过加速器中的逻辑资源分别对任一输入通道待处理的输入窗口数据进行位运算操作。

类似地，采用对应的第三常数矩阵对点乘后矩阵进行转换，可以通过如下方式实现：根据对应的第三常数矩阵，通过加速器中的逻辑资源分别对任一输入通道的点乘后矩阵进行位运算操作。

类似地，采用对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行转换，可以通过如下方式实现：根据对应的第一常数矩阵，通过加速器中的逻辑资源分别对对应于至少一个输出通道的卷积核进行位运算操作。采用加速器中的逻辑资源，通过二进制的位运算操作来实现对输入窗口数据、卷积核数据、点乘后矩阵的转换操作，便无需在加速器中设置乘法器来实现相应的转换操作，减少了卷积计算中的乘法次数，从而节省了加速器中的数字信号处理器(Digital Signal Processor，DSP)资源，从而提高了加速器的计算效率，提高了加速器中DSP资源的利用率。

可选地，在图3所示实施例的流程之前，还可以包括：

分别从常数矩阵表中，查询与卷积核的尺寸r×r和输入窗口的尺寸n×n对应的第一常数矩阵(本申请实施例中表示为：G)、第二常数矩阵(本申请实施例中表示为：B)和第三常数矩阵(本申请实施例中表示为：A)。

其中，常数矩阵表中预先设置有分别与至少一个卷积核的尺寸和输入窗口的尺寸对应的第一常数矩阵、第二常数矩阵和第三常数矩阵，即：卷积核的尺寸和输入窗口的尺寸确定后，便可以确定第一常数矩阵、第二常数矩阵和第三常数矩阵。

另外，在上述图3所示的各实施例中，分别针对任一输入通道执行如下计算操作，包括：同时针对Pm个输出通道和Pn个输入通道执行计算处理操作，其中，Pm和Pn分别为大于0的整数。相应地，操作304为：针对Pm个输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，将所有输入通道的卷积结果中的对应点进行累加，获得Pm个输出通道的输出窗口数据。通过该实施例，实现了对Pm个输出通道和Pn个输入通道的并行处理，提升了计算处理效率。

在其中一个可选示例中，Pm的取值为1，Pn的取值为大于1的整数；则同时针对Pm个输出通道和Pn个输入通道执行计算处理操作可以包括：依次针对一个输出通道、全部输入通道或者全部输入通道中的部分输入通道，并行执行计算处理操作。通过该实施例，实现了每次针对一个输出通道、Pn个输入通道的并行处理。

在另一个可选示例中，Pm的取值为全部输出通道数，Pn的取值为1；则同时针对Pm个输出通道和Pn个输入通道执行计算处理操作，可以包括：同时针对全部输出通道，依次针对一个输入通道执行计算处理操作；

相应地，操作304可以包括：针对全部输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，对所有输入通道的卷积结果中的对应点进行累加，获得全部输出通道的输出窗口数据。

通过该实施例，实现了每次针对一个输入通道、全部输出通道的并行处理。

在又一个可选示例中，Pm的取值大于1且小于全部输出通道数，Pn的取值为1；则同时针对Pm个输出通道和Pn个输入通道执行计算处理操作，包括：同时针对全部输出通道中的部分输出通道，依次针对一个输入通道执行计算处理操作。

通过该实施例，实现了每次针对一个输入通道、Pm个部分输出通道的并行处理。

如图4所示，为本申请实施例中对Pn个输入通道并行执行计算处理操作的示意图，图4中，Pn个输入通道只是所有输入通道的一部分，其对应的卷积结果累加可以形成对应于该Pn个输入通道的一组累加结果，所有输入通道对应的所有组的累加结果相加，得到一个输出通道的输出窗口数据。如图5所示，为本申请实施例中对Pm个输出通道并行执行计算处理操作的示意图，由于对每个输入通道的输入窗口数据的操作只能获得一部分输出窗口数据，针对同一输出通道，将所有输入通道的输入窗口数据对应的卷积结果累加，得到一个输出通道的输出窗口数据。

另外，在本申请卷积加速方法的上述各实施例之前，还可以包括：

根据参数优化模型，由FIFO端口的传输带宽、加速器的资源条件获取卷积计算中参数的最优取值，其中，卷积计算中参数包括：输入窗口的尺寸、输出通道的并行度和输入通道的并行度，上述参数的最优取值包括：输入窗口的尺寸的最优取值n、输出通道的并行度的最优取值Pm和输入通道的并行度的最优取值Pn。

在本申请卷积加速方法的上述各实施例中，通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据可以包括：

加速器通过FIFO端口接收处理器发送的任务处理指令，并通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据的操作。

另外，本申请实施例的卷积加速方法还可以包括：

响应于对待处理任务的卷积加速完成，加速器通过FIFO端口向处理器反馈任务完成的响应消息。上述获取卷积计算中参数的最优取值的操作可以有中央处理器(CPU)、高级RISC处理器(Advanced RISC Machines，ARM)等处理器完成。在需要调度加速器进行加速计算时，CPU、ARM等处理器获取卷积计算中参数的最优取值，并利用该卷积计算中参数的最优取值对加速器进行配置，在配置完成后，加速器便可以基于上述参数的最优取值执行相应的加速方法流程，对待处理任务进行处理，从而针对加速器达到最佳资源利用率、实现加速效果的最大化。则同时针对Pm个输出通道和Pn个输入通道执行计算处理操作时，基于参数的最优取值中Pm和Pn的取值，依次选取Pm个输出通道和Pn个输入通道，同时针对Pm个输出通道和Pn个输入通道执行计算处理操作。

在本申请的又一个实施例中，在卷积加速方法的上述各实施例之前，还可以包括：

比较当前待处理任务的卷积核尺寸k×k与加速器对应的卷积核的尺寸r×r是否一致；

若不一致，对当前待处理任务的卷积核的右方填充a列0、下方分别填充b行0，使当前待处理任务的卷积核转换成尺寸为tr×tr的新卷积核。

其中，k、t、a、b的取值分别为大于0的整数。

由于不同的卷积核的尺寸和输入窗口的尺寸对应不同的第一常数矩阵、第二常数矩阵和第三常数矩阵，在本次待处理任务所需卷积核的尺寸与已有加速器对应的卷积核的尺寸不同时，基于上述实施例，可以将本次待处理任务所需卷积核的尺寸转换为t2个加速器对应的卷积核，从而实现了对已有加速器对应的卷积核的复用，避免了重新计算获取第一常数矩阵、第二常数矩阵和第三常数矩阵，以及重新基于卷积核进行转换的操作，提升了处理效率。

另外，本申请实施例的加速器可用于CNN中任何网络层的卷积计算的加速中，例如，可用于CNN中卷积层、全连接(FC)、池化(pooling)、激活函数ReLU(线性修正单元)、填充(padding)、上采样(upsample)等网络层的卷积加速操作。另外，除了应用于CNN中的卷积加速，还可应用与其他任何非CNN的其他卷积操作中，本申请实施例的示例性说明并不会构成对本申请实施例应用环境的限制。

例如，在本申请上述各实施例中，兼容处理CNN中的全连接操作时，还可以包括：

响应于需要对待处理任务进行全连接操作，通过FIFO端口从加速器的片外存储器读取待处理任务的全部待处理数据，并存储在第一缓存区中；

对全部待处理数据与第二缓存区中存储的转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；

采用对应的第三常数矩阵对点乘后矩阵进行转换，获得计算结果数据并存储在第三缓存区中；

通过FIFO端口依次将第三缓存区中的计算结果数据存储至片外存储器中。

在本申请上述各实施例中，兼容处理CNN中的池化操作时，还可以包括：

响应于需要对待处理任务进行池化操作，通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在第一缓存区中；

从预设大小的待处理数据中选取一个取值最大的数据作为计算结果数据，并存储在第三缓存区中；

在本申请上述各实施例中，兼容处理CNN中的激活函数操作时，还可以包括：

响应于需要对待处理任务进行激活函数操作，通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在第一缓存区中；

依次比较待处理数据中任一数据的数值是否小于0；

若任一数据的数值小于0，将以0作为任一数据的计算结果存储在第三缓存区中；若任一数据的数值不小于0，直接将任一数据的数值作为计算结果存储在第三缓存区中；

通过FIFO端口依次将第三缓存区中的计算结果存储至片外存储器中。

在本申请上述各实施例中，兼容处理CNN中的上采样操作时，还可以包括：

响应于需要对待处理任务进行上采样操作，通过FIFO端口依次从加速器的片外存储器读取待处理任务中的一个元素数据，将元素数据复制为2s×2s的元素矩阵，以元素矩阵作为待处理数据，开始执行依次存储在加速器的片上内存中第一缓存区的至少一个输入缓存区的操作；其中，s的取值为大于0的整数。

在本申请上述各实施例中，兼容处理CNN中的填充操作时，还可以包括：

响应于需要对待处理任务进行填充处理，通过FIFO端口从加速器的片外存储器读取待处理任务的全部数据，并存储在第一缓存区中；

比较待处理任务的数据大小是否小于预设大小；

若待处理任务的数据大小小于预设大小，按照预设方式对待处理任务进行边缘数据填充，使得填充后的待处理任务的数据大小等于预设大小，并将填充后的待处理任务存储在第三缓存区中；若待处理任务的数据大小不小于预设大小，直接将待处理任务存储在第三缓存区中；

通过FIFO端口依次将第三缓存区中的待处理任务数据存储至片外存储器中。

图6为本申请卷积计算处理方法一个实施例的流程图。如图6所示，本申请实施例的卷积计算处理方法包括，分别针对任一输入通道和任一输出通道：

602，采用第二常数矩阵B对待处理的输入窗口数据Z进行转换，获得转换后输入窗口数据V。

例如，可以通过公式V＝BTZB，采用与输出窗口尺寸和卷积核尺寸对应的第二常数矩阵B对待处理的输入窗口数据Z进行转换，获得转换后输入窗口数据V。

在一个可选示例中，该操作602可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一转换模块执行。

604，对转换后输入窗口数据V与卷积核数据U进行矩阵点乘(EWMM)操作，获得点乘后矩阵U⊙V。

在一个可选示例中，可以采用数字信号处理器，对转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵U⊙V。

例如，可以通过公式U⊙V，对转换后输入窗口数据V与卷积核数据U进行矩阵点乘操作，获得点乘后矩阵。

其中，卷积核数据U由对应的第一常数矩阵G对预先设置的卷积核(本申请实施例中表示为：X)进行转换获得。

在一个可选示例中，该操作604可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的点乘模块执行。

606，采用第三常数矩阵A对点乘后矩阵U⊙V进行转换，获得卷积结果Y，可以表示为：Y＝AT[U⊙V]A。

其中的第三常数矩阵A为与输出窗口尺寸和卷积核尺寸对应的第三常数矩阵。

在一个可选示例中，该操作606可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二转换模块执行。

基于本申请上述实施例提供的卷积计算处理方法，可以针对任一输入通道和任一输出通道，采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；采用第三常数矩阵对点乘后矩阵进行转换，获得卷积结果。本申请实施例提供了一种基于Winograd算法对输入窗口数据进行面对面的卷积计算的方法，相对于传统的点对点的卷积算法，减少了乘法次数，从而减少了对处理器资源的占用，并提升了计算效率。本申请实施例可以应用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现卷积加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

可选地，在本申请卷积计算处理方法的另一个实施例中，还可以包括：

预先采用与输出窗口尺寸和卷积核尺寸对应的第一常数矩阵G，分别对任一输出通道的卷积核X进行转换，获得卷积核数据U并存储。例如，可以通过公式U＝GXGT，预先采用对应的第一常数矩阵G，分别对卷积核X进行转换，获得卷积核数据U。其中，每个卷积核数据分别对应于一个输入通道。

如图7所示，为本申请卷积计算处理方法另一个实施例的流程图。可选地，在本申请卷积计算处理方法的另一个实施例中，在操作604之前，还可以包括：

600，采用第一常数矩阵G，分别对卷积核进行转换，获得闪送卷积核数据。

可选地，上述第一常数矩阵G为与输出窗口尺寸和卷积核尺寸对应的第一常数矩阵。

在一个可选示例中，该操作600可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三转换模块执行。

示例性地，采用第二常数矩阵对待处理的输入窗口数据进行转换，可以是：根据第二常数矩阵，采用加速器中的逻辑资源对待处理的输入窗口数据进行位运算操作；采用第三常数矩阵对点乘后矩阵进行转换，可以是：根据第三常数矩阵，采用加速器中的逻辑资源对点乘后矩阵进行位运算操作；采用第一常数矩阵对卷积核进行转换，可以是：根据第一常数矩阵，采用加速器中的逻辑资源对卷积核进行位运算操作。采用加速器中的逻辑资源进行位运算操作，从而实现对卷积核、输入窗口数据、点乘后矩阵的转换，而无需借助于DSP资源，减少了乘法次数、节省了DSP资源，从而提高了加速器的计算效率，并提高了DSP资源的利用率。

基于图7所示实施例的上述实施例中，还可以包括：

分别从常数矩阵表中，查询与卷积核数据对应的卷积核的尺寸r×r和输入窗口数据对应的输入窗口的尺寸n×n对应的第一常数矩阵、第二常数矩阵和第三常数矩阵；

其中，n和r的取值分别为大于0的整数；常数矩阵表中预先设置有分别与至少一个卷积核的尺寸和输入窗口的尺寸对应的第一常数矩阵、第二常数矩阵和第三常数矩阵。

可选地，再参见图7，在本申请卷积计算处理方法的又一个实施例中，还可以包括：

608，针对任一输出通道，响应于获得所有输入通道的卷积结果，对上述任一输出通道对应的所有输入通道的卷积结果中的对应点进行累加，获得任一输出通道的输出窗口数据，即：通过一个输出通道对应的一组卷积核数据，采用图7所示实施例的流程，对所有输入通道的输入窗口数据进行卷积计算，获得该输出通道的输出窗口数据。以Out表示一个输出通道的输出窗口数据，in表示所有输入通道的输入窗口数据，则：图7所示实施例的卷积计算处理过程可以表示为基于以下公式对所有输入通道的输入窗口数据和卷积核数据的处理过程：Out＝A ^T[(GXG ^T)⊙(B ^TinB)]A。

在一个可选示例中，该操作608可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的累加单元执行。

图8所示实施例的卷积计算处理方法对应于图3所示实施例中302的操作，即：上述至少一个卷积加速方法实施例中的操作302可以通过本申请至少一个卷积计算处理方法实施例中的相应操作实现。图8所示实施例对应于图6、图7所示至少一个实施例，本申请实施例中可以相互参考。图8为图3、图7、图8所示实施例的一个计算过程示意。如图8所示，本申请实施例的卷积计算处理方法可以分为4个阶段：阶段1(stage1)表示图6～图7中的操作600和602的阶段；阶段2(stage2)表示图6～图7中的操作604的阶段；阶段3(stage3)表示图6～图7中的操作606的阶段；阶段4(stage4)表示图7中的操作608的阶段。其中，stage1～stage3也表示图3所示实施例中操作302的阶段，stage4也表示图3所示实施例中操作304的阶段。

图8中仅示例性地示出三个输入通道的输入窗口数据Z和对应于一个输出通道的一组卷积核数据，该一组卷积核数据包括分别对应上述三个输入通道的卷积核X。

本申请实施例提供的任一种方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等至少一个种可以存储程序代码的介质。

图9为本申请卷积加速器一个实施例的结构示意图。该实施例的卷积加速器可作为本申请上述至少一个实施例中的加速器，实现本申请上述至少一个卷积加速方法实施例中加速器的功能。本申请至少一个实施例中的加速器例如可以是FPGA、ASIC等嵌入式平台。如图9所示，该实施例的加速器包括：数据读取模块，第一缓存区，第二缓存区，计算模块，第三缓存区和数据输出模块。其中：

数据读取模块，用于通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在第一缓存区的至少一个输入缓存区。

本申请至少一个实施例中，待处理任务例如可以包括：至少一个输入通道的输入图像、或者至少一个输入通道的输入特征图。另外，每组卷积核数据分别对应于一个输出通道，每组卷积核数据包括至少一个卷积核数据，每个卷积核数据分别对应于一个输入通道。

第一缓存区，包括至少一个输入缓存区，用于缓存待处理数据。

第二缓存区，用于缓存至少一组卷积核数据。

计算模块，用于在有输入缓存区中存入待处理数据时，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中。

第三缓存区，包括至少一个输出缓存区，用于缓存输出窗口数据。

数据输出模块，用于通过FIFO端口，依次将第三缓存区中的输出窗口数据存储至片外存储器中。

基于本申请上述实施例提供的卷积加速器，片上内存包括第一缓存区、第二缓存区和第三缓存区，第一缓存区包括至少一个输入缓存区，第二缓存区中缓存有至少一组卷积核数据。通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在加速器的片上内存中第一缓存区的至少一个输入缓存区；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；然后通过FIFO端口依次将第三缓存区中的输出窗口数据存储至片外存储器中。本申请实施例每次从加速器的片外存储器读取待处理任务中预设大小的待处理数据存入片上内存进行处理，并实现了从片外存储器读取待处理数据存入片上内存、和对待处理数据进行卷积计算处理两个过程的流水线处理，可以避免加速器片上内存和带宽不足、处理器资源有限的情况，并且提高了卷积计算处理的效率，可以适用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现CNN的加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

在图9所示实施例的一个可选示例中，数据输出模块用于：响应于首个输出缓存区存入输出窗口数据，依次读取至少一个输出缓存区中的输出窗口数据，并通过FIFO端口将读取的输出窗口数据存储至片外存储器中。

示例性地，第三缓存区包括两个输出缓存区。在待处理任务的处理过程中，两个输出缓存区的其中一个输出缓存区被轮流存入输出窗口数据、读取输出窗口数据，两个输出缓存区中的另一个输出缓存区被轮流读取输出窗口数据、存入输出窗口数据。两个输出缓存区中一个被存入输出窗口数据时，另一个被读取输出窗口数据，在前述一个被读取输出窗口数据时，另一个被存入出窗口数据，从而实现存入输出窗口数据、读取输出窗口数据的流水线处理，进一步提升加速器的工作效率。

在图9所示实施例的另一个可选示例中，第一缓存区包括两个输入缓存区。在待处理任务的处理过程中，这两个输入缓存区的其中一个输入缓存区被轮流存入待处理数据、读取待处理的输入窗口数据，两个输入缓存区中的另一个输入缓存区被轮流读取待处理的输入窗口数据、存入待处理数据，两个输入缓存区中一个被存入待处理数据时，另一个被读取待处理的输入窗口数据，在前述一个被读取待处理的输入窗口数据时，另一个被存入待处理数据，从而实现存入待处理数据、读取待处理的输入窗口数据的流水线处理。

本申请实施例中，将卷积核数据对应的卷积核的尺寸表示为r×r，输入窗口数据对应的输入窗口的尺寸表示为n×n，输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸表示为m。其中，r、m、n的取值分别为大于0的整数，且满足n＝m+r-1。

在图9所示实施例的又一个可选示例中，输入缓存区为行缓存区，第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储待处理任务所有通道中的同一行数据。该实施例中，数据读取模块用于：

之后每次从片外存储器读取待处理任务所有通道的相邻后续m行数据，并将本次读取的m行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的相邻后续m个行缓存区中；或者

数据读取模块用于：

每次从片外存储器读取待处理任务所有通道的n行数据；

与上述又一个可选示例相应地，计算模块依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算时，用于：

与上述又一个可选示例相应地，每个输出缓存区包括m个行缓存区。相应地，计算模块获得输出窗口数据并依次存储在至少一个输出缓存区中时，用于：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中的操作。

数据输出模块，用于：响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，通过FIFO端口，将当前输出缓存区中的输出窗口数据存储至片外存储器中。

在图9所示实施例的再一个可选示例中，输入缓存区为列缓存区；第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储待处理任务所有通道中的同一列数据。相应地，数据读取模块，用于：

与上述再一个可选示例相应地，计算模块依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算时，包括：

之后每次基于预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个列缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过卷积核数据对待处理的输入窗口数据进行卷积计算，直至新的计算缓存区中的待处理数据均被读取；或者

数据读取模块，用于：

每次从片外存储器读取待处理任务所有通道的n列数据；

与上述再一个可选示例相应地，输出缓存区包括m个列缓存区。该可选示例中，计算模块获得输出窗口数据并依次存储在至少一个输出缓存区中时，用于：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中的操作。

相应地，数据输出模块，用于：响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，通过FIFO端口，将当前输出缓存区中的输出窗口数据存储至片外存储器中。

图10为本申请实施例中计算模块一个实施例的结构示意图。如图10所示，在本申请上述至少一个实施例的加速器中，计算模块包括：处理单元(PE)和累加单元。

在图10所示实施例的一个可选示例中，卷积核数据为转换后的卷积核。该实施例中：

处理单元，用于分别针对任一输入通道执行如下计算处理操作：采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对点乘后矩阵进行转换，获得卷积结果；

累加单元，用于在获得一个输出通道对应的所有输入通道的卷积结果后，对所有输入通道的卷积结果中的对应点进行累加，获得一个输出通道的输出窗口数据。

在图10所示实施例的一个可选示例中，卷积核数据为未经转换的卷积核。该实施例中：

处理单元，用于分别针对任一输入通道执行如下计算处理操作：采用对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行转换，获得至少一组转换后的卷积核，以及采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对点乘后矩阵进行转换，获得卷积结果；

与图10所示实施例相应地，采用对应的第二常数矩阵对待处理的输入窗口数据进行转换时，可以根据对应的第二常数矩阵，分别对任一输入通道待处理的输入窗口数据进行位运算操作；采用对应的第三常数矩阵对点乘后矩阵进行转换时，可以根据对应的第三常数矩阵，分别对任一输入通道的点乘后矩阵进行位运算操作；采用对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行转换时，可以根据对应的第一常数矩阵，分别对对应于至少一个输出通道的卷积核进行位运算操作。

可选地，计算模块包括Pm×Pn个处理单元，用于同时针对Pm个输出通道和Pn个输入通道执行计算处理操作，其中，Pm和Pn分别为大于0的整数。相应地，累加单元，用于：针对Pm个输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，将所有输入通道的卷积结果中的对应点进行累加，获得Pm个输出通道的输出窗口数据。

在应用中，可以根据实际需求和加速器资源配置：Pm的取值为1，Pn的取值为大于1的整数；或者，Pm的取值为全部输出通道数，Pn的取值为1；或者，Pm的取值大于1且小于全部输出通道数，Pn的取值为1。

图11为本申请卷积计算处理装置一个实施例的结构示意图。该实施例的卷积计算处理装置可用于实现本申请上述至少一个卷积计算处理方法实施例。如图11所示，该实施例的卷积计算处理装置包括：第一转换模块，点乘模块和第二转换模块。其中：

第一转换模块，用于采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据。

点乘模块，用于对转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵。其中的卷积核数据由对应的第一常数矩阵对预先设置的卷积核进行转换获得。

第二转换模块，用于采用第三常数矩阵对点乘后矩阵进行转换，获得卷积结果。

基于本申请上述实施例提供的卷积计算处理装置，可以针对任一输入通道和任一输出通道，采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；采用第三常数矩阵对点乘后矩阵进行转换，获得卷积结果。本申请实施例提供了一种基于Winograd算法对输入窗口数据进行面对面的卷积计算的方法，相对于传统的点对点的卷积算法，减少了乘法次数，从而减少了对处理器资源的占用，并提升了计算效率。本申请实施例可以应用于FPGA、ASIC等硬件平台，从而在FPGA、ASIC等硬件平台上实现卷积加速处理，本申请实施例应用于FPGA平台时，可以充分发挥FPGA平台可重构、并行计算性、开发周期短、低功耗、灵活性高等优点。

图12为本申请卷积计算处理装置另一个实施例的结构示意图。如图12所示，与图11所示的实施例相比，该实施例的卷积计算处理装置还包括第三转换模块。

在其中一个可选示例中，第三转换模块用于获取预先存储的卷积核数据。

在另一个可选示例中，第三转换模块用于采用对应的第一常数矩阵，分别对任一输入通道和任一输出通道对应的卷积核进行转换，获得任一输入通道和任一输出通道对应的卷积核数据。

示例性地，第一转换模块，可用于：根据对应的第二常数矩阵，分别对待处理的输入窗口数据进行位运算操作；

第二转换模块，可用于：根据第三常数矩阵，分别对点乘后矩阵进行位运算操作；

第三转换模块，可用于：根据第一常数矩阵，对卷积核进行位运算操作。

可选地，再参见图12，在又一个实施例中，卷积计算处理装置还可以包括：

查询模块，分别从常数矩阵表中，查询与卷积核数据对应的卷积核的尺寸r×r和输入窗口数据对应的输入窗口的尺寸n×n对应的第一常数矩阵、第二常数矩阵和第三常数矩阵；

本申请实施例提供还提供了一种电子设备，包括本申请上述任一实施例的卷积加速器，或者本申请上述任一实施例的卷积计算处理装置。

本申请实施例提供还提供了另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与存储器通信以执行可执行指令从而完成本申请上述任一卷积加速方法实施例的操作，或者本申请上述任一卷积计算处理方法实施例的操作。

本申请实施例提供还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时执行本申请上述任一卷积加速方法实施例的操作，或者本申请上述任一卷积计算处理方法实施例的操作。

图13为本申请电子设备一个实施例的结构示意图。图13示出了适于用来实现本申请实施例的电子设备的结构示意图。如图13所示，该电子设备包括双倍速率同步动态随机存储器(DDR SDRAM)、处理系统(PS)和可编程逻辑电路(PL)，PL中设置有本申请实施例的卷积加速器。

需要说明的，如图13所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图13的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，这些可替换的实施方式均落入本申请公开的保护范围。

本申请实施例可以应用于计算机系统/服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：嵌入式平台、个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种卷积加速方法，其特征在于，包括：

通过先进先出FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在所述加速器的片上内存中第一缓存区的至少一个输入缓存区；其中，所述片上内存包括第一缓存区、第二缓存区和第三缓存区，所述第一缓存区包括至少一个输入缓存区，所述第二缓存区中缓存有至少一组卷积核数据；响应于有输入缓存区中存入待处理数据，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；

通过FIFO端口依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求1所述的方法，其特征在于，所述待处理任务包括：至少一个输入通道的输入图像、或者至少一个输入通道的输入特征图；

每组卷积核数据分别对应于一个输出通道，每组卷积核数据包括至少一个卷积核数据，每个卷积核数据分别对应于一个输入通道。
根据权利要求1或2所述的方法，其特征在于，所述第三缓存区包括至少一个输出缓存区；

所述获得输出窗口数据并存储在第三缓存区中，包括：获得输出窗口数据并依次存储在至少一个输出缓存区中；

所述通过FIFO端口依次将第三缓存区中的输出窗口数据存储至所述片外存储器中，包括：响应于首个输出缓存区存入输出窗口数据，依次读取至少一个输出缓存区中的输出窗口数据，并通过FIFO端口将读取的输出窗口数据存储至所述片外存储器中。
根据权利要求3所述的方法，其特征在于，所述第三缓存区包括两个输出缓存区；

在所述待处理任务的处理过程中，所述两个输出缓存区的其中一个输出缓存区被轮流存入输出窗口数据、读取输出窗口数据，所述两个输出缓存区中的另一个输出缓存区被轮流读取输出窗口数据、存入输出窗口数据。
根据权利要求1～4任一所述的方法，其特征在于，所述第一缓存区包括两个输入缓存区；

在所述待处理任务的处理过程中，所述两个输入缓存区的其中一个输入缓存区被轮流存入待处理数据、读取待处理的输入窗口数据，所述两个输入缓存区中的另一个输入缓存区被轮流读取待处理的输入窗口数据、存入待处理数据。
根据权利要求1～4任一所述的方法，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为行缓存区；所述第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储所述待处理任务所有通道中的同一行数据；

所述从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在所述加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

首次从片外存储器读取所述待处理任务所有通道的前n行数据，并将所述前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；

之后每次从片外存储器读取所述待处理任务所有通道的相邻后续m行数据，并将本次读取的m行数据中的各行数据分别对应存储在第一缓存区中、基于所述预定循环方向确定的相邻后续m个行缓存区中。
根据权利要求1～4所述的方法，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为行缓存区；所述第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储所述待处理任务所有通道中的同一行数据；

所述从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在所述加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

每次从片外存储器读取所述待处理任务所有通道的n行数据；

对于首次从所述待处理任务中读取的前n行数据，将所述前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；对于非首次读取的n行数据，基于所述预定循环方向，将第一缓存区中存储上一次读取的n行数据的前n个行缓冲区滑动m行后对应的n个行缓冲区作为本次读取的n行数据的目标行缓存区，并将本次读取的n行数据对应存入所述目标行缓存区中的各行缓冲区中。
根据权利要求6或7所述的方法，其特征在于，所述依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，包括：

针对所述待处理任务，首次读取待处理的输入窗口数据时，选取所述前n个行缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于所述预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个行缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至所述新的计算缓存区中的待处理数据均被读取。
根据权利要求6～8任一所述的方法，其特征在于，所述输出缓存区包括m个行缓存区；

所述获得输出窗口数据并依次存储在至少一个输出缓存区中，包括：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行所述依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中的操作；

所述依次将第三缓存区中的输出窗口数据存储至所述片外存储器中，包括：

响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，将所述当前输出缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求1～4任一所述的方法，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为列缓存区；所述第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储所述待处理任务所有通道中的同一列数据；

所述从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在所述加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

首次从片外存储器读取所述待处理任务所有通道的前n列数据，并将所述前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；

之后每次从片外存储器读取所述待处理任务所有通道的相邻后续m列数据，并将本次读取的m列数据中的各行数据分别对应存储在第一缓存区中、基于所述预定循环方向确定的相邻后续m个列缓存区中。
根据权利要求1～4任一所述的方法，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为列缓存区；所述第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储所述待处理任务所有通道中的同一列数据；

所述从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并依次存储在所述加速器的片上内存中、第一缓存区的至少一个输入缓存区，包括：

每次从片外存储器读取所述待处理任务所有通道的n列数据；

对于首次从所述待处理任务中读取的前n列数据，将所述前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；对于非首次读取的n列数据，基于所述预定循环方向，将第一缓存区中存储上一次读取的n列数据的前n个列缓冲区滑动m列后对应的n个列缓冲区作为本次读取的n列数据的目标列缓存区，并将本次读取的n列数据对应存入所述目标列缓存区中的各列缓冲区中。
根据权利要求10或11所述的方法，其特征在于，所述依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，包括：

针对所述待处理任务，首次读取待处理的输入窗口数据时，选取所述前n个列缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于所述预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个列缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至所述新的计算缓存区中的待处理数据均被读取。
根据权利要求10～12任一所述的方法，其特征在于，所述输出缓存区包括m个列缓存区；

所述获得输出窗口数据并依次存储在至少一个输出缓存区中，包括：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行所述依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中的操作；

所述依次将第三缓存区中的输出窗口数据存储至所述片外存储器中，包括：

响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，将所述当前输出缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求1～13任一所述的方法，其特征在于，所述至少一组卷积核数据包括至少一组转换后的卷积核，其中，任一组转换后的卷积核由对应的第一常数矩阵对对应于一个输出通道的卷积核进行转换获得；

通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据，包括：

分别针对任一输入通道执行如下计算处理操作：采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对所述任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果；

响应于获得所有输入通道的卷积结果，对所有输入通道的所述卷积结果中的对应点进行累加，获得一个输出通道的输出窗口数据。
根据权利要求14所述的方法，其特征在于，还包括：

预先采用对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行转换，获得所述至少一组转换后的卷积核，并存储在所述第二缓冲区中；或者

采用对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行转换，获得所述至少一组转换后的卷积核。
根据权利要求14或15所述的方法，其特征在于，所述采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，包括：根据所述对应的第二常数矩阵，分别对所述任一输入通道待处理的输入窗口数据进行位运算操作；和/或所述采用对应的第三常数矩阵对所述点乘后矩阵进行转换，包括：根据所述对应的第三常数矩阵，分别对所述任一输入通道的所述点乘后矩阵进行位运算操作；和/或

所述采用对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行转换，包括：根据所述对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行位运算操作。
根据权利要求14～16任一所述的方法，其特征在于，还包括：

分别从常数矩阵表中，查询与所述卷积核的尺寸r×r和输入窗口的尺寸n×n对应的第一常数矩阵、第二常数矩阵和第三常数矩阵；

其中，所述常数矩阵表中预先设置有分别与至少一个卷积核的尺寸和输入窗口的尺寸对应的第一常数矩阵、第二常数矩阵和第三常数矩阵。
根据权利要求14～17任一所述的方法，其特征在于，所述分别针对任一输入通道执行如下计算处理操作，包括：同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，其中，Pm和Pn分别为大于0的整数；

所述响应于获得所有输入通道的卷积结果，对所有输入通道的所述卷积结果中的对应点进行累加，获得一个输出通道的输出窗口数据，包括：针对所述Pm个输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，将所述所有输入通道的所述卷积结果中的对应点进行累加，获得所述Pm个输出通道的输出窗口数据。
根据权利要求18所述的方法，其特征在于，Pm的取值为1，Pn的取值为大于1的整数；

所述同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，包括：依次针对一个输出通道、全部输入通道或者所述全部输入通道中的部分输入通道，并行执行所述计算处理操作。
根据权利要求19所述的方法，其特征在于，Pm的取值为全部输出通道数，Pn的取值为1；

所述同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，包括：同时针对全部输出通道，依次针对一个输入通道执行所述计算处理操作；

所述响应于获得所有输入通道的卷积结果，对所有输入通道的所述卷积结果中的对应点进行累加，获得一个输出通道的输出窗口数据，包括：针对所述全部输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，对所有输入通道的所述卷积结果中的对应点进行累加，获得全部输出通道的输出窗口数据。
根据权利要求18所述的方法，其特征在于，Pm的取值大于1且小于全部输出通道数，Pn的取值为1；

所述同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，包括：同时针对全部输出通道中的部分输出通道，依次针对一个输入通道执行所述计算处理操作。
根据权利要求18～21任一所述的方法，其特征在于，还包括：

根据参数优化模型，由FIFO端口的传输带宽、加速器的资源条件获取所述卷积计算中参数的最优取值，所述卷积计算中参数包括：输入窗口的尺寸、输出通道的并行度和输入通道的并行度，所述参数的最优取值包括：输入窗口的尺寸的最优取值n、输出通道的并行度的最优取值Pm和输入通道的并行度的最优取值Pn。
根据权利要求22所述的方法，其特征在于，所述同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，包括：

基于所述参数的最优取值中Pm和Pn的取值，依次选取Pm个输出通道和Pn个输入通道，执行所述同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作。
根据权利要求1～23任一所述的方法，其特征在于，还包括：

比较当前待处理任务的卷积核尺寸k×k与加速器对应的卷积核的尺寸r×r是否一致；

若不一致，对所述当前待处理任务的卷积核的右方填充a列0、下方分别填充b行0，使所述当前待处理任务的卷积核转换成尺寸为tr×tr的新卷积核，其中，k、t、a、b的取值分别为大于0的整数。
根据权利要求1～24任一所述的方法，其特征在于，还包括：

响应于需要对所述待处理任务进行全连接操作，通过FIFO端口从加速器的片外存储器读取所述待处理任务的全部待处理数据，并存储在所述第一缓存区中；

对所述全部待处理数据与所述第二缓存区中存储的转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；

采用对应的第三常数矩阵对所述点乘后矩阵进行转换，获得计算结果数据并存储在所述第三缓存区中；

通过FIFO端口依次将所述第三缓存区中的计算结果数据存储至所述片外存储器中。
根据权利要求1～25任一所述的方法，其特征在于，还包括：

响应于需要对所述待处理任务进行池化操作，通过FIFO端口依次从加速器的片外存储器读取所述待处理任务中预设大小的待处理数据，并存储在所述第一缓存区中；

从所述预设大小的待处理数据中选取一个取值最大的数据作为计算结果数据，并存储在所述第三缓存区中；

通过FIFO端口依次将所述第三缓存区中的计算结果数据存储至所述片外存储器中。
根据权利要求1～26任一所述的方法，其特征在于，还包括：

响应于需要对所述待处理任务进行激活函数操作，通过FIFO端口依次从加速器的片外存储器读取所述待处理任务中预设大小的待处理数据，并存储在所述第一缓存区中；

依次比较所述待处理数据中任一数据的数值是否小于0；

若所述任一数据的数值小于0，将以0作为所述任一数据的计算结果存储在所述第三缓存区中；若所述任一数据的数值不小于0，直接将所述任一数据的数值作为计算结果存储在所述第三缓存区中；

通过FIFO端口依次将所述第三缓存区中的计算结果存储至所述片外存储器中。
根据权利要求1～27任一所述的方法，其特征在于，还包括：

响应于需要对所述待处理任务进行上采样操作，通过FIFO端口依次从加速器的片外存储器读取待处理任务中的一个元素数据，将所述元素数据复制为2s×2s的元素矩阵，以所述元素矩阵作为所述待处理数据，开始执行所述依次存储在所述加速器的片上内存中第一缓存区的至少一个输入缓存区的操作；其中，s的取值为大于0的整数。
根据权利要求1～28任一所述的方法，其特征在于，还包括：

响应于需要对所述待处理任务进行填充处理，通过FIFO端口从加速器的片外存储器读取待处理任务的全部数据，并存储在所述第一缓存区中；

比较所述待处理任务的数据大小是否小于预设大小；

若所述待处理任务的数据大小小于预设大小，按照预设方式对所述待处理任务进行边缘数据填充，使得填充后的待处理任务的数据大小等于所述预设大小，并将填充后的待处理任务存储在所述第三缓存区中；若所述待处理任务的数据大小不小于预设大小，直接将所述待处理任务存储在所述第三缓存区中；

通过FIFO端口依次将所述第三缓存区中的待处理任务数据存储至所述片外存储器中。
根据权利要求1～29任一所述的方法，其特征在于，所述加速器包括：现场可编程门阵列FPGA或专用集成电路ASIC。
根据权利要求1～30任一所述的方法，其特征在于，所述通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据包括：

加速器通过FIFO端口接收处理器发送的任务处理指令，并通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据的操作；

所述方法还包括：

响应于对所述待处理任务的卷积加速完成，加速器通过FIFO端口向所述处理器反馈任务完成的响应消息。
一种卷积计算处理方法，其特征在于，包括：

采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；

对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；所述卷积核数据由第一常数矩阵对卷积核进行转换获得；

采用第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果。
根据权利要求32所述的方法，其特征在于，还包括：

预先采用第一常数矩阵对预先设置的卷积核进行转换，获得所述卷积核数据并存储。
根据权利要求32所述的方法，其特征在于，采用第二常数矩阵对待处理的输入窗口数据进行转换时，还包括：

采用第一常数矩阵对预先设置的卷积核进行转换，获得所述卷积核数据。
根据权利要求32～34任一所述的方法，其特征在于，对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作，包括：采用数字信号处理器，对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作。
根据权利要求32～35任一所述的方法，其特征在于，所述采用第二常数矩阵对待处理的输入窗口数据进行转换，包括：根据所述第二常数矩阵，采用逻辑资源对所述待处理的输入窗口数据进行位运算操作；和/或

所述采用第三常数矩阵对所述点乘后矩阵进行转换，包括：根据所述第三常数矩阵，采用逻辑资源对所述点乘后矩阵进行位运算操作；和/或

采用第一常数矩阵对卷积核进行转换，包括：根据所述第一常数矩阵，采用逻辑资源对所述卷积核进行位运算操作。
根据权利要求32～36任一所述的方法，其特征在于，还包括：

分别从常数矩阵表中，查询与所述卷积核数据对应的卷积核的尺寸r×r和输入窗口数据对应的输入窗口的尺寸n×n对应的第一常数矩阵、第二常数矩阵和第三常数矩阵；

其中，n和r的取值分别为大于0的整数；所述常数矩阵表中预先设置有分别与至少一个卷积核的尺寸和输入窗口的尺寸对应的第一常数矩阵、第二常数矩阵和第三常数矩阵。
一种卷积加速器，其特征在于，包括：

数据读取模块，用于通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据，并存储在第一缓存区的至少一个输入缓存区；

第一缓存区，包括至少一个输入缓存区，用于缓存所述待处理数据；

第二缓存区，用于缓存至少一组卷积核数据；

计算模块，用于在有输入缓存区中存入待处理数据时，依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，获得输出窗口数据并存储在第三缓存区中；

第三缓存区，包括至少一个输出缓存区，用于缓存输出窗口数据；

数据输出模块，用于通过FIFO端口，依次将第三缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求38所述的加速器，其特征在于，所述待处理任务包括：至少一个输入通道的输入图像、或者至少一个输入通道的输入特征图；

每组卷积核数据分别对应于一个输出通道，每组卷积核数据包括至少一个卷积核数据，每个卷积核数据分别对应于一个输入通道；所述卷积核数据包括卷积核或转换后的卷积核，所述转换后的卷积核由对应的第一常数矩阵对卷积核进行转换获得。
根据权利要求38或39所述的加速器，其特征在于，所述数据输出模块用于：响应于首个输出缓存区存入输出窗口数据，依次读取至少一个输出缓存区中的输出窗口数据，并通过FIFO端口将读取的输出窗口数据存储至所述片外存储器中。
根据权利要求40所述的加速器，其特征在于，所述第三缓存区包括两个输出缓存区；

在所述待处理任务的处理过程中，所述两个输出缓存区的其中一个输出缓存区被轮流存入输出窗口数据、读取输出窗口数据，所述两个输出缓存区中的另一个输出缓存区被轮流读取输出窗口数据、存入输出窗口数据。
根据权利要求38～41任一所述的加速器，其特征在于，所述第一缓存区包括两个输入缓存区；

在所述待处理任务的处理过程中，所述两个输入缓存区的其中一个输入缓存区被轮流存入待处理数据、读取待处理的输入窗口数据，所述两个输入缓存区中的另一个输入缓存区被轮流读取待处理的输入窗口数据、存入待处理数据。
根据权利要求38～41任一所述的加速器，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为行缓存区；所述第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储所述待处理任务所有通道中的同一行数据；

所述数据读取模块用于：

首次从片外存储器读取所述待处理任务所有通道的前n行数据，并将所述前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；

之后每次从片外存储器读取所述待处理任务所有通道的相邻后续m行数据，并将本次读取的m行数据中的各行数据分别对应存储在第一缓存区中、基于所述预定循环方向确定的相邻后续m个行缓存区中。
根据权利要求38～41任一所述的加速器，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为行缓存区；所述第一缓存区为：由n+m个行缓存区形成的循环缓冲区，每个行缓存区用于顺序存储所述待处理任务所有通道中的同一行数据；

所述数据读取模块用于：

每次从片外存储器读取所述待处理任务所有通道的n行数据；

对于首次从所述待处理任务中读取的前n行数据，将所述前n行数据中的各行数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个行缓存区中；对于非首次读取的n行数据，基于所述预定循环方向，将第一缓存区中存储上一次读取的n行数据的前n个行缓冲区滑动m行后对应的n个行缓冲区作为本次读取的n行数据的目标行缓存区，并将本次读取的n行数据对应存入所述目标行缓存区中的各行缓冲区中。
根据权利要求43或44所述的加速器，其特征在于，所述计算模块依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算时，用于：

针对所述待处理任务，首次读取待处理的输入窗口数据时，选取所述前n个行缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于所述预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个行缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至所述新的计算缓存区中的待处理数据均被读取。
根据权利要求43～45任一所述的加速器，其特征在于，所述输出缓存区包括m个行缓存区；

所述计算模块获得输出窗口数据并依次存储在至少一个输出缓存区中时，用于：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行所述依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个行缓存区中的操作；

所述数据输出模块，用于：

响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，通过FIFO端口，将所述当前输出缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求38～41任一所述的加速器，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为列缓存区；所述第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储所述待处理任务所有通道中的同一列数据；

所述数据读取模块，用于：

首次从片外存储器读取所述待处理任务所有通道的前n列数据，并将所述前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；

之后每次从片外存储器读取所述待处理任务所有通道的相邻后续m列数据，并将本次读取的m列数据中的各行数据分别对应存储在第一缓存区中、基于所述预定循环方向确定的相邻后续m个列缓存区中。
根据权利要求38～41任一所述的加速器，其特征在于，所述卷积核数据对应的卷积核的尺寸为r×r，所述输入窗口数据对应的输入窗口的尺寸为n×n，所述输入窗口数据对应的输入窗口的滑动步长和输出窗口的尺寸为m；其中，m、n、r的取值分别为大于0的整数，且满足n＝m+r-1；

所述输入缓存区为列缓存区；所述第一缓存区为：由n+m个列缓存区形成的循环缓冲区，每个列缓存区用于顺序存储所述待处理任务所有通道中的同一列数据；

所述数据读取模块，用于：

每次从片外存储器读取所述待处理任务所有通道的n列数据；

对于首次从所述待处理任务中读取的前n列数据，将所述前n列数据中的各列数据分别对应存储在第一缓存区中、基于预定循环方向确定的前n个列缓存区中；对于非首次读取的n列数据，基于所述预定循环方向，将第一缓存区中存储上一次读取的n列数据的前n个列缓冲区滑动m列后对应的n个列缓冲区作为本次读取的n列数据的目标列缓存区，并将本次读取的n列数据对应存入所述目标列缓存区中的各列缓冲区中。
根据权利要求47或48所述的加速器，其特征在于，所述计算模块依次从至少一个输入缓存区读取待处理的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算时，包括：

针对所述待处理任务，首次读取待处理的输入窗口数据时，选取所述前n个列缓存区作为当前计算缓存区，按照滑动步长m，依次顺序从当前计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至当前计算缓存区中的待处理数据均被读取；

之后每次基于所述预定循环方向，按照滑动步长m从上一计算缓存区开始滑动，选取n个列缓存区作为新的计算缓存区，按照滑动步长m，依次顺序从新的计算缓存区读取大小为n×n的输入窗口数据，并通过所述卷积核数据对所述待处理的输入窗口数据进行卷积计算，直至所述新的计算缓存区中的待处理数据均被读取。
根据权利要求47～49任一所述的加速器，其特征在于，所述输出缓存区包括m个列缓存区；

所述计算模块获得输出窗口数据并依次存储在至少一个输出缓存区中时，用于：

选取其中一个输出缓存区作为当前输出缓存区，依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中；响应于一个计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，选取另一个输出缓存区作为当前输出缓存区，执行所述依次将对每个输入窗口数据进行卷积计算获得的输出窗口数据顺序存储在当前输出缓冲区的m个列缓存区中的操作；

所述数据输出模块，用于：

响应于当前计算缓存区中的所有输入窗口数据进行卷积计算获得的输出窗口数据被存储完毕，通过FIFO端口，将所述当前输出缓存区中的输出窗口数据存储至所述片外存储器中。
根据权利要求39～50任一所述的加速器，其特征在于，所述卷积核数据为转换后的卷积核；

所述计算模块包括：

处理单元，用于分别针对任一输入通道执行如下计算处理操作：采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对所述任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果；

累加单元，用于在获得一个输出通道对应的所有输入通道的卷积结果后，对所有输入通道的所述卷积结果中的对应点进行累加，获得所述一个输出通道的输出窗口数据。
根据权利要求39～50任一所述的加速器，其特征在于，所述卷积核数据为卷积核；

所述计算模块包括：

处理单元，用于分别针对任一输入通道执行如下计算处理操作：采用对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行转换，获得至少一组转换后的卷积核，以及采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；对所述任一输入通道的转换后输入窗口数据与转换后的卷积核进行矩阵点乘操作，获得点乘后矩阵；采用对应的第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果；

累加单元，用于在获得一个输出通道对应的所有输入通道的卷积结果后，对所有输入通道的所述卷积结果中的对应点进行累加，获得所述一个输出通道的输出窗口数据。
根据权利要求51或52所述的加速器，其特征在于，所述采用对应的第二常数矩阵对待处理的输入窗口数据进行转换，包括：根据所述对应的第二常数矩阵，分别对所述任一输入通道待处理的输入窗口数据进行位运算操作；和/或

所述采用对应的第三常数矩阵对所述点乘后矩阵进行转换，包括：根据所述对应的第三常数矩阵，分别对所述任一输入通道的所述点乘后矩阵进行位运算操作；和/或

所述采用对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行转换，包括：根据所述对应的第一常数矩阵，分别对对应于所述至少一个输出通道的卷积核进行位运算操作。
根据权利要求51～53任一所述的加速器，其特征在于，所述计算模块包括Pm×Pn个处理单元，用于同时针对Pm个输出通道和Pn个输入通道执行所述计算处理操作，其中，Pm和Pn分别为大于0的整数；

所述累加单元，用于：针对所述Pm个输出通道，响应于获得所有输入通道的卷积结果，分别针对同一个输出通道，将所述所有输入通道的所述卷积结果中的对应点进行累加，获得所述Pm个输出通道的输出窗口数据。
根据权利要求54所述的加速器，其特征在于，Pm的取值为1，Pn的取值为大于1的整数；或者，Pm的取值为全部输出通道数，Pn的取值为1；或者，Pm的取值大于1且小于全部输出通道数，Pn的取值为1。
根据权利要求38～55任一所述的加速器，其特征在于，所述加速器包括：FPGA或者ASIC。
根据权利要求38～56任一所述的加速器，其特征在于，所述数据读取模块，还用于：通过FIFO端口接收处理器发送的加速指令，所述加速指令中包括卷积计算中参数的最优取值；以及根据所述卷积计算中参数的最优取值，开始执行所述通过FIFO端口依次从加速器的片外存储器读取待处理任务中预设大小的待处理数据的操作；

所述数据输出模块，还用于在对所述待处理任务的卷积加速完成后，通过FIFO端口向所述处理器反馈任务完成的响应消息。
一种卷积计算处理装置，其特征在于，包括：

第一转换模块，用于采用第二常数矩阵对待处理的输入窗口数据进行转换，获得转换后输入窗口数据；

点乘模块，用于对所述转换后输入窗口数据与卷积核数据进行矩阵点乘操作，获得点乘后矩阵；所述卷积核数据由第一常数矩阵对卷积核进行转换获得；

第二转换模块，用于采用第三常数矩阵对所述点乘后矩阵进行转换，获得卷积结果。
根据权利要求58所述的装置，其特征在于，还包括：

第三转换模块，用于获取预先存储的所述卷积核数据；或者，采用对应的第一常数矩阵，分别对任一输入通道和任一输出通道对应的卷积核进行转换，获得所述任一输入通道和任一输出通道对应的卷积核数据。
根据权利要求58或59所述的装置，其特征在于，所述第一转换模块，用于：根据对应的第二常数矩阵，分别对所述待处理的输入窗口数据进行位运算操作；和/或

所述第二转换模块，用于：根据所述第三常数矩阵，分别对所述点乘后矩阵进行位运算操作；和/或

所述第三转换模块，用于：根据所述第一常数矩阵，对所述卷积核进行位运算操作。
根据权利要求58～60任一所述的装置，其特征在于，还包括：

查询模块，分别从常数矩阵表中，查询与所述卷积核数据对应的卷积核的尺寸r×r和输入窗口数据对应的输入窗口的尺寸n×n对应的第一常数矩阵、第二常数矩阵和第三常数矩阵；

其中，n和r的取值分别为大于0的整数；所述常数矩阵表中预先设置有分别与至少一个卷积核的尺寸和输入窗口的尺寸对应的第一常数矩阵、第二常数矩阵和第三常数矩阵。
一种电子设备，其特征在于，包括：权利要求38～57任意一项所述的卷积加速器，或者权利要求58～61任意一项所述的卷积计算处理装置。
一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至31任意一项所述的操作，或者权利要求32至37任意一项所述的操作。
一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至31任意一项所述的操作，或者权利要求32至37任意一项所述的操作。