[go: up one dir, main page]

CN106203617A - 一种基于卷积神经网络的加速处理单元及阵列结构 - Google Patents

一种基于卷积神经网络的加速处理单元及阵列结构 Download PDF

Info

Publication number
CN106203617A
CN106203617A CN201610482653.7A CN201610482653A CN106203617A CN 106203617 A CN106203617 A CN 106203617A CN 201610482653 A CN201610482653 A CN 201610482653A CN 106203617 A CN106203617 A CN 106203617A
Authority
CN
China
Prior art keywords
register
processing unit
adder
multiplexer
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610482653.7A
Other languages
English (en)
Other versions
CN106203617B (zh
Inventor
宋博扬
赵秋奇
马芝
刘记朋
韩宇菲
王明江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER
Harbin Institute of Technology Shenzhen
Original Assignee
SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER, Harbin Institute of Technology Shenzhen filed Critical SHENZHEN INTEGRATED CIRCUIT DESIGN INDUSTRIALIZATION BASE ADMINISTRATION CENTER
Priority to CN201610482653.7A priority Critical patent/CN106203617B/zh
Publication of CN106203617A publication Critical patent/CN106203617A/zh
Application granted granted Critical
Publication of CN106203617B publication Critical patent/CN106203617B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/22Microcontrol or microprogram arrangements
    • G06F9/28Enhancement of operational speed, e.g. by using several microcontrol devices operating in parallel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算,所述局部数据包括多个多媒体数据,所述加速处理单元包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器。单个加速处理单元通过对第一多路选择器和第二多路选择器的控制,使得乘法器和加法器可重复使用,从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算,减少了乘法器和加法器的使用,在实现同样的卷积运算时,减少乘法器和加法器的使用将会提高处理速度并降低能耗,同时单个加速处理单元片上面积更小。

Description

一种基于卷积神经网络的加速处理单元及阵列结构
技术领域
本发明涉及卷积神经网络,具体涉及卷积神经网络的卷积层中的加速处理单元及阵列结构。
背景技术
深度学习(dee加速处理单元Plea2ning)相对于浅层学习,是指机器通过算法,从历史数据中学习规律,并对事物作出智能识别和预测。
卷积神经网络(Convolutional Neu2al Netwo2k,CNN)属于dee加速处理单元Plea2ning netwo2k的一种,其发明于1980年代初,由多层排列的人工神经元组成,卷积神经网络反映出了人类大脑处理视觉的方法。随着摩尔定律推动着计算机技术越来越强大,卷积神经网络能够更好的模仿生物神经网络的实际运作方式,避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用,目前已成功应用于手写字符识别、人脸识别、人眼检测、行人检测和机器人导航中。
卷积神经网络的基本机构中包括多个卷积层,每层由多个二维平面组成,而每个平面由多个独立神经元组成。每个神经元用于对多媒体数据的局部数据进行卷积运算,并且其一输入端还与前一卷积层的局部感受野相连,通过对前一卷积层的局部感受野的数据进行卷积运算,以提取该局部感受野的特征。
现有技术中,通常也采用加速处理单元来作为神经元,对多媒体数据的局部数据进行卷积运算。现有的加速处理单元对输入的每个多媒体数据都设计有一个加法器和一个乘法器,当该加速处理单元需要处理的局部数据有多个时,意味着每个加速处理单元包括多个加法器和多个乘法器,这种设计导致加速处理单元片的面积较大,功耗大,处理速度也有待提高。
发明内容
本申请提供一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算,所述局部数据包括多个多媒体数据,所述加速处理单元包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器;
第一寄存器用于输入多媒体数据,其输出端与乘法器的输入端连接,将多媒体数据发送到乘法器;
第二寄存器用于输入滤波器权值,其输出端与乘法器的输入端连接,将滤波器权值发送到乘法器;
乘法器用于将多媒体数据和滤波器权值相乘,其输出端与第三寄存器连接,将相乘后的结果发送到第三寄存器;
第三寄存器的输出端与第一多路选择器的第一端连接;
所述第一多路选择器的第二端连接加法器,第三端为前一加速处理单元的部分和输入端,所述第一多路选择器通过状态切换将第三寄存器和加法器连接,或将前一加速处理单元的部分和输入端和加法器连接;
所述加法器还与第五寄存器和第四寄存器连接,用于将第一多路选择器传送的相乘后的结果或前一加速处理单元的部分和与第五寄存器中的数据进行加法运算,并将相加后的结果输出到第四寄存器;
所述第二多路选择器的第一端和第二端分别连接第四寄存器和第五寄存器,所述第四寄存器通过第二多路选择器连接到第五寄存器。
优选地,所述第一多路选择器在加速处理单元未完成局部数据的乘加操作时保持第一状态,将第三寄存器连接到加法器,在加速处理单元完成局部数据的乘加操作后切换为第二状态,将前一加速处理单元的部分和输入端连接到加法器。
优选地,所述第二多路选择器在加速处理单元未完成局部数据的乘加操作时保持为第一状态,将第四寄存器连接到第五寄存器,在加速处理单元完成局部数据的乘加操作后切换为第二状态,以将第五寄存器清零。
优选地,所述第二多路选择器的第三端为重置端,所述第二多路选择器在加速处理单元完成局部数据的乘加操作后切换为第二状态,将重置端连接到第五寄存器。
优选地,还包括第一存储器、第二存储器和第三存储器,所述第一存储器与第一寄存器的输入端连接,用于输入并存储需要进行卷积运算的局部数据,并将局部数据中的多个多媒体数据依次发送给第一寄存器;所述第二存储器与第二寄存器的输入端连接,用于输入并存储滤波器权值,并将滤波器权值发送给第二寄存器;所述第三存储器与第四寄存器的输入端连接,用于输入并存储加法器输出的相加后的结果,并将相加后的结果发送给第四寄存器。
优选地,其特征在于,所述加法器还将相加后的结果输出到后一加速处理单元。
本申请提供还一种基于卷积神经网络的阵列结构,包括多个所述加速处理单元,多个加速处理单元呈现为3行N列的矩阵形态,其中3和N为大于或等 于1的整数,每一列的加速处理单元前后相连。
优选地,每一列中,前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。
优选地,同一行的加速处理单元中,输入的滤波器权值相同;位于同一对角线上的加速处理单元中,输入的局部数据相同。
优选地,不同行的加速处理单元中,输入的滤波器权值不同。
本发明的有益效果是:单个加速处理单元通过对第一多路选择器和第二多路选择器的控制,使得乘法器和加法器可重复使用,从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算,减少了乘法器和加法器的使用,在实现同样的卷积运算时,减少乘法器和加法器的使用将会提高处理速度并降低能耗,同时单个加速处理单元片上面积更小。
附图说明
图1为本发明实施例提供的一种基于卷积神经网络的加速处理单元结构框图;
图2为本发明实施例提供的一种基于卷积神经网络的加速处理单元的卷积运算过程示意图;
图3为本发明实施例一种基于卷积神经网络的阵列结构列向分布示意图;
图4为本发明实施例一种基于卷积神经网络的阵列结构行向分布示意图;
图5为本发明实施例一种基于卷积神经网络的阵列结构对角线分布示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。
实施例一:
请参考图1,本实施例提供一种基于卷积神经网络的加速处理单元,加速处理单元61包括第一寄存器21、第二寄存器22、第三寄存器23、第四寄存器24、第五寄存器25、乘法器41、加法器51和第一多路选择器31和第二多路选择器32。
第一寄存器21与乘法器41的一输入端连接,第一寄存器21用于输入多媒体数据,并将多媒体数据发送到乘法器41。第二寄存器22与乘法器41的另一输入端连接,第二寄存器22用于输入滤波器权值,并将滤波器权值发送到乘法器41。乘法器41的输出端与第三寄存器23连接,用于将多媒体数据和滤波器权值相乘,并将相乘后的结果发送到第三寄存器23。
第一多路选择器31的第一端与第三寄存器23的输出端连接,第二端连接加法器51的一输入端,第三端为前一加速处理单元的部分和输入端。当第一多路选择器31切换到第一状态(例如置0)时,第一多路选择器31将第三寄存器23和加法器51连接,将第三寄存器23中的数据发送到加法器51;当第一多路选择器31切换到第二状态(例如置1)时,第一多路选择器31将其第三端和加法器51连接,将前一加速处理单元的部分和发送到加法器51。
加法器51的另一输入端与第五寄存器25连接,加法器51的输出端与第四寄存器24连接,加法器51输入第三寄存器23和第五寄存器25中的数据,将两寄存器中的数据进行加法运算,并将相加后的结果(也称为内部部分和)输出到第四寄存器24。
第二多路选择器32的第一端和第二端分别连接第四寄存器24和第五寄存器25,第二多路选择器32的第三端为重置端。当第二多路选择器32切换到第一状态(例如置0)时,第二多路选择器32将第四寄存器24和第五寄存器25连接,将第四寄存器24中的内部部分和发送到第五寄存器25;当第二多路选择器32切换到第二状态(例如置1)时,第二多路选择器32将其第三端和第五寄存器25连接,重置第五寄存器25,使第五寄存器25中数据清零。
在有的实施例中,为方便向寄存器发送数据,加速处理单元61还包括第一存11、第二存储器12和第三存储器13,第一存储器11与第一寄存器21的输入端连接,用于输入并存储需要进行卷积运算的局部数据,并将局部数据中的多个多媒体数据依次发送给第一寄存器21;第二存储器12与第二寄存器22的输入端连接,用于输入并存储滤波器权值,并将滤波器权值发送给第二寄存器22;第三存储器13与第四寄存器24的输入端连接,用于输入并存储加法器51输出的内部部分和,并将内部部分和发送给第四寄存器24。
加速处理单元61用于对局部数据进行卷积运算,局部数据包括多个多媒体数据,多媒体数据可以是视频数据,图像数据,也可以是音频数据。当多媒体数据是视频数据时,可以认为每个多媒体数据对应一个像素。
下面以图像数据为例,说明加速处理单元61的卷积运算过程。
结合图1和图2,单个基于卷积神经网络的加速处理单元61的工作过程如下:
步骤10,读取需要进行卷积运算的视频数据和滤波器权值。若图像数据不为0,图像数据被存储于第一存储器11,在需要的时候被发送至第一寄存器21用来提取图像数据,若图像数据为0,图像数据0直接被发送至第一寄存器21而无需提取,采取跳过或门控的策略避免非必要的读取和计算;滤波器权值被 存储于第二存储器12,在需要的时候被发送至第二寄存器22用来滤波器权值数据,其中,数据提取方式为依次串行提取,即在第一个循环中,将由本加速处理单元61进行卷积运算的局部数据中的第一个图像数据发送到第一寄存器21;在第二个循环中,将第二个图像数据发送到第一寄存器21,后面依次读入图像数据。滤波器权值由处理器根据卷积算法要求产生。
步骤20,乘法运算。第一寄存器21中的图像数据和第二寄存器22中的滤波器权值被发送到乘法器41中执行乘法运算,经过乘法器41相乘后的结果被输出到第三寄存器23。
步骤30,加法运算。由于加速处理单元61中的乘加操作还没有结束,此时第一多路选择器31置0,当第一多路选择器31被置0时,第三寄存器23中图像数据被发送到加法器51中,加法器51将图像数据与第五寄存器25中的前一次内部部分和相加。对于第一次的内部卷积操作,第五寄存器25中为零,对于后续的内部卷积操作,第五寄存器25中为前一次卷积操作后的内部部分和。本次卷积操作中相加后的结果(即内部部分和)被输出到第四寄存器24,此时便完成了一次内部卷积操作,最终得到第一个图像数据和滤波器权值的部分和。由于加速处理单元61中的乘加操作还没有结束,此时第二多路选择器32置0,当第二多路选择器32被置0时,内部部分和被第四寄存器24发送至第五寄存器25。
步骤40,本加速处理单元61判断是否完成了所有局部数据的内部卷积操作,若内部卷积操作未完成时,将依次重复步骤10、步骤20和步骤30,提取第二个图像数据,并输入到第一寄存器21,第二个滤波器权值输入到第二寄存器22,第一寄存器21中的图像数据和第二寄存器22中的滤波器权值都发送到乘法器41中,图像数据和滤波器权值相乘,得出的结果由乘法器41发送到第三寄存器中,由于加速处理单元61中的乘加操作还没有结束,此时第一多路选择器31置0,第三寄存器23中的数据通过第一多路选择器发送到加法器51中,与来自第五寄存器25中的数据求和,最终得到第二次的图像数据和滤波器权值的部分和。加法器51中的部分和发送到第四寄存器24中,此时,由于加速处理单元中的乘加操作还没有结束,此时第二多路选择器32置0,第四寄存器24中的数据通过第二多路选择器31发送到第五寄存器25中。从而完成对第二个图像数据的内部卷积操作。直到提取局部数据的最后一个图像数据,该图像信息和滤波器权值经过上述的相乘和相加操作后,得到本加速处理单元的部分和,该部分和通过与前述相同的操作,最终进入第五寄存器25中。当所有内部卷积操作已完成时,则将进行步骤50。
步骤50,当加速处理单元61中的对局部数据的乘加操作结束后,第一多路选择器31和第二多路选择器32置1,当第一多路选择器32被置1时,前一个加速处理单元中的部分和通过第一多路选择器31发送到加法器51中,第五寄存器25将本加速处理单元61中的最终部分和发送到加法器51中,最后,前一个加速处理单元的部分和与本加速处理单元61中的部分和求和,得到两个加速处理单元叠加的部分和,该叠加的部分和输出,发送到下一个加速处理单元。当第二多路选择器32将由状态0被置1,第四寄存器24不再向第五寄存器25发送数据,并且第五寄存器25中的数据将被清零。
本实施例中,单个加速处理单元通过对第一多路选择器31和第二多路选择器32的控制,使得乘法器41和加法器51可重复使用,从而使得一个加速处理单元只需要一个乘法器和一个加法器即可完成卷积运算,减少了乘法器和加法器的使用,在实现同样的卷积运算时,减少乘法器和加法器的使用将会提高处理速度并降低能耗,同时单个加速处理单元片上面积更小。
实施例二:
请参考图3至图5,示出了一种基于卷积神经网络的阵列结构,包括多个所述加速处理单元,多个加速处理单元呈现为M行N列的矩阵形态,其中M和N为大于或等于1的整数,每一列的加速处理单元前后相连。
本实施例中,多个加速处理单元呈现为3行3列的矩阵形态,每一列中,前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。
同一行的加速处理单元中,输入的滤波器权值相同;位于同一对角线上的加速处理单元中,输入的局部数据相同。
不同行的加速处理单元中,输入的滤波器权值不同。
下面结合附图,说明多个加速处理单元的卷积层运算过程。
结合图1至图5,基于卷积神经网络的阵列结构的运算过程如下:
如图3所示,前一个加速处理单元的加法器51连接后一个加速处理单元的第一多路选择器31,每一行输出的部分和都垂直移动,将前后两个加速处理单元的部分和累加,在计算过程结束时可以在顶行被读出,在下一个计算过程的开始由缓冲器送到阵列的底行。
例如,加速处理单元PE1.1、加速处理单元PE2.1和加速处理单元PE3.1,先分别进行内部卷积运算,最终结果存储在各自的第五寄存器25中,然后,加速处理单元PE3.1中输出的部分和与加速处理单元PE2.1中第五寄存器25的部 分和在加速处理单元PE2.1的加法器51中再次求和累加,得到第一次累加的部分和,所述第一次累加的部分和由加速处理单元PE2.1发送到加速处理单元PE1.1中,与加速处理单元PE1.1中第五寄存器25的部分和在加速处理单元PE1.1的加法器51中再次求和,最终输出本列所有加速处理单元1的部分和。
还需指出的是,如图4和图5所示,同一行的加速处理单元中,输入的滤波器权值相同,位于同一对角线上的加速处理单元中,输入的图像数据相同,不同行的加速处理单元中,输入的滤波器权值不同。由于整个图像数据有若干行,而每个加速处理单元只是处理整个图像数据中的单行数据,因此就需要将加速处理单元分别处理完每一行数据再对每一行数据的卷积结果进行累加操作。同一对角线上的输入数据相同,不同对角线上的输入图像数据不同,相当于不同对角线上的输入的图像数据是图像数据的不同行数据。而处理不同行的图像数据需要不同的滤波器权值,例如一个滤波器权值只是用来处理第一行的图像数据,当要处理第二行的图像数据的时候,就需要用新的滤波器权值。因此可使同一行的加速处理单元采用相同的滤波器权值,不同行的加速处理单元采用不同的滤波器权值。
例如,加速处理单元PE1.1、加速处理单元PE1.2和加速处理单元PE1.3中的滤波器权值相同,加速处理单元PE2.1和加速处理单元PE1.2中输入的图像数据相同,加速处理单元PE1.1、加速处理单元PE2.2和加速处理单元PE3.1中的滤波器权值不相同。
如此实现了,同时处理一行的多媒体数据,再对不同行的多媒体数据使用不同的滤波器权值,在分别处理完每一行数据后,在对前后各行多媒体数据进行累加操作,从而快速、可靠地处理全部的多媒体数据。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种基于卷积神经网络的加速处理单元,用于对局部数据进行卷积运算,所述局部数据包括多个多媒体数据,其特征在于包括第一寄存器、第二寄存器、第三寄存器、第四寄存器、第五寄存器、乘法器、加法器和第一多路选择器和第二多路选择器;
第一寄存器用于输入多媒体数据,其输出端与乘法器的输入端连接,将多媒体数据发送到乘法器;
第二寄存器用于输入滤波器权值,其输出端与乘法器的输入端连接,将滤波器权值发送到乘法器;
乘法器用于将多媒体数据和滤波器权值相乘,其输出端与第三寄存器连接,将相乘后的结果发送到第三寄存器;
第三寄存器的输出端与第一多路选择器的第一端连接;
所述第一多路选择器的第二端连接加法器,第三端为前一加速处理单元的部分和输入端,所述第一多路选择器通过状态切换将第三寄存器和加法器连接,或将前一加速处理单元的部分和输入端和加法器连接;
所述加法器还与第五寄存器和第四寄存器连接,用于将第一多路选择器传送的相乘后的结果或前一加速处理单元的部分和与第五寄存器中的数据进行加法运算,并将相加后的结果输出到第四寄存器;
所述第二多路选择器的第一端和第二端分别连接第四寄存器和第五寄存器,所述第四寄存器通过第二多路选择器连接到第五寄存器。
2.如权利要求1所述的加速处理单元,其特征在于,所述第一多路选择器在加速处理单元未完成局部数据的乘加操作时保持第一状态,将第三寄存器连接到加法器,在加速处理单元完成局部数据的乘加操作后切换为第二状态,将前一加速处理单元的部分和输入端连接到加法器。
3.如权利要求1所述的加速处理单元,其特征在于,所述第二多路选择器在加速处理单元未完成局部数据的乘加操作时保持为第一状态,将第四寄存器连接到第五寄存器,在加速处理单元完成局部数据的乘加操作后切换为第二状态,以将第五寄存器清零。
4.如权利要求3所述的加速处理单元,其特征在于,所述第二多路选择器的第三端为重置端,所述第二多路选择器在加速处理单元完成局部数据的乘加操作后切换为第二状态,将重置端连接到第五寄存器。
5.如权利要求1至4中任一项所述的加速处理单元,其特征在于,还包括第一存储器、第二存储器和第三存储器,所述第一存储器与第一寄存器的输入端连接,用于输入并存储需要进行卷积运算的局部数据,并将局部数据中的多个多媒体数据依次发送给第一寄存器;所述第二存储器与第二寄存器的输入端连接,用于输入并存储滤波器权值,并将滤波器权值发送给第二寄存器;所述第三存储器与第四寄存器的输入端连接,用于输入并存储加法器输出的相加后的结果,并将相加后的结果发送给第四寄存器。
6.如权利要求1至4中任一项所述的加速处理单元,其特征在于,所述加法器还将相加后的结果输出到后一加速处理单元。
7.一种基于卷积神经网络的阵列结构,其特征在于,包括多个如权利要求1至6中任一项所述的加速处理单元,多个加速处理单元呈现为M行N列的矩阵形态,其中M和N为大于或等于1的整数,每一列的加速处理单元前后相连。
8.如权利要求7所述的阵列结构,其特征在于,每一列中,前一加速处理单元的加法器的输出端连接后一加速处理单元的第一多路选择器的第三端。
9.如权利要求7或8所述的阵列结构,其特征在于,同一行的加速处理单元中,输入的滤波器权值相同;位于同一对角线上的加速处理单元中,输入的局部数据相同。
10.如权利要求9所述的阵列结构,其特征在于,不同行的加速处理单元中,输入的滤波器权值不同。
CN201610482653.7A 2016-06-27 2016-06-27 一种基于卷积神经网络的加速处理单元及阵列结构 Expired - Fee Related CN106203617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610482653.7A CN106203617B (zh) 2016-06-27 2016-06-27 一种基于卷积神经网络的加速处理单元及阵列结构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610482653.7A CN106203617B (zh) 2016-06-27 2016-06-27 一种基于卷积神经网络的加速处理单元及阵列结构

Publications (2)

Publication Number Publication Date
CN106203617A true CN106203617A (zh) 2016-12-07
CN106203617B CN106203617B (zh) 2018-08-21

Family

ID=57462215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610482653.7A Expired - Fee Related CN106203617B (zh) 2016-06-27 2016-06-27 一种基于卷积神经网络的加速处理单元及阵列结构

Country Status (1)

Country Link
CN (1) CN106203617B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622305A (zh) * 2017-08-24 2018-01-23 中国科学院计算技术研究所 用于神经网络的处理器和处理方法
CN107844826A (zh) * 2017-10-30 2018-03-27 中国科学院计算技术研究所 神经网络处理单元及包含该处理单元的处理系统
CN107862378A (zh) * 2017-12-06 2018-03-30 芯原微电子(上海)有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
CN108038815A (zh) * 2017-12-20 2018-05-15 深圳云天励飞技术有限公司 集成电路
WO2018108126A1 (zh) * 2016-12-14 2018-06-21 上海寒武纪信息科技有限公司 神经网络卷积运算装置及方法
WO2018107383A1 (zh) * 2016-12-14 2018-06-21 上海寒武纪信息科技有限公司 神经网络的卷积运算方法、装置及计算机可读存储介质
CN108491926A (zh) * 2018-03-05 2018-09-04 东南大学 一种基于对数量化的低比特高效深度卷积神经网络硬件加速设计方法、模块及系统
CN108629405A (zh) * 2017-03-22 2018-10-09 杭州海康威视数字技术股份有限公司 提高卷积神经网络计算效率的方法和装置
CN108629406A (zh) * 2017-03-24 2018-10-09 展讯通信(上海)有限公司 用于卷积神经网络的运算装置
EP3388981A1 (en) * 2017-04-13 2018-10-17 Nxp B.V. A human-machine-interface system
CN108701015A (zh) * 2017-11-30 2018-10-23 深圳市大疆创新科技有限公司 用于神经网络的运算装置、芯片、设备及相关方法
CN109948784A (zh) * 2019-01-03 2019-06-28 重庆邮电大学 一种基于快速滤波算法的卷积神经网络加速器电路
CN109993272A (zh) * 2017-12-29 2019-07-09 北京中科寒武纪科技有限公司 卷积及降采样运算单元、神经网络运算单元和现场可编程门阵列集成电路
CN110059818A (zh) * 2019-04-28 2019-07-26 山东师范大学 卷积核参数可配的神经卷积阵列电路核、处理器及电路
CN110494867A (zh) * 2017-03-23 2019-11-22 三星电子株式会社 用于操作机器学习的电子装置和用于操作机器学习的方法
CN110659445A (zh) * 2018-06-29 2020-01-07 龙芯中科技术有限公司 一种运算装置及其处理方法
CN111144556A (zh) * 2019-12-31 2020-05-12 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
CN112115095A (zh) * 2020-06-12 2020-12-22 苏州浪潮智能科技有限公司 一种用于哈希算法的可重构硬件及运行方法
CN112236783A (zh) * 2018-03-13 2021-01-15 雷哥尼公司 高效卷积引擎
CN112288085A (zh) * 2020-10-23 2021-01-29 中国科学院计算技术研究所 一种卷积神经网络加速方法及系统
CN112598122A (zh) * 2020-12-23 2021-04-02 北方工业大学 一种基于可变电阻式随机存储器的卷积神经网络加速器
CN113222126A (zh) * 2020-01-21 2021-08-06 上海商汤智能科技有限公司 数据处理装置、人工智能芯片
CN113361687A (zh) * 2021-05-31 2021-09-07 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN117273095A (zh) * 2023-08-18 2023-12-22 中国科学院半导体研究所 卷积电路及其控制方法、神经网络加速器和电子设备
CN117369707A (zh) * 2023-12-04 2024-01-09 杭州米芯微电子有限公司 一种数字信号监测电路及芯片

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0422348A2 (en) * 1989-10-10 1991-04-17 Hnc, Inc. Two-dimensional systolic array for neural networks, and method
CN103019656A (zh) * 2012-12-04 2013-04-03 中国科学院半导体研究所 可动态重构的多级并行单指令多数据阵列处理系统
CN103691058A (zh) * 2013-12-10 2014-04-02 天津大学 帕金森病基底核-丘脑网络的深度脑刺激fpga实验平台
CN104504205A (zh) * 2014-12-29 2015-04-08 南京大学 一种对称fir算法的并行化二维分割方法及其硬件结构
CN105528191A (zh) * 2015-12-01 2016-04-27 中国科学院计算技术研究所 数据累加装置、方法及数字信号处理装置
CN105681628A (zh) * 2016-01-05 2016-06-15 西安交通大学 一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法
EP3035204A1 (en) * 2014-12-19 2016-06-22 Intel Corporation Storage device and method for performing convolution operations
EP3035249A1 (en) * 2014-12-19 2016-06-22 Intel Corporation Method and apparatus for distributed and cooperative computation in artificial neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0422348A2 (en) * 1989-10-10 1991-04-17 Hnc, Inc. Two-dimensional systolic array for neural networks, and method
US5471627A (en) * 1989-10-10 1995-11-28 Hnc, Inc. Systolic array image processing system and method
CN103019656A (zh) * 2012-12-04 2013-04-03 中国科学院半导体研究所 可动态重构的多级并行单指令多数据阵列处理系统
CN103691058A (zh) * 2013-12-10 2014-04-02 天津大学 帕金森病基底核-丘脑网络的深度脑刺激fpga实验平台
EP3035204A1 (en) * 2014-12-19 2016-06-22 Intel Corporation Storage device and method for performing convolution operations
EP3035249A1 (en) * 2014-12-19 2016-06-22 Intel Corporation Method and apparatus for distributed and cooperative computation in artificial neural networks
CN104504205A (zh) * 2014-12-29 2015-04-08 南京大学 一种对称fir算法的并行化二维分割方法及其硬件结构
CN105528191A (zh) * 2015-12-01 2016-04-27 中国科学院计算技术研究所 数据累加装置、方法及数字信号处理装置
CN105681628A (zh) * 2016-01-05 2016-06-15 西安交通大学 一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
凡保磊: ""卷积神经网络的并行化研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陆志坚: ""基于FPGA的卷积神经网络并行结构研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018108126A1 (zh) * 2016-12-14 2018-06-21 上海寒武纪信息科技有限公司 神经网络卷积运算装置及方法
WO2018107383A1 (zh) * 2016-12-14 2018-06-21 上海寒武纪信息科技有限公司 神经网络的卷积运算方法、装置及计算机可读存储介质
CN108629405B (zh) * 2017-03-22 2020-09-18 杭州海康威视数字技术股份有限公司 提高卷积神经网络计算效率的方法和装置
CN108629405A (zh) * 2017-03-22 2018-10-09 杭州海康威视数字技术股份有限公司 提高卷积神经网络计算效率的方法和装置
CN110494867A (zh) * 2017-03-23 2019-11-22 三星电子株式会社 用于操作机器学习的电子装置和用于操作机器学习的方法
US11907826B2 (en) 2017-03-23 2024-02-20 Samsung Electronics Co., Ltd Electronic apparatus for operating machine learning and method for operating machine learning
CN110494867B (zh) * 2017-03-23 2024-06-07 三星电子株式会社 用于操作机器学习的电子装置和用于操作机器学习的方法
CN108629406B (zh) * 2017-03-24 2020-12-18 展讯通信(上海)有限公司 用于卷积神经网络的运算装置
CN108629406A (zh) * 2017-03-24 2018-10-09 展讯通信(上海)有限公司 用于卷积神经网络的运算装置
EP3388981A1 (en) * 2017-04-13 2018-10-17 Nxp B.V. A human-machine-interface system
US11567770B2 (en) 2017-04-13 2023-01-31 Nxp B.V. Human-machine-interface system comprising a convolutional neural network hardware accelerator
CN107622305A (zh) * 2017-08-24 2018-01-23 中国科学院计算技术研究所 用于神经网络的处理器和处理方法
CN107844826A (zh) * 2017-10-30 2018-03-27 中国科学院计算技术研究所 神经网络处理单元及包含该处理单元的处理系统
CN107844826B (zh) * 2017-10-30 2020-07-31 中国科学院计算技术研究所 神经网络处理单元及包含该处理单元的处理系统
WO2019104695A1 (zh) * 2017-11-30 2019-06-06 深圳市大疆创新科技有限公司 用于神经网络的运算装置、芯片、设备及相关方法
CN108701015A (zh) * 2017-11-30 2018-10-23 深圳市大疆创新科技有限公司 用于神经网络的运算装置、芯片、设备及相关方法
CN107862378A (zh) * 2017-12-06 2018-03-30 芯原微电子(上海)有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
CN107862378B (zh) * 2017-12-06 2020-04-24 芯原微电子(上海)股份有限公司 基于多核的卷积神经网络加速方法及系统、存储介质及终端
WO2019119480A1 (zh) * 2017-12-20 2019-06-27 深圳云天励飞技术有限公司 集成电路
CN108038815A (zh) * 2017-12-20 2018-05-15 深圳云天励飞技术有限公司 集成电路
US10706353B2 (en) 2017-12-20 2020-07-07 Shenzhen Intellifusion Technologies Co., Ltd. Integrated circuit
CN109993272A (zh) * 2017-12-29 2019-07-09 北京中科寒武纪科技有限公司 卷积及降采样运算单元、神经网络运算单元和现场可编程门阵列集成电路
CN108491926A (zh) * 2018-03-05 2018-09-04 东南大学 一种基于对数量化的低比特高效深度卷积神经网络硬件加速设计方法、模块及系统
CN112236783B (zh) * 2018-03-13 2023-04-11 雷哥尼公司 高效卷积引擎
CN112236783A (zh) * 2018-03-13 2021-01-15 雷哥尼公司 高效卷积引擎
US11694069B2 (en) 2018-03-13 2023-07-04 Recogni Inc. Methods for processing data in an efficient convolutional engine with partitioned columns of convolver units
US11694068B2 (en) 2018-03-13 2023-07-04 Recogni Inc. Methods for processing horizontal stripes of data in an efficient convolutional engine
US11645504B2 (en) 2018-03-13 2023-05-09 Recogni Inc. Methods for processing vertical stripes of data in an efficient convolutional engine
US11580372B2 (en) 2018-03-13 2023-02-14 Recogni Inc. Efficient convolutional engine
US11593630B2 (en) 2018-03-13 2023-02-28 Recogni Inc. Efficient convolutional engine
CN110659445A (zh) * 2018-06-29 2020-01-07 龙芯中科技术有限公司 一种运算装置及其处理方法
CN110659445B (zh) * 2018-06-29 2022-12-30 龙芯中科技术股份有限公司 一种运算装置及其处理方法
CN109948784A (zh) * 2019-01-03 2019-06-28 重庆邮电大学 一种基于快速滤波算法的卷积神经网络加速器电路
CN110059818A (zh) * 2019-04-28 2019-07-26 山东师范大学 卷积核参数可配的神经卷积阵列电路核、处理器及电路
CN111144556A (zh) * 2019-12-31 2020-05-12 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
CN113222126A (zh) * 2020-01-21 2021-08-06 上海商汤智能科技有限公司 数据处理装置、人工智能芯片
CN112115095A (zh) * 2020-06-12 2020-12-22 苏州浪潮智能科技有限公司 一种用于哈希算法的可重构硬件及运行方法
CN112115095B (zh) * 2020-06-12 2022-07-08 苏州浪潮智能科技有限公司 一种用于哈希算法的可重构硬件及运行方法
CN112288085B (zh) * 2020-10-23 2024-04-09 中国科学院计算技术研究所 一种基于卷积神经网络的图像检测方法及系统
CN112288085A (zh) * 2020-10-23 2021-01-29 中国科学院计算技术研究所 一种卷积神经网络加速方法及系统
CN112598122B (zh) * 2020-12-23 2023-09-05 北方工业大学 一种基于可变电阻式随机存储器的卷积神经网络加速器
CN112598122A (zh) * 2020-12-23 2021-04-02 北方工业大学 一种基于可变电阻式随机存储器的卷积神经网络加速器
CN113361687B (zh) * 2021-05-31 2023-03-24 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN113361687A (zh) * 2021-05-31 2021-09-07 天津大学 适用于卷积神经网络训练加速器的可配置加法树
CN113591025A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 特征图的处理方法、装置、卷积神经网络加速器和介质
CN117273095A (zh) * 2023-08-18 2023-12-22 中国科学院半导体研究所 卷积电路及其控制方法、神经网络加速器和电子设备
CN117369707A (zh) * 2023-12-04 2024-01-09 杭州米芯微电子有限公司 一种数字信号监测电路及芯片
CN117369707B (zh) * 2023-12-04 2024-03-19 杭州米芯微电子有限公司 一种数字信号监测电路及芯片

Also Published As

Publication number Publication date
CN106203617B (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN106203617A (zh) 一种基于卷积神经网络的加速处理单元及阵列结构
EP3746945B1 (en) Improving performance of neural network arrays
CN111667051B (zh) 适用边缘设备的神经网络加速器及神经网络加速计算方法
Yepez et al. Stride 2 1-D, 2-D, and 3-D Winograd for convolutional neural networks
JP6960700B2 (ja) マルチキャストネットワークオンチップに基づいた畳み込みニューラルネットワークハードウェアアクセラレータおよびその動作方式
CN107862650B (zh) 加速计算二维图像cnn卷积的方法
CN110494867B (zh) 用于操作机器学习的电子装置和用于操作机器学习的方法
EP0421639B1 (en) Parallel data processing system
WO2019136764A1 (zh) 卷积器及其所应用的人工智能处理装置
EP0504932A2 (en) A parallel data processing system
KR101788829B1 (ko) 콘볼루션 신경망 컴퓨팅 장치
JP2018067154A (ja) 演算処理回路および認識システム
CN115238863B (zh) 一种卷积神经网络卷积层的硬件加速方法、系统及应用
CN107609641A (zh) 稀疏神经网络架构及其实现方法
CN109891435A (zh) 张量运算和加速
TWI719512B (zh) 使用像素通道置亂的卷積神經網路的演算方法與系統
Wang et al. SIES: A novel implementation of spiking convolutional neural network inference engine on field-programmable gate array
CN110580519B (zh) 一种卷积运算装置及其方法
CN109146065B (zh) 二维数据的卷积运算方法及装置
WO2020042771A9 (zh) 图像识别处理方法和装置
CN108491924A (zh) 一种面向人工智能计算的神经网络数据串行流水处理装置
WO2025044276A1 (zh) 数据处理方法、装置、计算机设备及存储介质
CN111886605A (zh) 针对多个输入数据集的处理
CN110009644B (zh) 一种特征图行像素分段的方法和装置
CN112836793B (zh) 浮点可分离卷积计算加速装置、系统以及图像处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180821

Termination date: 20190627

CF01 Termination of patent right due to non-payment of annual fee