[go: up one dir, main page]

WO2017031630A1 - 基于参数量化的深度卷积神经网络的加速与压缩方法 - Google Patents

基于参数量化的深度卷积神经网络的加速与压缩方法 Download PDF

Info

Publication number
WO2017031630A1
WO2017031630A1 PCT/CN2015/087792 CN2015087792W WO2017031630A1 WO 2017031630 A1 WO2017031630 A1 WO 2017031630A1 CN 2015087792 W CN2015087792 W CN 2015087792W WO 2017031630 A1 WO2017031630 A1 WO 2017031630A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
neural network
convolutional neural
deep convolutional
subcodebooks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2015/087792
Other languages
English (en)
French (fr)
Inventor
程健
吴家祥
冷聪
卢汉清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to US15/753,520 priority Critical patent/US10970617B2/en
Priority to PCT/CN2015/087792 priority patent/WO2017031630A1/zh
Publication of WO2017031630A1 publication Critical patent/WO2017031630A1/zh
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21343Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using decorrelation or non-stationarity, e.g. minimising lagged cross-correlations
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Definitions

  • FIG. 4 is a schematic diagram of an efficient operation process of a fully connected layer according to an embodiment of the present invention.
  • the deep convolutional neural network is the plurality of fully connected layers, and the depth convolution god is obtained according to index values corresponding to the plurality of subcodebooks and the plurality of subcodebooks respectively
  • the feature map of the output through the network includes repeatedly performing the following processing until multiple fully connected layers are traversed:
  • the plurality of second operation results are summed to obtain an output second feature map.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的基于参数量化的深度卷积神经网络的加速与压缩方法,包括:对深度卷积神经网络的参数进行量化得到多个子码本和多个子码本分别对应的索引值;根据多个子码本和多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图。本发明可以实现深度卷积神经网络的加速与压缩。

Description

基于参数量化的深度卷积神经网络的加速与压缩方法 技术领域
本发明涉及图像处理技术,特别是涉及一种基于参数量化的深度卷积神经网络的加速与压缩方法。
背景技术
近几年来,深度卷积神经网络在计算机视觉、语音处理、机器学习等众多领域取得了巨大的突破,显著地提高了机器算法在图像分类、目标检测和语音识别等多个任务中的性能,并且在互联网、视频监控等行业中得到了广泛应用。
深度卷积神经网络的训练过程,是基于大规模的含有人工标注信息的数据集,对网络参数进行学习与调整。一般而言,大容量、高复杂度的深度卷积网络可以更全面地对数据进行学习,从而取得更好的性能指标。但是,随着网络层数与参数数量的增加,运算和存储代价都会大幅增长,因此目前来说,卷积神经网络的训练与测试大多只能在高性能的计算集群上进行。
另一方面,移动互联网技术在近年取得了长足进步,在实际生活中的应用也越来越广泛。在移动互联网的应用场景下,用户所使用的设备,例如手机或者平板电脑,其运算与存储能力都十分有限。虽然深度卷积神经网络可以在计算集群上进行训练,但是在移动平台应用场景下,网络模型的测试过程仍需要在移动设备上进行,这就提出了两个挑战:如何降低卷积神经网络的测试用时,以及如何压缩网络模型的存储开销。
针对卷积神经网络的加速与压缩问题,已有一些有效的算法被提出。这些算法是将网络中的某一层分解为复杂度较低的若干层的组合,以达到降低运算或者存储代价的目的。然而,这些算法并没有同时考虑卷积神经网络的加速和压缩,并且只在网络的少数几层上进行了测试,对于整个网络模型的加速或压缩效果还有待研究。
发明内容
本发明提供的基于参数量化的深度卷积神经网络的加速与压缩方法,可以实现深度卷积神经网络的加速与压缩。
根据本发明的一方面,提供一种基于参数量化的深度卷积神经网络的加速与压缩方法,包括:对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值;根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图。
本发明实施例提供的基于参数量化的深度卷积神经网络的加速与压缩方法,通过对深度卷积神经网络的参数进行量化得到多个子码本和多个子码本分别对应的索引值,根据多个子码本和多个子码本分别对应的索引值获取深度卷积神经网络的输出的特征图,从而可以实现深度卷积神经网络的加速与压缩。
附图说明
图1为本发明实施例提供的基于参数量化的深度卷积神经网络的加速与压缩方法流程图;
图2为本发明实施例提供的深度卷积神经网络的图像分类过程示意图;
图3为本发明实施例提供的全连接层的参数量化过程示意图;
图4为本发明实施例提供的全连接层的高效运行过程示意图。
具体实施方式
下面结合附图对本发明实施例提供的基于参数量化的深度卷积神经网络的加速与压缩方法进行详细描述。
图1为本发明实施例提供的基于参数量化的深度卷积神经网络的加速与压缩方法流程图。
参照图1,在步骤S101,对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值。
在步骤S102,根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图。
这里,深度卷积神经网络包括多个卷积层或多个全连接层,将多个卷积层的参数或多个全连接层的参数进行量化,并根据量化后的多个卷积层或多个全连接层获取各自对应的输出的特征图,具体可参照图2。
进一步地,所述深度卷积神经网络为多个卷积层,所述对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值包括,重复执行以下处理,直至多个卷积层都被遍历:
将所述卷积层的参数分割成M组,每组包括多个第一参数子向量,其中,M为正整数;
对所述每组的多个第一参数子向量分别进行K均值聚类得到所述每组对应的第一子码本,所述第一子码本包括多个第一码字;
分别计算所述多个第一参数子向量与所述多个第一码字的欧氏距离;
获取所述欧氏距离最小的第一参数子向量和第一码字,并记录所述欧氏距离最小的第一码字的索引值。
这里,卷积层的参数可以是,但不限于,具体为Wk×Hk×Cs×Ct的四阶数组,其中Wk是卷积核的宽度,Hk是卷积核的高度,Cs是输入的第一特征图的通道数,Ct是输出的第一特征图的通道数。将Cs所在维度均匀地分为M组,每组的维度为[Cs/M](若维度不足,则在最后一组中补零),这样就可以将卷积层的参数分为M组,每组包含Wk×Hk×Ct个第一参数子向量。
对每组的Wk×Hk×Ct个第一参数子向量分别进行K均值聚类得到每组对应的第一子码本,其中,K为正整数,K为第一子码本中的第一码字的数量。
进一步地,所述深度卷积神经网络为多个全连接层,所述对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值包括,重复执行以下处理,直至多个全连接层都被遍历:
将所述全连接层的参数分割成M组,每组包括多个第二参数子向量;
对所述多个第二参数子向量分别进行K均值聚类得到所述每组对应的第二子码本,所述第二子码本包括多个第二码字;
分别计算所述多个第二参数子向量与所述多个第二码字的欧氏距离;
获取所述欧氏距离最小的第二参数子向量和第二码字,并记录所述欧氏距离最小的第二码字的索引值。
这里,全连接层参数可以是,但不限于,具体为Ct×Cs的矩阵,其中Cs是输入层的节点数,Ct是输出层的节点数。将Cs所在维度均匀地分为M组, 每段的维度为[Cs/M](若维度不足,则在最后一段中补零),这样就可以将全连接层的参数分为M组,每组包含Ct个第二参数子向量。
在划分完的M组第二参数子向量中,分别进行K均值聚类获取每组对应的第二子码本,其中,K为正整数,K为第二子码本中的第二码字的数量。
进一步地,所述深度卷积神经网络为所述多个卷积层,所述根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图包括,重复执行以下处理,直至所述多个卷积层都被遍历:
输入第一特征图;
将所述第一特征图分割为M组,所述每组包括多个第一特征子向量;
将所述多个第一特征子向量分别与所述每组对应的第一子码本中的多个第一码字进行内积运算得到多个第一运算结果,并将所述多个第一运算结果存储在第一查找表中;
将所述多个第一运算结果进行求和得到输出的第一特征图。
这里,输入第一特征图,第一特征图可以是,但不限于,具体为Ws×Hs×Cs的三阶数组,其中,Ws是输入特征图的宽度,Hs是输入特征图的高度。将Cs所在维度均匀地分为M组,每组的维度为[Cs/M](若维度不足,则在最后一段中补零),这样就可以将卷积层中的第一特征图分为M组,每组包含Ws×Hs个第一特征子向量。
对于卷积层,输出的第一特征图中的某一节点的响应值,是输入第一特征图中对应空间区域内的各个位置上所有节点的响应值构成的向量,与 对应的卷积核中各个位置上所有连接权重构成的向量的内积之和,由公式(1)可知:
Figure PCTCN2015087792-appb-000001
其中,G是输出的第一特征图,G(ct,wt,ht)为其中第Ct个第一特征图上空间位置为(wt,ht)的节点,W为卷积核,Wct,wk,hk为该卷积核中的第Ct个卷积核,对应输出的第一特征图G中的第Ct个第一特征图中空间位置为(wk,hk)的参数向量,F是输入的第一特征图,
Figure PCTCN2015087792-appb-000002
hs表示其中的空间位置为(ws,hs)的特征向量。
这些内积可以拆分为多个子向量的内积之和,即将多个第一特征子向量分别与每组对应的第一子码本中的多个第一码字进行内积运算得到多个第一运算结果,将所述多个第一运算结果进行求和得到输出的第一特征图,具体由公式(2)可知:并将多个第一运算结果存储在第一查找表中,第一查找表的大小为Ws×Hs×M×K。
Figure PCTCN2015087792-appb-000003
其中,
Figure PCTCN2015087792-appb-000004
为第一参数子向量
Figure PCTCN2015087792-appb-000005
中的第m个子向量,
Figure PCTCN2015087792-appb-000006
为第一特征子向量
Figure PCTCN2015087792-appb-000007
中的第m个子向量;C(m)为第m个第一子码本,
Figure PCTCN2015087792-appb-000008
为第一参数子向量
Figure PCTCN2015087792-appb-000009
的量化索引值,
Figure PCTCN2015087792-appb-000010
为对第一参数子向量
Figure PCTCN2015087792-appb-000011
进行量化时所用的第一码字。
进一步地,所述深度卷积神经网络为所述多个全连接层,所述根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神 经网络的输出的特征图包括,重复执行以下处理,直至多个全连接层都被遍历:
输入第二特征图;
将所述第二特征图分割为M组,所述每组包括第二特征子向量;
将所述第二特征子向量与所述每组对应的第二子码本中的多个第二码字进行内积运算得到多个第二运算结果,并将所述多个第二运算结果存储在第二查找表中;
将所述多个第二运算结果进行求和得到输出的第二特征图。
这里,输入第二特征图,第二特征图可以是,但不限于,具体为Cs×1的列向量。将Cs所在维度均匀地分为M组,每段的维度为[Cs/M](若维度不足,则在最后一段中补零),这样就可以将全连接层中的第二特征图分为M组,每组包含1个第二特征子向量。
在划分完的M组特征子向量中,分别计算每个特征子向量与对应子码本中所有码字的内积,保存在一个查找表中。对于全连接层,该查找表的大小为M×K。
对于全连接层,第二特征图中的某一节点的响应值是第二特征图中所有节点的响应值构成的向量,与对应的连接权向量的内积,具体由公式(3)可知:
Figure PCTCN2015087792-appb-000012
其中,G为输出的第二特征图,G(ct)为第ct个节点,W为连接权矩阵,
Figure PCTCN2015087792-appb-000013
为该矩阵中的第ct行(对应输出特征图中的第ct个节点),即第二参数子向量,F为第二特征图,即特征向量。
这个内积可以拆分为多个子向量的内积之和,即将所述第二特征子向量与所述每组对应的第二子码本中的多个第二码字进行内积运算得到多个第二运算结果,并将所述多个第二运算结果存储在第二查找表中;将所述多个第二运算结果进行求和得到输出的第二特征图,具体由公式(4)可知:
Figure PCTCN2015087792-appb-000014
其中,
Figure PCTCN2015087792-appb-000015
为第二参数子向量
Figure PCTCN2015087792-appb-000016
中的第m个第二参数子向量,F(m)为第二特征子向量F中的第m个第二特征子向量,cm为第m个第二子码本,
Figure PCTCN2015087792-appb-000017
为第二参数子向量
Figure PCTCN2015087792-appb-000018
的量化索引值,
Figure PCTCN2015087792-appb-000019
为对第二参数子向量
Figure PCTCN2015087792-appb-000020
进行量化时所用的第二码字。
对于卷积层和全连接层,近似后的计算过程都可按照参数子向量的量化索引值,直接从查找表中获得对应的内积值,而不需要重复计算内积,因此可以显著地降低运算开销,提高运行速度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

  1. 一种基于参数量化的深度卷积神经网络的加速与压缩方法,其特征在于,所述方法包括:
    对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值;
    根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图。
  2. 根据权利要求1所述的方法,其特征在于,所述深度卷积神经网络为多个卷积层,所述对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值包括,重复执行以下处理,直至所述多个卷积层都被遍历:
    将所述卷积层的参数分割成M组,每组包括多个第一参数子向量,其中,M为正整数;
    对所述每组的多个第一参数子向量分别进行K均值聚类得到所述每组对应的第一子码本,所述第一子码本包括多个第一码字;
    分别计算所述多个第一参数子向量与所述多个第一码字的欧氏距离;
    获取所述欧氏距离最小的第一参数子向量和第一码字,并记录所述欧氏距离最小的第一码字的索引值。
  3. 根据权利要求2所述的方法,其特征在于,所述深度卷积神经网络为多个全连接层,所述对深度卷积神经网络的参数进行量化得到多个子码本和所述多个子码本分别对应的索引值包括,重复执行以下处理,直至所述多个全连接层都被遍历:
    将所述全连接层的参数分割成M组,每组包括多个第二参数子向量;
    对所述多个第二参数子向量分别进行K均值聚类得到所述每组对应的第二子码本,所述第二子码本包括多个第二码字;
    分别计算所述多个第二参数子向量与所述多个第二码字的欧氏距离;
    获取所述欧氏距离最小的第二参数子向量和第二码字,并记录所述欧氏距离最小的第二码字的索引值。
  4. 根据权利要求3所述的方法,其特征在于,所述深度卷积神经网络为所述多个卷积层,所述根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图包括,重复执行以下处理,直至所述多个卷积层都被遍历:
    输入第一特征图;
    将所述第一特征图分割为M组,所述每组包括多个第一特征子向量;
    将所述多个第一特征子向量分别与所述每组对应的第一子码本中的多个第一码字进行内积运算得到多个第一运算结果,并将所述多个第一运算结果存储在第一查找表中;
    将所述多个第一运算结果进行求和得到输出的第一特征图。
  5. 根据权利要求4所述的方法,其特征在于,所述深度卷积神经网络为所述多个全连接层,所述根据所述多个子码本和所述多个子码本分别对应的索引值获取所述深度卷积神经网络的输出的特征图包括,重复执行以下处理,直至所述多个全连接层都被遍历:
    输入第二特征图;
    将所述第二特征图分割为M组,所述每组包括第二特征子向量;
    将所述第二特征子向量与所述每组对应的第二子码本中的多个第二码字进行内积运算得到多个第二运算结果,并将所述多个第二运算结果存储在第二查找表中;
    将所述多个第二运算结果进行求和得到输出的第二特征图。
PCT/CN2015/087792 2015-08-21 2015-08-21 基于参数量化的深度卷积神经网络的加速与压缩方法 Ceased WO2017031630A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/753,520 US10970617B2 (en) 2015-08-21 2015-08-21 Deep convolutional neural network acceleration and compression method based on parameter quantification
PCT/CN2015/087792 WO2017031630A1 (zh) 2015-08-21 2015-08-21 基于参数量化的深度卷积神经网络的加速与压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/087792 WO2017031630A1 (zh) 2015-08-21 2015-08-21 基于参数量化的深度卷积神经网络的加速与压缩方法

Publications (1)

Publication Number Publication Date
WO2017031630A1 true WO2017031630A1 (zh) 2017-03-02

Family

ID=58099373

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/087792 Ceased WO2017031630A1 (zh) 2015-08-21 2015-08-21 基于参数量化的深度卷积神经网络的加速与压缩方法

Country Status (2)

Country Link
US (1) US10970617B2 (zh)
WO (1) WO2017031630A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578054A (zh) * 2017-09-27 2018-01-12 北京小米移动软件有限公司 图像处理方法及装置
CN108205702A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法
CN108510066A (zh) * 2018-04-08 2018-09-07 清华大学 一种应用于卷积神经网络的处理器
CN109214509A (zh) * 2017-07-05 2019-01-15 中国科学院沈阳自动化研究所 一种用于深度神经网络高速实时量化结构和运算实现方法
CN109685198A (zh) * 2017-10-19 2019-04-26 三星电子株式会社 用于量化神经网络的参数的方法和装置
CN109858495A (zh) * 2019-01-16 2019-06-07 五邑大学 一种基于改进卷积块的特征提取方法、装置及其存储介质
CN109978137A (zh) * 2019-03-20 2019-07-05 厦门美图之家科技有限公司 一种卷积神经网络的处理方法
CN109993298A (zh) * 2017-12-29 2019-07-09 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN110809771A (zh) * 2017-07-06 2020-02-18 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
CN110876062A (zh) * 2018-08-31 2020-03-10 三星电子株式会社 用于特征图的高速压缩处理的电子设备及其控制方法
CN110998607A (zh) * 2017-08-08 2020-04-10 三星电子株式会社 用于神经网络的系统和方法
CN112085191A (zh) * 2019-06-12 2020-12-15 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN112419112A (zh) * 2020-11-30 2021-02-26 郑兰 学业成长曲线生成方法、装置、电子设备和存储介质
CN113674207A (zh) * 2021-07-21 2021-11-19 电子科技大学 一种基于图卷积神经网络的pcb元器件自动定位方法
WO2022052647A1 (zh) * 2020-09-11 2022-03-17 华为技术有限公司 一种数据处理方法、神经网络的训练方法以及相关设备
CN114781604A (zh) * 2022-04-13 2022-07-22 广州安凯微电子股份有限公司 神经网络权重参数的编码方法、编码器及神经网络处理器
US12182686B2 (en) 2018-04-30 2024-12-31 International Business Machines Corporation Neural hardware accelerator for parallel and distributed tensor computations

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970617B2 (en) * 2015-08-21 2021-04-06 Institute Of Automation Chinese Academy Of Sciences Deep convolutional neural network acceleration and compression method based on parameter quantification
US10963779B2 (en) * 2015-11-12 2021-03-30 Google Llc Neural network programmer
CN107688466B (zh) * 2016-08-05 2020-11-03 中科寒武纪科技股份有限公司 一种运算装置及其操作方法
KR102499396B1 (ko) * 2017-03-03 2023-02-13 삼성전자 주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크 장치의 동작 방법
WO2018199721A1 (ko) * 2017-04-28 2018-11-01 서울대학교 산학협력단 뉴럴네트워크에서 데이터 처리를 가속화하는 방법 및 장치
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
CN110222308B (zh) * 2017-08-31 2020-12-29 安徽寒武纪信息科技有限公司 一种矩阵乘矩阵运算方法及装置
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US10411709B1 (en) * 2018-07-25 2019-09-10 Xilinx, Inc. Circuit arrangements and methods for dividing a three-dimensional input feature map
CN111105007B (zh) * 2018-10-26 2024-04-12 中国科学院半导体研究所 用于目标检测的深度卷积神经网络的压缩加速方法
CN111144560B (zh) * 2018-11-05 2024-02-02 杭州海康威视数字技术股份有限公司 一种深度神经网络运算方法及装置
CN111160517B (zh) * 2018-11-07 2024-02-06 杭州海康威视数字技术股份有限公司 一种深度神经网络的卷积层量化方法及装置
CN111542838B (zh) * 2018-12-12 2024-02-20 深圳鲲云信息科技有限公司 一种卷积神经网络的量化方法、装置及电子设备
CN109754074A (zh) * 2018-12-29 2019-05-14 北京中科寒武纪科技有限公司 一种神经网络量化方法、装置以及相关产品
CN111694617B (zh) 2018-12-29 2023-05-02 中科寒武纪科技股份有限公司 网络离线模型的处理方法、人工智能处理装置及相关产品
KR102659494B1 (ko) 2019-01-21 2024-04-23 삼성전자주식회사 전자 장치 및 그 제어 방법
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
WO2020160608A1 (en) 2019-02-07 2020-08-13 Ocean Logic Pty Ltd Highly parallel convolutional neural network
CN109993279B (zh) * 2019-03-11 2023-08-04 东南大学 一种基于查找表计算的双层同或二值神经网络压缩方法
KR102749978B1 (ko) 2019-05-10 2025-01-03 삼성전자주식회사 피처맵 데이터에 대한 압축을 수행하는 뉴럴 네트워크 프로세서 및 이를 포함하는 컴퓨팅 시스템
CN110163370B (zh) * 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质
JP7192984B2 (ja) * 2019-06-03 2022-12-20 日本電信電話株式会社 分散処理システムおよび分散処理方法
CN110659725B (zh) * 2019-09-20 2023-03-31 字节跳动有限公司 神经网络模型的压缩与加速方法、数据处理方法及装置
CN111091183B (zh) * 2019-12-17 2023-06-13 深圳鲲云信息科技有限公司 一种神经网络加速系统和方法
US11496151B1 (en) 2020-04-24 2022-11-08 Tencent America LLC Neural network model compression with block partitioning
CN113011569B (zh) * 2021-04-07 2024-06-18 开放智能机器(上海)有限公司 离线量化参数加注方法、装置、电子设备和存储介质
CN115222015A (zh) 2021-04-21 2022-10-21 阿里巴巴新加坡控股有限公司 指令处理装置、加速单元和服务器
CN114422606B (zh) * 2022-03-15 2022-06-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 联邦学习的通信开销压缩方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161912A1 (en) * 2007-12-21 2009-06-25 Raviv Yatom method for object detection
CN104077233A (zh) * 2014-06-18 2014-10-01 百度在线网络技术(北京)有限公司 单通道卷积层及多通道卷积层处理方法和装置
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014055874A1 (en) * 2012-10-05 2014-04-10 Raytheon BBN Technologies, Corp. Fast computation of kernel descriptors
US10970617B2 (en) * 2015-08-21 2021-04-06 Institute Of Automation Chinese Academy Of Sciences Deep convolutional neural network acceleration and compression method based on parameter quantification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161912A1 (en) * 2007-12-21 2009-06-25 Raviv Yatom method for object detection
CN104077233A (zh) * 2014-06-18 2014-10-01 百度在线网络技术(北京)有限公司 单通道卷积层及多通道卷积层处理方法和装置
CN104573731A (zh) * 2015-02-06 2015-04-29 厦门大学 基于卷积神经网络的快速目标检测方法
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214509A (zh) * 2017-07-05 2019-01-15 中国科学院沈阳自动化研究所 一种用于深度神经网络高速实时量化结构和运算实现方法
CN109214509B (zh) * 2017-07-05 2021-07-06 中国科学院沈阳自动化研究所 一种用于深度神经网络高速实时量化结构和运算实现方法
CN110809771B (zh) * 2017-07-06 2024-05-28 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
CN110809771A (zh) * 2017-07-06 2020-02-18 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
CN110998607B (zh) * 2017-08-08 2024-03-08 三星电子株式会社 用于神经网络的系统和方法
CN110998607A (zh) * 2017-08-08 2020-04-10 三星电子株式会社 用于神经网络的系统和方法
CN107578054A (zh) * 2017-09-27 2018-01-12 北京小米移动软件有限公司 图像处理方法及装置
CN109685198A (zh) * 2017-10-19 2019-04-26 三星电子株式会社 用于量化神经网络的参数的方法和装置
CN109685198B (zh) * 2017-10-19 2024-04-05 三星电子株式会社 用于量化神经网络的参数的方法和装置
CN109993298B (zh) * 2017-12-29 2023-08-08 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN108205702B (zh) * 2017-12-29 2020-12-01 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法
CN109993298A (zh) * 2017-12-29 2019-07-09 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN108205702A (zh) * 2017-12-29 2018-06-26 中国人民解放军国防科技大学 一种多输入多输出矩阵卷积的并行处理方法
WO2019196222A1 (zh) * 2018-04-08 2019-10-17 清华大学 一种应用于卷积神经网络的处理器
CN108510066B (zh) * 2018-04-08 2020-05-12 湃方科技(天津)有限责任公司 一种应用于卷积神经网络的处理器
CN108510066A (zh) * 2018-04-08 2018-09-07 清华大学 一种应用于卷积神经网络的处理器
US12182686B2 (en) 2018-04-30 2024-12-31 International Business Machines Corporation Neural hardware accelerator for parallel and distributed tensor computations
CN110876062A (zh) * 2018-08-31 2020-03-10 三星电子株式会社 用于特征图的高速压缩处理的电子设备及其控制方法
CN109858495B (zh) * 2019-01-16 2023-09-22 五邑大学 一种基于改进卷积块的特征提取方法、装置及其存储介质
CN109858495A (zh) * 2019-01-16 2019-06-07 五邑大学 一种基于改进卷积块的特征提取方法、装置及其存储介质
CN109978137A (zh) * 2019-03-20 2019-07-05 厦门美图之家科技有限公司 一种卷积神经网络的处理方法
CN109978137B (zh) * 2019-03-20 2021-03-16 厦门美图之家科技有限公司 一种卷积神经网络的处理方法
CN112085191B (zh) * 2019-06-12 2024-04-02 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN112085191A (zh) * 2019-06-12 2020-12-15 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN112085192A (zh) * 2019-06-12 2020-12-15 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN112085192B (zh) * 2019-06-12 2024-03-29 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
CN112085189B (zh) * 2019-06-12 2024-03-29 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
WO2022052647A1 (zh) * 2020-09-11 2022-03-17 华为技术有限公司 一种数据处理方法、神经网络的训练方法以及相关设备
CN112419112A (zh) * 2020-11-30 2021-02-26 郑兰 学业成长曲线生成方法、装置、电子设备和存储介质
CN112419112B (zh) * 2020-11-30 2024-03-05 郑兰 学业成长曲线生成方法、装置、电子设备和存储介质
CN113674207B (zh) * 2021-07-21 2023-04-07 电子科技大学 一种基于图卷积神经网络的pcb元器件自动定位方法
CN113674207A (zh) * 2021-07-21 2021-11-19 电子科技大学 一种基于图卷积神经网络的pcb元器件自动定位方法
CN114781604B (zh) * 2022-04-13 2024-02-20 广州安凯微电子股份有限公司 神经网络权重参数的编码方法、编码器及神经网络处理器
CN114781604A (zh) * 2022-04-13 2022-07-22 广州安凯微电子股份有限公司 神经网络权重参数的编码方法、编码器及神经网络处理器

Also Published As

Publication number Publication date
US10970617B2 (en) 2021-04-06
US20180247180A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
CN105184362B (zh) 基于参数量化的深度卷积神经网络的加速与压缩方法
WO2017031630A1 (zh) 基于参数量化的深度卷积神经网络的加速与压缩方法
US12346803B2 (en) Generating a compressed representation of a neural network with proficient inference speed and power consumption
US10970619B1 (en) Method and system for hierarchical weight-sparse convolution processing
EP3591583B1 (en) Neural network method and apparatus
KR102562320B1 (ko) 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치
US20210019630A1 (en) Loss-error-aware quantization of a low-bit neural network
JP7321372B2 (ja) 微細構造化重みプルーニング・重み統合によるニューラルネットワークモデルの圧縮のための方法、装置およびコンピュータプログラム
JP2021505993A5 (zh)
CN111783961A (zh) 基于激活定点拟合的卷积神经网络训练后量化方法及系统
CN111062475A (zh) 用于对神经网络的参数进行量化的方法和装置
CN110874636A (zh) 一种神经网络模型压缩方法、装置和计算机设备
CN109190759A (zh) 一种基于{-1,+1}编码的神经网络模型压缩与加速方法
CN108805257A (zh) 一种基于参数范数的神经网络量化方法
JP7504192B2 (ja) 画像を検索するための方法及び装置
WO2016142285A1 (en) Method and apparatus for image search using sparsifying analysis operators
CN112949724A (zh) 图像分类网络模型的训练方法、图像分类方法及相关设备
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
JP2007172384A5 (zh)
WO2022197615A1 (en) Techniques for adaptive generation and visualization of quantized neural networks
US20230410465A1 (en) Real time salient object detection in images and videos
EP3166022A1 (en) Method and apparatus for image search using sparsifying analysis operators
JP7425870B2 (ja) 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置
CN113591647B (zh) 人体动作识别方法、装置、计算机设备和存储介质
CN114862805A (zh) 一种基于轻量化网络的大型机械设备识别方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15901904

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15753520

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15901904

Country of ref document: EP

Kind code of ref document: A1