[go: up one dir, main page]

CN114819136B - 基于Im2col的并行深度卷积神经网络优化方法 - Google Patents

基于Im2col的并行深度卷积神经网络优化方法 Download PDF

Info

Publication number
CN114819136B
CN114819136B CN202210279825.6A CN202210279825A CN114819136B CN 114819136 B CN114819136 B CN 114819136B CN 202210279825 A CN202210279825 A CN 202210279825A CN 114819136 B CN114819136 B CN 114819136B
Authority
CN
China
Prior art keywords
data
parallel
convolution
batch
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210279825.6A
Other languages
English (en)
Other versions
CN114819136A (zh
Inventor
毛伊敏
戴经国
龚克
陈志刚
霍英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoguan University
Original Assignee
Shaoguan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoguan University filed Critical Shaoguan University
Priority to CN202210279825.6A priority Critical patent/CN114819136B/zh
Publication of CN114819136A publication Critical patent/CN114819136A/zh
Application granted granted Critical
Publication of CN114819136B publication Critical patent/CN114819136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于Im2col的并行深度卷积神经网络优化方法,包括以下步骤:S1,特征并行提取:提取数据中的目标特征作为卷积神经网络的输入;S2,模型并行训练:在并行DCNN模型训练阶段的卷积过程之中,通过IM‑PMTS策略完成分布式的卷积核剪枝,以及多节点卷积计算;并结合MapReduce和Im2col方法并行训练模型;S3,参数并行更新:在反向传播阶段,对于批量数据采用IM‑BGDS策略进行参数的更新;S4,将待测数据输入参数并行更新后的DCNN模型,输出分类结果。本发明提出MHO‑PFES策略能够避免数据冗余特征多的问题;IM‑PMTS策略提高了卷积层运算速度;IM‑BGDS策略排除异常数据对批梯度的影响,解决了损失函数收敛性差的问题。

Description

基于Im2col的并行深度卷积神经网络优化方法
技术领域
本发明涉及大数据挖掘领域,特别是涉及一种基于Im2col的并行深度卷积神经网络优化方法。
背景技术
DCNN作为深度学习领域中一类重要的分类算法,具有强大的表征能力、泛化能力和拟合能力,效果稳定且无需对数据做额外的特征工程,常被运用于图像分类、语音识别、对象检测、语义分割、人脸识别、自动驾驶等领域,受到人们的广泛关注和深入研究。
随着互联网技术的快速发展以及大数据时代的到来,使得大数据相较于传统数据,具有体积大(volume)、变化速度快(velocity)、多模态(variety)、价值高(value)的“4V”特性,4V特性导致DCNN模型训练将面临海量数据训练所带来的大量时间消耗,数据与模态变化导致模型参数需要反复训练等困难。因此,如何降低大数据环境下 DCNN模型训练的代价成为了一个亟待解决的问题。
近年来,Google公司开发的MapReduce并行计算模型以其易于编程、高容错性、均衡负载和扩展性强等优点深受广大学者和企业的青睐,许多基于MapReduce 计算模型的DCNN算法也得到了广泛的研究。Leung J等人提出基于MapReduce的并行化DCNN算法,该算法采用分而治之的思想,通过MapReduce的Split方法对数据进行划分,构建多个计算节点同时训练DCNN网络模型,选取准确率最高的网络模型作为算法的输出,实现了DCNN并行化训练过程。基于此,Huang X等人提出并行深度卷积神经网络算法FCNN(Fully CNN forprocessing CT scan image),算法将全视图转变为稀疏视图,并通过高斯滤波器,对特征边缘进行平滑处理,增强重要的纹理特征信息。虽然算法在将全视图转变为稀疏视图的过程会加快读取速度,但由于稀疏视图的特征结构变化,导致其难以对特征进行筛选,使得模型在训练的过程中会存在数据冗余特征多的问题。Wang H等人基于Im2col方法,提出单跨步优化CNN算法SSOCNN(An optimization of im2col,an important method of CNNsbased on continuous address access),该算法设计基于连续内存地址读取的单跨步情况下的 im2col算法加速方法,通过改变数据读取顺序,加速图像映射成矩阵的进程,并利用通用矩阵乘法对列向量和卷积核进行矩阵相乘运算,实现了对卷积层运算的加速。但在构建并行卷积运算的过程中,算法难以筛除分散在各个节点的冗余卷积核,导致在大数据环境下,无法解决卷积层运算速度慢的问题。毛等人通过将DCNN与萤火虫算法相结合,提出MR-FPDCNN算法(Deep convolutional neural network algorithm based on featuregraph and parallel computing entropy using MapReduce),该算法将信息共享搜索策略与萤火虫算法相结合来寻找网络模型最优参数,并通过MapReduce通信机制共享DCNN网络参数,加快了损失函数的收敛速度。但萤火虫算法鲁棒性较差,在处理异常数据时(错误标注,噪声数据等),会使得损失函数收敛震荡,进而导致损失函数收敛性差。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于Im2col的并行深度卷积神经网络优化方法。
为了实现本发明的上述目的,本发明提供了一种基于Im2col的并行深度卷积神经网络优化方法,包括以下步骤:
S1,特征并行提取:提取数据中的目标特征作为卷积神经网络的输入,解决了数据冗余特征多的问题;
S2,模型并行训练:在并行DCNN模型训练阶段的卷积过程之中,通过IM-PMTS 策略完成分布式的卷积核剪枝,以及多节点卷积计算;并结合MapReduce和Im2col 方法并行训练模型,提高了卷积层运算速度;
S3,参数并行更新:在反向传播阶段,对于批量数据采用IM-BGDS策略进行参数的更新,此策略对于批量数据的,可以排除异常数据点的梯度下降法,能避免异常数据点对批数据的梯度产生影响。
S4,将待测数据输入参数并行更新后的DCNN模型,输出分类结果。
进一步地,所述S1采用MHO-PFES策略进行特征并行提取,MHO-PFES策略包括以下步骤:
S1-1,特征提取:采用改进的非均值滤波器对输入数据进行滤波,并计算滤波数据的拉普拉斯方程h(x,y),寻找拉普拉斯方程的零交叉来提取数据特征;
S1-2,特征筛选:为进一步筛选目标特征,提出特征相关指数FCI(u,v)对比任意两个数据块间的相似度,并设定相关性系数ε,通过去除FCI(u,v)<ε的数据块来减少数据中的冗余特征。
进一步地,所述改进的非均值滤波器FT(a,b)包括:
其中a表示目标窗口矩阵;
b表示邻域窗口矩阵;
θ(·)为特征变换函数;
Gi为当前数据;
分别是矩阵a,b向量化的表示;
|·|表示向量的模。
进一步地,所述特征相关指数FCI(u,v)包括:
其中μuv分别表示u和v的期望;
σuv分别表示u和v的方差;
u和v分别表示两条特征向量。
进一步地,所述S2中的IM-PMTS策略包括以下步骤:
S2-1,卷积核剪枝:设计马氏距离中心值MDCV,通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量,并计算此向量到各个卷积核之间的距离dist,通过设定阈值α,裁剪dist<α的卷积核来减少网络模型中冗余参数;
S2-2,并行Im2col卷积:利用Im2col算法将特征图映射成矩阵,将矩阵与对应卷积核存储键值对,分发到各计算节点进行矩阵运算来加快卷积层的运算,得到运算卷积层运算结果,并将结果存入HDFS中。
进一步地,所述马氏距离中心值MDCV包括:
其中μ表示所有卷积核的均值;
S表示所有卷积核的协方差矩阵;
Rn是对于同一层级模型中卷积核的集合,Rn={X1,X2,...,Xn},x∈Rn,x取 {X1,X2,...,Xn}中任一个卷集合,X1,X2,...,Xn表示网络模型中的卷积核;
T表示转置。
进一步地,所述IM-BGDS策略包括以下步骤:
S3-1,梯度构建:提出损失均值权重LAW(gi)来排除异常数据对批梯度的影响,并设计损失求和梯度LSG(T)来构建批数据平均梯度,解决了损失函数收敛性差的问题;
S3-2,参数并行更新:在得到批数据的平均梯度后,结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差,实现参数的并行更新。
进一步地,所述损失均值权重LAW(gi)包括:
其中:
其中LAD(gi)为数据gi的损失函数值与损失函数值均值之差的绝对值;
gi表示批数据中的一条数据;
τ为衡量LAD(gi)的阈值;
batch_size表示批数据大小;
J(ω,b)i表示数据gi损失函数值;
ω,b分别是卷积核参数和卷积层的偏置。
进一步地,所述损失求和梯度LSG(T)包括:
其中batch_size表示批数据大小;
表示数据gi的损失函数对于参数x的梯度;
T表示批中所有数据;
LAW(gi)是数据gi的损失函数值的权重指标。
综上所述,由于采用了上述技术方案,本发明提出MHO-PFES策略能够避免数据冗余特征多的问题;IM-PMTS策略提高了卷积层运算速度;IM-BGDS策略排除异常数据对批梯度的影响,解决了损失函数收敛性差的问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是各算法在CIFAR10、ImageNet1K数据集的加速比,其中图1(a)是各算法在数据集CIFAR10上的加速比,图1(b)是各算法在数据集ImageNet1K上的加速比。
图2是各算法在CIFAR10、ImageNet1K上的Top-1准确率,其中图2(a)是各算法在数据集CIFAR10上的Top-1准确率,图2(b)是各算法在数据集ImageNet1K上的 Top-1准确率。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提出一种基于Im2col的并行深度卷积神经网络优化方法,具体实施例如下,包括以下步骤:
S1,特征并行提取:提取医疗图像数据中的目标特征作为卷积神经网络的输入;
S2,模型并行训练:在并行DCNN模型训练阶段的卷积过程之中,通过IM-PMTS 策略完成分布式的卷积核剪枝,以及多节点卷积计算;并结合MapReduce和Im2col 方法并行训练模型;
S3,参数并行更新:在反向传播阶段,对于批量医疗图像数据采用IM-BGDS策略进行参数的更新;
S4,将待医疗图像测数据输入参数并行更新后的DCNN模型,输出医疗图像的分类结果。
本发明基于MapReduce编程模型的优点,提出了一种基于Im2col算法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES(Parallel feature extraction strategy based on Marr Hildrethoperator),提取数据中的目标特征作为卷积神经网络的输入,有效避免数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS(Parallel model trainingstrategy based on Im2col method),通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后,提出改进的小批量梯度下降策略IM-BGDS(Improved Mini Batch gradient descent strategy),排除异常数据对批梯度的影响,解决了损失函数收敛性差的问题。本发明提出的算法无论是在运行效率上还是模型精确度上都有显著的提高,此外通过该方法所挖掘出的知识,能够在生物学,医学,天文地理学上提供巨大的帮助。
1.特征并行提取
目前在大数据环境下的并行DCNN算法中,在模型训练过程中存在数据冗余特征多的问题。为了解决此问题,提出了基于Marr-Hildreth算子的MHO-PFES策略,该策略主要包含两个步骤:(1)特征提取:提出改进的非均值滤波器FT(a,b)(Filter transformation)对输入数据进行滤波,并计算滤波数据的拉普拉斯方程h(x,y),寻找拉普拉斯方程的零交叉来提取数据特征;(2)特征筛选:为进一步筛选目标特征,提出特征相关指数FCI(u,v)(Feature correlation indices)对比任意两个数据块间的相似度,并设定相关性系数ε,通过去除FCI(u,v)<ε的数据块来减少数据中的冗余特征。
1.1特征提取
为了获取到高精度的数据特征,需先对初始数据集进行噪声去除,因此提出基于余弦相似度的非均值滤波器FT(a,b),通过数据在不同区域的自相似性来去除数据噪声;然后再通过卷积核f(x,y)与数据g(x,y)的拉普拉斯运算,构建并寻找拉普拉斯方程的零交叉来提取数据特征,其具体过程为:首先,设置目标窗口矩阵a与邻域窗口矩阵b,使邻域窗口在当前数据中进行滑动,通过对比矩阵a,b的余弦相似度得到邻域窗口的加权值,并根据权重值以及各个点本身的灰度值对数据进行降噪处理,得到降噪后图像g(x,y);接着,设置大小为3*3的卷积核f(x,y),对g(x,y)进行拉普拉斯运算,得到拉普拉斯方程其中x,y分别表示图像在(x,y)处的像素值,为拉普拉斯算子,a表示标窗口矩阵,b表示邻域窗口矩阵;最后,判断当前节点的二阶导数是否为交叉零点,且此节点的一阶导数处在较大峰值,若满足条件则将此节点保留,否则将此像素点置零,然后合并当前数据节点得到特征提取后数据。一般来说,针对于非均值去噪算法,数据指的就是图像数据。
定理1(基于余弦相似度的非均值滤波器FT(a,b)):已知a表示目标窗口矩阵, b表示邻域窗口矩阵,a,b∈(x,y),(x,y)表示当前数据。变换函数FT(a,b)的计算公式如下:
其中θ(·)为特征变换函数,例如可以是线性核函数,高斯核函数等;Gi为当前数据,分别是矩阵a,b向量化的表示,|·|表示向量的模。
证明:非局部均值滤波原理利用了噪声的非相关性特征,设无噪声的像素块的值为ω(p,q),噪声值为ψ(p,q),则与噪声融合后的像素块的值为ρ(p,q)=ω(p,q)+ψ(p,q),相似像素块叠加后取均值得到其中ρi(p,q)表示第i个像素块经过与噪声融合后的像素值,k为像素块的总个数;则的期望为 由于像素块的相似性,E[ωi(p,q)]可简化为ω(p,q),当噪声为0时,E[ψ(p,q)]=0,故此外,由于噪声的非相关性,ω(p,q)的方差为由于ω(p,q) 无噪声,方差为0,故则表明噪声ψ(p,q)与方差相关,FT(p,q)通过减小ψ(p,q)来降低数据噪声。证毕
1.2特征筛选
在完成特征提取后,策略将batch中数据切块,并提出特征相关指数FCI(u,v)来计算任意两个数据块之间的特征相似度,然后去除FCI(u,v)<ε的数据块来实现数据中冗余特征的去除,具体过程如下:首先,划分相同类别的数据至batch中,切分batch 中数据至等大小的数据块,并按照顺序给每个数据块编号,计算任意两个数据块之间的特征相关指数FCI(u,v),存储键值对<(u,v),FCI(u,v)>至HDFS中;然后,设定相关性系数ε,按顺序遍历键值对<(u,v),FCI(u,v)>来去除掉FCI(u,v)<ε的项;最后,再次遍历键值对<(u,v),FCI(u,v)>,读取所有键值对的key值来获取目标特征数据块的下标,并将筛除后的数据块拼接来获得卷积神经网络的输入数据,完成数据的特征筛选。
定理2(特征相关指数FCI(u,v)):已知u和v分别表示两条特征向量,μuv表示u和v的期望,σuv表示u和v的方差。特征相关指数FCI(u,v)的计算公式如下:
证明:FCI(u,v)是衡量u和v之间的特征相似度的指标,设μuv表示u和v的期望,σuv表示u和v的方差,当特征向量u在σu=0时,卷积过程在u上的操作属于线性叠加,无法对特征进行抽取,此时FCI(u,v)=0;当σu≠0,σv≠0且特征向量x和 y的特征相似时,FCI(u,v)→1,其中→表示趋近于。证毕
2.模型并行训练
在目前在大数据环境下的DCNN算法中,模型的并行训练需要将特征图与卷积核分散到不同的计算节点进行运算,但在构建并行卷积运算的过程中,算法难以筛除分散在各个节点的冗余卷积核,导致在大数据环境下,无法解决卷积层运算速度慢的问题。为了解决此问题,本文提出IM-PMTS策略,该策略主要包含两个步骤: (1)卷积核剪枝:设计马氏距离中心值MDCV(Mahalanobis distance center value),通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量,并计算此向量到各个卷积核之间的距离dist,通过设定阈值α,裁剪dist<α的卷积核来减少网络模型中冗余参数;(2)并行Im2col卷积:利用Im2col算法将特征图映射成矩阵,将矩阵与对应卷积核存储键值对,分发到各计算节点进行矩阵运算来加快卷积层的运算,得到运算卷积层运算结果,并将结果存入HDFS即Hadoop分布式文件系统中。
2.1卷积核剪枝
为了减少卷积神经网络中冗余卷积核所产生的无效计算,设计马氏距离中心值MDCV筛除当前卷积层中冗余卷积核,进而加速卷积层运算,其具体过程为:首先,计算卷积层所有的卷积核X1,X2,...,Xn的协方差矩阵S和均值μ,构建MDCV的目标函数f(x);接着,计算f(x)在其驻点xk处的二阶泰勒展开 表示拉普拉斯算子,(·)T表示转置;若当前二阶导数非奇异,则下一个迭代点为若当前二阶导数奇异,先求解确定搜索方向dk,在确定下一个迭代点xk+1=xk+dk,直至找到最优MDCV值;最后,计算卷积层中所有卷积核到 MDCV值的距离dist,并设定阈值α,裁剪dist<α的卷积核完成卷积核剪枝过程。其中k为搜索次数。
定理3(马氏距离中心值MDCV):已知X1,X2,...,Xn表示网络模型中的卷积核,S表示所有卷积核的协方差矩阵,μ表示所有卷积核的均值。马氏距离中心值MDCV 的计算公式如下:
其中Rn是对于同一层级模型中卷积核的集合,T表示转置。
证明:MDCV是特征向量x到特征向量组X1,X2,...,Xn的最小距离,设S为向量组X1,X2,...,Xn的协方差矩阵,μ为向量组的均值,其中引入协方差矩阵S来排除变量之间的相关性的干扰,当特征向量x→MDCV值时,特征向量x就越容易被特征向量组替代,当x=MDCV,x与X1,X2,...,Xn线性相关,故MDCV值为表示特征向量x*到特征向量组X1,X2,...,Xn的最小距离。证毕
2.2并行Im2col卷积
在完成卷积核剪枝后,便可结合MapReduce计算框架实现Im2col卷积的并行运算,其具体过程为:首先,通过Im2col方法把输入特征图Mi映射为卷积计算矩阵Ii,并将每张映射矩阵Ii与对应的卷积核存储键值对<Ii,Kz>,其中Kz表示与卷积计算矩阵Ii对应的卷积核,他们是多对多的关系;接着,调用Map()函数,将键值对中的矩阵Ii与对应卷积核的一维向量做矩阵相乘运算,得到卷积中间结果;最后,调用 Reduce()函数合并同一条数据的特征图,获得最终输出特征图NMi
3.参数并行更新
目前大数据下的并行DCNN算法,反向传播过程中采用随机梯度下降法或批梯度下降法进行参数的更新。然而,在实现梯度下降的过程中,DCNN模型在异常数据(错误标注,噪声数据等)上的训练会使得损失函数收敛震荡,导致损失函数收敛性差。为解决此问题,提出IM-BGDS策略,该策略主要包含两个步骤:(1)梯度构建:提出损失均值权重LAW(gi)(LossAverage Weight)来排除异常数据对批梯度的影响,并设计损失求和梯度LSG(T)(Loss SumGradient)来构建批数据平均梯度,解决了损失函数收敛性差的问题;(2)参数并行更新:在得到批数据的平均梯度后,结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差,实现参数的并行更新。
(1)梯度构建
为了排除异常数据对批梯度的影响,设计损失均值权重LAW(gi)和损失求和梯度LSG(T)来解决损失函数收敛性差的问题,其具体过程为:首先,在更新参数时,计算整个批数据的损失函数的均值,并将均值与每条数据gi的损失函数值做差,构建损失均值权重LAW(gi),存储键值对<gi,LAW(gi)>在HDFS中;接着,计算每条数据gi的损失函数对当前参数δz的偏导存储键值对在HDFS中,并设置batch_size为LAW(gi)中1的个数;最后,以gi为索引遍历键值对<gi,LAW(gi)>和构造批数据的平均梯度LSG(T),获得当前参数的批梯度。
定理4(损失均值权重LAW(gi)):已知gi表示批数据中的一条数据,J(ω,b)i表示数据gi损失函数值,ω,b分别是卷积核参数和卷积层的偏置,batch_size表示批数据大小,LAD(gi)为数据gi的损失函数值与损失函数值均值之差的绝对值。损失均值权重LAW(gi)的计算公式如下:
其中:
证明:LAW(gi)是数据gi的损失函数值的权重指标,设batch_size为批数据大小,τ为衡量LAD(gi)的阈值,当LAD(gi)<τ时,则当前数据gi的损失函数值属于常规值,故令LAW(gi)=1将其保留;当LAD(gi)≥τ时,则当前数据gi的损失函数值属于异常值,故令LAW(gi)=0。证毕
定理5(损失求和梯度LSG(T)):已知T表示批中所有数据,表示数据gi的损失函数对于参数x的梯度,batch_size表示批数据大小。损失求和梯度LSG(T)的计算公式如下:
证明:LSG(T)是批数据batch的平均梯度,设为数据gi的损失函数对于参数 x的梯度,batch_size为批数据大小,当LIW(gi)=1时,数据gi的梯度朝着最优方向下降;当LIW(gi)=0时,数据gi的梯度与最优方向偏差较大,不计入LSG(T) 梯度之中。证毕
(2)参数并行更新
在获得批数据平均梯度后,使用误差反向传播算法并行化的对误差项参数进行更新,并结合MapReduce计算框架,得到参数并行更新后的网络模型,参数并行更新过程具体为:首先,根据计算第l-1层卷积核所有参数的梯度并将结果映射为键值对存入HDFS中;接着,计算网络模型中卷积核参数的改变量以此更新第l-1层卷积核的网络参数,其中r为卷积核编号,其作用为对应相应梯度。最后,通过HDFS将更新后参数同步至所有计算节点,并进行下一步更新,直至网络模型中所有参数更新完成。其中l的取值范围取决于所采用的网络模型的卷积层层数。
4.基于Im2col的并行深度卷积神经网络优化算法(IA-PDCNNOA)的有效性
为了验证算法IA-PDCNNOA的性能效果,我们将IA-PDCNNOA方法应用于 ImageNet1K数据集和CIFAR10两个数据集上,其具体信息如表1所示。将 MR-FPDCNN、SSOCNN、FCNN算法在算法并行性能、分类精确度等方面进行了比较。
表1数据集详细信息
Items CIFAR10 ImageNet 1K
Number of pictures/sheets 60 000 1281 167
Picture size/pixel 32*32 224*224
Number of categories/categories 10 1000
4.1IA-PDCNNOA算法加速比实验分析
为验证IA-PDCNNOA算法在大数据在大数据环境中的并行化性能,本文基于CIFAR10和ImageNet 1K数据集,将加速比作为衡量指标,分别与MR-FPDCNN、 SSOCNN、FCNN,算法做比较。同时,为确保实验结果的准确性,取各算法平均10 次运行时长来计算加速比,作为最后实验结果。实验结果如图1所示:
从图1(a)可以看出,在处理CIFAR10这样规模相对较小的数据集时,各算法的加速比随着节点数的增加而缓慢增加,其中,当集群节点数为4时,IA-PDCNNOA 的加速比相比于并行化程度不高的FCNN和SSOCNN算法,分别低了0.3和0.5;但在图1(b)中,算法处理ImageNet 1K相对较大的数据集时,IA-PDCNNOA算法的加速比增速较大,在集群节点数为8时达到了9.8,分别比ME-FPDCNN、FCNN和 SSOCNN算法高1.1、4.1和4.6。产生这些结果的原因是:当IA-PDCNNOA算法在处理规模相对较小的数据集时,数据分布到各个计算节点会导致各节点间的通信时间开销快速增长,通过并行化运算获得的运行速度提升极为有限;当IA-PDCNNOA 算法在处理规模相对较大的数据集时,因为其设计的IM-PMTS策略,通过提出马氏距离中心值MDCV对同层卷积核剪枝,减少了卷积层参数在网络通信中的开销,然后通过结合MapReduce和Im2col方法并行训练的方式加速卷积运算的过程,提高了卷积层运算速度,并提升了算法的加速比,实验表明,IA-PDCNNOA算法并行化能力随着集群节点数的增多而显著增强,其适用于大数据集进行并行化处理,且具有较好的性能。
4.2IA-PDCNNOA算法准确率实验分析
为了进一步验证IA-PDCNNOA算法的训练效果,使用Top-1准确率作为衡量指标评价算法的训练效果,将IA-PDCNNOA、MR-FPDCNN、SSOCNN和FCNN分别在CIFAR10和ImageNet1K数据集上进行处理,计算其Top-1准确率作为实验结果,实验结果如图2所示:
从图2(a)可以看出,在处理CIFAR10这样规模相对较小的数据集时,各算法的Top-1准确率均能稳定在较高的数值,其中,IA-PDCNNOA算法的Top-1准确率最高,且较早的完成了收敛,达到了89.72%,相比于MR-FPDCNN、SSOCNN和FCNN 算法,高了2.87%、4.62%和6.48%;但在图2(b)中,算法处理ImageNet 1K相对较大的数据集时,各算法的Top-1准确率和算法收敛情况有较大差异,其中, IA-PDCNNOA算法的Top-1准确率在四个并行化算法中最高,达到了72.41%,相比于MR-FPDCNN、SSOCNN和FCNN算法,高了2.31%、7.98%和2.85%,但其他三个算法均出现了不同程度难以收敛的情况。产生这些结果是因为IA-PDCNNOA算法提出IM-BGDS策略,其设计损失求和梯度LSG(T)构建小批量数据梯度,并通过误差反向传播算法对参数并行更新,排除异常数据对批梯度的影响,增强了 IA-PDCNNOA算法的收敛性。实验数据表明,IA-PDCNNOA相较于其他三个并行化算法有着较高的收敛速度和准确率,其适用于大数据集下的深度卷积神经网络的模型并行化训练。
4.3IA-PDCNNOA算法运行时间和FLOPs实验分析
为验证IA-PDCNNOA算法在大数据在大数据环境中算法执行速度和模型优化效果,本文基于CIFAR10和ImageNet 1K数据集,分别计算Baseline、IA-PDCNNOA、 MR-FPDCNN、SSOCNN和FCNN的运行时间和FLOPs,其中Baseline为ResNet50 模型在1/8数据负载量下的基准数据,实验结果如表2所示:
表2各算法在两个数据集上的运行时间和FLOPs
从表2可以看出,在处理CIFAR10这样规模相对较小的数据集时,各算法运行时间没有较大的差距,但它们的浮点运算量均有不同程度的减少,其中, IA-PDCNNOA的浮点运算量相比于MR-FPDCNN、SSOCNN和FCNN算法,分别减少了5%、21%、16%;但在处理ImageNet1K这样较大的数据集时,IA-PDCNNOA 算法的运行时间和浮点运算量均优于其他三个算法,其中,IA-PDCNNOA算法的运行时间相比于MR-FPDCNN、SSOCNN和FCNN算法快了1.32×104s、3.85×104s和 5.29×104s,浮点运算量分别减少了3%、13%、8%。产生这些结果是因为IA-PDCNNOA 算法提出的MHO-PFES策略,其通过提出特征相关指数FCI(u,v),去除了数据中的冗余特征,并筛选数据的目标特征作为卷积神经网络的输入,减少了模型的浮点运算量,加快了算法的运行速度。总体来看,对比四个算法在CIFAR10和ImageNet 1K 上的运行时间和浮点运算量的变化趋势,可以看出IA-PDCNNOA算法随着训练数据集的增大,其运行时间和浮点运算量的减少在与其他算法拉开了较大差距,因此可以得出结论,IA-PDCNNOA优于MR-FPDCNN、SSOCNN和FCNN,适用于大数据集下的DCNN模型并行化训练。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (3)

1.一种基于Im2col的并行深度卷积神经网络优化方法,其特征在于,包括以下步骤:
S1,特征并行提取:提取医疗图像数据中的目标特征作为卷积神经网络的输入;
S2,模型并行训练:在并行DCNN模型训练阶段的卷积过程之中,通过IM-PMTS策略完成分布式的卷积核剪枝,以及多节点卷积计算;并结合MapReduce和Im2col方法并行训练模型;
S3,参数并行更新:在反向传播阶段,对于批量医疗图像数据采用IM-BGDS策略进行参数的更新;
S4,将待测医疗图像测数据输入参数并行更新后的DCNN模型,输出医疗图像的分类结果;
所述S1采用MHO-PFES策略进行特征并行提取,MHO-PFES策略包括以下步骤:
S1-1,特征提取:采用改进的非均值滤波器对输入数据进行滤波,并计算滤波数据的拉普拉斯方程h(x,y),寻找拉普拉斯方程的零交叉来提取数据特征;
S1-2,特征筛选:为进一步筛选目标特征,提出特征相关指数FCI(u,v)对比任意两个数据块间的相似度,并设定相关性系数ε,通过去除FCI(u,v)<ε的数据块来减少数据中的冗余特征;
所述特征相关指数FCI(u,v)包括:
其中μuv分别表示u和v的期望;
σuv分别表示u和v的方差;
u和v分别表示两条特征向量;
所述S2中的IM-PMTS策略包括以下步骤:
S2-1,卷积核剪枝:设计马氏距离中心值MDCV,通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量,并计算此向量到各个卷积核之间的距离dist,通过设定阈值α,裁剪dist<α的卷积核来减少网络模型中冗余参数;
S2-2,并行Im2col卷积:利用Im2col算法将特征图映射成矩阵,将矩阵与对应卷积核存储键值对,分发到各计算节点进行矩阵运算来加快卷积层的运算,得到运算卷积层运算结果,并将结果存入HDFS中;
所述马氏距离中心值MDCV包括:
其中μ表示所有卷积核的均值;
S表示所有卷积核的协方差矩阵;
Rn是对于同一层级模型中卷积核的集合;
T表示转置;
所述IM-BGDS策略包括以下步骤:
S3-1,梯度构建:提出损失均值权重LAW(gi)来排除异常数据对批梯度的影响,并设计损失求和梯度LSG(T)来构建批数据平均梯度,解决了损失函数收敛性差的问题;
S3-2,参数并行更新:在得到批数据的平均梯度后,结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差,实现参数的并行更新;
所述损失均值权重LAW(gi)包括:
其中:
其中LAD(gi)为数据gi的损失函数值与损失函数值均值之差的绝对值;
gi表示批数据中的一条数据;
τ为衡量LAD(gi)的阈值;
batch_size表示批数据大小;
J(ω,b)i表示数据gi损失函数值;
ω,b分别是卷积核参数和卷积层的偏置。
2.根据权利要求1所述的一种基于Im2col的并行深度卷积神经网络优化方法,其特征在于,所述改进的非均值滤波器FT(a,b)包括:
其中a表示目标窗口矩阵;
b表示邻域窗口矩阵;
θ(·)为特征变换函数;
Gi为当前数据;
分别是矩阵a,b向量化的表示;
|·|表示向量的模。
3.根据权利要求1所述的一种基于Im2col的并行深度卷积神经网络优化方法,其特征在于,所述损失求和梯度LSG(T)包括:
其中batch_size表示批数据大小;
▽Jxi表示数据gi的损失函数对于参数x的梯度;
T表示批中所有数据;
LAW(gi)是数据gi的损失函数值的权重指标。
CN202210279825.6A 2022-03-21 2022-03-21 基于Im2col的并行深度卷积神经网络优化方法 Active CN114819136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279825.6A CN114819136B (zh) 2022-03-21 2022-03-21 基于Im2col的并行深度卷积神经网络优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279825.6A CN114819136B (zh) 2022-03-21 2022-03-21 基于Im2col的并行深度卷积神经网络优化方法

Publications (2)

Publication Number Publication Date
CN114819136A CN114819136A (zh) 2022-07-29
CN114819136B true CN114819136B (zh) 2025-06-13

Family

ID=82530794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279825.6A Active CN114819136B (zh) 2022-03-21 2022-03-21 基于Im2col的并行深度卷积神经网络优化方法

Country Status (1)

Country Link
CN (1) CN114819136B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3868358B2 (ja) * 2002-09-27 2007-01-17 株式会社国際電気通信基礎技術研究所 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム
CN107680082A (zh) * 2017-09-11 2018-02-09 宁夏医科大学 基于深度卷积神经网络和全局特征的肺部肿瘤识别方法
CN107944399A (zh) * 2017-11-28 2018-04-20 广州大学 一种基于卷积神经网络目标中心模型的行人重识别方法
CN109271882B (zh) * 2018-08-28 2020-05-15 昆明理工大学 一种区分颜色的手写体汉字提取方法
CN111126602A (zh) * 2019-12-25 2020-05-08 浙江大学 一种基于卷积核相似性剪枝的循环神经网络模型压缩方法
CN113610226B (zh) * 2021-07-19 2022-08-09 南京中科逆熵科技有限公司 基于在线深度学习的数据集自适应裁减方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Im2col的并行深度卷积神经网络优化算法;胡健;龚克;毛伊敏;陈志刚;陈亮;计算机应用研究;20221231;第39卷(第010期);全文 *
基于MapReduce的深度并行卷积神经网络优化算法研究;龚克;《中国优秀硕士论文全文数据库》;20240415;I140-124 *

Also Published As

Publication number Publication date
CN114819136A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN108846445B (zh) 一种图像处理方法
Van Der Maaten Accelerating t-SNE using tree-based algorithms
CN113705674B (zh) 一种非负矩阵分解聚类方法、装置及可读存储介质
Dong et al. Copt: Coordinated optimal transport on graphs
CN108171010B (zh) 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
Liang et al. Scalable spectral ensemble clustering via building representative co-association matrix
Kang et al. Consensus low-rank multi-view subspace clustering with cross-view diversity preserving
CN115424138B (zh) 一种基于深度神经网络的高光谱图像分类方法
CN114819136B (zh) 基于Im2col的并行深度卷积神经网络优化方法
CN111738298B (zh) 一种基于深宽可变多核学习的mnist手写数字数据的分类方法
CN113205124B (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质
Pal et al. Finding hierarchy of clusters
CN118799603B (zh) 一种基于深度学习的不完全多视图聚类方法及系统
CN120047859A (zh) 一种无人机目标跟踪方法、系统、设备及存储介质
CN118737273A (zh) 一种用于细胞类型反卷积和3d重构的深度学习方法
Shang et al. Co-evolution-based immune clonal algorithm for clustering
Rosman et al. Topologically constrained isometric embedding
Chen et al. On the impact of spatial covariance matrix ordering on tile low‐rank estimation of Matérn parameters
CN113470738B (zh) 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统
Huang et al. A Study of Deep Fuzzy Clustering Method Based on Maximum Entropy Clustering
Soheily-Khah Generalized k-means based clustering for temporal data under time warp
CN120429657B (zh) 一种基于张量增强图相似性的药物耐药性预测系统及方法
Yuan et al. Spectral averagely-dense clustering based on dynamic shared nearest neighbors
CN113988139B (zh) 基于多数据集协同分析的高光谱波段选择方法及存储介质
Fan et al. Fusing Multi-scale Residual Network for Skeleton Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant