CN114819136B

CN114819136B - 基于Im2col的并行深度卷积神经网络优化方法

Info

Publication number: CN114819136B
Application number: CN202210279825.6A
Authority: CN
Inventors: 毛伊敏; 戴经国; 龚克; 陈志刚; 霍英
Original assignee: Shaoguan University
Current assignee: Shaoguan University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2025-06-13
Anticipated expiration: 2042-03-21
Also published as: CN114819136A

Abstract

本发明提出了一种基于Im2col的并行深度卷积神经网络优化方法，包括以下步骤：S1，特征并行提取：提取数据中的目标特征作为卷积神经网络的输入；S2，模型并行训练：在并行DCNN模型训练阶段的卷积过程之中，通过IM‑PMTS策略完成分布式的卷积核剪枝，以及多节点卷积计算；并结合MapReduce和Im2col方法并行训练模型；S3，参数并行更新：在反向传播阶段，对于批量数据采用IM‑BGDS策略进行参数的更新；S4，将待测数据输入参数并行更新后的DCNN模型，输出分类结果。本发明提出MHO‑PFES策略能够避免数据冗余特征多的问题；IM‑PMTS策略提高了卷积层运算速度；IM‑BGDS策略排除异常数据对批梯度的影响，解决了损失函数收敛性差的问题。

Description

基于Im2col的并行深度卷积神经网络优化方法

技术领域

本发明涉及大数据挖掘领域，特别是涉及一种基于Im2col的并行深度卷积神经网络优化方法。

背景技术

DCNN作为深度学习领域中一类重要的分类算法，具有强大的表征能力、泛化能力和拟合能力，效果稳定且无需对数据做额外的特征工程，常被运用于图像分类、语音识别、对象检测、语义分割、人脸识别、自动驾驶等领域，受到人们的广泛关注和深入研究。

随着互联网技术的快速发展以及大数据时代的到来，使得大数据相较于传统数据，具有体积大(volume)、变化速度快(velocity)、多模态(variety)、价值高(value)的“4V”特性，4V特性导致DCNN模型训练将面临海量数据训练所带来的大量时间消耗，数据与模态变化导致模型参数需要反复训练等困难。因此，如何降低大数据环境下 DCNN模型训练的代价成为了一个亟待解决的问题。

近年来，Google公司开发的MapReduce并行计算模型以其易于编程、高容错性、均衡负载和扩展性强等优点深受广大学者和企业的青睐，许多基于MapReduce 计算模型的DCNN算法也得到了广泛的研究。Leung J等人提出基于MapReduce的并行化DCNN算法，该算法采用分而治之的思想，通过MapReduce的Split方法对数据进行划分，构建多个计算节点同时训练DCNN网络模型，选取准确率最高的网络模型作为算法的输出，实现了DCNN并行化训练过程。基于此，Huang X等人提出并行深度卷积神经网络算法FCNN(Fully CNN forprocessing CT scan image)，算法将全视图转变为稀疏视图，并通过高斯滤波器，对特征边缘进行平滑处理，增强重要的纹理特征信息。虽然算法在将全视图转变为稀疏视图的过程会加快读取速度，但由于稀疏视图的特征结构变化，导致其难以对特征进行筛选，使得模型在训练的过程中会存在数据冗余特征多的问题。Wang H等人基于Im2col方法，提出单跨步优化CNN算法SSOCNN(An optimization of im2col,an important method of CNNsbased on continuous address access)，该算法设计基于连续内存地址读取的单跨步情况下的 im2col算法加速方法，通过改变数据读取顺序，加速图像映射成矩阵的进程，并利用通用矩阵乘法对列向量和卷积核进行矩阵相乘运算，实现了对卷积层运算的加速。但在构建并行卷积运算的过程中，算法难以筛除分散在各个节点的冗余卷积核，导致在大数据环境下，无法解决卷积层运算速度慢的问题。毛等人通过将DCNN与萤火虫算法相结合，提出MR-FPDCNN算法(Deep convolutional neural network algorithm based on featuregraph and parallel computing entropy using MapReduce)，该算法将信息共享搜索策略与萤火虫算法相结合来寻找网络模型最优参数，并通过MapReduce通信机制共享DCNN网络参数，加快了损失函数的收敛速度。但萤火虫算法鲁棒性较差，在处理异常数据时(错误标注，噪声数据等)，会使得损失函数收敛震荡，进而导致损失函数收敛性差。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于Im2col的并行深度卷积神经网络优化方法。

为了实现本发明的上述目的，本发明提供了一种基于Im2col的并行深度卷积神经网络优化方法，包括以下步骤：

S1，特征并行提取：提取数据中的目标特征作为卷积神经网络的输入，解决了数据冗余特征多的问题；

S2，模型并行训练：在并行DCNN模型训练阶段的卷积过程之中，通过IM-PMTS 策略完成分布式的卷积核剪枝，以及多节点卷积计算；并结合MapReduce和Im2col 方法并行训练模型，提高了卷积层运算速度；

S3，参数并行更新：在反向传播阶段，对于批量数据采用IM-BGDS策略进行参数的更新，此策略对于批量数据的，可以排除异常数据点的梯度下降法，能避免异常数据点对批数据的梯度产生影响。

S4，将待测数据输入参数并行更新后的DCNN模型，输出分类结果。

进一步地，所述S1采用MHO-PFES策略进行特征并行提取，MHO-PFES策略包括以下步骤：

S1-1，特征提取：采用改进的非均值滤波器对输入数据进行滤波，并计算滤波数据的拉普拉斯方程h(x,y)，寻找拉普拉斯方程的零交叉来提取数据特征；

S1-2，特征筛选：为进一步筛选目标特征，提出特征相关指数FCI(u,v)对比任意两个数据块间的相似度，并设定相关性系数ε，通过去除FCI(u,v)<ε的数据块来减少数据中的冗余特征。

进一步地，所述改进的非均值滤波器FT(a,b)包括：

其中a表示目标窗口矩阵；

b表示邻域窗口矩阵；

θ(·)为特征变换函数；

G_i为当前数据；

分别是矩阵a,b向量化的表示；

|·|表示向量的模。

进一步地，所述特征相关指数FCI(u,v)包括：

其中μ_u,μ_v分别表示u和v的期望；

σ_u,σ_v分别表示u和v的方差；

u和v分别表示两条特征向量。

进一步地，所述S2中的IM-PMTS策略包括以下步骤：

S2-1，卷积核剪枝：设计马氏距离中心值MDCV，通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量，并计算此向量到各个卷积核之间的距离dist，通过设定阈值α，裁剪dist<α的卷积核来减少网络模型中冗余参数；

S2-2，并行Im2col卷积：利用Im2col算法将特征图映射成矩阵，将矩阵与对应卷积核存储键值对，分发到各计算节点进行矩阵运算来加快卷积层的运算，得到运算卷积层运算结果，并将结果存入HDFS中。

进一步地，所述马氏距离中心值MDCV包括：

其中μ表示所有卷积核的均值；

S表示所有卷积核的协方差矩阵；

Rⁿ是对于同一层级模型中卷积核的集合，Rⁿ＝{X₁,X₂,...,X_n}，x∈Rⁿ，x取 {X₁,X₂,...,X_n}中任一个卷集合，X₁,X₂,...,X_n表示网络模型中的卷积核；

T表示转置。

进一步地，所述IM-BGDS策略包括以下步骤：

S3-1，梯度构建：提出损失均值权重LAW(g_i)来排除异常数据对批梯度的影响，并设计损失求和梯度LSG(T)来构建批数据平均梯度，解决了损失函数收敛性差的问题；

S3-2，参数并行更新：在得到批数据的平均梯度后，结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差，实现参数的并行更新。

进一步地，所述损失均值权重LAW(g_i)包括：

其中：

其中LAD(g_i)为数据g_i的损失函数值与损失函数值均值之差的绝对值；

g_i表示批数据中的一条数据；

τ为衡量LAD(g_i)的阈值；

batch_size表示批数据大小；

J(ω,b)_i表示数据g_i损失函数值；

ω,b分别是卷积核参数和卷积层的偏置。

进一步地，所述损失求和梯度LSG(T)包括：

其中batch_size表示批数据大小；

表示数据g_i的损失函数对于参数x的梯度；

T表示批中所有数据；

LAW(g_i)是数据g_i的损失函数值的权重指标。

综上所述，由于采用了上述技术方案，本发明提出MHO-PFES策略能够避免数据冗余特征多的问题；IM-PMTS策略提高了卷积层运算速度；IM-BGDS策略排除异常数据对批梯度的影响，解决了损失函数收敛性差的问题。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是各算法在CIFAR10、ImageNet1K数据集的加速比，其中图1(a)是各算法在数据集CIFAR10上的加速比，图1(b)是各算法在数据集ImageNet1K上的加速比。

图2是各算法在CIFAR10、ImageNet1K上的Top-1准确率，其中图2(a)是各算法在数据集CIFAR10上的Top-1准确率，图2(b)是各算法在数据集ImageNet1K上的 Top-1准确率。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提出一种基于Im2col的并行深度卷积神经网络优化方法，具体实施例如下，包括以下步骤：

S1，特征并行提取：提取医疗图像数据中的目标特征作为卷积神经网络的输入；

S2，模型并行训练：在并行DCNN模型训练阶段的卷积过程之中，通过IM-PMTS 策略完成分布式的卷积核剪枝，以及多节点卷积计算；并结合MapReduce和Im2col 方法并行训练模型；

S3，参数并行更新：在反向传播阶段，对于批量医疗图像数据采用IM-BGDS策略进行参数的更新；

S4，将待医疗图像测数据输入参数并行更新后的DCNN模型，输出医疗图像的分类结果。

本发明基于MapReduce编程模型的优点，提出了一种基于Im2col算法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先，提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES(Parallel feature extraction strategy based on Marr Hildrethoperator)，提取数据中的目标特征作为卷积神经网络的输入，有效避免数据冗余特征多的问题；其次，设计基于Im2col方法的并行模型训练策略IM-PMTS(Parallel model trainingstrategy based on Im2col method)，通过设计马氏距离中心值去除冗余卷积核，并结合MapReduce和Im2col方法并行训练模型，提高了卷积层运算速度；最后，提出改进的小批量梯度下降策略IM-BGDS(Improved Mini Batch gradient descent strategy)，排除异常数据对批梯度的影响，解决了损失函数收敛性差的问题。本发明提出的算法无论是在运行效率上还是模型精确度上都有显著的提高，此外通过该方法所挖掘出的知识，能够在生物学，医学，天文地理学上提供巨大的帮助。

1.特征并行提取

目前在大数据环境下的并行DCNN算法中，在模型训练过程中存在数据冗余特征多的问题。为了解决此问题，提出了基于Marr-Hildreth算子的MHO-PFES策略，该策略主要包含两个步骤：(1)特征提取：提出改进的非均值滤波器FT(a,b)(Filter transformation)对输入数据进行滤波，并计算滤波数据的拉普拉斯方程h(x,y)，寻找拉普拉斯方程的零交叉来提取数据特征；(2)特征筛选：为进一步筛选目标特征，提出特征相关指数FCI(u,v)(Feature correlation indices)对比任意两个数据块间的相似度，并设定相关性系数ε，通过去除FCI(u,v)<ε的数据块来减少数据中的冗余特征。

1.1特征提取

为了获取到高精度的数据特征，需先对初始数据集进行噪声去除，因此提出基于余弦相似度的非均值滤波器FT(a,b)，通过数据在不同区域的自相似性来去除数据噪声；然后再通过卷积核f(x,y)与数据g(x,y)的拉普拉斯运算，构建并寻找拉普拉斯方程的零交叉来提取数据特征，其具体过程为：首先，设置目标窗口矩阵a与邻域窗口矩阵b，使邻域窗口在当前数据中进行滑动，通过对比矩阵a,b的余弦相似度得到邻域窗口的加权值，并根据权重值以及各个点本身的灰度值对数据进行降噪处理，得到降噪后图像g(x,y)；接着，设置大小为3*3的卷积核f(x,y)，对g(x,y)进行拉普拉斯运算，得到拉普拉斯方程其中x,y分别表示图像在(x,y)处的像素值，为拉普拉斯算子，a表示标窗口矩阵，b表示邻域窗口矩阵；最后，判断当前节点的二阶导数是否为交叉零点，且此节点的一阶导数处在较大峰值，若满足条件则将此节点保留，否则将此像素点置零，然后合并当前数据节点得到特征提取后数据。一般来说，针对于非均值去噪算法，数据指的就是图像数据。

定理1(基于余弦相似度的非均值滤波器FT(a,b))：已知a表示目标窗口矩阵， b表示邻域窗口矩阵，a,b∈(x,y)，(x,y)表示当前数据。变换函数FT(a,b)的计算公式如下：

其中θ(·)为特征变换函数，例如可以是线性核函数，高斯核函数等；G_i为当前数据，分别是矩阵a,b向量化的表示，|·|表示向量的模。

证明：非局部均值滤波原理利用了噪声的非相关性特征，设无噪声的像素块的值为ω(p,q)，噪声值为ψ(p,q)，则与噪声融合后的像素块的值为ρ(p,q)＝ω(p,q)+ψ(p,q)，相似像素块叠加后取均值得到其中ρi(p,q)表示第i个像素块经过与噪声融合后的像素值，k为像素块的总个数；则的期望为由于像素块的相似性，E[ω_i(p,q)]可简化为ω(p,q)，当噪声为0时，E[ψ(p,q)]＝0，故此外，由于噪声的非相关性，ω(p,q)的方差为由于ω(p,q) 无噪声，方差为0，故则表明噪声ψ(p,q)与方差相关，FT(p,q)通过减小ψ(p,q)来降低数据噪声。证毕

1.2特征筛选

在完成特征提取后，策略将batch中数据切块，并提出特征相关指数FCI(u,v)来计算任意两个数据块之间的特征相似度，然后去除FCI(u,v)<ε的数据块来实现数据中冗余特征的去除，具体过程如下：首先，划分相同类别的数据至batch中，切分batch 中数据至等大小的数据块，并按照顺序给每个数据块编号，计算任意两个数据块之间的特征相关指数FCI(u,v)，存储键值对<(u,v),FCI(u,v)>至HDFS中；然后，设定相关性系数ε，按顺序遍历键值对<(u,v),FCI(u,v)>来去除掉FCI(u,v)<ε的项；最后，再次遍历键值对<(u,v),FCI(u,v)>，读取所有键值对的key值来获取目标特征数据块的下标，并将筛除后的数据块拼接来获得卷积神经网络的输入数据，完成数据的特征筛选。

定理2(特征相关指数FCI(u,v))：已知u和v分别表示两条特征向量，μ_u,μ_v表示u和v的期望，σ_u,σ_v表示u和v的方差。特征相关指数FCI(u,v)的计算公式如下：

证明：FCI(u,v)是衡量u和v之间的特征相似度的指标，设μ_u,μ_v表示u和v的期望，σ_u,σ_v表示u和v的方差，当特征向量u在σ_u＝0时，卷积过程在u上的操作属于线性叠加，无法对特征进行抽取，此时FCI(u,v)＝0；当σ_u≠0,σ_v≠0且特征向量x和 y的特征相似时，FCI(u,v)→1，其中→表示趋近于。证毕

2.模型并行训练

在目前在大数据环境下的DCNN算法中，模型的并行训练需要将特征图与卷积核分散到不同的计算节点进行运算，但在构建并行卷积运算的过程中，算法难以筛除分散在各个节点的冗余卷积核，导致在大数据环境下，无法解决卷积层运算速度慢的问题。为了解决此问题，本文提出IM-PMTS策略，该策略主要包含两个步骤： (1)卷积核剪枝：设计马氏距离中心值MDCV(Mahalanobis distance center value)，通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量，并计算此向量到各个卷积核之间的距离dist，通过设定阈值α，裁剪dist<α的卷积核来减少网络模型中冗余参数；(2)并行Im2col卷积：利用Im2col算法将特征图映射成矩阵，将矩阵与对应卷积核存储键值对，分发到各计算节点进行矩阵运算来加快卷积层的运算，得到运算卷积层运算结果，并将结果存入HDFS即Hadoop分布式文件系统中。

2.1卷积核剪枝

为了减少卷积神经网络中冗余卷积核所产生的无效计算，设计马氏距离中心值MDCV筛除当前卷积层中冗余卷积核，进而加速卷积层运算，其具体过程为：首先，计算卷积层所有的卷积核X₁,X₂,...,X_n的协方差矩阵S和均值μ，构建MDCV的目标函数f(x)；接着，计算f(x)在其驻点x_k处的二阶泰勒展开表示拉普拉斯算子，(·)^T表示转置；若当前二阶导数非奇异，则下一个迭代点为若当前二阶导数奇异，先求解确定搜索方向d_k，在确定下一个迭代点x_k+1＝x_k+d_k，直至找到最优MDCV值；最后，计算卷积层中所有卷积核到 MDCV值的距离dist，并设定阈值α，裁剪dist<α的卷积核完成卷积核剪枝过程。其中k为搜索次数。

定理3(马氏距离中心值MDCV)：已知X₁,X₂,...,X_n表示网络模型中的卷积核，S表示所有卷积核的协方差矩阵，μ表示所有卷积核的均值。马氏距离中心值MDCV 的计算公式如下：

其中Rn是对于同一层级模型中卷积核的集合，T表示转置。

证明：MDCV是特征向量x到特征向量组X₁,X₂,...,X_n的最小距离，设S为向量组X₁,X₂,...,X_n的协方差矩阵，μ为向量组的均值，其中引入协方差矩阵S来排除变量之间的相关性的干扰，当特征向量x→MDCV值时，特征向量x就越容易被特征向量组替代，当x＝MDCV，x与X₁,X₂,...,X_n线性相关，故MDCV值为表示特征向量x^*到特征向量组X₁,X₂,...,X_n的最小距离。证毕

2.2并行Im2col卷积

在完成卷积核剪枝后，便可结合MapReduce计算框架实现Im2col卷积的并行运算，其具体过程为：首先，通过Im2col方法把输入特征图M_i映射为卷积计算矩阵I_i，并将每张映射矩阵I_i与对应的卷积核存储键值对<I_i,K_z>，其中K_z表示与卷积计算矩阵I_i对应的卷积核，他们是多对多的关系；接着，调用Map()函数，将键值对中的矩阵I_i与对应卷积核的一维向量做矩阵相乘运算，得到卷积中间结果；最后，调用 Reduce()函数合并同一条数据的特征图，获得最终输出特征图NM_i。

3.参数并行更新

目前大数据下的并行DCNN算法，反向传播过程中采用随机梯度下降法或批梯度下降法进行参数的更新。然而，在实现梯度下降的过程中，DCNN模型在异常数据(错误标注，噪声数据等)上的训练会使得损失函数收敛震荡，导致损失函数收敛性差。为解决此问题，提出IM-BGDS策略，该策略主要包含两个步骤：(1)梯度构建：提出损失均值权重LAW(g_i)(LossAverage Weight)来排除异常数据对批梯度的影响，并设计损失求和梯度LSG(T)(Loss SumGradient)来构建批数据平均梯度，解决了损失函数收敛性差的问题；(2)参数并行更新：在得到批数据的平均梯度后，结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差，实现参数的并行更新。

(1)梯度构建

为了排除异常数据对批梯度的影响，设计损失均值权重LAW(g_i)和损失求和梯度LSG(T)来解决损失函数收敛性差的问题，其具体过程为：首先，在更新参数时，计算整个批数据的损失函数的均值，并将均值与每条数据g_i的损失函数值做差，构建损失均值权重LAW(g_i)，存储键值对<g_i,LAW(g_i)>在HDFS中；接着，计算每条数据g_i的损失函数对当前参数δ_z的偏导存储键值对在HDFS中，并设置batch_size为LAW(g_i)中1的个数；最后，以g_i为索引遍历键值对<g_i,LAW(g_i)>和构造批数据的平均梯度LSG(T)，获得当前参数的批梯度。

定理4(损失均值权重LAW(g_i))：已知g_i表示批数据中的一条数据，J(ω,b)_i表示数据g_i损失函数值，ω,b分别是卷积核参数和卷积层的偏置，batch_size表示批数据大小，LAD(g_i)为数据g_i的损失函数值与损失函数值均值之差的绝对值。损失均值权重LAW(g_i)的计算公式如下：

其中:

证明：LAW(g_i)是数据g_i的损失函数值的权重指标，设batch_size为批数据大小，τ为衡量LAD(g_i)的阈值，当LAD(g_i)<τ时，则当前数据g_i的损失函数值属于常规值，故令LAW(g_i)＝1将其保留；当LAD(g_i)≥τ时，则当前数据g_i的损失函数值属于异常值，故令LAW(g_i)＝0。证毕

定理5(损失求和梯度LSG(T))：已知T表示批中所有数据，表示数据g_i的损失函数对于参数x的梯度，batch_size表示批数据大小。损失求和梯度LSG(T)的计算公式如下：

证明：LSG(T)是批数据batch的平均梯度，设为数据g_i的损失函数对于参数 x的梯度，batch_size为批数据大小，当LIW(g_i)＝1时，数据g_i的梯度朝着最优方向下降；当LIW(g_i)＝0时，数据g_i的梯度与最优方向偏差较大，不计入LSG(T) 梯度之中。证毕

(2)参数并行更新

在获得批数据平均梯度后，使用误差反向传播算法并行化的对误差项参数进行更新，并结合MapReduce计算框架，得到参数并行更新后的网络模型，参数并行更新过程具体为：首先，根据计算第l-1层卷积核所有参数的梯度并将结果映射为键值对存入HDFS中；接着，计算网络模型中卷积核参数的改变量以此更新第l-1层卷积核的网络参数，其中r为卷积核编号，其作用为对应相应梯度。最后，通过HDFS将更新后参数同步至所有计算节点，并进行下一步更新，直至网络模型中所有参数更新完成。其中l的取值范围取决于所采用的网络模型的卷积层层数。

4.基于Im2col的并行深度卷积神经网络优化算法(IA-PDCNNOA)的有效性

为了验证算法IA-PDCNNOA的性能效果，我们将IA-PDCNNOA方法应用于 ImageNet1K数据集和CIFAR10两个数据集上，其具体信息如表1所示。将 MR-FPDCNN、SSOCNN、FCNN算法在算法并行性能、分类精确度等方面进行了比较。

表1数据集详细信息

Items	CIFAR10	ImageNet 1K
			Number of pictures/sheets	60 000	1281 167
Picture size/pixel	32*32	224*224
			Number of categories/categories	10	1000

4.1IA-PDCNNOA算法加速比实验分析

为验证IA-PDCNNOA算法在大数据在大数据环境中的并行化性能，本文基于CIFAR10和ImageNet 1K数据集，将加速比作为衡量指标，分别与MR-FPDCNN、 SSOCNN、FCNN，算法做比较。同时，为确保实验结果的准确性，取各算法平均10 次运行时长来计算加速比，作为最后实验结果。实验结果如图1所示：

从图1(a)可以看出，在处理CIFAR10这样规模相对较小的数据集时，各算法的加速比随着节点数的增加而缓慢增加，其中，当集群节点数为4时，IA-PDCNNOA 的加速比相比于并行化程度不高的FCNN和SSOCNN算法，分别低了0.3和0.5；但在图1(b)中，算法处理ImageNet 1K相对较大的数据集时，IA-PDCNNOA算法的加速比增速较大，在集群节点数为8时达到了9.8，分别比ME-FPDCNN、FCNN和 SSOCNN算法高1.1、4.1和4.6。产生这些结果的原因是：当IA-PDCNNOA算法在处理规模相对较小的数据集时，数据分布到各个计算节点会导致各节点间的通信时间开销快速增长，通过并行化运算获得的运行速度提升极为有限；当IA-PDCNNOA 算法在处理规模相对较大的数据集时，因为其设计的IM-PMTS策略，通过提出马氏距离中心值MDCV对同层卷积核剪枝，减少了卷积层参数在网络通信中的开销，然后通过结合MapReduce和Im2col方法并行训练的方式加速卷积运算的过程，提高了卷积层运算速度，并提升了算法的加速比，实验表明，IA-PDCNNOA算法并行化能力随着集群节点数的增多而显著增强，其适用于大数据集进行并行化处理，且具有较好的性能。

4.2IA-PDCNNOA算法准确率实验分析

为了进一步验证IA-PDCNNOA算法的训练效果，使用Top-1准确率作为衡量指标评价算法的训练效果，将IA-PDCNNOA、MR-FPDCNN、SSOCNN和FCNN分别在CIFAR10和ImageNet1K数据集上进行处理，计算其Top-1准确率作为实验结果，实验结果如图2所示：

从图2(a)可以看出，在处理CIFAR10这样规模相对较小的数据集时，各算法的Top-1准确率均能稳定在较高的数值，其中，IA-PDCNNOA算法的Top-1准确率最高，且较早的完成了收敛，达到了89.72％，相比于MR-FPDCNN、SSOCNN和FCNN 算法，高了2.87％、4.62％和6.48％；但在图2(b)中，算法处理ImageNet 1K相对较大的数据集时，各算法的Top-1准确率和算法收敛情况有较大差异，其中， IA-PDCNNOA算法的Top-1准确率在四个并行化算法中最高，达到了72.41％，相比于MR-FPDCNN、SSOCNN和FCNN算法，高了2.31％、7.98％和2.85％，但其他三个算法均出现了不同程度难以收敛的情况。产生这些结果是因为IA-PDCNNOA算法提出IM-BGDS策略，其设计损失求和梯度LSG(T)构建小批量数据梯度，并通过误差反向传播算法对参数并行更新，排除异常数据对批梯度的影响，增强了 IA-PDCNNOA算法的收敛性。实验数据表明，IA-PDCNNOA相较于其他三个并行化算法有着较高的收敛速度和准确率，其适用于大数据集下的深度卷积神经网络的模型并行化训练。

4.3IA-PDCNNOA算法运行时间和FLOPs实验分析

为验证IA-PDCNNOA算法在大数据在大数据环境中算法执行速度和模型优化效果，本文基于CIFAR10和ImageNet 1K数据集，分别计算Baseline、IA-PDCNNOA、 MR-FPDCNN、SSOCNN和FCNN的运行时间和FLOPs，其中Baseline为ResNet50 模型在1/8数据负载量下的基准数据，实验结果如表2所示：

表2各算法在两个数据集上的运行时间和FLOPs

从表2可以看出，在处理CIFAR10这样规模相对较小的数据集时，各算法运行时间没有较大的差距，但它们的浮点运算量均有不同程度的减少，其中， IA-PDCNNOA的浮点运算量相比于MR-FPDCNN、SSOCNN和FCNN算法，分别减少了5％、21％、16％；但在处理ImageNet1K这样较大的数据集时，IA-PDCNNOA 算法的运行时间和浮点运算量均优于其他三个算法，其中，IA-PDCNNOA算法的运行时间相比于MR-FPDCNN、SSOCNN和FCNN算法快了1.32×10⁴s、3.85×10⁴s和 5.29×10⁴s，浮点运算量分别减少了3％、13％、8％。产生这些结果是因为IA-PDCNNOA 算法提出的MHO-PFES策略，其通过提出特征相关指数FCI(u,v)，去除了数据中的冗余特征，并筛选数据的目标特征作为卷积神经网络的输入，减少了模型的浮点运算量，加快了算法的运行速度。总体来看，对比四个算法在CIFAR10和ImageNet 1K 上的运行时间和浮点运算量的变化趋势，可以看出IA-PDCNNOA算法随着训练数据集的增大，其运行时间和浮点运算量的减少在与其他算法拉开了较大差距，因此可以得出结论，IA-PDCNNOA优于MR-FPDCNN、SSOCNN和FCNN，适用于大数据集下的DCNN模型并行化训练。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于Im2col的并行深度卷积神经网络优化方法，其特征在于，包括以下步骤：

S2，模型并行训练：在并行DCNN模型训练阶段的卷积过程之中，通过IM-PMTS策略完成分布式的卷积核剪枝，以及多节点卷积计算；并结合MapReduce和Im2col方法并行训练模型；

S4，将待测医疗图像测数据输入参数并行更新后的DCNN模型，输出医疗图像的分类结果；

所述S1采用MHO-PFES策略进行特征并行提取，MHO-PFES策略包括以下步骤：

S1-2，特征筛选：为进一步筛选目标特征，提出特征相关指数FCI(u,v)对比任意两个数据块间的相似度，并设定相关性系数ε，通过去除FCI(u,v)＜ε的数据块来减少数据中的冗余特征；

所述特征相关指数FCI(u,v)包括：

其中μ_u,μ_v分别表示u和v的期望；

σ_u,σ_v分别表示u和v的方差；

u和v分别表示两条特征向量；

所述S2中的IM-PMTS策略包括以下步骤：

S2-1，卷积核剪枝：设计马氏距离中心值MDCV，通过求解MDCV值来寻找与网络模型中卷积核线性相关的向量，并计算此向量到各个卷积核之间的距离dist，通过设定阈值α，裁剪dist＜α的卷积核来减少网络模型中冗余参数；

S2-2，并行Im2col卷积：利用Im2col算法将特征图映射成矩阵，将矩阵与对应卷积核存储键值对，分发到各计算节点进行矩阵运算来加快卷积层的运算，得到运算卷积层运算结果，并将结果存入HDFS中；

所述马氏距离中心值MDCV包括：

其中μ表示所有卷积核的均值；

S表示所有卷积核的协方差矩阵；

Rⁿ是对于同一层级模型中卷积核的集合；

T表示转置；

所述IM-BGDS策略包括以下步骤：

S3-2，参数并行更新：在得到批数据的平均梯度后，结合MapReduce计算框架和反向传播的误差传导公式来并行化地计算误差，实现参数的并行更新；

所述损失均值权重LAW(g_i)包括：

其中：