[go: up one dir, main page]

CN116630697B - 一种基于有偏选择池化的图像分类方法 - Google Patents

一种基于有偏选择池化的图像分类方法 Download PDF

Info

Publication number
CN116630697B
CN116630697B CN202310552011.XA CN202310552011A CN116630697B CN 116630697 B CN116630697 B CN 116630697B CN 202310552011 A CN202310552011 A CN 202310552011A CN 116630697 B CN116630697 B CN 116630697B
Authority
CN
China
Prior art keywords
pooling
biased
alpha
image classification
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310552011.XA
Other languages
English (en)
Other versions
CN116630697A (zh
Inventor
任璐
李�浩
柳文章
宋坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202310552011.XA priority Critical patent/CN116630697B/zh
Publication of CN116630697A publication Critical patent/CN116630697A/zh
Application granted granted Critical
Publication of CN116630697B publication Critical patent/CN116630697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于有偏选择池化的图像分类方法,所述方法包括:数据预处理并定义模型,定义一组超参数[α12,…,αk],初始化掩膜[β12,…,βk]中的参数;定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;将训练集送入模型,进行前向传播,图像经过卷积层提取局部特征。本发明通过调整超参数来实现不同的特征提取目标,解决了传统图像分类中使用最大池化或者平均池化所带来的保留的信息不够准确等问题,提高了图像分类的准确性,同时本发明相较于最大值池化和平均池化而言更加灵活,可以更好的适应各种不同的数据特征和任务。

Description

一种基于有偏选择池化的图像分类方法
技术领域
本发明涉及深度学习技术领域,具体为一种基于有偏选择池化的图像分类方法。
背景技术
随着人工智能的快速发展,深度神经网络在计算机视觉、语音识别、自动驾驶等任务上取得了较为出色的表现。深度卷积神经网络通常利用池化的方法来降低特征图的尺寸,进而缩减模型的大小。池化层的引入不仅可以增加感受野的范围,同时能够减少后续卷积的计算需求.并且随着特征图尺寸的减小,模型的参数量和计算量会随之下降,在一定程度上能够防止过拟合的发生。
最大值池化和均值池化是深度学习中常见的两种池化操作。最大值池化在前向传播过程中,选择特征图中响应最强烈的节点值进入下一层运算,从而能较好地捕捉图像的边缘和纹理结构;而均值池化则通过对所选区域节点进行平均值操作,它的优点在于可以减小估计均值的偏移,因此擅长捕捉图像的背景特征。
由于边缘信息和背景信息之间并没有清晰的鸿沟,神经网络的特征图上还有大量的介于这两者之间的信息。因此,单纯依赖于这两种池化方式,神经网络将忽略这些信息,从而导致保留的信息不够准确,而随着模型的深度的提升,这两种方式可能会丢失更多的信息,导致模型的表达能力和泛化能力的下降。
发明内容
本发明的目的在于提供一种基于有偏选择池化的图像分类方法以解决现有技术中最大值池化和均值池化提取信息不够准确的问题,同时能够根据输入数据的特征分布自适应的调整池化权重。
为实现上述目的,本发明提供如下技术方案:一种基于有偏选择池化的图像分类方法,包括以下步骤:
S1:将数据集的数据进行预处理获取训练集并定义模型;
S2:定义一组超参数[α12,...,αk],初始化掩膜[β12,...,βk]中的参数,定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;
S3:将训练集作为模型的输入,开始迭代训练进行前向传播;
S4:通过调整超参数获得对应的k组输出[z1,z2,...,zk]来控制对池化区域的选择;
S5:通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和,得到第m个池化区域输出ym,通过对所有的池化区域都进行有偏选择池化,得到有偏选择池化层的输出特征图y;
S6:前向传播结束后,经由分类器对模型输出的特征图y进行分类,通过计算损失并进行反向传播,更新模型和掩膜的参数,调整学习率;
S7:重复上述的S3-S6,直至所有的迭代次数结束。
优选的,所述S4中通过调整超参数获得对应的k组输出[z1,z2,...,zk]来控制对池化区域的选择具体包括以下步骤:
S41:图像经过卷积层提取局部特征,当经过池化层时,将特征图送入有偏选择池化层,记其中第m个池化区域的特征值为Im=[x1,x2,...,xn];
具体的,S41中池化区域的大小若为h×w,则有n=h×w,且所述的m的大小介于1和池化区域的个数之间。
且有偏选择池化层可以通过设置α来兼容最大值池化和均值池化,通过将α的个数设为1,若将α的大小设为0,则有偏选择池化层为均值池化层;若将α的大小设为一个足够大的数,则有偏选择池化层为最大值池化层。
S42:根据有偏选择函数和给定的一组超参数[α12,...,αk],计算出每个特征值在不同超参数下的权重得到k组权重,即当使用α1时得到对应的一组权重
具体的,所述S42中有偏选择函数为:
其中,对于一个池化区域上n个特征值,每个αi对应一组权重因此k个不同的超参数αi,对应k组权重,也对应着k个不同的输出特征值zi,其中i∈[1,k],j∈[1,n]。
具体的,所述S32中有偏选择函数的基本性质有:
其中,对于Im=[x1,x2,...,xn],当α=0,则每个特征值xi的权重系数为此时z的值相当于均值池化;当α→+∞,则最大的特征值xmax的权重系数为1,其余特征值的权重系数为0,此时z的值相当于最大值池化;同理,当α→-∞,z的值相当于最小值池化;而当α取其它值时,每个特征值的权重系数为/>
S43:对于特征值Im=[x1,x2,...,xn],使用每个超参数αi,分别将其对应的权重组合对池化区域的特征值加权求和,得到对应的k组输出[z1,z2,...,zk]特征图;
优选的,所述S5中通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和的方式为:
ym=β1z12z2+...+βkzk
优选的,所述S5中掩膜的大小是跟随神经网络参数的更新而更新的,且掩膜β的大小应该在0~1之间。
优选的,所述S6中计算损失的具体方式为:
其中,R为残差项,用于评估所有掩膜权重之和与1之间的偏差,若所有掩膜权重之和等于1,那么残差项将为0,否则,残差项将会是一个正数,代表权重之和与1之间的偏差程度。
优选的,在所述S6中训练的更新阶段,
根据计算的误差导数,更新所有网络参数的梯度,在有偏选择池化层中,梯度更新与前向传播期间计算的权重成正比。
一种基于有偏选择池化的图像分类装置,包括:
定义模块,其用于数据预处理并定义模型,定义一组超参数[α12,...,αk],初始化掩膜[β12,...,βk]中的参数;还用于定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;
处理模块,其用于将训练集送入模型,进行前向传播,图像经过卷积层提取局部特征;还用于前向传播结束后,经由分类器对模型输出的特征进行分类,计算损失并进行反向传播,更新掩膜的参数,调整学习率,直至所有的迭代次数结束。
与现有技术相比,本发明的有益效果是:
1.本发明相比于最大值池化和均值池化而言,通过α赋予每个特征值相应的权重,输出融合了所有特征值,因此能够更好的保留信息。同时通过掩膜的添加,也避免了每次只能使用一种策略进行池化的弊端,能更好的提高模型的泛化能力;
2.本发明也同样能够兼容最大值池化和均值池化,当只设置一个α时,通过将α设为0或一个较大的值时,同时可以移除掩膜层,此时有偏选择池化相当于均值池化或最大值池化,有偏选择池化层有较多的操作方式,可选择性更强,提取特征的方式较为灵活;
3.可以通过调整超参数来控制对池化区域的选择,从而适应不同的场景和数据集。同时,有偏选择池化方法还可以与其它的神经网络结构,如卷积神经网络、循环神经网络等结合使用,提高模型的性能;
4.本发明的有偏选择函数中的加权求和是对所有输入进行的,因此使得模型对噪声的容忍性更强,对模型输出的稳定性更好,为准确、稳定、泛化性能高的模型构建提供了帮助。
附图说明
图1为本发明实施例提供的一种基于有偏选择池化的图像分类方法的主流程图;
图2为为本发明实施例提供的一种基于有偏选择池化的图像分类方法的通过调整超参数获得对应的k组输出具体方法流程图;
图3为本发明实施例提供的一种基于有偏选择池化的图像分类方法的算法框架示意图;
图4为本发明实施例提供的一种基于有偏选择池化的图像分类方法的有偏选择函数示意图;
图5为本发明实施例提供的另一种基于有偏选择池化的图像分类方法的具体步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施方式的方法的执行主体为终端,所述终端可以为手机、平板电脑、掌上电脑PDA、笔记本或台式机等设备,当然,还可以为其他具有相似功能的设备,本实施方式不加以限制。
请参阅图1至5,本发明提供一种基于有偏选择池化的图像分类方法,所述方法应用于模式识别以及深度学习领域,包括:
S1:将数据集的数据进行预处理获取训练集并定义模型;
其中,所述的模型的组成分别包括若干卷积层提取特征,卷积层之间有池化层用于减小激活映射的大小,最后有全连接层作为分类层进行分类。
S2:定义一组超参数[α12,...,αk],初始化掩膜[β12,...,βk]中的参数,定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;
其中,所述超参数α的个数和大小需要提前定义,且对模型的表达能力有一定的影响,因此,对于不同的数据特征分布需要通过多次实验以确定最佳取值范围和超参数大小的最佳组合;且有偏选择池化层可以通过设置α来兼容最大值池化和均值池化,有偏选择池化不仅能够兼容最大值和均值,也能够同时使用最大值和均值的特征图;
通过将α的个数设为1,若将α的大小设为0,则有偏选择池化层为均值池化层;若将α的大小设为一个足够大的数,则有偏选择池化层为最大值池化层。
S3:将训练集作为模型的输入,开始迭代训练进行前向传播;
S4:通过调整超参数获得对应的k组输出[z1,z2,...,zk]来控制对池化区域的选择;
其中,S4中通过调整超参数获得对应的k组输出[z1,z2,...,zk]来控制对池化区域的选择具体包括以下步骤:
S41:图像经过卷积层提取局部特征,当经过池化层时,将特征图送入有偏选择池化层,记其中第m个池化区域的特征值为Im=[x1,x2,...,xn];
具体的,S41中池化区域的大小若为h×w,则有n=h×w,且所述的m的大小介于1和池化区域的个数之间;S41中有偏选择池化层可以通过设置α来兼容最大值池化和均值池化,通过将α的个数设为1,若将α的大小设为0,则有偏选择池化层为均值池化层;若将α的大小设为一个足够大的数,则有偏选择池化层为最大值池化层;
S42:根据有偏选择函数和给定的一组超参数[α12,...,αk],计算出每个特征值在不同超参数下的权重得到k组权重,即当使用α1时得到对应的一组权重
具体的,所述S42中有偏选择函数为:
其中,每个αi对应一组权重因此k个不同的超参数αi,对应k组权重,也对应着k个不同的输出特征值zi,其中i∈[1,k],j∈[1,n]。
具体的,所述S32中有偏选择函数的基本性质有:
其中,对于Im=[x1,x2,...,xn],当α=0,则每个特征值xi的权重系数为此时z的值相当于均值池化;当α→+∞,则最大的特征值xmax的权重系数为1,其余特征值的权重系数为0,此时z的值相当于最大值池化;同理,当α→-∞,z的值相当于最小值池化;而当α取其它值时,每个特征值的权重系数为/>
S43:对于特征值Im=[x1,x2,...,xn],使用每个超参数αi,分别将其对应的权重组合对池化区域的特征值加权求和,得到对应的k组输出[z1,z2,...,zk]特征图。
在本实施例中,如图2所示,图2为本发明实施例提供的一种基于有偏选择池化的图像分类方法的通过调整超参数获得对应的k组输出具体方法流程图,本发明相比于最大值池化和均值池化而言,通过α赋予每个特征值相应的权重,输出融合了所有特征值,因此能够更好的保留信息。通过调整超参数来控制对池化区域的选择,从而适应不同的场景和数据集;
S5:通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和,得到第m个池化区域输出ym,通过对所有都进行有偏选择池化,得到有偏选择池化层的输出特征图y;
所述S5中通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和的方式为:
ym=β1z12z2+...+βkzk
由于每个zi本身是不同权重组下的输出,因此经过掩膜的添加后,通过端到端的训练模型可以更好的平衡不同特征图之间的贡献,有选择的进行输出;
所述S5中掩膜的大小是跟随神经网络参数的更新而更新的,且掩膜β的大小应该在0~1之间;添加掩膜使得模型根据输入数据的特征分布能够选择对应的池化权重,其中掩膜的大小是跟随神经网络参数的更新而更新的,且掩膜β的大小应该在0~1之间,因此为了控制掩膜的大小,需要对掩膜的取值通过限幅进行限制,以确保其处于合理的范围内,避免对模型的性能产生的影响。
在本实施例中,通过掩膜的添加,也避免了每次只能使用一种策略进行池化的弊端,能更好的提高模型的泛化能力;本发明也同样能够兼容最大值池化和均值池化,当只设置一个α时,通过将α设为0或一个较大的值时,同时可以移除掩膜层,此时有偏选择池化相当于均值池化或最大值池化,有偏选择池化层有较多的操作方式,可选择性更强,提取特征的方式较为灵活;有偏选择池化方法还可以与其它的神经网络结构,如卷积神经网络、循环神经网络等结合使用,提高模型的性能,其中,有偏选择函数中的加权求和是对所有输入进行的,因此使得模型对噪声的容忍性更强,对模型输出的稳定性更好,为准确、稳定、泛化性能高的模型构建提供了帮助。
S6:前向传播结束后,经由分类器对模型输出的特征图y进行分类,通过计算损失并进行反向传播,更新模型和掩膜的参数,调整学习率;
所述S6中计算损失的具体方式为:
其中,R为残差项,用于评估所有掩膜权重之和与1之间的偏差,若所有掩膜权重之和等于1,那么残差项将为0,否则,残差项将会是一个正数,代表权重之和与1之间的偏差程度。
在所述S6中训练的更新阶段,根据计算的误差导数,更新所有网络参数的梯度,在有偏选择池化层中,梯度更新与前向传播期间计算的权重成正比。与最大值池化不同的是,由于softmax是可微的,因此会为区域内的每个非零节点计算梯度。
S7:重复上述的S3-S6,,直至所有的迭代次数结束。
为了更好的对上述实施例进行理解,如图5所示,本发明还提供了一种基于有偏选择池化的图像分类方法的具体步骤流程图,方法至少包括:
步骤201,定义模型,模型包括3层卷积层、1层有偏选择池化层、2层卷积层、1层有偏选择池化层、2层卷积层,2层全连接层,其中卷积层的卷积核大小为3,填充为1,步长为1;有偏选择池化层的卷积核大小为2,填充为0,步长为2,数据预处理和相关组件的定义,包括学习率衰减策略、优化器的选择等;
步骤202,初始化训练的轮次i,i=1:M;
步骤203,模型的前向传播,经由卷积层提取特征,直到经过第j层有偏池化层;
步骤204,根据有选择偏函数和给定的一组超参数[α12,...,αk],首先计算出每个特征值在不同超参数下的权重,得到k组权重,通过对特征值进行加权求和,得到对于的k组输出特征图;
其中有偏选择函数如下:
通过给定不同的超参数α,能够同时获得不同权重下的输出[z1,z2,...,zk],并且随着α的增大,响应越强烈的节点对应的权重系数就越大,对结果的影响就越大;反之,α越小,特征值越小的节点对应的权重系数就越大,对结果影响就越大;
步骤205,使用掩膜的参数对输出[z1,z2,...,zk]经过加权求和,得到有偏选择池化层的输出;
步骤206,有偏选择池化的结构框架如图3所示,图3为本发明实施例提供的一种基于有偏选择池化的图像分类方法的算法框架示意图,有偏选择函数的性质如图4所示,图4为本发明实施例提供的一种基于有偏选择池化的图像分类方法的有偏选择函数示意图;有偏池化层池化结束,将池化后的特征图送往下一层卷积层。
步骤207,判断模型中前向传播是否完毕,若完毕,则进入步骤208;否则,继续步骤203-步骤207的过程;
步骤208,模型前向传播完毕,开始反向传播,更新模型中的参数和掩膜;
步骤209,判断当前迭代是否执行完毕,即判断i=M是否成立,若成立,则进入步骤210;否则,i=i+1,返回步骤202开启下一轮迭代;
步骤210,模型训练完毕,进行模型测试,结束。
为了更好的对上述实施例进行理解,以下是对本发明结合相关实验,对本发明的技术效果作进一步的描述。
(1)实验内容
实验硬件环境:Ubuntu,Quadro RTX 6000显卡。
代码运行环境:Pycharm-2022.2.4,python3.8。
实验所使用的数据集为cifar-10、cifar-100和imagenet-1k数据集。其中Cifar-10是一个普适物体识别的计算机视觉数据集,它一共包含了60,000张图像;Cifar-100有100个类,其中每个图像都带有一个细粒度标签和一个粗粒度标签,因此100个类又被分为20个超类,一共包含60,000张图像;imagnet-1k是按照WordNet架构组织的大规模带标签的图像数据集,属于1000个不同的类别。
数据预处理:对于Cifar10和Cifar100数据集,将训练集图像周围填充的尺寸大小为4,并将图像尺寸随机裁剪到32×32,再经过一个随机水平翻转,其中p设置为0.5,将imagenet-1k数据集的图像尺寸都统一设为448×448,其中训练集的图像会经过一个随机水平翻转,p设置为0.5,再经过一个随机旋转,degree设为(-30,30)。对于所有的图像数据都会转换为tensor并经过归一化处理。
模型的定义:包括3层卷积层、1层池化层、2层卷积层、1层池化层、2层卷积层,2层全连接层,其中卷积层的卷积核大小为3,填充为1,步长为1;有偏选择池化层的卷积核大小为2,填充为0,步长为2,将池化层分别使用最大值池化、均值池化和有偏选择池化进行对比试验。
超参数设置:对于[α12,...,αk]设置为[-10,-3,-1,0,1,3,10],将掩膜初始值全设为1。
(2)实验结果分析
将池化层分别使用最大值池化、均值池化和有偏选择池化,并在三个数据集上进行对比试验,实验结果如表1所示。
表1
参照表1,本发明在cifar-10、cifar-100和imagnet-1k测试集上的分类精度分别为84.7%、70.3%和64.7%,相比于最大值池化可以提升1.6、1.6和1.4个百分点,相比于均值池化可以提升1.8、0.8、1.6个百分点。综上所述,本发明提出的方法能够有效的解决最大值池化和均值池化在传统深度卷积神经网络中提取信息不够充分的问题,同时本发明能够充分融合不同特征值之间的信息,并且通过设定不同的超参数能够使用不同的池化方式,进一步解决模型的稳定性和对噪声的容忍性等问题。
在上述实施例的基础上,本发明还提供了一种基于有偏选择池化的图像分类装置,用于支持上述实施例的基于有偏选择池化的图像分类方法,所述基于有偏选择池化的图像分类装置包括:
定义模块,其用于数据预处理并定义模型,定义一组超参数[α12,...,αk],初始化掩膜[β12,...,βk]中的参数;还用于定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;
处理模块,其用于将训练集送入模型,进行前向传播,图像经过卷积层提取局部特征;还用于前向传播结束后,经由分类器对模型输出的特征进行分类,计算损失并进行反向传播,更新掩膜的参数,调整学习率,直至所有的迭代次数结束。
进一步的,所述基于有偏选择池化的图像分类装置可运行上述基于有偏选择池化的图像分类方法,具体实现可参见方法实施例,在此不再赘述。
在上述实施例的基础上,本发明还提供一种基于有偏选择池化的图像分类设备,所述基于有偏选择池化的图像分类设备包括:
处理器、存储器,所述处理器与存储器进行通信连接;
在本实施例中,所述存储器可以按任何适当的方式实现,例如:所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等;所述存储器用于储存至少一个所述处理器执行的可执行指令;
在本实施例中,所述处理器可以按任何适当的方式实现,例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等;所述处理器用于执行所述可执行指令以实现如上述的基于有偏选择池化的图像分类方法。
在上述实施例的基础上,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于有偏选择池化的图像分类方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或设备的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储服务器、随机存取存储服务器、磁碟或者光盘等各种可以存储程序指令的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于有偏选择池化的图像分类方法,其特征在于,包括以下步骤:
S1:将数据集的数据进行预处理获取训练集并定义模型;
S2:定义一组超参数[α12,...,αk],初始化掩膜[β12,...,βk]中的参数,定义优化器、损失函数和学习率衰减策略,设定包括学习率lr、迭代次数epoch、批量大小batch等超参数;
S3:将训练集作为模型的输入,开始迭代训练进行前向传播;
S4:通过调整超参数[α12,...,αk]获得对应的k组输出[z1,z2,...,zk]来控制对池化区域的选择;
具体包括以下步骤:
S41:图像经过卷积层提取局部特征,当经过池化层时,将特征图送入有偏选择池化层,记其中第m个池化区域的特征值为Im=[x1,x2,...,xn];
其中,池化区域的大小若为h×w,则该池化区域内的特征值数目n=h×w,且所述的m的大小介于1和池化区域的个数之间,且有偏选择池化层通过设置α来兼容最大值池化和均值池化,通过将α的个数设为1,若将α的大小设为0,则有偏选择池化层为均值池化层;若将α的大小设为一个足够大的数,则有偏选择池化层为最大值池化层;
S42:根据有偏选择函数和给定的一组超参数[α12,...,αk],计算出每个特征值在不同超参数下的权重得到k组权重,即当使用αi时得到对应的一组权重其中i∈[1,k],j∈[1,n];
S43:对于输入的特征值Im=[x1,x2,...,xn],使用每个超参数αi,分别将其对应的权重组合对池化区域的特征值加权求和,得到对应的k组输出[z1,z2,...,zk]特征图;
S5:通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和,得到第m个池化区域输出ym,通过对所有的池化区域都进行有偏选择池化,得到有偏选择池化层的输出特征图y;
S6:前向传播结束后,经由分类器对模型输出的特征图y进行分类,通过计算损失并进行反向传播,更新模型和掩膜的参数,调整学习率;
S7:重复上述的S3-S6,直至所有的迭代次数结束。
2.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,所述S42中有偏选择函数为:
其中,对于一个池化区域上n个特征值,每个αi对应一组权重因此k个不同的超参数αi,对应k组权重,也对应着k个不同的输出特征值zi,其中i∈[1,k],j∈[1,n]。
3.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,所述S42中有偏选择函数的基本性质有:
其中,对于Im=[x1,x2,...,xn],当α=0,则每个特征值xi的权重系数为此时z的值相当于均值池化;当α→+∞,则最大的特征值xmax的权重系数为1,其余特征值的权重系数为0,此时z的值相当于最大值池化;同理,当α→-∞,z的值相当于最小值池化;而当α取其它值时,每个特征值的权重系数为/>
4.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,所述S5中通过输入掩膜的参数对输出[z1,z2,...,zk]经过加权求和的方式为:
ym=β1z12z2+...+βkzk
5.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,所述S5中掩膜的参数的大小是跟随神经网络参数的更新而更新的,且掩膜的参数β的大小应该在0~1之间。
6.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,所述S6中计算损失的具体方式为:
其中,R为残差项,用于评估所有掩膜权重之和与1之间的偏差,若所有掩膜权重之和等于1,那么残差项将为0,否则,残差项将会是一个正数,代表权重之和与1之间的偏差程度。
7.根据权利要求1所述的基于有偏选择池化的图像分类方法,其特征在于,在所述S6中训练的更新阶段,根据计算的误差导数,更新所有网络参数的梯度,在有偏选择池化层中,梯度更新与前向传播期间计算的权重成正比。
CN202310552011.XA 2023-05-17 2023-05-17 一种基于有偏选择池化的图像分类方法 Active CN116630697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310552011.XA CN116630697B (zh) 2023-05-17 2023-05-17 一种基于有偏选择池化的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310552011.XA CN116630697B (zh) 2023-05-17 2023-05-17 一种基于有偏选择池化的图像分类方法

Publications (2)

Publication Number Publication Date
CN116630697A CN116630697A (zh) 2023-08-22
CN116630697B true CN116630697B (zh) 2024-04-05

Family

ID=87620622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310552011.XA Active CN116630697B (zh) 2023-05-17 2023-05-17 一种基于有偏选择池化的图像分类方法

Country Status (1)

Country Link
CN (1) CN116630697B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069958A (zh) * 2018-01-22 2019-07-30 北京航空航天大学 一种密集深度卷积神经网络的脑电信号快速识别方法
CN114863348A (zh) * 2022-06-10 2022-08-05 西安电子科技大学 基于自监督的视频目标分割方法
CN115100076A (zh) * 2022-07-24 2022-09-23 西安电子科技大学 基于上下文感知注意力的低光图像去雾方法
CN115424076A (zh) * 2022-09-16 2022-12-02 安徽大学 一种基于自适应池化方式的图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019079166A1 (en) * 2017-10-16 2019-04-25 Illumina, Inc. TECHNIQUES BASED ON DEEP LEARNING LEARNING OF NEURONAL NETWORKS WITH DEEP CONVOLUTION
US11922316B2 (en) * 2019-10-15 2024-03-05 Lg Electronics Inc. Training a neural network using periodic sampling over model weights

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069958A (zh) * 2018-01-22 2019-07-30 北京航空航天大学 一种密集深度卷积神经网络的脑电信号快速识别方法
CN114863348A (zh) * 2022-06-10 2022-08-05 西安电子科技大学 基于自监督的视频目标分割方法
CN115100076A (zh) * 2022-07-24 2022-09-23 西安电子科技大学 基于上下文感知注意力的低光图像去雾方法
CN115424076A (zh) * 2022-09-16 2022-12-02 安徽大学 一种基于自适应池化方式的图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Reinforcement Learning With Task Decomposition for Cooperative Multiagent Systems;Changyin Sun et al.;IEEE Transactions on Neural Networks and Learning Systems;20200617;全文 *
参数池化卷积神经网络图像分类方法;江泽涛;秦嘉奇;张少钦;;电子学报;20200915(第09期);全文 *
基于CNN的转子裂纹和不对中状态识别方法研究;赵旺;中国优秀硕士论文电子期刊网;20210715;全文 *

Also Published As

Publication number Publication date
CN116630697A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US11488309B2 (en) Robust machine learning for imperfect labeled image segmentation
CN111507419B (zh) 图像分类模型的训练方法及装置
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN112613581A (zh) 一种图像识别方法、系统、计算机设备和存储介质
CN108345939A (zh) 基于定点运算的神经网络
JP6852365B2 (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
CN109754078A (zh) 用于优化神经网络的方法
CN111080397A (zh) 信用评估方法、装置及电子设备
CN109975250B (zh) 一种叶面积指数反演方法及装置
CN109146000B (zh) 一种基于冰冻权值改进卷积神经网络的方法及装置
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114118207A (zh) 基于网络扩张与记忆召回机制的增量学习的图像识别方法
CN112348119B (zh) 基于胶囊网络的图像分类方法、存储介质及电子设备
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
CN110390307B (zh) 表情识别方法、表情识别模型训练方法及装置
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN115659059A (zh) 基于图对比学习的推荐模型训练方法和装置
Liu et al. Inverse evolution layers: Physics-informed regularizers for image segmentation
US20200372363A1 (en) Method of Training Artificial Neural Network Using Sparse Connectivity Learning
CN116630697B (zh) 一种基于有偏选择池化的图像分类方法
KR20190129698A (ko) 순환신경망을 압축하는 전자장치 및 그 방법
CN108122028A (zh) 深度非线性主成分分析网络的训练方法、装置及计算机可读存储介质
CN117218409B (zh) 图像分类网络架构设计方法、装置、设备和介质
WO2019243910A1 (en) Segmenting irregular shapes in images using deep region growing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant