CN120726633B - 面向智能家居图像语义分割任务的异构特征知识蒸馏方法 - Google Patents
面向智能家居图像语义分割任务的异构特征知识蒸馏方法Info
- Publication number
- CN120726633B CN120726633B CN202511205285.7A CN202511205285A CN120726633B CN 120726633 B CN120726633 B CN 120726633B CN 202511205285 A CN202511205285 A CN 202511205285A CN 120726633 B CN120726633 B CN 120726633B
- Authority
- CN
- China
- Prior art keywords
- features
- semantic segmentation
- segmentation model
- feature
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于智能家居技术领域,具体涉及一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,具体如下:构建智能家居图像语义分割数据集;构建教师模型和学生模型,提取图像中的不同层级的异构特征,得到分割图;分别构建边缘特征对齐模块和基于交叉注意力的深层特征对齐模块,得到相应模块对应的损失;将边缘特征对齐损失和深层特征对齐损失以及原本学生模型的分割任务损失进行合并,得到学生模型的损失函数,冻结教师模型参数,对学生模型进行参数更新,得到智能家居图像语义分割模型;将待分割图像输入到智能家居图像语义分割模型,得到分割结果。本发明在确保模型参数量不变的同时,提高分割精度,有利于模型在智能家居设备上的部署。
Description
技术领域
本发明涉智能家居技术领域,具体涉及一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法。
背景技术
语义分割技术在智能家居领域中的应用至关重要。通过对智能家居环境中的图像或视频进行分析和处理,语义分割能够将每个像素点分类到特定的类别中,如人、家具、电器等,从而实现对家居环境的精细化感知。这种精细化感知为智能家居系统提供了基础数据,使其能够根据环境情况做出智能决策和响应。语义分割技术的应用能够提高智能家居系统的智能化程度,还为用户提供更便捷、更智能的家居生活体验。
由于计算资源有限,可部署在智能家居设备上的语义分割模型受到限制。目前,部署基于卷积神经网络架构的轻量化模型技术已相对成熟。然而,由于这些模型主要集中在邻域的操作和有限的感受野,它们面临着捕捉长距离依赖关系的挑战。这一限制导致智能家居在场景理解方面存在一定的精度不足的问题。近年来,基于Transformer架构的多种视觉Transformer变体,如Pyramid Vision Transformer和Segformer等,在语义分割任务中表现突出,超越了大多数基于卷积神经网络架构的模型。然而,相较于基于卷积神经网络的模型,基于Transformer架构的模型由于需要对高分辨率图像进行特征金字塔和自注意力计算,因此具有计算复杂性更大、推理和训练速度较慢以及内存占用较大等缺点,这就导致其在资源受限的智能家居设备上难以部署的问题。
知识蒸馏是一种迁移学习方法,旨在通过利用强大的教师模型的知识来改善学生模型的学习。知识蒸馏的应用由分类任务转向分割、检测任务,并针对密集预测任务做出改进。然而,现有的语义分割知识蒸馏方法仍存在如下问题:1、主要关注深层特征,对边缘等浅层特征利用不充分;2、主要关注同构模型蒸馏,缺少针对异构模型蒸馏的设计。
因此,本发明提供了一种面向智能家居图像语义分割认为的异构特征知识蒸馏方法来解决上述问题。
发明内容
本发明提供一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,在保证精度的前提下,使语义分割模型很好的部署在智能家居设备上。
本发明为实现上述目的,通过以下技术方案实现:
一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,包括以下步骤:
S1.收集复杂的智能家居场景图像,构建智能家居图像语义分割数据集,数据集中的图像包括分割区域和分割区域标签,按比例将数据集划分为训练集和测试集;
S2.异构特征提取:构建基于Transformer架构的教师语义分割模型和基于卷积神经网络架构的学生语义分割模型,两模型分别对训练集中的智能家居场景图像进行特征提取,得到预测的语义分割图,提取的特征包括教师语义分割模型提取的浅层特征和深层特征,学生语义分割模型提取的浅层特征和深层特征;
S3.浅层异构特征对齐:构建边缘特征对齐模块EAM,对教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征进行对齐,得到边缘特征对齐损失;
S4.深层异构特征对齐:构建基于交叉注意力的深层特征对齐模块CAAM对教师语义分割模型提取的深层特征和学生语义分割模型提取的深层特征进行对齐,得到深层特征对齐损失;
S5. 学生语义分割模型训练:将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,同时冻结教师语义分割模型中的参数,将学生语义分割模型的损失函数回传至学生语义分割模型进行参数更新;
S6、将测试集中智能家居场景图像输入到更新后的学生语义分割模型中,得到更新后的学生语义分割模型输出的预测的语义分割图。
S1具体如下:
智能家居图像语义分割数据集表示为,表示数据集中第张智能家居场景图像,数据集中共K张智能家居场景图像,将智能家居图像语义分割数据集中图像按像素进行分割,智能家居场景图像中像素点表示为,对应的像素点标签表示为,整张图的像素是一个二维矩阵的真值标签,;
按比例将数据集划分为训练集和测试集,训练集表示为,,表示训练集中第张智能家居场景图像,训练集中共张图像,测试集表示为,,表示测试集中第张智能家居场景图像,测试集中共张图像,。
S2具体如下:
S2.1、模型的结构组成:
教师语义分割模型采用基于Transformer编码器的SegFormer语义分割模型,包括四个Transformer编码器、特征融合层、解码输出层三部分,Transformer编码器具体由自注意力层、残差连接层和归一化层组成;
学生语义分割模型采用基于卷积神经网络的DeepLabV3语义分割模型,包括四个卷积编码层、特征融合层、解码输出层三部分;
S2.2、将训练集中的智能家居图像输入至教师语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
S2.2.1、将训练集中的智能家居场景图像输入至教师语义分割模型前,先通过卷积层对输入的图像进行处理,表示训练集中任意一张智能家居场景图像,将图像的分辨率由转换为,H表示图像的高度,W表示图像的宽度,再将调整过分辨率后的图像重映射为初始块嵌入的形式,图像的初始嵌入块表示为,初始嵌入块中包含若干个像素块;
S2.2.2、将初始块嵌入输入至教师语义分割模型,初始块嵌入首先经过第一个Transformer编码器,通过Transformer编码器内的自注意力层计算初始块嵌入中各像素块之间的相似度,进而得到相似度矩阵,再将相似度矩阵与初始块嵌入进行矩阵相乘,获得到与初始块嵌入维度大小一致特征;
再将初始块嵌入和特征输入至残差连接层,通过对初始块嵌入和特征进行残差连接来保留重要信息,然后再将初始块嵌入和特征输入至归一化层,对和特征进行归一化操作得到特征;
对特征进行比例缩放,通过将特征的数值调整至特定范围来消除数据特征之间数量级的差异,范围为0~1或者-1~1最后得到比例缩放后的特征,第一个Transformer编码器的输出为教师语义分割模型提取的浅层特征;
S2.2.3、将第一个Transformer编码器的输出特征作为第二个Transformer编码器的输入,按照步骤S2.2.2的操作对特征进行相同的处理得到特征;
同理,将上一个Transformer编码器的输出作为下一个Transformer编码器的输入,并进行步骤S2.2.2中的操作,得到第三个Transformer编码器输出的特征和第四个Transformer编码器输出的特征,第四个Transformer编码器的输出为教师语义分割模型提取的深层特征;
S2.2.4、将四个Transformer编码器的输出、、和输入至特征融合层,在特征融合层中,对四个特征向量进行上采样操作,匹配第一个Transformer编码器输出的特征的分辨率,然后将四个上采样结果在特征维度堆叠得到特征,再对特征进行特征维度缩减,得到融合的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
S2.2.5、将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
S2.3、将训练集中的智能家居场景图像输入至学生语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
将图像输入至学生语义分割模型,表示训练集中任意一张智能家居场景图像,图像首先经过第一个卷积编码器,通过卷积编码器对图像卷积、池化、批规范化处理得到特征,然后将第一个卷积编码器输出的特征输入至第二个卷积编码器,通过卷积、池化、批规范化处理得到特征,同理第三个卷积编码器输出特征,第四个卷积编码器输出特征,第一个卷积编码器的输出为学生语义分割模型提取的浅层特征,第四个卷积编码器的输出为学生语义分割模型提取的深层特征;
在特征融合层中,分别对四个卷积编码器输出的特征、、和进行膨胀卷积操作,并匹配第一个卷积编码器的分辨率,再将所有经过膨胀卷积操作后的特征图在通道维度堆叠得到特征,接着对特征进行特征通道维度缩减,得到融合后的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
S3具体如下:
边缘特征对齐模块EAM包括水平边缘提取、竖直边缘提取、1×1卷积、边缘特征对其损失计算单元;
S3.1、将教师语义分割模型提取的浅层特征由嵌入块形式重映射到与学生语义分割模型提取的浅层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的浅层特征的维度缩放至与学生语义分割模型提取的浅层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在Transformer解码器中的图像长、宽方向上的分块个数,表示图形式的教师语义分割模型提取的浅层特征;
S3.2、图形式的教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征输入至边缘特征对齐模块EAM,分别在特征图的通道维度上取均值,计算过程如下:
,
,
其中,表示取均值操作,=1表示在维度1上进行取均值操作,表示取均值后学生语义分割模型提取的浅层特征,表示取均值后教师语义分割模型提取的浅层特征;
S3.3、通过两个不同的3×3卷积核分别提取特征和特征的水平边缘特征和竖直边缘特征,计算过程如下:
,
,
,
,
,
,
其中,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示进行水平方向卷积操作,表示进行竖直方向卷积操作,表示提取水平边缘特征的卷积操作的参数初始化值,是表示提取竖直边缘特征的卷积操作的参数初始化值;
S3.4、再使用1×1卷积模块对经过3×3卷积核的水平、竖直边缘特征进行卷积操作得到的学生模型的水平边缘特征、学生模型的竖直边缘特征、教师模型的水平边缘特征和教师模型的竖直边缘特征进行计算,计算过程如下:
,
,
,
,
其中,表示1×1卷积模块的操作,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征;
S3.5、分别对卷积后得到的四个特征进行均方误差计算,得到边缘特征对齐损失,计算过程如下:
,
其中,表示边缘特征对齐损失,表示均方误差操作。
S4中基于交叉注意力的深层特征对齐模块CAAM的操作具体如下:
S4.1、将教师语义分割模型提取的深层特征由嵌入块形式重映射到与学生语义分割模型提取的深层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的深层特征的维度缩放至与学生语义分割模型提取的深层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在该Transformer解码器中图像长、宽方向上的分块个数,表示重映后的教师语义分割模型提取的深层特征;
S4.2、将学生语义分割模型提取的深层特征降采样到与特征相同的分辨率,再与重映射后的教师语义分割模型提取的深层特征进行由特征图形式重映射到块嵌入形式的操作,计算过程如下:
,
,
,
其中,表示降采样后的学生语义分割模型提取的深层特征,表示降采样操作,表示由特征图形式重映射到块嵌入形式的操作,表示重映射后得到的学生语义分割模型提取的深层特征,表示再次重映射后得到的教师语义分割模型提取的深层特征;
S4.3、将重映射后得到的学生模型深层特征的块嵌入序列作为查询输入,将再次重映射后得到的教师模型深层特征作为键输入,两者进行转置相乘,得到融合后的深层特征,再将融合后的深层特征通过1×1的卷积核,得到特征,计算公式如下:
,
;
S4.4、将输入图像整张图的真值标签进行重映射,并使真值标签维度转换为特征的维度,计算过程如下:
,
其中,表示经过重映射后的真值标签特征,表示由特征图形式重映射到块嵌入形式的操作;
S4.5、将经过重映射后的真值标签特征通过全连接层,使重映射后的真值标签特征降低分辨率至与教师语义分割模型提取的深层特征的分辨率相同,进而得到降低分辨率后的真值标签特征;
然后将降低分辨率后的真值标签特征作为查询输入和键输入,进行转置相乘,得到标签的自注意力图特征,最后将标签自注意力图特征通过1×1卷积核,得到最终的标签特征,计算过程如下:
,
,
,
其中,表示全连接层操作,表示标签自注意力图特征,表示1×1卷积操作,表示最终的标签特征;
最后计算特征和特征的均方误差,得到深层特征对齐损失,计算过程如下:
。
S5具体如下:
计算步骤S2.3中学生语义分割模型得到的预测的语义分割图与输入图像对应的真值标签之间的损失,得到学生语义分割模型的分割任务损失,计算过程如下:
,
其中,表示训练集中图像数量,表示训练集中第张图像对应的预测的语义分割图像,表示训练集中第张图像对应的真值标签,表示交叉熵损失函数运算;
然后将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,计算过程如下:
。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
本发明构建的边缘特征对齐模块,能够自适应地提取教师、学生模型的边缘特征,借助教师网络改善学生网络对边缘信息的学习,无需额外的边缘标签数据,提升学生模型提取边缘信息的能力,与现有的语义分割知识蒸馏方法相比,充分利用了边缘这一低层特征;
本发明构建的基于交叉注意力的特征对齐模块,针对Transformer和卷积神经网络的异构性设计,通过该模块获得异构特征交叉注意力图,能够反映教师、学生模型共同信息,有效降低异构特征的噪声干扰,将该异构交叉注意力图与利用标签构建的自注意力图对齐,监督学生模型学习教师模型建模长距离依赖、深层信息的能力,提升异构知识蒸馏效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明中的方法流程示意图。
图2为本发明中分割结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,具体包括以下步骤:
S1.收集12440张复杂家居场景图像,构建智能家居图像语义分割数据集SHISSD(全称Smart Home Image Semantic Segmentation Dataset, 简称SHISSD),数据集中的图像包括分割区域和分割区域标签,按照7:3的比例将数据集划分为训练集和测试集;
S2.异构特征提取:构建基于Transformer架构的教师语义分割模型和基于卷积神经网络架构的学生语义分割模型,两模型分别对训练集中的智能家居场景图像进行特征提取,得到预测的语义分割图,提取的特征包括教师语义分割模型提取的浅层特征和深层特征,学生语义分割模型提取的浅层特征和深层特征;
S3.浅层异构特征对齐:构建边缘特征对齐模块EAM(全称Edge AlignmentModule,简称EAM),对教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征进行对齐,得到边缘特征对齐损失;
S4.深层异构特征对齐:构建基于交叉注意力的深层特征对齐模块CAAM(全称Cross Attention Alignment Module,简称CAAM)对教师语义分割模型提取的深层特征和学生语义分割模型提取的深层特征进行对齐,得到深层特征对齐损失;
S5. 学生语义分割模型训练:将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,同时冻结教师语义分割模型中的参数,将学生语义分割模型的损失函数回传至学生语义分割模型进行参数更新;
S6、将测试集中智能家居场景图像输入到更新后的学生语义分割模型中,得到更新后的学生语义分割模型输出的预测的语义分割图。
具体实施方式中,S1具体如下:
智能家居图像语义分割数据集表示为,表示数据集中第张智能家居场景图像,数据集中共张智能家居场景图像,,将智能家居图像语义分割数据集中图像按像素进行分割,智能家居场景图像中像素点表示为,对应的像素点标签表示为,整张图的像素是一个二维矩阵的真值标签,;
按照7:3的比例将数据集划分为训练集和测试集,训练集表示为,,表示训练集中第张智能家居场景图像,训练集中共张图像,,测试集表示为,,表示测试集中第张智能家居场景图像,测试集中共张图像,,。
具体实施方式中,S2具体如下:
S2.1、模型的结构组成:
教师语义分割模型采用基于Transformer编码器的SegFormer语义分割模型,包括四个Transformer编码器、特征融合层、解码输出层三部分,Transformer编码器具体由自注意力层、残差连接层和归一化层组成;
学生语义分割模型采用基于卷积神经网络的DeepLabV3语义分割模型,包括四个卷积编码层、特征融合层、解码输出层三部分;
S2.2、将训练集中的智能家居图像输入至教师语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
S2.2.1、将训练集中的智能家居场景图像输入至教师语义分割模型前,先通过卷积层对输入的图像进行处理,表示训练集中任意一张智能家居场景图像,将图像的分辨率由转换为,H表示图像的高度,W表示图像的宽度,再将调整过分辨率后的图像重映射为初始块嵌入的形式,图像的初始嵌入块表示为,初始嵌入块中包含若干个像素块;
S2.2.2、将初始块嵌入输入至教师语义分割模型,初始块嵌入首先经过第一个Transformer编码器,通过Transformer编码器内的自注意力层计算初始块嵌入中各像素块之间的相似度,进而得到相似度矩阵,再将相似度矩阵与初始块嵌入进行矩阵相乘,获得到与初始块嵌入维度大小一致特征;
再将初始块嵌入和特征输入至残差连接层,通过对初始块嵌入和特征进行残差连接来保留重要信息,然后再将初始块嵌入和特征输入至归一化层,对和特征进行归一化操作得到特征;
对特征进行比例缩放,通过将特征的数值调整至特定范围来消除数据特征之间数量级的差异,范围为0~1或者-1~1最后得到比例缩放后的特征,第一个Transformer编码器的输出为教师语义分割模型提取的浅层特征;
S2.2.3、将第一个Transformer编码器的输出特征作为第二个Transformer编码器的输入,按照步骤S2.2.2的操作对特征进行相同的处理得到特征;
同理,将上一个Transformer编码器的输出作为下一个Transformer编码器的输入,并进行步骤S2.2.2中的操作,得到第三个Transformer编码器输出的特征和第四个Transformer编码器输出的特征,第四个Transformer编码器的输出为教师语义分割模型提取的深层特征;
S2.2.4、将四个Transformer编码器的输出、、和输入至特征融合层,在特征融合层中,对四个特征向量进行上采样操作,匹配第一个Transformer编码器输出的特征的分辨率,然后将四个上采样结果在特征维度堆叠得到特征,再对特征进行特征维度缩减,得到融合的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
S2.2.5、将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
S2.3、将训练集中的智能家居场景图像输入至学生语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
将图像输入至学生语义分割模型,表示训练集中任意一张智能家居场景图像,图像首先经过第一个卷积编码器,通过卷积编码器对图像卷积、池化、批规范化处理得到特征,然后将第一个卷积编码器输出的特征输入至第二个卷积编码器,通过卷积、池化、批规范化处理得到特征,同理第三个卷积编码器输出特征,第四个卷积编码器输出特征,第一个卷积编码器的输出为学生语义分割模型提取的浅层特征,第四个卷积编码器的输出为学生语义分割模型提取的深层特征;
在特征融合层中,分别对四个卷积编码器输出的特征、、和进行膨胀卷积操作,并匹配第一个卷积编码器的分辨率,再将所有经过膨胀卷积操作后的特征图在通道维度堆叠得到特征,接着对特征进行特征通道维度缩减,得到融合后的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
具体实施方式中,S3具体如下:
边缘特征对齐模块EAM包括水平边缘提取、竖直边缘提取、1×1卷积、边缘特征对其损失计算单元;
S3.1、将教师语义分割模型提取的浅层特征由嵌入块形式重映射到与学生语义分割模型提取的浅层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的浅层特征的维度缩放至与学生语义分割模型提取的浅层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在Transformer解码器中的图像长、宽方向上的分块个数,表示图形式的教师语义分割模型提取的浅层特征;
S3.2、图形式的教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征输入至边缘特征对齐模块EAM,分别在特征图的通道维度上取均值,计算过程如下:
,
,
其中,表示取均值操作,=1表示在维度1上进行取均值操作,表示取均值后学生语义分割模型提取的浅层特征,表示取均值后教师语义分割模型提取的浅层特征;
S3.3、通过两个不同的3×3卷积核分别提取特征和特征的水平边缘特征和竖直边缘特征,计算过程如下:
,
,
,
,
,
,
其中,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示进行水平方向卷积操作,表示进行竖直方向卷积操作,表示提取水平边缘特征的卷积操作的参数初始化值,是表示提取竖直边缘特征的卷积操作的参数初始化值;
S3.4、再使用1×1卷积模块对经过3×3卷积核的水平、竖直边缘特征进行卷积操作得到的学生模型的水平边缘特征、学生模型的竖直边缘特征、教师模型的水平边缘特征和教师模型的竖直边缘特征进行计算,计算过程如下:
,
,
,
,
其中,表示1×1卷积模块的操作,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征;
S3.5、分别对卷积后得到的四个特征进行均方误差计算,得到边缘特征对齐损失,计算过程如下:
,
其中,表示边缘特征对齐损失,表示均方误差操作。
具体实施方式中,S4中基于交叉注意力的深层特征对齐模块CAAM的操作具体如下:
S4.1、将教师语义分割模型提取的深层特征由嵌入块形式重映射到与学生语义分割模型提取的深层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的深层特征的维度缩放至与学生语义分割模型提取的深层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在该Transformer解码器中图像长、宽方向上的分块个数,表示重映后的教师语义分割模型提取的深层特征;
S4.2、将学生语义分割模型提取的深层特征降采样到与特征相同的分辨率,再与重映射后的教师语义分割模型提取的深层特征进行由特征图形式重映射到块嵌入形式的操作,计算过程如下:
,
,
,
其中,表示降采样后的学生语义分割模型提取的深层特征,表示降采样操作,表示由特征图形式重映射到块嵌入形式的操作,表示重映射后得到的学生语义分割模型提取的深层特征,表示再次重映射后得到的教师语义分割模型提取的深层特征;
S4.3、将重映射后得到的学生模型深层特征的块嵌入序列作为查询输入,将再次重映射后得到的教师模型深层特征作为键输入,两者进行转置相乘,得到融合后的深层特征,再将融合后的深层特征通过1×1的卷积核,得到特征,计算公式如下:
,
;
S4.4、将输入图像整张图的真值标签进行重映射,并使真值标签维度转换为特征的维度,计算过程如下:
,
其中,表示经过重映射后的真值标签特征,表示由特征图形式重映射到块嵌入形式的操作;
S4.5、将经过重映射后的真值标签特征通过全连接层,使重映射后的真值标签特征降低分辨率至与教师语义分割模型提取的深层特征的分辨率相同,进而得到降低分辨率后的真值标签特征;
然后将降低分辨率后的真值标签特征作为查询输入和键输入,进行转置相乘,得到标签的自注意力图特征,最后将标签自注意力图特征通过1×1卷积核,得到最终的标签特征,计算过程如下:
,
,
,
其中,表示全连接层操作,表示标签自注意力图特征,表示1×1卷积操作,表示最终的标签特征;
最后计算特征和特征的均方误差,得到深层特征对齐损失,计算过程如下:
。
具体实施方式中,S5具体如下:
计算步骤S2.3中学生语义分割模型得到的预测的语义分割图与输入图像对应的真值标签之间的损失,得到学生语义分割模型的分割任务损失,计算过程如下:
,
其中,表示训练集中图像数量,表示训练集中第张图像对应的预测的语义分割图像,表示训练集中第张图像对应的真值标签,表示交叉熵损失函数运算;
然后将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,计算过程如下:
。
为了进一步验证本发明的正确性,本发明与对比模型在智能家居图像语义分割数据集SHISSD上的进行分割性能对比,结果如表1所示;
表1 本发明与对比模型在智能家居图像语义分割数据集SHISSD上的分割性能对比结果
由表1所示,本发明与对比模型在SHISSD数据集上进行分割性能对比,同时对本发明进行消融实验,评价指标为平均交并比mIoU和模型参数量,语义分割框架模型Segformer(B4)为教师模型,语义分割网络Deeplabv3(resnet18)为学生模型,+SKD、+IFVD、+CWD、+EAM、+CAAM和+EAM+CAAM表示在Deeplabv3(resnet18)模型的基础上加入的模块,其中SKD,IFKD, CWD是本文采用的对比模型:
SKD是结构化的知识蒸馏方法,确保教师学生模型特征空间和结构特征的一致性;
IFVD类间特征对齐知识蒸馏方法,通过缩小教师学生模型相同类别像素的预测概率的差异,对齐教师学生模型;
CWD是通道维度的知识蒸馏方法,逐个通道地对齐教师学生模型的预测的概率;
基于Transformer的Segformer模型的分割精度最高,但其参数量也是最高,不利于在智能家居设备上的部署,原始的Deeplabv3模型,参数量低,但精度不高,本发明通过构建边缘特征对齐模块和基于交叉注意力的深层特征对齐模块,采用异构特征知识蒸馏方法得到的模型,在保证模型参数量不变的情况下提高了分割精度;表中最后三行为消融实验结果,在消融实验中可以看出,在单独加入边缘特征对齐模块或者是单独加入基于交叉注意力的深层特征对齐模块,都能够有效提高模型的分割精度,采用两个模块的模型分割精度达到最高,显著提升了异构知识蒸馏效果,模型参数量不变,本发明能够很好的部署在智能家居设备上。
实施例2
智能家居摄像头可以通过图像分割技术增强对周围环境的理解,从而实现多种智能功能,例如识别潜在危险、调度其他智能家居设备等,本发明应用于智能家居环境,利用摄像头采集的图像数据,通过语义分割技术分析和处理,提升家庭环境的智能化水平;
ADE20K 数据集是一个广泛使用的图像语义分割数据集,包含超过150种物体和物体部件的标注,涵盖了家庭、办公室、等多种室内场景,其丰富的类别和高质量的标注使其成为智能家居场景分割任务的理想选择;
在本发明中,利用 ADE20K 数据集训练了两个模型:Segformer(B4) 作为教师模型,DeepLabv3 (ResNet18) 作为学生模型,模型参数量如表2所示;
表2 教师模型和学生模型的模型参数量
通过应用本发明提出的异构特征知识蒸馏方法,将教师模型Segformer的知识传递给学生模型DeepLabv3,显著提升了学生模型的分割性能,使其分割效果接近于教师模型;通过本发明的异构特征知识蒸馏方法,智能家居摄像头能够在资源受限的情况下,达到接近于高性能教师模型的分割效果,在算力有限的场景下,为智能家居设备的环境理解提供了强有力的支持。
实施例3
图2为本发明的分割效果对比图,由图2可知,选择了三幅图像,每幅图像对应学生语义分割模型的分割效果和教师语义分割模型的分割效果,学生语义分割模型在进行训练后参数进行了更新,学生语义分割模型可以有效降低异构特征的噪声干扰,由图2中分割效果可知,相较于教师语义分割模型的分割效果,学生语义分割模型的分割效果更明显更直观,轮廓更清晰,信息更全。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (7)
1.一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,包括以下步骤:
S1.收集复杂的智能家居场景图像,构建智能家居图像语义分割数据集,数据集中的图像包括分割区域和分割区域标签,按比例将数据集划分为训练集和测试集;
S2.异构特征提取:构建基于Transformer架构的教师语义分割模型和基于卷积神经网络架构的学生语义分割模型,两模型分别对训练集中的智能家居场景图像进行特征提取,得到预测的语义分割图,提取的特征包括教师语义分割模型提取的浅层特征和深层特征,学生语义分割模型提取的浅层特征和深层特征;
S3.浅层异构特征对齐:构建边缘特征对齐模块EAM,对教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征进行对齐,得到边缘特征对齐损失;
S4.深层异构特征对齐:构建基于交叉注意力的深层特征对齐模块CAAM对教师语义分割模型提取的深层特征和学生语义分割模型提取的深层特征进行对齐,得到深层特征对齐损失;
S5. 学生语义分割模型训练:将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,同时冻结教师语义分割模型中的参数,将学生语义分割模型的损失函数回传至学生语义分割模型进行参数更新;
S6、将测试集中智能家居场景图像输入到更新后的学生语义分割模型中,得到更新后的学生语义分割模型输出的预测的语义分割图。
2.根据权利要求1所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S1具体如下:
智能家居图像语义分割数据集表示为,表示数据集中第张智能家居场景图像,数据集中共K张智能家居场景图像,将智能家居图像语义分割数据集中图像按像素进行分割,智能家居场景图像中像素点表示为,对应的像素点标签表示为,整张图的像素是一个二维矩阵的真值标签,;
按比例将数据集划分为训练集和测试集,训练集表示为,,表示训练集中第张智能家居场景图像,训练集中共张图像,测试集表示为,,表示测试集中第张智能家居场景图像,测试集中共张图像,。
3.根据权利要求2所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于, S2具体如下:
S2.1、模型的结构组成:
教师语义分割模型采用基于Transformer编码器的SegFormer语义分割模型,包括四个Transformer编码器、特征融合层、解码输出层三部分,Transformer编码器具体由自注意力层、残差连接层和归一化层组成;
学生语义分割模型采用基于卷积神经网络的DeepLabV3语义分割模型,包括四个卷积编码层、特征融合层、解码输出层三部分;
S2.2、将训练集中的智能家居图像输入至教师语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
S2.2.1、将训练集中的智能家居场景图像输入至教师语义分割模型前,先通过卷积层对输入的图像进行处理,表示训练集中任意一张智能家居场景图像,将图像的分辨率由转换为,H表示图像的高度,W表示图像的宽度,再将调整过分辨率后的图像重映射为初始块嵌入的形式,图像的初始嵌入块表示为,初始嵌入块中包含若干个像素块;
S2.2.2、将初始块嵌入输入至教师语义分割模型,初始块嵌入首先经过第一个Transformer编码器,通过Transformer编码器内的自注意力层计算初始块嵌入中各像素块之间的相似度,进而得到相似度矩阵,再将相似度矩阵与初始块嵌入进行矩阵相乘,获得到与初始块嵌入维度大小一致特征;
再将初始块嵌入和特征输入至残差连接层,通过对初始块嵌入和特征进行残差连接来保留重要信息,然后再将初始块嵌入和特征输入至归一化层,对和特征进行归一化操作得到特征;
对特征进行比例缩放,通过将特征的数值调整至特定范围来消除数据特征之间数量级的差异,范围为0~1或者-1~1最后得到比例缩放后的特征,第一个Transformer编码器的输出为教师语义分割模型提取的浅层特征;
S2.2.3、将第一个Transformer编码器的输出特征作为第二个Transformer编码器的输入,按照步骤S2.2.2的操作对特征进行相同的处理得到特征;
同理,将上一个Transformer编码器的输出作为下一个Transformer编码器的输入,并进行步骤S2.2.2中的操作,得到第三个Transformer编码器输出的特征和第四个Transformer编码器输出的特征,第四个Transformer编码器的输出为教师语义分割模型提取的深层特征;
S2.2.4、将四个Transformer编码器的输出、、和输入至特征融合层,在特征融合层中,对四个特征向量进行上采样操作,匹配第一个Transformer编码器输出的特征的分辨率,然后将四个上采样结果在特征维度堆叠得到特征,再对特征进行特征维度缩减,得到融合的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
S2.2.5、将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
4.根据权利要求3所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于:
S2.3、将训练集中的智能家居场景图像输入至学生语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:
将图像输入至学生语义分割模型,表示训练集中任意一张智能家居场景图像,图像首先经过第一个卷积编码器,通过卷积编码器对图像卷积、池化、批规范化处理得到特征,然后将第一个卷积编码器输出的特征输入至第二个卷积编码器,通过卷积、池化、批规范化处理得到特征,同理第三个卷积编码器输出特征,第四个卷积编码器输出特征,第一个卷积编码器的输出为学生语义分割模型提取的浅层特征,第四个卷积编码器的输出为学生语义分割模型提取的深层特征;
在特征融合层中,分别对四个卷积编码器输出的特征、、和进行膨胀卷积操作,并匹配第一个卷积编码器的分辨率,再将所有经过膨胀卷积操作后的特征图在通道维度堆叠得到特征,接着对特征进行特征通道维度缩减,得到融合后的特征,特征的维度大小为,表示特征的高度,表示特征的宽度,表示特征的通道数,将特征在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为个,每个类别对应一个概率值;
将特征输入至解码输出层中,在解码输出层中,将特征中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图。
5.根据权利要求4所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S3具体如下:
边缘特征对齐模块EAM包括水平边缘提取、竖直边缘提取、1×1卷积、边缘特征对其损失计算单元;
S3.1、将教师语义分割模型提取的浅层特征由嵌入块形式重映射到与学生语义分割模型提取的浅层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的浅层特征的维度缩放至与学生语义分割模型提取的浅层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在Transformer解码器中的图像长、宽方向上的分块个数,表示图形式的教师语义分割模型提取的浅层特征;
S3.2、图形式的教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征输入至边缘特征对齐模块EAM,分别在特征图的通道维度上取均值,计算过程如下:
,
,
其中,表示取均值操作,=1表示在维度1上进行取均值操作,表示取均值后学生语义分割模型提取的浅层特征,表示取均值后教师语义分割模型提取的浅层特征;
S3.3、通过两个不同的3×3卷积核分别提取特征和特征的水平边缘特征和竖直边缘特征,计算过程如下:
,
,
,
,
,
,
其中,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示特征的水平边缘特征,表示特征的竖直边缘特征,表示进行水平方向卷积操作,表示进行竖直方向卷积操作,表示提取水平边缘特征的卷积操作的参数初始化值,是表示提取竖直边缘特征的卷积操作的参数初始化值;
S3.4、再使用1×1卷积模块对经过3×3卷积核的水平、竖直边缘特征进行卷积操作得到的学生模型的水平边缘特征、学生模型的竖直边缘特征、教师模型的水平边缘特征和教师模型的竖直边缘特征进行计算,计算过程如下:
,
,
,
,
其中,表示1×1卷积模块的操作,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征,表示经卷积操作后的水平边缘特征,表示经卷积操作后的竖直边缘特征;
S3.5、分别对卷积后得到的四个特征进行均方误差计算,得到边缘特征对齐损失,计算过程如下:
,
其中,表示边缘特征对齐损失,表示均方误差操作。
6.根据权利要求5所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S4中基于交叉注意力的深层特征对齐模块CAAM的操作具体如下:
S4.1、将教师语义分割模型提取的深层特征由嵌入块形式重映射到与学生语义分割模型提取的深层特征一致的特征图形式,计算过程如下:
,
其中,表示将教师语义分割模型提取的深层特征的维度缩放至与学生语义分割模型提取的深层特征的维度一致,表示由块嵌入形式重映射到特征图形式的操作,表示批大小,和分别表示教师语义分割模型在该Transformer解码器中图像长、宽方向上的分块个数,表示重映后的教师语义分割模型提取的深层特征;
S4.2、将学生语义分割模型提取的深层特征降采样到与特征相同的分辨率,再与重映射后的教师语义分割模型提取的深层特征进行由特征图形式重映射到块嵌入形式的操作,计算过程如下:
,
,
,
其中,表示降采样后的学生语义分割模型提取的深层特征,表示降采样操作,表示由特征图形式重映射到块嵌入形式的操作,表示重映射后得到的学生语义分割模型提取的深层特征,表示再次重映射后得到的教师语义分割模型提取的深层特征;
S4.3、将重映射后得到的学生模型深层特征的块嵌入序列作为查询输入,将再次重映射后得到的教师模型深层特征作为键输入,两者进行转置相乘,得到融合后的深层特征,再将融合后的深层特征通过1×1的卷积核,得到特征,计算公式如下:
,
;
S4.4、将输入图像整张图的真值标签进行重映射,并使真值标签维度转换为特征的维度,计算过程如下:
,
其中,表示经过重映射后的真值标签特征,表示由特征图形式重映射到块嵌入形式的操作;
S4.5、将经过重映射后的真值标签特征通过全连接层,使重映射后的真值标签特征降低分辨率至与教师语义分割模型提取的深层特征的分辨率相同,进而得到降低分辨率后的真值标签特征;
然后将降低分辨率后的真值标签特征作为查询输入和键输入,进行转置相乘,得到标签的自注意力图特征,最后将标签自注意力图特征通过1×1卷积核,得到最终的标签特征,计算过程如下:
,
,
,
其中,表示全连接层操作,表示标签自注意力图特征,表示1×1卷积操作,表示最终的标签特征;
最后计算特征和特征的均方误差,得到深层特征对齐损失,计算过程如下:
。
7.根据权利要求6所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S5具体如下:
计算步骤S2.3中学生语义分割模型得到的预测的语义分割图与输入图像对应的真值标签之间的损失,得到学生语义分割模型的分割任务损失,计算过程如下:
,
其中,表示训练集中图像数量,表示训练集中第张图像对应的预测的语义分割图像,表示训练集中第张图像对应的真值标签,表示交叉熵损失函数运算;
然后将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,计算过程如下:
。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511205285.7A CN120726633B (zh) | 2025-08-27 | 2025-08-27 | 面向智能家居图像语义分割任务的异构特征知识蒸馏方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202511205285.7A CN120726633B (zh) | 2025-08-27 | 2025-08-27 | 面向智能家居图像语义分割任务的异构特征知识蒸馏方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN120726633A CN120726633A (zh) | 2025-09-30 |
| CN120726633B true CN120726633B (zh) | 2025-11-11 |
Family
ID=97167150
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202511205285.7A Active CN120726633B (zh) | 2025-08-27 | 2025-08-27 | 面向智能家居图像语义分割任务的异构特征知识蒸馏方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN120726633B (zh) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117789244A (zh) * | 2023-11-17 | 2024-03-29 | 中山大学 | 一种基于知识蒸馏的人体解析方法与系统 |
| CN119514595A (zh) * | 2024-10-16 | 2025-02-25 | 哈尔滨工业大学 | 一种面向遥感语义分割任务的跨模型知识蒸馏方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
| CN116703947A (zh) * | 2023-06-30 | 2023-09-05 | 太原科技大学 | 一种基于注意力机制和知识蒸馏的图像语义分割方法 |
| CN120493046A (zh) * | 2025-04-14 | 2025-08-15 | 云南民族大学 | 基于掩码生成式蒸馏与跨任务一致性的密集目标检测优化方法 |
| CN120259284B (zh) * | 2025-06-03 | 2025-08-05 | 广东海洋大学 | 一种基于不确定性估计及多级蒸馏的医学图像分割方法 |
-
2025
- 2025-08-27 CN CN202511205285.7A patent/CN120726633B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN117789244A (zh) * | 2023-11-17 | 2024-03-29 | 中山大学 | 一种基于知识蒸馏的人体解析方法与系统 |
| CN119514595A (zh) * | 2024-10-16 | 2025-02-25 | 哈尔滨工业大学 | 一种面向遥感语义分割任务的跨模型知识蒸馏方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN120726633A (zh) | 2025-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
| CN110781775B (zh) | 一种多尺度特征支持的遥感影像水体信息精确分割方法 | |
| CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
| CN115496928B (zh) | 基于多重特征匹配的多模态图像特征匹配方法 | |
| CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
| CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
| CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
| CN119314141B (zh) | 基于多尺度注意力机制的轻量化停车检测方法 | |
| CN113642445A (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
| CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
| CN110517270A (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
| CN118015332A (zh) | 一种遥感影像显著性目标检测方法 | |
| CN115063890A (zh) | 基于两级加权均方损失函数的人体姿态估计方法 | |
| CN115147932B (zh) | 一种基于深度学习的静态手势识别方法及系统 | |
| CN116012349A (zh) | 基于最小单形体体积约束及Transformer结构的高光谱图像解混方法 | |
| CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
| CN113223006A (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
| CN118154984B (zh) | 融合引导滤波的无监督邻域分类超像素生成方法及系统 | |
| CN113255646B (zh) | 一种实时场景文本检测方法 | |
| CN110288603A (zh) | 基于高效卷积网络和卷积条件随机场的语义分割方法 | |
| CN119693652A (zh) | 一种图像分割及特征提取方法 | |
| CN114758387B (zh) | 基于单帧rgb图像的轻量级人脸反欺诈方法及装置 | |
| CN116206123A (zh) | 基于多表征特征提取法进行目标检测的方法 | |
| CN120726633B (zh) | 面向智能家居图像语义分割任务的异构特征知识蒸馏方法 | |
| CN110020986A (zh) | 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |