CN113436726B

CN113436726B - 一种基于多任务分类的肺部病理音自动化分析方法

Info

Publication number: CN113436726B
Application number: CN202110728236.7A
Authority: CN
Inventors: 许静; 张建雯; 吴彦峰
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-03-04
Anticipated expiration: 2041-06-29
Also published as: CN113436726A

Abstract

本发明公开了一种基于多任务分类的肺部病理音自动化分析方法，涉及肺部病理分析技术领域，包括以下步骤：将提取的音频特征，输入至卷积神经网络MobileNetV2的多任务分类模型，所述卷积神经网络MobileNetV2的多任务分类模型，包括输出用于肺部病理音识别任务和输出用于肺部疾病预测任务。本发明采用多任务学习方法可以隐式增加训练数据量，并通过同一数据的多个标签信息的领域知识来改善模型的泛化性能，从而提升卷积神经网络MobileNetV2的多任务分类模型的预测准确率，另外使用轻量化的卷积神经网络MobileNetV2的多任务分类模型，参数较少，对训练设备的计算能力、内存大小的需求比较小，使得预测分类任务可以在移动或嵌入式设备上完成。

Description

一种基于多任务分类的肺部病理音自动化分析方法

技术领域

本发明涉及肺部病理分析技术领域，具体来说，涉及一种基于多任务分类的肺部病理音自动化分析方法。

背景技术

研究已经示出患有肺部状况(例如，哮喘、慢性阻塞性肺病(COPD)、肺气肿、囊性纤维化等)的对象的状态的恶化特征在于各方面的组合。呼吸缺陷引起呼吸困难(呼吸短促)和咳嗽。事实上，通常增加的呼吸困难和增加的痰化脓和/或体积(其导致增加的咳嗽)被认为是肺部疾病的加重的最独特或主要的症状。

肺音信号是人体呼吸系统与外界在换气过程中产生的一种生理声信号，产生机理复杂且含有丰富的生理和病理学信息，使用听诊器听呼吸音是筛查和诊断肺部呼吸疾病的主要方法。然而，以听诊器为基础的诊断存在一些不足，如需要专业的医疗人员来判断听诊信号，主观性较强，无法连续监测，人类听觉和记忆有局限性等，这些问题在贫困地区和呼吸疾病流行时期尤为显著，肺音的自动化分析可以提供辅助诊断从而减轻专业医疗人员的工作负担，对智能医疗具有重大的意义。

目前，肺音自动化分析主要包括两大任务：肺部病理音识别和肺部疾病预测。肺音(呼吸音)分为正常音和病理音，肺部病理音的种类较多，最为常见的肺部病理音有两类：裂纹音(crackles)和喘息音(wheezes)。肺部病理音识别的主要任务是判断一段肺音信号是否存在肺部病理音，有助于早期肺部疾病的筛查；肺部疾病预测则是通过对肺音信号的分析预测该患者是否患有肺部疾病和肺部疾病的种类。目前，现有肺音数据集的数据量较小，肺音中噪声干扰较大，因此对于单一肺音识别任务而言难以区分相关与不相关特征，且模型泛化能力弱，导致分类性能较差，且使用的网络模型复杂，参数较多，对训练设备的计算能力、内存大小的需求比较大，需要在大型服务器上运行。

检索中国发明专利CN103417241B公开了包括诊断仪主机、三个装设有声电传感器的肺音探头和无线电子听诊器；其特征在于：诊断仪主机，包括一台用于诊断的计算机和信号放大器；信号放大器通过导线与计算机主机的对应接口连接；三个肺音探头通过导线与信号放大器的信号输出端子连接；无线电子听诊器通过无线传输与计算机主机的对应接口连接。所有呼吸系统疾病都要采集肺音，肺音的多区同时采集和自动分析对于检测病理性附加肺音有重要的意义，从而对病人的诊断治疗都有很大帮助。本发明可以真正确立一种临床上可用的肺音特征分析手段，并应用在小儿肺炎等疾病的临床诊疗上，为此类疾病增添一种客观化的诊断手段，这将对儿童健康和医疗有重要的应用前景。但其存在计算精度低，且不能有效的对肺部病理音识别结果和对应患者的肺部疾病的预测结果。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于多任务分类的肺部病理音自动化分析方法，以克服现有肺音数据集的数据量较小，肺音中噪声干扰较大，因此对于单一肺音识别任务而言难以区分相关与不相关特征，且模型泛化能力弱，导致分类性能较差，且现有技术使用的网络模型复杂，参数较多，对训练设备的计算能力、内存大小的需求比较大，需要在大型服务器上运行的技术问题。

本发明的技术方案是这样实现的：

一种基于多任务分类的肺部病理音自动化分析方法，包括以下步骤：

将提取的音频特征，输入至卷积神经网络MobileNetV2的多任务分类模型，所述卷积神经网络MobileNetV2的多任务分类模型，包括输出用于肺部病理音识别任务和输出用于肺部疾病预测任务，其中：

所述输出用于肺部病理音识别任务，包括以下步骤：

输入到两个大小为512和128的两个全连接层，ReLU6激活函数，用于增加神经网络模型的非线性，并使用dropout参数正规化方法，用于防止过拟合，全连接层的计算公式如下：

y_i＝W^Tx_i+b；

其中，y_i是全连接层的输出向量，x_i为全连接层的输入向量，W和b表示神经网络需要学习的参数。ReLU激活函数的计算公式如下：

其中，x是线性修正单元ReLU激活函数的输入，y是线性修正单元ReLU激活函数的输出；

添加一个softmax激活函数层，得到模型对肺部病理音类别识别的预测结果，使用预测结果与肺音标签计算得到肺音识别任务的交叉熵损失，表达式如下：

其中，x是softmax层的输入向量，class_l表示呼吸周期音频的肺部病理音的标签，weight[class_l]是呼吸周期标签类别的平衡权重，x[j]表示softmax层中每个类别对应的输入向量；

所述输出用于肺部疾病预测任务，包括以下步骤：

预先加入全连接层、ReLU激活函数、dropout参数正规化方法和softmax激活函数层，得到模型对患者患病信息的预测结果，用于计算患者患病信息分类任务的交叉熵损失，表达式如下：

其中，x是softmax层的输入向量，class_d表示患者肺部疾病的八类标签，weight[class_d]是每个类别的平衡权重，x[j]表示softmax层中每个类别对应的输入向量。

进一步的，所述卷积神经网络MobileNetV2的多任务分类模型的损失函数为每个任务的交叉熵损失之和，表达式如下：

loss＝loss_l+loss_d；

进一步的，还包括以下步骤：

预先采集肺音音频数据信息，并进行预处理，将不同长度的呼吸周期音频片段统一化，并作为卷积神经网络MobileNetV2的多任务分类模型的输入数据；

进行标注训练数据，包括标注肺部病理音类型和标注肺部疾病的类型；

进行声学特征提取，提取每段肺音呼吸周期音频信号的梅尔频谱图特征，将音频信号通过短时傅里叶变换得到声谱图，将声谱图通过梅尔标度滤波器组变为梅尔频谱图，再剪去全黑色的空部分，获取频谱特征部分；

基于卷积神经网络MobileNetV2的多任务分类模型，得到输入的呼吸周期特征数据的肺部病理音识别结果和对应患者的肺部疾病的预测结果。

进一步的，所述肺音音频数据信息预处理，包括以下步骤：

将肺音音频数据以呼吸周期为单位进行切割；

对切割后的肺音音频数据基于五阶巴特沃斯带通滤波器去除音频噪声；

对去噪肺音音频数据使用标准归一化将数据的大小统一映射到-1到1区间上，表示为：

再进行分割和重复片段填充将不同长度的呼吸周期音频片段统一为固定的长度值，并作为卷积神经网络MobileNetV2的多任务分类模型的输入数据。

进一步的，所述声谱图的获取，包括以下步骤：

对肺音呼吸周期音频信号分帧和加窗处理；

再对每一帧做傅里叶变换；

把每一帧的结果沿另一维度堆叠，获得声谱图。

本发明的有益效果：

本发明基于多任务分类的肺部病理音自动化分析方法，通过预先采集肺音音频数据信息进行声学特征提取，提取每段肺音呼吸周期音频信号的梅尔频谱图特征，获取频谱特征部分，并输入卷积神经网络MobileNetV2的多任务分类模型，得到输入的呼吸周期特征数据的肺部病理音识别结果和对应患者的肺部疾病的预测结果，采用多任务学习方法可以隐式增加训练数据量，并通过同一数据的多个标签信息的领域知识来改善模型的泛化性能，从而提升卷积神经网络MobileNetV2的多任务分类模型的预测准确率，另外使用轻量化的卷积神经网络MobileNetV2的多任务分类模型，参数较少，对训练设备的计算能力、内存大小的需求比较小，使得预测分类任务可以在移动或嵌入式设备上完成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于多任务分类的肺部病理音自动化分析方法的流程示意图；

图2是根据本发明实施例的一种基于多任务分类的肺部病理音自动化分析方法的神经网络架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于多任务分类的肺部病理音自动化分析方法。

如图1所示，根据本发明实施例的基于多任务分类的肺部病理音自动化分析方法，包括以下步骤：

预先采集肺音音频数据信息，并进行预处理，将不同长度的呼吸周期音频片段统一化，并作为神经网络的输入数据；

基于轻量化的卷积神经网络MobileNetV2的多任务分类模型，得到输入的呼吸周期特征数据的肺部病理音识别结果和对应患者的肺部疾病的预测结果。

具体的，包括以下步骤：

步骤一：数据预处理。

1)将肺音音频数据以呼吸周期为单位进行切割。由于采集到的肺音数据集的采样率在4k赫兹到44.1k赫兹之间，本技术方案使用降采样将音频频率标准化，统一到4k赫兹。

2)由于采集到的肺音数据含有较多噪声，使用五阶巴特沃斯带通滤波器(butterbandpass filter)来去除音频噪声，如心跳声、背景的交谈声等，巴特沃斯带通滤波器(butter bandpass filter)使通频带内的频率响应曲线最大限度平坦，没有起伏，而在阻频带则逐渐下降为零。

3)使用标准归一化将数据的大小统一映射到-1到1区间上，表示为：

将数据各维度标准化到特定的区间，可以加快基于梯度下降法模型的收敛速度。

4)设定一个固定的输入长度值，这里设为8s,通过分割和重复片段填充将不同长度的呼吸周期音频片段统一到这一固定的长度值，以便提取特征后作为神经网络的输入数据。

步骤二：标注训练数据。

1)将训练数据标注出肺部病理音相关的标签，共有四类，分别是正常音、存在裂纹音(crackles)异常音、存在喘息音(wheezes)异常音、同时存在裂纹音(crackles)与喘息音(wheezes)的异常音。

2)找出肺音呼吸周期对应的病人并标注出其肺部疾病的相关标签，共有八类，分别是健康(没有患病)、患有细支气管炎、患有下呼吸道感染、患有哮喘、患有慢性阻塞性肺病、患有支气管扩张、患有上呼吸道感染、患有肺炎。

步骤三：提取数据的音频特征。

提取每段肺音呼吸周期音频信号的梅尔频谱图特征(mel-spectrogram)，将音频信号通过短时傅里叶变换(STFT)得到声谱图，原理是对声音信号分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，即可得到类似于一幅图的二维信号形式，即声谱图，但由于得到的声谱图较大，为了得到合适大小的声音特征，将声谱图通过梅尔标度滤波器组(Mel-scale filter banks)，变为梅尔频谱图。

由于得到的梅尔频谱特征图显示很多音频的高频区域为明显的全黑色，干扰神经网络对特征的学习，因此剪去全黑色的空部分，以保证神经网络学习有效的频谱特征部分。

步骤四：使用肺音数据训练神经网络。

如图2所示，其神经网络架构为基于轻量化的卷积神经网络MobileNetV2的多任务分类模型，最终得到输入的呼吸周期特征数据的肺部病理音识别结果和对应患者的肺部疾病的预测结果。

具体的，其神经网络架构，包括：

将提取的音频特征，即梅尔频谱图特征(mel-spectrogram)图，输入到带有在大型图像数据集ImageNet上预训练权重的轻量化网络MobileNetV2模块，MobileNetV2模块的Bottleneck模块步长为1的情况，卷积层中标注了卷积核的大小，接下来是批标准化batchnormalization和激活函数ReLU6层，ReLU6激活函数表示普通的ReLU激活函数但是限制最大输出值为6，这样可以保证在移动端设备中使用float16/int8的低精度数字的时候，也能有很好的数值分辨率，避免精度损失；接下来是深度可分离卷积层(depthwise separableconvolution)，和标准卷积不同，对于标准卷积其卷积核是用在所有的输入通道上，而深度可分离卷积首先针对每个输入通道采用不同的卷积核，就是说一个卷积核对应一个输入通道，然后采用标准卷积将输出再进行结合，这样的整体效果与一个标准卷积相似，但可以大大减少计算量和模型的参数量，接下来是批标准化、ReLU6激活函数层、卷积层、批标准化和线性激活函数，这里使用线性变换代替ReLU6激活函数，可以避免非线性激活层对信息造成的丢失。Bottleneck模块的卷积操作先使图片的通道数增加，最后减少，与通常是残差块相反，是为了提取更多的通道信息。最后将输出与原始的输入进行元素相加。Bottleneck模块步长为2的情况，因为输出与原始的输出维度不一样，所以不再进行元素相加。

另外，使用的MobileNetV2模块为MobileNet网络去掉最后的分类器层，网络整体框架如表1所示：

表1网络整体框架表

输入通道数	操作	t	c	n	s
						3	Conv2d	-	32	1	2
32	Bottleneck	1	16	1	1
						16	Bottleneck	6	24	2	2
24	Bottleneck	6	32	3	2
						32	Bottleneck	6	64	4	2
64	Bottleneck	6	96	3	1
						96	Bottleneck	6	160	3	2
160	Bottleneck	6	320	1	1
						320	Conv2d 1x1	-	1280	1	1

借助于上述表1所示，每一行表示一系列的操作并重复n次，Bottleneck操作如图2所示，t表示Bottleneck操作输入通道的倍增系数，也就是中间部分的通道数是输入通道数的倍数，n表示操作重复的次数，c表示输出通道数，s表示模块第一次重复时的步长(后面重复步长均为1)，未指明卷积核的卷积操作使用3*3的卷积核。

由于肺音的异常情况与患者的肺部疾病有所关联，两个任务在MobileNetV2网络模块中参数共享，进行联合学习、并行学习，既考虑到了任务之间的差别，又考虑到任务之间的联系。

接着模型分为两个输出，第一个输出用于肺部病理音识别任务，继续输入到两个大小为512和128的两个全连接层，ReLU6激活函数，用于增加神经网络模型的非线性，并使用dropout参数正规化方法，用于防止过拟合，全连接层的计算公式如下：

y_i＝W^Tx_i+b；

其中，x是线性修正单元ReLU激活函数的输入，y是线性修正单元ReLU激活函数的输出。

最后再添加一个softmax激活函数层，得到模型对肺部病理音类别识别的预测结果，使用预测结果与肺音标签计算得到肺音识别任务的交叉熵损失，表达式如下：

其中，x是softmax层的输入向量，class_l表示呼吸周期音频的肺部病理音的四类标签，分别为正常音(无异常音)、只存在裂纹音(crackles)异常音、只存在喘息音(wheezes)异常音、同时存在裂纹音(crackles)和喘息音(wheezes)两种异常音，weight[class_l]是呼吸周期标签类别的平衡权重，由当前类别样本数占总样本数的比例取反得到，用于缓解正常肺音样本过多、异常肺音样本较少带来的数据不平衡问题，x[j]表示softmax层中每个类别对应的输入向量，j从1取到类别数4。

第二个输出用于肺部疾病预测任务，使用同样的结构，即加入全连接层、ReLU激活函数、dropout参数正规化方法和softmax激活函数层，得到模型对患者患病信息的预测结果，用于计算患者患病信息分类任务的交叉熵损失，表达式如下：

其中，x是softmax层的输入向量，class_d表示患者肺部疾病的八类标签，分别为健康(没有患病)、患有细支气管炎、患有下呼吸道感染、患有哮喘、患有慢性阻塞性肺病、患有支气管扩张、患有上呼吸道感染、患有肺炎,weight[class_d]是每个类别的平衡权重，由当前类别样本数占总样本数的比例取反得到，用于缓解正常(不患病)样本过多、不同病症样本较少且比例相差较大的数据不平衡问题，x[j]表示softmax层中每个类别对应的输入向量，j从1取到类别数8。

这两部分的架构中神经网络的参数不再共享，使神经网络学习到两个任务不同之处的参数。神经网络模型的损失函数为每个任务的交叉熵损失之和，表达式如下：

loss＝loss_l+loss_d；

步骤五：对检查者进行预测诊断。

当训练至神经网络收敛时，即可使用更新的神经网络参数进行预测。以呼吸周期为单位记录检查者(求诊人)呼吸时肺部音频信号，按照上述步骤一处理音频信号得到梅尔频谱特征图(mel-spectrogram)后输入神经网络，神经网络可输出患者肺部病理音的预测结果。

综上所述，借助于本发明的上述技术方案，通过基于轻量化网络MobileNetV2的多任务分类模型，用于识别肺部病理音和肺部疾病，该架构的主要创新点为利用患者呼吸音的异常情况与肺部疾病信息具有相关性的特点，进行多任务学习，并使用轻量化模型降低了模型复杂度，即优点为：

1.本多任务分类模型可以有效提高肺音识别准确率，原因如下：

1)隐式增加了数据。多任务学习有效地增加了训练数据的数目，由于所有任务都存在一定噪声，同时学习到两个任务可以得到一个更为泛化的表示。如果只学习肺部病理音识别，需要承担对任务过拟合的风险，然而同时学习肺部病理音分类与肺部疾病分类可以对噪声模式进行平均，使得模型获得更好的特征在参数共享层的表示。

2)注意力集中机制。由于采集的肺音数据噪声严重，数据量小，数据维度高，对于模型来说难以区分相关与不相关特征，而多任务有助于将模型注意力集中在确实有影响的特征上，因为识别患者肺部疾病任务可以为特征的相关与不相关性提供额外的证据。

3)窃听机制。如果对于识别患者肺部疾病任务来说很容易学习某些特征x，而这些特征对于肺部病理音识别任务来说很难学到，这可能是肺部病理音识别任务与特征x的交互方式更复杂，或者其他特征阻碍了特征x的学习所导致的，通过多任务学习，可以允许模型窃听，即肺部病理音识别任务使用肺部疾病预测任务来学习特征x。

4)表示偏执机制。多任务学习更倾向于学习到一类模型,这类模型更强调与其他任务也强调的那部分表示.由于一个对足够多的训练任务都表现很好的假设空间,对来自于同一环境的新任务也会表现很好,所以这样有助于模型展示出对新任务的泛化能力。

5)正则化机制。多任务学习通过引入归纳偏置起到与正则化相同的作用,减小了模型过拟合的风险,降低了拟合随机噪声的能力。

2.本发明的模型基于轻量化网络MobileNetV2，模型复杂度低，参数量小，只需要13.88M，对运算力、内存的需求低，使得原本需要在大型服务器上进行训练与预测的任务在移动或嵌入式设备上也可以完成，并加快了训练与预测的速度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务分类的肺部病理音自动化分析方法，其特征在于，包括以下步骤：

所述输出用于肺部病理音识别任务，包括以下步骤：

y_i＝W^Tx_i+b；

其中，y_i是全连接层的输出向量，x_i为全连接层的输入向量，W和b表示神经网络需要学习的参数，ReLU激活函数表示为：

所述输出用于肺部疾病预测任务，包括以下步骤：

其中，x是softmax层的输入向量，class_d表示患者肺部疾病的标签，weight[class_d]是每个类别的平衡权重，x[j]表示softmax层中每个类别对应的输入向量。

2.根据权利要求1所述的基于多任务分类的肺部病理音自动化分析方法，其特征在于，所述卷积神经网络MobileNetV2的多任务分类模型的损失函数为每个任务的交叉熵损失之和，表达式如下：

loss＝loss_l+loss_d；

3.根据权利要求2所述的基于多任务分类的肺部病理音自动化分析方法，其特征在于，还包括以下步骤：

4.根据权利要求3所述的基于多任务分类的肺部病理音自动化分析方法，其特征在于，所述肺音音频数据信息预处理，包括以下步骤：

将肺音音频数据以呼吸周期为单位进行切割；

5.根据权利要求4所述的基于多任务分类的肺部病理音自动化分析方法，其特征在于，所述声谱图的获取，包括以下步骤：

对肺音呼吸周期音频信号分帧和加窗处理；

再对每一帧做傅里叶变换；

把每一帧的结果沿另一维度堆叠，获得声谱图。