CN118303870A - 基于音频信号和振动信号的咳嗽检测方法、系统 - Google Patents
基于音频信号和振动信号的咳嗽检测方法、系统 Download PDFInfo
- Publication number
- CN118303870A CN118303870A CN202410505793.6A CN202410505793A CN118303870A CN 118303870 A CN118303870 A CN 118303870A CN 202410505793 A CN202410505793 A CN 202410505793A CN 118303870 A CN118303870 A CN 118303870A
- Authority
- CN
- China
- Prior art keywords
- signal
- cough
- audio signal
- vibration
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 146
- 206010011224 Cough Diseases 0.000 title claims abstract description 143
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000003321 amplification Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 10
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001356 surgical procedure Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002980 postoperative effect Effects 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 208000035965 Postoperative Complications Diseases 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006984 memory degeneration Effects 0.000 description 1
- 208000023060 memory loss Diseases 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/08—Measuring devices for evaluating the respiratory organs
- A61B5/0823—Detecting or evaluating cough events
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
- A61B5/1101—Detecting tremor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/725—Details of waveform analysis using specific filters therefor, e.g. Kalman or adaptive filters
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7253—Details of waveform analysis characterised by using transforms
- A61B5/7257—Details of waveform analysis characterised by using transforms using Fourier transforms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Veterinary Medicine (AREA)
- Artificial Intelligence (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Physiology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Pulmonology (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Dentistry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于音频信号和振动信号的咳嗽检测方法、系统,方法包括:将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。本发明可以明显提高检测的准确率与特异性。
Description
技术领域
本发明涉及一种基于音频信号和振动信号的咳嗽检测方法,属于信号处理技术领域。
背景技术
术后咳嗽是许多胸外科手术的术后并发症之一,由于咳嗽发生的时间以及咳嗽的频率等都与患者术后的身体状况有关,这些咳嗽特征可以作为衡量手术效果和确定患者术后身体状况的指标。目前对于患者咳嗽的评估,患者可以根据对自己咳嗽的主观感知来标记自己咳嗽的时间以及发生的频率。但是对于老人和儿童而言,记忆力的衰退和表达能力的不足都可能会使他们难以对自身的咳嗽特征进行清晰的描述。
对于目前的咳嗽检测技术,许多对于自动咳嗽检测系统的研究仅仅基于声音传感器,即音频信号,然而,对于术后患者的病房里通常不止一个病人,其他病人的咳嗽也会被收集,这将大大降低了对咳嗽信号识别的准确率。
现有技术中缺乏对咳嗽数据进行筛选的技术方案,由此特提出本发明。
发明内容
本发明提供了一种基于音频信号和振动信号的咳嗽采集装置,以用于实现同步采集用户的音频信号和振动信号;提供了一种基于音频信号和振动信号的咳嗽检测方法、系统,通过获取的音频信号和振动信号进行联合判别,提高咳嗽信号识别的准确率。
本发明的技术方案是:
根据本发明的第一方面,提供了一种基于音频信号和振动信号的咳嗽采集装置,包括麦克风、振动传感器、控制模块;控制模块包括主控板、通信模块、电荷放大模块、录音模块、电源,电源用于供电,振动传感器经电荷放大模块与主控板连接,通信模块用于将主控板获得的振动信号数据传输至上位机,麦克风经录音模块与主控板连接,通过录音模块带有的存储卡存储获得的音频信号数据。
根据本发明的第二方面,提供了一种基于音频信号和振动信号的咳嗽检测方法,包括:步骤1:将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;步骤2:对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;步骤3:对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;步骤4:基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;步骤5:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;步骤6:针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
采用一阶高通滤波的形式对音频信号进行预加重;依据第一预设帧长,对预加重后的音频信号进行分帧;对分帧后的音频信号施加汉明窗,获得加窗音频信号。
依据第二预设帧长,采用经验模态分解将振动信号分解为有限个IMF及残差项,去除第一个IMF及残差项,获得去除后剩余的IMF;对去除后的IMF进行重构,获得平滑信号。
对于加窗音频信号,提取其短时能量、平均过零率和梅尔倒谱系数特征参数。
对于平滑信号,提取其时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值、能量比特征参数。
所述依据阈值获得的基于振动信号的咳嗽检测结果,具体为:依据平滑信号所提取的各个特征参数的阈值,对提取完特征参数的以第二预设帧长分帧的平滑信号进行判断:如果各特征参数均满足判断准则,则认为是咳嗽信号,否则认为是非咳嗽信号。
所述步骤5,具体为:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于袋装树模型训练,获得训练好的目标检测模型;其中,袋装树模型的验证方案为交叉验证。
根据本发明的第三方面,提供了一种基于音频信号和振动信号的咳嗽检测系统,包括:第一获得模块,用于将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;特征提取模块,用于对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;标识模块,用于对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;标定模块,用于基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;第二获得模块,用于以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;确定模块,用于针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
根据本发明的第四方面,提供了一种终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器被配置为执行上述中任一项所述的方法。
本发明的有益效果是:
1、本发明提取音频信号短时能量、平均过零率和梅尔倒谱系数特征参数,提取振动信号的时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值和能量比特征参数,能够充分利用咳嗽信号的时域特征和频域特征,提高咳嗽检测算法的准确性和可靠性。
2、同时采集音频信号和振动信号,对其进行特征提取后,对音频信号和振动信号分别进行咳嗽检测,对于两种信号在时域上重合的咳嗽帧认定为最终的咳嗽帧,从而排除同一房间内他人咳嗽的影响,提高准确率,并且对说话声、音乐声和白噪声等噪声具备一定的抗干扰能力,提高特异性。
3、咳嗽信号采集设备具有体积小、重量轻等特点,在实际使用时具有无侵入和可便携的优点,使用时不会影响用户的日常活动,同时功耗小,能够实现20小时以上的持续运行。
附图说明
图1是本发明的检测方法流程图;
图2是咳嗽采集装置整体结构示意图;
图3是本发明所训练袋装树模型的混淆矩阵。
具体实施方式
下面结合附图和实施例,对发明作进一步的说明,但本发明的内容并不限于所述范围。
实施例1:如图1-3所示,根据本发明实施例的第一方面,提供了一种基于音频信号和振动信号的咳嗽采集装置,包括麦克风、振动传感器、控制模块;控制模块包括主控板、通信模块、电荷放大模块、录音模块、电池,电池用于供电,振动传感器经电荷放大模块与主控板连接,通信模块用于将主控板获得的振动信号数据传输至上位机,麦克风经录音模块与主控板连接,通过录音模块带有的存储卡存储获得的音频信号数据。
根据本发明实施例的第二方面,提供了一种基于音频信号和振动信号的咳嗽检测方法,包括:步骤1:将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;步骤2:对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;步骤3:对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;步骤4:基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;步骤5:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;步骤6:针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
进一步地,采用一阶高通滤波的形式对音频信号进行预加重;依据第一预设帧长,对预加重后的音频信号进行分帧;对分帧后的音频信号施加汉明窗,获得加窗音频信号。
进一步地,依据第二预设帧长,采用经验模态分解将振动信号分解为有限个本征模态函数IMF及残差项,去除第一个IMF及残差项,获得去除后剩余的IMF;对去除后的IMF进行重构,获得平滑信号。
进一步地,对于平滑信号,提取其时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值、能量比特征参数。
进一步地,对于加窗音频信号,提取其短时能量、平均过零率和梅尔倒谱系数特征参数。
进一步地,所述依据阈值获得的基于振动信号的咳嗽检测结果,具体为:依据各个特征参数的阈值,对提取完特征参数的以第二预设帧长分帧的平滑信号进行判断:如果各特征参数均满足判断准则,则认为是咳嗽信号,否则认为是非咳嗽信号。
进一步地,所述步骤5,具体为:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于袋装树模型训练,获得训练好的目标检测模型;其中,袋装树模型的验证方案为交叉验证。
根据本发明实施例的第三方面,提供了一种基于音频信号和振动信号的咳嗽检测系统,包括:第一获得模块,用于将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;特征提取模块,用于对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;标识模块,用于对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;标定模块,用于基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;第二获得模块,用于以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;确定模块,用于针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
根据本发明实施例的第四方面,提供了一种终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器被配置为执行上述中任一项所述的基于音频信号和振动信号的咳嗽检测方法。
根据本发明实施例的第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的基于音频信号和振动信号的咳嗽检测方法。
进一步地,对本发明可选地实施过程介绍如下:
所述步骤1,包括:
步骤1.1:通过咳嗽采集装置采集原始数据,原始数据包括音频信号与振动信号,音频信号数据、振动信号数据均可分为咳嗽信号数据与非咳嗽信号数据;其中,咳嗽采集装置包括控制模块4、可调背带3、振动传感器2、麦克风1,控制模块4封装在外壳中,外壳经可调背带3连接用于不同身形用户斜挂于肩膀处使用,麦克风1夹于用户的衣领处,避开与嘴巴直接相对,以提高所采集音频信号的质量,通过医用胶布将振动传感器2贴于用户的上切迹处,用于采集用户的振动信号;控制模块4包括主控板、通信模块、电荷放大模块、录音模块、电池,电池用于供电,振动传感器2经电荷放大模块与主控板连接(用于放大压电薄膜上的微弱电压,并且将电压传输到主控板,从而实现对用户振动信号的获取),麦克风1经录音模块与主控板连接。实测过程中,电荷放大模块采用的是型号为:LDT0-028K,振动传感器采用VSP-50014040TN压电薄膜振动传感器,主控板型号为STM32 Cortex-M3,所述通信模块采用蓝牙模块,用于将主控板获得的振动信号数据传输至上位机,在上位机上将其保存为CSV格式文件;录音模块带有存储卡,存储卡用于存储获得的音频信号数据,存储卡为SD卡,可以通过上位机经读卡器读取(上位机为PC),将音频信号的样本数据转移到PC端后,对其进行采样频率与格式的转换,将采样频率为44100Hz的MP3文件转换为采样频率为8000Hz的WAV文件。
步骤1.2:依据第二预设帧长,采用经验模态分解将振动信号分解为有限个本征模态函数(IMF)及残差项,去除第一个IMF及残差项,获得去除后剩余的IMF;对去除后剩余的IMF进行重构,获得平滑信号;其中,原始振动信号的采样频率为500Hz,将第二预设帧长设定为1秒,每帧含有500个采样点,因此振动信号经重构后被转换成一系列1秒长的低噪声平滑信号。
步骤1.3:采用一阶高通滤波的形式对音频信号进行预加重,即对音频信号的高频部分进行加重;依据第一预设帧长,对预加重后的音频信号进行分帧,分帧后的音频信号具有短时平稳性;对分帧后的音频信号施加汉明窗,获得加窗音频信号,在进行频域分析时减少音频信号的频谱泄漏。第一预设帧长同样设定为1秒(根据需要也可设置为不同)。
所述步骤2,包括:对于平滑信号,提取其时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值和能量比特征参数;对于加窗音频信号,提取其短时能量、平均过零率和梅尔倒谱系数特征参数,获得维度为t×15的特征参数。具体如下:
步骤2.1:提取平滑信号的时域特征和频域特征,在时域上,提取平滑信号的时域峰值特征参数,然后通过快速傅里叶变换将平滑信号变换到频域,提取平滑信号的频域主峰峰值、频域主峰频率、重心频率、频域峰值和能量比特征参数;
步骤2.2:提取加窗音频信号的时域特征和频域特征,在时域上,提取音频信号的短时能量和平均过零率特征参数,然后通过快速傅里叶变换将加窗音频信号变换到频域,提取加窗音频信号13维的梅尔倒谱系数。
所述步骤2.1,具体为:
由于振动传感器检测到的振动信号频率为2Hz,因此还考虑了频谱中2Hz附近的主峰峰值。重心频率FC特征参数的计算方法如下:
其中,f表示平滑信号的频率(即原振动信号的频率),P(f)表示平滑信号的功率谱密度。
所述步骤2.2,具体为:
短时能量表示音频信号在一帧内的能量,可以用来区分有声帧和无声帧,短时能量特征参数的计算方法如下:
其中,E(i)表示第i帧的短时能量,xi(n)表示第i帧内第n个采样点的能量,L表示每一帧的采样点的数量;
平均过零率作为音频信号的物理特征之一,计算方法如下:
其中,Z(i)表示第i帧的平均过零率,sgn(·)为符号函数。
由于人耳对于低频信号的敏感性比对于高频信号的敏感性高,因此设置三角滤波器,将频域转为梅尔频域,这些三角滤波器能达到模仿人耳的效果,然后对滤波后的信号进行取对数操作,最后进行离散余弦变换,得到13维的梅尔倒谱系数,梅尔滤波器的设计方法如下:
其中,m为三角滤波器个数,在本发明中m=13,f(m)为三角滤波器的中心频率,k为傅里叶变换的点数。
所述加窗音频信号的短时能量特征参数的维度为t×1,所述平均过零率特征参数的维度为t×1,所述梅尔倒谱系数特征参数的维度为t×13,对所述三种特征参数进行组合,组合后的特征参数维度为t×15,t为三角音频信号的帧数。
所述步骤3,具体为:对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行人为响应标识,对咳嗽帧的响应标识为1,对非咳嗽帧的响应标识为0。
所述步骤4,具体为:针对平滑信号,标定发生咳嗽时各个特征参数的判断准则。在本发明实施例中,时域峰值阈值区间设为0到1690、频域主峰峰值阈值区间设为79.4到1410、频域主峰频率阈值区间设为0.257到4Hz、重心频率阈值区间设为0.5382到4.52Hz,频域峰值超过103的峰的数量小于等于四个,4Hz上下的能量比值小于2.188。满足上述条件,则认为符合判断准则。
依据各个特征参数的阈值,对提取完特征参数的以第二预设帧长分帧的平滑信号进行判断:如果各特征参数均满足判断准则,则认为是咳嗽信号,否则认为是非咳嗽信号。
所述步骤5,具体为:以加窗音频信号获得的t×15维度的特征参数为预测变量,所述标识1和0为响应进行加窗音频信号的袋装树模型训练,交叉验证折数为5,学习器数量为100,得到训练好的音频信号的袋装树咳嗽检测模型。
所述步骤6,包括:
步骤6.1:通过咳嗽信号采集设备得到用户的音频信号和振动信号,作为待检测信号;
步骤6.2:将所述待检测的音频信号和振动信号输入至咳嗽检测算法,所述咳嗽检测算法经过如权利要求步骤1-5的过程得到;
步骤6.3:通过所述咳嗽检测算法先分别得到基于音频信号的咳嗽检测结果和基于振动信号的咳嗽检测结果,经过联合判别后输出最终的咳嗽检测结果,所述最终的咳嗽检测结果为所述基于音频信号的咳嗽检测结果和基于振动信号的咳嗽检测结果在时间上重合的结果。
实施例2:如图2所示,一种基于音频信号和振动信号的咳嗽信号采集设备,包括麦克风1、振动传感器2、可调背带3、控制模块4,控制模块4封装在外壳中,外壳经可调背带3连接斜挂于用户肩膀处使用,麦克风1夹于用户的衣领处,避开与嘴巴直接相对,以提高所采集音频信号的质量,通过医用胶布将振动传感器2贴于用户的上切迹处,用于采集用户的振动信号;控制模块4包括主控板、通信模块、电荷放大模块、录音模块、电源,电源用于提供3.3V供电,振动传感器2经电荷放大模块与主控板连接,通信模块用于将主控板获得的振动信号数据传输至上位机,麦克风1经录音模块与主控板连接,通过录音模块带有的存储卡存储获得的音频信号数据(存储模块通过内嵌的32GB存储卡对数据进行存储,足够实现24小时MP3格式的音频数据的存储)。采集过程为:按下控制模块4上的电源键,设备开机后进于待机状态,按下控制模块4上的开关键,等待两秒后麦克风1和振动传感器2同时开始采集信号,设备由待机状态进入工作状态,麦克风1所采集的音频信号存储到SD存储卡中,振动传感器2所采集的振动信号通过蓝牙模块发送至PC端;再次按下控制模块4上的开关键,麦克风1和振动传感器2同时结束采集,设备由工作状态进入待机状态,再次按下控制模块4上的电源键,设备关机。
一种基于音频信号和振动信号的咳嗽检测方法,具体为:
读取待检测的音频信号文件和振动信号文件,采用一阶高通滤波的形式对音频信号进行预加重,目的是提升音频信号的高频部分,使信号的频谱变得平坦,以长度为1秒的第一预设帧长,对预加重后的音频信号进行分帧,音频信号变为帧数为t的分帧后的信号;对分帧后的音频信号施加汉明窗,获得加窗音频信号,目的是增加所分帧信号两端的连续性;以长度为1秒的第二预设帧长对振动信号进行分帧,通过经验模态分解将振动信号分解为有限个本征模态函数IMF及残差项,去除第一个IMF及残差项,获得去除后的剩余的IMF进行重构,获得低噪声平滑信号;
算法内所预设的预加重公式为:
H(z)=1-μz-1,其中,μ的取值范围通常为[0.9,1],在本发明中取μ=0.97。
算法内预设的加窗公式为:
其中,W(n,a)为汉明窗函数,N表示总的采样点数目(每一帧有8000个采样点),a的取值不同会产生不同的加窗效果,本发明中取a=0.46。
对于加窗音频信号,提取其短时能量、平均过零率和梅尔倒谱系数特征参数,获得维度为t×15的特征参数组合;对于平滑信号,提取其时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值和能量比特征参数。
准备音频信号的样本集,以音频信号的每帧的特征参数组合作为预测变量,对于咳嗽帧标识为1,对于非咳嗽帧标识为0,所标识的1和0作为响应变量。袋装树模型的验证方案为交叉验证,交叉验证折数为5,并留出一个测试数据集,学习器数量为100。调用已训练好的袋装树模型对维度为t×15的特征参数组合进行识别,识别完成后,咳嗽帧的响应输出为1,非咳嗽帧的响应输出为0,并输出咳嗽帧出现的相对时间。至此,对于音频信号的检测完成。
对振动信号的每帧特征参数进行阈值判别,如果时域峰值在0到1690的区间范围内、频域主峰峰值在79.4到1410的区间范围内、频域主峰频率在0.257到4Hz的区间范围内、重心频率在0.5382到4.52Hz的区间范围内、频域峰值超过103的峰的数量小于等于4个、4Hz上下的能量比值小于2.188,则认为该帧为咳嗽帧,否则为非咳嗽帧,咳嗽帧的响应同样输出为1,非咳嗽帧的响应同样输出为0,并输出咳嗽帧出现的相对时间。至此,对于振动信号的检测完成。
基于音频信号的咳嗽检测和基于振动信号的咳嗽检测各输出一组检测结果后,将两组检测结果进行联合判别,在时域上存在重合的咳嗽帧则判定为最终的咳嗽帧(即将音频信号和振动信号同时识别为咳嗽的帧判定为最终的咳嗽帧)。例如,基于音频信号的咳嗽检测输出的咳嗽帧为第1帧、第2帧、第3帧、第4帧、第5帧、第6帧,基于振动信号的咳嗽检测输出的咳嗽帧为第2帧、第3帧、第4帧、第5帧、第6帧、第7帧,则最终判定为咳嗽的帧为第2帧、第3帧、第4帧、第5帧、第6帧。
为验证所发明方法的有效性,本实验在实验室环境下进行方法验证。首先采集了2071份志愿者的音频样本,其中咳嗽样本652份,非咳嗽样本1419份,同时采用了公共数据集Coswara中的4318份音频样本,其中咳嗽样本1360份,非咳嗽样本2958份。因此,本实验的样本集由2012份咳嗽样本和4377份非咳嗽样本组成,此样本集用于袋装树模型训练。进而通过K-fold交叉验证方法来验证模型训练效果,交叉验证折数设置为5。袋装树模型交叉验证的混淆矩阵如图3所示。验证结果表明,袋装树模型的准确率为94.2%,AUC(Area Underthe Curve)为0.984,即在2012份咳嗽样本中检测到了1826份,在4377份非咳嗽样本中检测到了4214份。结果表明,该咳嗽检测算法对咳嗽信号和非咳嗽信号均具有较高的特异性和灵敏度。
采集了10名实验者在安静环境下和存在噪音的环境下的咳嗽数据,其中咳嗽样本数据473份,非咳嗽样本数据1131份,通过融合判别实验对算法精度进行验证。实验结果表明,该算法对于在安静环境下采集的咳嗽数据的灵敏度为85.54%,特异性为98.76%。在存在噪音的实验环境中,通过人为地添加噪音,包括在实验者周围进行咳嗽、说话,以及实验者自身进行吞咽动作等,噪音信号的持续时间为1秒以上,该算法对于存在噪音的环境下采集的咳嗽数据的灵敏度为83.44%,特异性为98.50%。相比于安静环境下,该算法的灵敏度降低了2.1%,特异性降低了0.26%,因此,本算法在实现连续咳嗽检测的同时具有较强的准确性和鲁棒性。
表1不同环境下实验结果
| 灵敏度 | 特异性 | |
| 安静环境 | 85.54% | 98.76% |
| 噪音环境 | 83.44% | 98.50% |
应用上述技术方案可知,本发明能够排除其它用户咳嗽的干扰,同时对说话声、音乐声和白噪声等具备一定的抗干扰能力,可以明显提高检测的准确率与特异性。
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种基于音频信号和振动信号的咳嗽采集装置,其特征在于,包括麦克风、振动传感器、控制模块;控制模块包括主控板、通信模块、电荷放大模块、录音模块、电源,电源用于供电,振动传感器经电荷放大模块与主控板连接,通信模块用于将主控板获得的振动信号数据传输至上位机,麦克风经录音模块与主控板连接,通过录音模块带有的存储卡存储获得的音频信号数据。
2.一种基于音频信号和振动信号的咳嗽检测方法,其特征在于,包括:
步骤1:将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;
步骤2:对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;
步骤3:对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;
步骤4:基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;
步骤5:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;
步骤6:针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
3.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,采用一阶高通滤波的形式对音频信号进行预加重;依据第一预设帧长,对预加重后的音频信号进行分帧;对分帧后的音频信号施加汉明窗,获得加窗音频信号。
4.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,依据第二预设帧长,采用经验模态分解将振动信号分解为有限个IMF及残差项,去除第一个IMF及残差项,获得去除后剩余的IMF;对去除后的IMF进行重构,获得平滑信号。
5.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,对于加窗音频信号,提取其短时能量、平均过零率和梅尔倒谱系数特征参数。
6.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,对于平滑信号,提取其时域峰值、频域主峰峰值、频域主峰频率、重心频率、频域峰值和能量比特征参数。
7.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,所述依据阈值获得的基于振动信号的咳嗽检测结果,具体为:依据平滑信号所提取的各个特征参数的阈值,对提取完特征参数的以第二预设帧长分帧的平滑信号进行判断:如果各特征参数均满足判断准则,则认为是咳嗽信号,否则认为是非咳嗽信号。
8.根据权利要求2所述的基于音频信号和振动信号的咳嗽检测方法,其特征在于,所述步骤5,具体为:以音频信号的特征参数组合为预测变量,以标识作为响应进行基于袋装树模型训练,获得训练好的目标检测模型;其中,袋装树模型的验证方案为交叉验证。
9.一种基于音频信号和振动信号的咳嗽检测系统,其特征在于,包括:
第一获得模块,用于将音频信号进行预处理,获得加窗音频信号;将振动信号进行预处理,获得平滑信号;
特征提取模块,用于对加窗音频信号的每段样本数据和平滑信号的每段样本数据进行特征参数提取;
标识模块,用于对提取完特征参数的以第一预设帧长分帧的加窗音频信号进行响应标识;
标定模块,用于基于平滑信号所提取的特征参数对咳嗽信号进行阈值标定;
第二获得模块,用于以音频信号的特征参数组合为预测变量,以标识作为响应进行基于音频信号的目标检测模型训练,获得训练好的目标检测模型;
确定模块,用于针对待检测信号,依据目标模型获得的基于音频信号的咳嗽检测结果和依据阈值获得的基于振动信号的咳嗽检测结果进行联合判定,确定检测结果是否为咳嗽信号。
10.一种终端,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器被配置为执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410505793.6A CN118303870A (zh) | 2024-04-25 | 2024-04-25 | 基于音频信号和振动信号的咳嗽检测方法、系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202410505793.6A CN118303870A (zh) | 2024-04-25 | 2024-04-25 | 基于音频信号和振动信号的咳嗽检测方法、系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN118303870A true CN118303870A (zh) | 2024-07-09 |
Family
ID=91727472
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202410505793.6A Pending CN118303870A (zh) | 2024-04-25 | 2024-04-25 | 基于音频信号和振动信号的咳嗽检测方法、系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN118303870A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119229906A (zh) * | 2024-09-24 | 2024-12-31 | 广州医科大学附属第一医院(广州呼吸中心) | 一种用于儿童咳嗽训练的方法 |
| CN119673179A (zh) * | 2024-12-25 | 2025-03-21 | 安徽农业大学 | 一种基于改进U-Net和PANNS-CNN6的生猪咳嗽音频识别方法及系统 |
| CN120375862A (zh) * | 2025-06-06 | 2025-07-25 | 苏州界川设计咨询有限公司 | 适用于吹气识别的低频信号检测方法、控制方法及电子装置 |
-
2024
- 2024-04-25 CN CN202410505793.6A patent/CN118303870A/zh active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119229906A (zh) * | 2024-09-24 | 2024-12-31 | 广州医科大学附属第一医院(广州呼吸中心) | 一种用于儿童咳嗽训练的方法 |
| CN119229906B (zh) * | 2024-09-24 | 2025-09-05 | 广州医科大学附属第一医院(广州呼吸中心) | 一种用于儿童咳嗽训练的方法 |
| CN119673179A (zh) * | 2024-12-25 | 2025-03-21 | 安徽农业大学 | 一种基于改进U-Net和PANNS-CNN6的生猪咳嗽音频识别方法及系统 |
| CN120375862A (zh) * | 2025-06-06 | 2025-07-25 | 苏州界川设计咨询有限公司 | 适用于吹气识别的低频信号检测方法、控制方法及电子装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN118303870A (zh) | 基于音频信号和振动信号的咳嗽检测方法、系统 | |
| CN103251388B (zh) | 基于智能手机平台的打鼾监测方法和监测及防治系统 | |
| CN103093759B (zh) | 一种基于移动终端的嗓音检测评估装置及方法 | |
| CN103169505B (zh) | 一种多普勒超声拾音分析处理装置 | |
| CN106073978B (zh) | 一种止鼾装置和止鼾方法 | |
| US20160093281A1 (en) | Apparatus, system and method for noise cancellation and communication for incubators and related devices | |
| CN111712183A (zh) | 耳内非语言音频事件分类系统和方法 | |
| CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
| Lin et al. | Automatic wheezing detection using speech recognition technique | |
| CN102342858A (zh) | 中医声诊采集与分析系统 | |
| CN108615536B (zh) | 基于麦克风阵列的时频联合特征乐器音质评价系统及方法 | |
| CN106264839A (zh) | 智能止鼾枕 | |
| CN209032422U (zh) | 一种心音信号检测设备 | |
| CN113990339B (zh) | 声音信号处理方法、装置、系统、设备和存储介质 | |
| CN102362810B (zh) | 一种基于虚拟仪器的心音身份识别系统及方法 | |
| CN115346561A (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
| CN110946554A (zh) | 咳嗽类型识别方法、装置及系统 | |
| CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
| Dupont et al. | Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise | |
| TW202117683A (zh) | 發聲監控之方法及系統 | |
| CN201683910U (zh) | 智能心肺分析仪 | |
| CN112820319A (zh) | 一种人类鼾声识别方法及其装置 | |
| Porieva et al. | Investigation of lung sounds features for detection of bronchitis and COPD using machine learning methods | |
| CN115778324A (zh) | 鼾声识别方法、系统、装置及存储介质 | |
| Song et al. | Study on optimal position and covering pressure of wearable neck microphone for continuous voice monitoring |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |