[go: up one dir, main page]

CN110136741B - 一种基于多尺度上下文的单通道语音增强方法 - Google Patents

一种基于多尺度上下文的单通道语音增强方法 Download PDF

Info

Publication number
CN110136741B
CN110136741B CN201910411692.1A CN201910411692A CN110136741B CN 110136741 B CN110136741 B CN 110136741B CN 201910411692 A CN201910411692 A CN 201910411692A CN 110136741 B CN110136741 B CN 110136741B
Authority
CN
China
Prior art keywords
speech
scale
features
channel
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411692.1A
Other languages
English (en)
Other versions
CN110136741A (zh
Inventor
韩纪庆
杜志浩
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN201910411692.1A priority Critical patent/CN110136741B/zh
Publication of CN110136741A publication Critical patent/CN110136741A/zh
Application granted granted Critical
Publication of CN110136741B publication Critical patent/CN110136741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。

Description

一种基于多尺度上下文的单通道语音增强方法
技术领域
本发明涉及单通道语音增强方法,具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。
背景技术
随着语音信号处理技术的迅猛发展,计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强,就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别,以及关键词识别等语音信号处理技术的前端处理,能够显著提升这些技术对噪声的鲁棒性;另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此,语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号,将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术,单通道技术具有对设备要求低、实用性强的优点。
近年来,单通道语音增强被看作频域的有监督学习任务,并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题:(1)频域上的语音增强仅对语音频谱进行增强,而语音信号是一种时域信号,还需要将增强后的频域信号转换到时域,这一转换过程中引入了带有噪声干扰的相位,这样的带噪相位与增强后的频谱不匹配,从而引入了语音畸变,进而影响了语音质量;(2)频域上的语音增强技术中,采用的语音特征多是基于人耳听觉机理的特征,并非专门为语音增强任务设计的特征,这会造成输入特征和语音增强任务的不匹配,影响增强效果;(3)语音中包含时间上不同尺度的信息,既有大尺度的语义信息,也有小尺度的语音细节纹理,目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。
发明内容
本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题,而提出一种基于多尺度上下文的单通道语音增强方法。
一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
本发明的有益效果为:
本发明省略频域与时域之间的转换,直接研究在时域上进行的基于多尺度上下文信息的单通道语音增强方法,既有理论意义又有现实意义。
本发明针对单通道语音增强,提出了一种更加直接,高效的时域语音增强方法,提高语音听觉上的质量和可懂度。
对语音的时域表示(语音波形),采用一种全新设计的深度全卷积神经网络,利用语音的多尺度上下文信息对语音进行增强。本发明神经网络以带噪语音波形作为输入,在网络的底层直接对语音波形进行建模,并提取语音特征。随后在网络的高层,利用这些语音特征进行语音增强。这样就将语音特征的提取过程与增强模型融合到一个神经网络中,便可以同时学习增强模型和语音特征提取过程,从而避免了语音特征和语音增强任务不匹配的问题。
本发明中的神经网络以增强后的语音波形作为输出,不再根据频谱和相位合成语音。由于语音波形中既包含频谱信息也包含相位信息,这样便同时对语音的频谱和相位进行了增强,从而避免了带噪相位与增强频谱不匹配的问题。
本发明中的神经网络由多个膨胀卷积层(Dilated Convolution)堆叠而成,随着层数的加深,每一层卷积的感受野大小呈指数级增长。对于较浅的卷积层,其感受野较小更容易学习到高频信息(短时上下文);对于较深的卷积层,其感受野较大更容易学习到低频信息(长时上下文)。最终将来自不同深度卷积层的输出汇集起来,便得到了不同尺度的上下文信息,利用这些上下文信息可以更好地进行语音增强。从而解决了多尺度上下文信息利用不足的问题。
如表1所示,对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比都优于带噪语音在语音可懂度、语音质量和信噪比。
附图说明
图1为网络中使用到的一维膨胀卷积的示意图,图中给出了某层卷积的输出单元对应的低层感受野大小,p(1)为第一层感受野大小,p(2)为第二层感受野大小,p(3)为第三层感受野大小;
图2为全卷积网络的结构图,Conventional Conv为传统卷机层,1×1为卷积核大小,channel为通道,linear为线性激活,Dilated Conv为膨胀卷积,r为膨胀系数,pReLU为激活函数。
具体实施方式
具体实施方式一:本实施方式一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中对语音进行标准化;具体过程为:
对于有N个采样点的语音片段
Figure BDA0002063002630000031
计算语音片段
Figure BDA0002063002630000032
的时域能量α:
Figure BDA0002063002630000033
得到时域能量α后,用时域能量α对语音片段
Figure BDA0002063002630000034
进行标准化,得到标准化后的语音片段S:
Figure BDA0002063002630000035
其中,
Figure BDA0002063002630000036
为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N。
在后续的处理中,如果不加特殊说明,都使用标准化后的语音片段S,而不使用原始的语音片段
Figure BDA0002063002630000037
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号
Figure BDA0002063002630000041
Figure BDA0002063002630000042
其中,
Figure BDA0002063002630000043
表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;
Figure BDA0002063002630000044
表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数
Figure BDA0002063002630000045
相乘的信号中的对应采样点,p表示中间变量;
经过上述卷积之后,可以得到与标准化后的语音片段S(n)长度相同的一种中间信号
Figure BDA0002063002630000046
对中间信号
Figure BDA0002063002630000047
进行非线性变换pReLu,得到第一层的一种语音特征
Figure BDA0002063002630000048
Figure BDA0002063002630000049
其中,αc为可学习参数,初始值为0.1;
将上述的膨胀卷积参数
Figure BDA00020630026300000410
分别随机初始化C次,计算得到C个中间信号
Figure BDA00020630026300000411
再分别进行非线性变换pReLu,得到C个语音特征
Figure BDA00020630026300000412
C个语音特征
Figure BDA00020630026300000413
称为C个通道,共同构成了第一层语音特征L(1)
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号
Figure BDA00020630026300000414
Figure BDA0002063002630000051
其中,
Figure BDA0002063002630000052
表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,
Figure BDA0002063002630000053
表示第l层输入的所有C个通道对应的卷积核的集合,
Figure BDA0002063002630000054
表示第l层输入的第u个通道对应的卷积核,q表示
Figure BDA0002063002630000055
的下标,
Figure BDA0002063002630000056
表示第l层输入的第u个通道,p表示
Figure BDA0002063002630000057
的下标;
将上述的膨胀卷积参数
Figure BDA0002063002630000058
分别随机初始化C次,并分别计算得到C个
Figure BDA0002063002630000059
随后分别进行非线性变换pReLu,得到C个语音特征
Figure BDA00020630026300000510
C个语音特征
Figure BDA00020630026300000511
称为C个通道,共同构成第l层的语音特征L(l)
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,分别代表了不同尺度的上下文信息,一同构成了多尺度语音特征U。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时不变预测器,预测纯净语音波形;过程为:
根据多尺度语音特征U,可以通过1维卷积操作预测纯净语音波形:
Figure BDA00020630026300000512
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;L(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点,Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C,wc为时不变预测器第c个通道对应的可学习权重,bc为时不变预测器第c个通道对应的偏置;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
Figure BDA0002063002630000061
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;
Figure BDA0002063002630000062
表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
使用
Figure BDA0002063002630000063
对4C个通道的多尺度语音特征U进行加权求和:
Figure BDA0002063002630000064
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例具体是按照以下步骤制备的:
对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比的值都优于带噪语音在语音可懂度、语音质量和信噪比的值。
表1
Figure BDA0002063002630000071
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形;
所述步骤一中对语音进行标准化;具体过程为:
对于有N个采样点的语音片段
Figure FDA0002985872030000011
计算语音片段
Figure FDA0002985872030000012
的时域能量α:
Figure FDA0002985872030000013
得到时域能量α后,用时域能量α对语音片段
Figure FDA0002985872030000014
进行标准化,得到标准化后的语音片段S:
Figure FDA0002985872030000015
其中,
Figure FDA0002985872030000016
为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N;
所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号
Figure FDA0002985872030000017
Figure FDA0002985872030000018
其中,
Figure FDA0002985872030000019
表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;
Figure FDA00029858720300000110
表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数
Figure FDA00029858720300000111
相乘的信号中的对应采样点,p表示中间变量;
对中间信号
Figure FDA0002985872030000021
进行非线性变换pReLu,得到第一层的一种语音特征
Figure FDA0002985872030000022
Figure FDA0002985872030000023
其中,αc为可学习参数,初始值为0.1;
将上述的膨胀卷积参数
Figure FDA0002985872030000024
分别随机初始化C次,计算得到C个中间信号
Figure FDA0002985872030000025
再分别进行非线性变换pReLu,得到C个语音特征
Figure FDA0002985872030000026
C个语音特征
Figure FDA0002985872030000027
称为C个通道,共同构成了第一层语音特征L(1)
2.根据权利要求1所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号
Figure FDA0002985872030000028
Figure FDA0002985872030000029
其中,
Figure FDA00029858720300000210
表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,
Figure FDA00029858720300000211
表示第l层输入的所有C个通道对应的卷积核的集合,
Figure FDA00029858720300000212
表示第l层输入的第u个通道对应的卷积核,q表示
Figure FDA00029858720300000213
的下标,
Figure FDA00029858720300000214
表示第l层输入的第u个通道,p表示
Figure FDA00029858720300000215
的下标;
将上述的膨胀卷积参数
Figure FDA00029858720300000216
分别随机初始化C次,并分别计算得到C个
Figure FDA00029858720300000217
随后分别进行非线性变换pReLu,得到C个语音特征
Figure FDA00029858720300000218
C个语音特征
Figure FDA00029858720300000219
称为C个通道,共同构成第l层的语音特征L(l)
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
3.根据权利要求2所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,构成了多尺度语音特征U。
4.根据权利要求3所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时不变预测器,预测纯净语音波形;过程为:
根据多尺度语音特征U,通过1维卷积操作预测纯净语音波形:
Figure FDA0002985872030000031
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;L(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点,Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C,wc为时不变预测器第c个通道对应的可学习权重,bc为时不变预测器第c个通道对应的偏置;
对所有N个采样点进行预测,得到预测的纯净语音波形。
5.根据权利要求4所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
Figure FDA0002985872030000032
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;
Figure FDA0002985872030000033
表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
使用
Figure FDA0002985872030000034
对4C个通道的多尺度语音特征U进行加权求和:
Figure FDA0002985872030000035
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
CN201910411692.1A 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法 Active CN110136741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411692.1A CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411692.1A CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Publications (2)

Publication Number Publication Date
CN110136741A CN110136741A (zh) 2019-08-16
CN110136741B true CN110136741B (zh) 2021-07-13

Family

ID=67574936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411692.1A Active CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Country Status (1)

Country Link
CN (1) CN110136741B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269305B (zh) * 2021-05-20 2024-05-03 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN113936680B (zh) * 2021-10-08 2023-08-08 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373610B2 (en) * 2017-02-24 2019-08-06 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling
EP4478255A3 (en) * 2017-04-24 2025-02-26 Virginia Tech Intellectual Properties, Inc. Radio signal identification, identification system learning, and identifier deployment
WO2018227169A1 (en) * 2017-06-08 2018-12-13 Newvoicemedia Us Inc. Optimal human-machine conversations using emotion-enhanced natural speech
CN107958271A (zh) * 2017-12-06 2018-04-24 电子科技大学 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统

Also Published As

Publication number Publication date
CN110136741A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN113488058B (zh) 一种基于短语音的声纹识别方法
US10504539B2 (en) Voice activity detection systems and methods
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
CN111429947B (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN110111803A (zh) 基于自注意多核最大均值差异的迁移学习语音增强方法
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Shi et al. Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation.
CN110739003A (zh) 基于多头自注意力机制的语音增强方法
WO2023283823A1 (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN108447495A (zh) 一种基于综合特征集的深度学习语音增强方法
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN113192504A (zh) 一种基于域适应的无声语音攻击检测方法
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
CN110136741B (zh) 一种基于多尺度上下文的单通道语音增强方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN113782044B (zh) 一种语音增强方法及装置
CN105679321B (zh) 语音识别方法、装置及终端
CN114189781B (zh) 双麦神经网络降噪耳机的降噪方法及系统
TWI749547B (zh) 應用深度學習的語音增強系統
CN119049506A (zh) 一种拾音性能优化方法及装置
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN115758268A (zh) 一种基于希尔伯特-黄变换和残差cnn的水声目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant