CN111986695B - 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 - Google Patents
一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 Download PDFInfo
- Publication number
- CN111986695B CN111986695B CN201910438961.3A CN201910438961A CN111986695B CN 111986695 B CN111986695 B CN 111986695B CN 201910438961 A CN201910438961 A CN 201910438961A CN 111986695 B CN111986695 B CN 111986695B
- Authority
- CN
- China
- Prior art keywords
- sub
- sound source
- band
- signal
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 109
- 238000004458 analytical method Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 95
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 25
- 230000002087 whitening effect Effects 0.000 claims abstract description 22
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提出一种无重叠子带划分快速独立向量分析语音盲分离方法,包括:将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;然后进行无重叠子带划分,根据采样率调整划分子带数和子带大小;采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;再根据功率比相关调整分离矩阵的子带排序;根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。本发明的方法能更好地利用相邻频点之间的高阶相关性,保证子带内部排序的一致性,提高快速独立向量分析算法鲁棒性和语音分离性能。
Description
技术领域
本发明属于频域语音盲分离中的子带划分方式和排序不确定性解决装置领域,具体而言,涉及一种无重叠子带划分快速独立向量分析语音盲分离方法。
背景技术
房间中的传声器接收到的是来自多说话人的混合语音信号,各独立的语音信号之间相互干扰,给语音识别等技术带来困难。
盲源分离在只有混合信号的情况下,利用信号的统计特性等信息对源信号进行分离。盲源分离典型的应用是解决“鸡尾酒会问题”,即分离室内传声器接收到的来自多个声源的卷积混合语音信号,其在医学核磁共振信号分离和振动故障检测等方面也有重要应用。
混合信号可分为两类,无时延的直达声传输到传声器混合而成是瞬时混合信号,然而实际环境中不仅存在直达声,还有经过不同路径的时延和衰减的反射声传输到传声器,形成卷积混合信号,如图1所示。针对卷积混合的语音信号,时域算法计算量较大,通常将语音信号转换到时频域进行处理。
独立分量分析是一种应用广泛的盲源分离算法,主要基于信号的高阶统计特性,通常对瞬时混合的非高斯信号有较好的分离性能。在频域分离卷积混合信号时,独立分量分析算法假设每个频点信号满足独立性,在每个频点中单独进行信号分离。然而频域独立分量分析算法会因频点间的排序不确定性导致算法性能下降,因此需要在信号反变换回时域前解决排序不确定问题。
独立向量分析算法仍然在每个频点中单独更新分离矩阵,同时该算法在每个频点的更新中都利用了所有频点之间的高阶相关性,从原理上能有效解决频域盲源分离算法中的排序不确定问题。并且基于牛顿梯度的快速独立向量分析算法的收敛速度快于基于自然梯度的算法。
不同频点之间的高阶相关性的强弱并不相同,相邻频点之间的相关性较强,距离较远的频点之间的相关性较弱。重叠频带划分的快速独立向量分析利用频带之间的重叠部分来传递高阶相关性,但是这种方法不可靠,容易导致频带之间产生排序错乱。并且该类算法的声源假设基于多变量拉普拉斯分布,不能根据声源性质调整算法的相应参数,限制了算法的分离性能。
发明内容
本发明的目的在于解决现有语音识别技术由于时域算法计算量大、频点间排序的不确定性以及算法性能下降和不可靠导致语音分离性能差的问题;
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,特别涉及快速独立向量分析算法的子带划分以及解决子带之间排序不确定性问题,该方法在快速独立向量分析中利用无重叠子带划分来确保子带内部的排序一致性然后采用功率比相关法调整子带之间的排序,基于调整子带排序后的频域声源信号,根据幅值确定的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明提出的一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
作为上述方法的一种改进,所述方法具体包括:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号为:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,/>是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号/>中心化处理得到混合信号/>
其中,i为序列长度的序号,计算中心化处理后混合信号的协方差矩阵,其中/>对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号相乘即得到白化预处理后的混合语音信号/>
步骤3)对白化预处理后的混合语音信号在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
其中D1和D2分别表示要排序的两段子带,分别为相应子带的功率比质心,表示第m个声源在排序/>中为第i位;/>表示第m'个声源在排序/>中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号估计值:
其中,是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号/>变换回时域,得到最终估计的时域声源信号。
作为上述方法的一种改进,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
其中,是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
令cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-logq(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
作为上述方法的一种改进,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
与现有技术相比,本发明的有益效果在于:
1、本发明提出无重叠子带划分快速独立向量分析语音盲分离方法,该方法能更好地利用相邻频点之间的高阶相关性,以保证子带内部排序的一致性。
3、本发明可根据语音频谱的高低频特性进行非均匀无重叠子带划分,采用功率比相关后处理方式在上述无重叠子带划分的快速独立向量分析算法迭代结束后调整子带之间的排序,提高快速独立向量分析算法的语音分离性能。
4、本发明将多变量广义高斯分布用于上述无重叠子带划分快速独立向量分析算法中,进一步提高算法的分离性能。
附图说明
图1为语音信号的卷积混合模型示意图;
图2为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分快速独立向量分析算法框图;
图3为本发明无重叠子带划分快速独立向量分析语音盲分离方法的无重叠子带划分示意图;
图4(a)为纯净女声语音1;
图4(b)为纯净男声语音2;
图4(c)为混合语音1;
图4(d)为混合语音2;
图4(e)为传统IVA算法分离语音1;
图4(f)为传统IVA算法分离语音2;
图4(g)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音1;
图4(h)为本发明无重叠子带划分快速独立向量分析语音盲分离方法的分离语音2。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
如图2所示,本发明采用以下技术方案:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号为:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,/>是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号/>中心化处理得到混合信号/>
其中,i为序列长度的序号,计算中心化处理后混合信号的协方差矩阵,其中/>对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号相乘即得到预白化处理后的混合语音信号/>
步骤3)对白化预处理后的混合语音信号在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
对信号全频带进行无重叠子带划分,具体划分子带数和子带大小可根据采样率等参数进行调整,通常可采用均匀划分,4段均匀子带划分示意图如图3所示。
语音高频段的高阶相关性较强,采用较窄的子带如1k Hz就可以保证子带之间的排序一致性;而语音低频段的高阶相关性较弱,可采用较宽的子带如3k Hz来保证相关性强弱不一的频点之间的排序一致性。
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
其具体步骤如下:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
其中,是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
令cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-log q(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
其中G'(·)和G″(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
其中D1和D2分别表示要排序的两段子带,分别为相应子带的功率比质心,表示第m个声源在排序/>中为第i位;/>表示第m'个声源在排序/>中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号估计值:
其中,是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号/>变换回时域,得到最终估计的时域声源信号。
采用本文发明对混响时间为0.3s的房间中录取到的两通道混合语音分离结果对比图如图4(a)-4(g)所示。语音长度10s,采样率16k Hz,具体子带划分为[0,2000]、[2000,4000]、[4000,6000]、[6000,8000]Hz。两传声器相距0.0566m,声源与传声器相距2m,两声源分别在50°和130°方向。STFT帧长和汉宁窗长2048点,帧移1024点。多变量广义高斯分布的形状参数β=1。结果表明本文发明有较高的分离性能。
本发明还提出一种无重叠子带划分快速独立向量分析语音盲分离系统,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离。
本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
本发明还提出计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述任一项所述的方法。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种无重叠子带划分快速独立向量分析语音盲分离方法,所述方法包括:
将时域内多通道卷积混合语音信号转换到频域;对频域内的混合语音信号进行中心化和白化预处理;
将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离;
所述方法具体包括:
步骤1)将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号为:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,/>是混合矩阵H(k)在第k个频点的第j行第m列的元素;
步骤2)对频域第k频点的混合语音信号进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号/>中心化处理得到混合信号/>
其中,i为序列长度的序号,计算中心化处理后混合信号的协方差矩阵,其中/>对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号相乘即得到白化预处理后的混合语音信号
步骤3)对白化预处理后的混合语音信号在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
步骤4)采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
步骤5)利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
步骤6)根据功率比相关调整分离矩阵的子带排序:
其中D1和D2分别表示要排序的两段子带,分别为相应子带的功率比质心,表示第m个声源在排序/>中为第i位;/>表示第m'个声源在排序/>中为第i位,ρ(·)表示Pearson相关;
步骤7)基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号估计值:
其中,是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号/>变换回时域,得到最终估计的时域声源信号。
2.根据权利要求1所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤3)具体包括:当采样率为16k Hz时,采用均匀4段子带划分,具体子带划分范围为:0-2000Hz,2000-4000Hz,4000-6000Hz,6000-8000Hz。
3.根据权利要求1所述的无重叠子带划分快速独立向量分析语音盲分离方法,所述步骤4)具体包括:
步骤401)采用单位矩阵初始化每个频点的分离矩阵W'(k),迭代次数ite初始值为1;
步骤402)计算当前迭代次数时频点(k,l)中的第m个声源的声源信号
其中,是前一次迭代次数下分离矩阵W'(k)的第m列元素;
步骤403)采用多变量广义高斯分布时,相应子带划分的声源分布为q(ym):
其中c=1,2,...,C,C为子带索引的个数,c为第c个子带索引的序号,bc和ec分别是第c个子带的第一个和最后一个频点索引,β为分布的形状参数;
令cu为当前迭代次数下频点k所在的子带,计算非线性函数:
G(z)=-log q(ym) (6)
根据公式(3)获得当前迭代次数下频点k的分离矩阵得到
其中G'(·)和G”(·)分别表示非线性函数G(·)的一阶导数和二阶导数,(·)*表示共轭;
步骤404)计算当前迭代次数下的代价函数Jite:
计算当前迭代次数下的代价函数Jite相对上一次迭代的变化值ΔJ:
若ΔJ<U,U为门限值,则判断算法已收敛,迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素,否则:
比较当前迭代次数ite是否达到最大迭代次数,若比较结果为“是”,则迭代过程结束,得到分离矩阵W'(k),是分离矩阵W'(k)的第m列元素;否则:
返回步骤402)将ite值加1继续迭代。
4.一种无重叠子带划分快速独立向量分析语音盲分离系统,其特征在于,所述系统包括:信号时频域变换处理模块、无重叠子带划分模块、子带排序模块和声源语音分离模块;
所述信号时频域变换处理模块,用于将时域内多通道卷积混合语音信号转换到频域进行中心化和白化预处理;
所述无重叠子带划分模块,用于将预处理后的混合语音信号进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块,用于采用快速独立向量算法计算无重叠子带每个频点的分离矩阵;利用最小失真准则获得幅值确定的分离矩阵;然后再根据功率比相关调整分离矩阵的子带排序;
所述声源语音分离模块,用于基于调整子带排序后的分离矩阵,计算排序后的频域声源信号估计值,将排序后的频域声源信号变换回时域,得到最终估计的声源信号,实现语音盲分离;
所述信号时频域变换处理模块的处理过程具体包括:将各通道卷积混合语音信号进行短时傅里叶变换转换到频域后得到时频域的混合语音信号为:
其中,j为第j个传声器的序号,j=1,2,...J,传声器总个数为J,m为第m个声源的序号,m=1,2,...M,声源总个数为M,k为第k频点索引的序号,k=1,2,...,K,K为总频点索引个数;l为第l帧缩引的序号,l=1,2,...,L,L为帧索引总数量;表示在时频点(k,l)处的第m个声源信号,/>是混合矩阵H(k)在第k个频点的第j行第m列的元素;
对频域第k频点的混合语音信号进行中心化和白化预处理,对各频点中序列长度为L的第j通道混合信号/>中心化处理得到混合信号/>
其中,i为序列长度的序号,计算中心化处理后混合信号的协方差矩阵,其中/>对该协方差矩阵进行特征值分解,得到由特征向量组成的正交矩阵E以及对应于特征向量的特征值构成的对角矩阵Λ,从而得到白化矩阵Ψ:
Ψ=Λ-1/2ET (3)
将白化矩阵Ψ与第k频点的混合信号相乘即得到白化预处理后的混合语音信号
所述无重叠子带划分模块对白化预处理后的混合语音信号在全频带范围进行无重叠子带划分,根据采样率调整划分子带数和子带大小;
所述子带排序模块的处理过程具体包括:采用快速独立向量算法计算无重叠子带每个频点的分离矩阵W'(k);
利用最小失真准则调整幅值,得到幅值确定的分离矩阵W(k):
W(k)=diag(W'(k))-1W'(k) (10)
根据功率比相关调整分离矩阵的子带排序:
其中D1和D2分别表示要排序的两段子带,分别为相应子带的功率比质心,表示第m个声源在排序/>中为第i位;/>表示第m'个声源在排序/>中为第i位,ρ(·)表示Pearson相关;
所述声源语音分离模块基于调整子带排序后的分离矩阵W(k),计算排序后的频域声源信号估计值:
其中,是幅值确定的分离矩阵W(k)在第k个频点的第m行第j列的元素,将该排序后的频域声源信号/>变换回时域,得到最终估计的时域声源信号。
5.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-3中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910438961.3A CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201910438961.3A CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111986695A CN111986695A (zh) | 2020-11-24 |
| CN111986695B true CN111986695B (zh) | 2023-07-25 |
Family
ID=73437591
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201910438961.3A Active CN111986695B (zh) | 2019-05-24 | 2019-05-24 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111986695B (zh) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113241090B (zh) * | 2021-04-21 | 2023-10-17 | 西北工业大学 | 一种基于最小体积约束的多通道盲声源分离方法 |
| CN113345465B (zh) * | 2021-06-29 | 2022-11-04 | 中国农业银行股份有限公司 | 语音分离方法、装置、设备及计算机可读存储介质 |
| CN113889139B (zh) * | 2021-09-17 | 2025-04-18 | 随锐科技集团股份有限公司 | 一种基于语音频谱域稀疏性约束的在线语音分离方法和装置 |
| CN114220453B (zh) * | 2022-01-12 | 2022-08-16 | 中国科学院声学研究所 | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 |
| CN114863944B (zh) * | 2022-02-24 | 2023-07-14 | 中国科学院声学研究所 | 一种低时延音频信号超定盲源分离方法及分离装置 |
| CN118571233A (zh) * | 2023-02-28 | 2024-08-30 | 华为技术有限公司 | 音频信号的处理方法及相关装置 |
| CN117202077B (zh) * | 2023-11-03 | 2024-03-01 | 恩平市海天电子科技有限公司 | 一种麦克风智能校正方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103247295A (zh) * | 2008-05-29 | 2013-08-14 | 高通股份有限公司 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
| CN104064195A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种噪声环境下的多维盲分离方法 |
| CN106887238A (zh) * | 2017-03-01 | 2017-06-23 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
| JP2019028406A (ja) * | 2017-08-03 | 2019-02-21 | 日本電信電話株式会社 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007100330A1 (en) * | 2006-03-01 | 2007-09-07 | The Regents Of The University Of California | Systems and methods for blind source signal separation |
| US20130315402A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
-
2019
- 2019-05-24 CN CN201910438961.3A patent/CN111986695B/zh active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103247295A (zh) * | 2008-05-29 | 2013-08-14 | 高通股份有限公司 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
| CN104064195A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种噪声环境下的多维盲分离方法 |
| CN106887238A (zh) * | 2017-03-01 | 2017-06-23 | 中国科学院上海微系统与信息技术研究所 | 一种基于改进独立向量分析算法的声信号盲分离方法 |
| JP2019028406A (ja) * | 2017-08-03 | 2019-02-21 | 日本電信電話株式会社 | 音声信号分離装置、音声信号分離方法及び音声信号分離プログラム |
Non-Patent Citations (1)
| Title |
|---|
| 基于局部多项式傅里叶变换的语音盲源分离;贾亮 等;《电声技术》;第38卷(第2期);第45-49页 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111986695A (zh) | 2020-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111986695B (zh) | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 | |
| US8867755B2 (en) | Sound source separation apparatus and sound source separation method | |
| US8358563B2 (en) | Signal processing apparatus, signal processing method, and program | |
| CN103854662B (zh) | 基于多域联合估计的自适应语音检测方法 | |
| Zhang et al. | X-tasnet: Robust and accurate time-domain speaker extraction network | |
| US8693287B2 (en) | Sound direction estimation apparatus and sound direction estimation method | |
| CN110767244B (zh) | 语音增强方法 | |
| US20060122832A1 (en) | Signal enhancement and speech recognition | |
| Cord-Landwehr et al. | Monaural source separation: From anechoic to reverberant environments | |
| CN106226739A (zh) | 融合子带分析的双声源定位方法 | |
| WO2009110574A1 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
| Venkataramani et al. | Adaptive front-ends for end-to-end source separation | |
| CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
| US11107492B1 (en) | Omni-directional speech separation | |
| CN106847301A (zh) | 一种基于压缩感知和空间方位信息的双耳语音分离方法 | |
| CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
| CN115910091B (zh) | 引入基频线索的生成式语音分离方法和装置 | |
| Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
| CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
| Shubo et al. | Spatial-DCCRN: DCCRN equipped with frame-level angle feature and hybrid filtering for multi-channel speech enhancement | |
| Nian et al. | A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition | |
| KR101243897B1 (ko) | 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법 | |
| Liu et al. | Iterative deep neural networks for speaker-independent binaural blind speech separation | |
| CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
| Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |