CN109102799A

CN109102799A - 一种基于频域系数对数和的语音端点检测方法

Info

Publication number: CN109102799A
Application number: CN201810938673.XA
Authority: CN
Inventors: 刘正辉; 何俊杰; 张帆
Original assignee: Xinyang Normal University
Current assignee: Xinyang Normal University
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2018-12-28
Anticipated expiration: 2038-08-17
Also published as: CN109102799B

Abstract

本发明公开了一种基于频域系数对数和的语音端点检测方法，包括步骤：1)预处理：首先将语音信号A分为等长的不重叠的语帧，记第i帧为A_i，其长度记为N；2)计算特征：①对A_i进行DCT，得到的系数记为C_i，系数幅值记为|C_i|；②计算A_i的频域系数对数和S_i；3)端点检测：频域系数对数和大于阈值T的帧被认为是话语部分，小于阈值T的帧被认为是静音段。本发明构造了语音信号频域系数对数和的特征，语音信号话语部分对应的频域系数对数和较大，而静音部分的频域系数对数和较小，基于此，将频域系数对数和较大的语音帧判断为话语段，频域系数对数和较小的语音帧判断为静音段，完成语音信号的端点检测。本发明方法为语音识别中的话语段检测提供了技术支持。

Description

一种基于频域系数对数和的语音端点检测方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于频域系数对数和的语音端点检测方法。

背景技术

语音是人们进行信息交流的主要方式之一。信息技术和人工智能技术的发展，人们和机器的交流问题越来越普遍，俨然已受到企业以及科研人员的重视。而用人类自己的语言和机器的交流具有易接受、使用方便等特点。这就要求机器能够足够准确地对人类的语言进行识别。语音识别是通过计算机对人们发出的语音信号进行时域或频域处理，进而识别出人们所说话的内容。语音端点检测在语音信号识别中占有十分重要的地位。对于基于数字水印的语音取证技术而言，为了提高取证算法某方面的性能，常将水印嵌入在语音信号的话语段中。对此类算法而言，验证端需要精确地定位含水印语音的话语段，使其能够从话语段中提取水印信息并对含水印信号进行取证。所以，语音端点检测的效果不仅可以影响到语音识别的准确率，而且对于部分取证水印技术而言，也关乎水印取证的可信度和认可度。于是语音信号的端点检测具有研究意义和实用价值。

文献“Speech Endpoint Detection Method Based on TEO in NoisyEnvironment”(J.Li,P.Zhou,X.Jing,Z.Du,Procedia Engineering,vol.29,PP.2655-2660,2012)”基于Teager能量算子(TEO)，提出了一种语音端点检测算法，该方法采用基于双阈值的三种转换和判断机制，使其对一定的噪声环境具有鲁棒性。实验结果证实了该方法在低信噪比的噪声环境中算法的有效性。然而该方法用于判别静音段和非静音段的特征差别较小，导致对非静音段的检测存在较大的误检的可能。文献“Centroid-based Semi-fragile Audio Watermarking in Hybrid Domain”(H.X.Wang,M.Q.Fan，Science inChina Series F-Information Sciences,vol.53,no.3,PP.619-633,2010)”提出了一种在飞机驾驶舱语音背景下的鲁棒语音端点检测方法，建立了直接针对噪声语音的Laplacian分布模型，并给出了基于二元假设检验的似然比检验。该方法根据前一帧和所观察到的频谱，对语音端点进行搜索。实验结果表明该方法对飞机驾驶舱背景下的语音信号能够较为有效的进行端点检测。以上技术的确实现了特定场合的语音信号端点检测，但局限性较强。在需要通过端点检测来确定水印嵌入域的场合，由于此类技术自身特点，导致其安全性较差，限制了该方法在实际生活中的广泛推广。

发明内容

本发明的目的是克服上述现有技术中存在的问题，提供一种基于频域系数对数和的语音端点检测方法，构造了语音信号频域系数对数和的特征。该特征对于语音信号静音段和话语段具有较强的区分能力(话语段对应的频域系数对数和特征较大，静音段对应的频域系数对数和特征较小)。基于此，将频域系数对数和较大的语音帧判断为话语段，频域系数对数和较小的语音帧判断为静音段，从而完成语音信号的端点检测。本发明方法为语音识别中的话语段检测提供了技术支持。

本发明的技术方案是：一种基于频域系数对数和的语音端点检测方法，包括如下步骤：

(1)预处理：首先将语音信号A分为等长的不重叠的语帧，每帧的长度为N；记第i帧为A_i，其长度记为N，1≤i≤I，I表示总的分帧个数；

(2)计算第i个语音帧A_i的频域系数对数和特征：

①对A_i进行离散余弦变换(离散余弦变换即DCT，Discrete Cosine Transform)，得到N长的DCT系数，记为C_i＝{c_n|1≤n≤N}；

②由下式计算A_i的频域系数对数和S_i；

其中，c_n表示C_i的第n个系数，|c_n|表示c_n的幅值，这里|·|表示取绝对值运算；由于语音信号DCT系数存在为0的情况，为了保证上式中的对数运算有意义，将|c_n|加上一个正数α，其中α>0；根据对数运算的性质，当真数大于0小于1时，对数值小于0；为了使上式求和中的每一项均为负数，这里取β>10，使

(3)端点检测：频域系数对数和大于阈值T的帧被认为是话语部分；频域系数对数和小于阈值T的帧被认为是静音段。

本发明的有益效果：本发明提供的基于频域系数对数和的语音端点检测方法，对语音识别中的话语段检测和数字语音取证水印技术中的水印嵌入域的确定提供了技术支持。构造了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和)。因静音段的频域系数对数和较小，而话语段的频域系数对数和较大，基于此，将频域系数对数和较大的语音帧判断为话语段，频域系数对数和较小的语音帧判断为静音段，实现了对数字语音信号的端点检测。将用于获取语音信号频域系数对数和特征中的参数作为密钥，以提高语音信号端点检测安全性，满足该技术用于数字语音取证水印中确定水印嵌入域的精确性和安全性的需求。本发明一方面提供了具有普适性的数字语音端点检测方法，另一方面提高了该技术的安全性，使其能够满足某些特定场合的需求。

本发明提供的基于频域系数对数和的语音端点检测方法，为语音识别中的话语段检测提供了技术支持，构造了语音信号频域系数对数和的特征，语音信号话语部分对应的频域系数对数和较大，而静音部分的频域系数对数和较小。基于此，将频域系数对数和较大的语音帧判断为话语段，频域系数对数和较小的语音帧判断为静音段，本发明能够有效的区分语音信号静音段和非静音段，从而完成语音信号的端点检测。

附图说明

图1是本发明的方法流程图；

图2录制于讨论会现场的语音信号波形图；

图3录制于讨论会现场的语音信号各帧系数对数和特征；

图4录制于讨论会现场的语音信号端点检测结果；

图5录制于安静办公室的语音信号波形图；

图6录制于安静办公室的语音信号各帧系数对数和特征；

图7录制于安静办公室的语音信号端点检测结果；

图8录制于车站的语音信号波形图；

图9录制于车站的语音信号各帧系数对数和特征；

图10录制于车站现场的语音信号端点检测结果。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

参见图1，本发明提供了一种基于频域系数对数和的语音端点检测方法，具体步骤如下：

(1)预处理：首先将语音信号A分为等长的不重叠的语帧，总的分帧个数记为I。第i帧为A_i，其长度记为N，1≤i≤I。

(2)计算频域系数对数和特征：

①对A_i进行离散余弦变换(DCT，Discrete Cosine Transform)，得到N长的DCT系数，记为C_i＝{c_n|1≤n≤N}。

②由下式计算A_i的频域系数对数和S_i。

其中，c_n表示C_i的第n个系数，|c_n|表示c_n的幅值，这里|·|表示取绝对值运算。由于语音信号DCT系数存在为0的情况，为了保证上式中的对数运算有意义，我们这里将|c_n|加上一个正数α(α>0)。根据对数运算的性质，当真数大于0小于1时，对数值小于0。为了使上式求和中的每一项均为负数，取β>10(大量实验表明，语音信号DCT系数幅值小于10)，使

本发明方法定义了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和)，利用该特征实现了对数字语音信号的端点检测。同时，在语音信号频域系数对数和特征中的两个参数(α和β)可以作为密钥，以此来提高该特征计算的安全性，方便用在具有一定保密性的场合。

本发明方法的效果可以通过以下的性能分析验证：

随机选取录制与三种不同现场的语音信号作为测试样本。利用本方法对选取的测试样本进行端点检测。在计算频域系数对数和特征时，取α＝0.0001，β＝10.5。

(1)录制于讨论会现场的语音信号

图2给出了一段录制于讨论会现场语音信号。然后将该信号分为长度为100的语音帧，并计算各帧的系数对数和，如图3所示。基于系数对数和特征，图4给出了端点检测的结果。

(2)录制于安静办公室的语音信号

图5给出了一段录制于安静办公室的语音信号。将该信号分为长度为100的语音帧，并计算各帧的系数对数和，如图6所示。基于系数对数和特征，图7给出了端点检测的结果。

(3)录制于车站的语音信号

图8给出了一段录制于车站的语音信号。将该信号分为长度为100的语音帧，并计算各帧的系数对数和，如图9所示。基于系数对数和特征，图10给出了端点检测的结果。

综上所述，本发明提供的基于频域系数对数和的语音端点检测方法，对语音识别中的话语段检测和数字语音取证水印技术中的水印嵌入域的确定提供了技术支持。构造了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和)。因静音段的频域系数对数和较小，而话语段的频域系数对数和较大，基于此，将频域系数对数和较大的语音帧判断为话语段，频域系数对数和较小的语音帧判断为静音段，实现了对数字语音信号的端点检测。将用于获取语音信号频域系数对数和特征中的参数作为密钥，以提高语音信号端点检测安全性，满足该技术用于数字语音取证水印中确定水印嵌入域的精确性和安全性的需求。本发明一方面提供了具有普适性的数字语音端点检测方法，另一方面提高了该技术的安全性，使其能够满足某些特定场合的需求。

以上实施例仅用以说明本发明的技术方案而非限制，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于频域系数对数和的语音端点检测方法，其特征在于，包括如下步骤：

(2)计算第i个语音帧A_i的频域系数对数和特征：

①对A_i进行离散余弦变换，得到N长的DCT系数，记为C_i＝{c_n|1≤n≤N}；

②由下式计算A_i的频域系数对数和S_i；