CN109102799A - 一种基于频域系数对数和的语音端点检测方法 - Google Patents
一种基于频域系数对数和的语音端点检测方法 Download PDFInfo
- Publication number
- CN109102799A CN109102799A CN201810938673.XA CN201810938673A CN109102799A CN 109102799 A CN109102799 A CN 109102799A CN 201810938673 A CN201810938673 A CN 201810938673A CN 109102799 A CN109102799 A CN 109102799A
- Authority
- CN
- China
- Prior art keywords
- logarithm
- speech
- frame
- frequency coefficient
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于频域系数对数和的语音端点检测方法,包括步骤:1)预处理:首先将语音信号A分为等长的不重叠的语帧,记第i帧为Ai,其长度记为N;2)计算特征:①对Ai进行DCT,得到的系数记为Ci,系数幅值记为|Ci|;②计算Ai的频域系数对数和Si;3)端点检测:频域系数对数和大于阈值T的帧被认为是话语部分,小于阈值T的帧被认为是静音段。本发明构造了语音信号频域系数对数和的特征,语音信号话语部分对应的频域系数对数和较大,而静音部分的频域系数对数和较小,基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,完成语音信号的端点检测。本发明方法为语音识别中的话语段检测提供了技术支持。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于频域系数对数和的语音端点检测方法。
背景技术
语音是人们进行信息交流的主要方式之一。信息技术和人工智能技术的发展,人们和机器的交流问题越来越普遍,俨然已受到企业以及科研人员的重视。而用人类自己的语言和机器的交流具有易接受、使用方便等特点。这就要求机器能够足够准确地对人类的语言进行识别。语音识别是通过计算机对人们发出的语音信号进行时域或频域处理,进而识别出人们所说话的内容。语音端点检测在语音信号识别中占有十分重要的地位。对于基于数字水印的语音取证技术而言,为了提高取证算法某方面的性能,常将水印嵌入在语音信号的话语段中。对此类算法而言,验证端需要精确地定位含水印语音的话语段,使其能够从话语段中提取水印信息并对含水印信号进行取证。所以,语音端点检测的效果不仅可以影响到语音识别的准确率,而且对于部分取证水印技术而言,也关乎水印取证的可信度和认可度。于是语音信号的端点检测具有研究意义和实用价值。
文献“Speech Endpoint Detection Method Based on TEO in NoisyEnvironment”(J.Li,P.Zhou,X.Jing,Z.Du,Procedia Engineering,vol.29,PP.2655-2660,2012)”基于Teager能量算子(TEO),提出了一种语音端点检测算法,该方法采用基于双阈值的三种转换和判断机制,使其对一定的噪声环境具有鲁棒性。实验结果证实了该方法在低信噪比的噪声环境中算法的有效性。然而该方法用于判别静音段和非静音段的特征差别较小,导致对非静音段的检测存在较大的误检的可能。文献“Centroid-based Semi-fragile Audio Watermarking in Hybrid Domain”(H.X.Wang,M.Q.Fan,Science inChina Series F-Information Sciences,vol.53,no.3,PP.619-633,2010)”提出了一种在飞机驾驶舱语音背景下的鲁棒语音端点检测方法,建立了直接针对噪声语音的Laplacian分布模型,并给出了基于二元假设检验的似然比检验。该方法根据前一帧和所观察到的频谱,对语音端点进行搜索。实验结果表明该方法对飞机驾驶舱背景下的语音信号能够较为有效的进行端点检测。以上技术的确实现了特定场合的语音信号端点检测,但局限性较强。在需要通过端点检测来确定水印嵌入域的场合,由于此类技术自身特点,导致其安全性较差,限制了该方法在实际生活中的广泛推广。
发明内容
本发明的目的是克服上述现有技术中存在的问题,提供一种基于频域系数对数和的语音端点检测方法,构造了语音信号频域系数对数和的特征。该特征对于语音信号静音段和话语段具有较强的区分能力(话语段对应的频域系数对数和特征较大,静音段对应的频域系数对数和特征较小)。基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,从而完成语音信号的端点检测。本发明方法为语音识别中的话语段检测提供了技术支持。
本发明的技术方案是:一种基于频域系数对数和的语音端点检测方法,包括如下步骤:
(1)预处理:首先将语音信号A分为等长的不重叠的语帧,每帧的长度为N;记第i帧为Ai,其长度记为N,1≤i≤I,I表示总的分帧个数;
(2)计算第i个语音帧Ai的频域系数对数和特征:
①对Ai进行离散余弦变换(离散余弦变换即DCT,Discrete Cosine Transform),得到N长的DCT系数,记为Ci={cn|1≤n≤N};
②由下式计算Ai的频域系数对数和Si;
其中,cn表示Ci的第n个系数,|cn|表示cn的幅值,这里|·|表示取绝对值运算;由于语音信号DCT系数存在为0的情况,为了保证上式中的对数运算有意义,将|cn|加上一个正数α,其中α>0;根据对数运算的性质,当真数大于0小于1时,对数值小于0;为了使上式求和中的每一项均为负数,这里取β>10,使
(3)端点检测:频域系数对数和大于阈值T的帧被认为是话语部分;频域系数对数和小于阈值T的帧被认为是静音段。
本发明的有益效果:本发明提供的基于频域系数对数和的语音端点检测方法,对语音识别中的话语段检测和数字语音取证水印技术中的水印嵌入域的确定提供了技术支持。构造了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和)。因静音段的频域系数对数和较小,而话语段的频域系数对数和较大,基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,实现了对数字语音信号的端点检测。将用于获取语音信号频域系数对数和特征中的参数作为密钥,以提高语音信号端点检测安全性,满足该技术用于数字语音取证水印中确定水印嵌入域的精确性和安全性的需求。本发明一方面提供了具有普适性的数字语音端点检测方法,另一方面提高了该技术的安全性,使其能够满足某些特定场合的需求。
本发明提供的基于频域系数对数和的语音端点检测方法,为语音识别中的话语段检测提供了技术支持,构造了语音信号频域系数对数和的特征,语音信号话语部分对应的频域系数对数和较大,而静音部分的频域系数对数和较小。基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,本发明能够有效的区分语音信号静音段和非静音段,从而完成语音信号的端点检测。
附图说明
图1是本发明的方法流程图;
图2录制于讨论会现场的语音信号波形图;
图3录制于讨论会现场的语音信号各帧系数对数和特征;
图4录制于讨论会现场的语音信号端点检测结果;
图5录制于安静办公室的语音信号波形图;
图6录制于安静办公室的语音信号各帧系数对数和特征;
图7录制于安静办公室的语音信号端点检测结果;
图8录制于车站的语音信号波形图;
图9录制于车站的语音信号各帧系数对数和特征;
图10录制于车站现场的语音信号端点检测结果。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
参见图1,本发明提供了一种基于频域系数对数和的语音端点检测方法,具体步骤如下:
(1)预处理:首先将语音信号A分为等长的不重叠的语帧,总的分帧个数记为I。第i帧为Ai,其长度记为N,1≤i≤I。
(2)计算频域系数对数和特征:
①对Ai进行离散余弦变换(DCT,Discrete Cosine Transform),得到N长的DCT系数,记为Ci={cn|1≤n≤N}。
②由下式计算Ai的频域系数对数和Si。
其中,cn表示Ci的第n个系数,|cn|表示cn的幅值,这里|·|表示取绝对值运算。由于语音信号DCT系数存在为0的情况,为了保证上式中的对数运算有意义,我们这里将|cn|加上一个正数α(α>0)。根据对数运算的性质,当真数大于0小于1时,对数值小于0。为了使上式求和中的每一项均为负数,取β>10(大量实验表明,语音信号DCT系数幅值小于10),使
(3)端点检测:频域系数对数和大于阈值T的帧被认为是话语部分;频域系数对数和小于阈值T的帧被认为是静音段。
本发明方法定义了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和),利用该特征实现了对数字语音信号的端点检测。同时,在语音信号频域系数对数和特征中的两个参数(α和β)可以作为密钥,以此来提高该特征计算的安全性,方便用在具有一定保密性的场合。
本发明方法的效果可以通过以下的性能分析验证:
随机选取录制与三种不同现场的语音信号作为测试样本。利用本方法对选取的测试样本进行端点检测。在计算频域系数对数和特征时,取α=0.0001,β=10.5。
(1)录制于讨论会现场的语音信号
图2给出了一段录制于讨论会现场语音信号。然后将该信号分为长度为100的语音帧,并计算各帧的系数对数和,如图3所示。基于系数对数和特征,图4给出了端点检测的结果。
(2)录制于安静办公室的语音信号
图5给出了一段录制于安静办公室的语音信号。将该信号分为长度为100的语音帧,并计算各帧的系数对数和,如图6所示。基于系数对数和特征,图7给出了端点检测的结果。
(3)录制于车站的语音信号
图8给出了一段录制于车站的语音信号。将该信号分为长度为100的语音帧,并计算各帧的系数对数和,如图9所示。基于系数对数和特征,图10给出了端点检测的结果。
综上所述,本发明提供的基于频域系数对数和的语音端点检测方法,对语音识别中的话语段检测和数字语音取证水印技术中的水印嵌入域的确定提供了技术支持。构造了对语音信号中的静音段和话语段具有较好的区分度的特征(频域系数对数和)。因静音段的频域系数对数和较小,而话语段的频域系数对数和较大,基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,实现了对数字语音信号的端点检测。将用于获取语音信号频域系数对数和特征中的参数作为密钥,以提高语音信号端点检测安全性,满足该技术用于数字语音取证水印中确定水印嵌入域的精确性和安全性的需求。本发明一方面提供了具有普适性的数字语音端点检测方法,另一方面提高了该技术的安全性,使其能够满足某些特定场合的需求。
本发明提供的基于频域系数对数和的语音端点检测方法,为语音识别中的话语段检测提供了技术支持,构造了语音信号频域系数对数和的特征,语音信号话语部分对应的频域系数对数和较大,而静音部分的频域系数对数和较小。基于此,将频域系数对数和较大的语音帧判断为话语段,频域系数对数和较小的语音帧判断为静音段,本发明能够有效的区分语音信号静音段和非静音段,从而完成语音信号的端点检测。
以上实施例仅用以说明本发明的技术方案而非限制,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (1)
1.一种基于频域系数对数和的语音端点检测方法,其特征在于,包括如下步骤:
(1)预处理:首先将语音信号A分为等长的不重叠的语帧,每帧的长度为N;记第i帧为Ai,其长度记为N,1≤i≤I,I表示总的分帧个数;
(2)计算第i个语音帧Ai的频域系数对数和特征:
①对Ai进行离散余弦变换,得到N长的DCT系数,记为Ci={cn|1≤n≤N};
②由下式计算Ai的频域系数对数和Si;
其中,cn表示Ci的第n个系数,|cn|表示cn的幅值,这里|·|表示取绝对值运算;由于语音信号DCT系数存在为0的情况,为了保证上式中的对数运算有意义,将|cn|加上一个正数α,其中α>0;根据对数运算的性质,当真数大于0小于1时,对数值小于0;为了使上式求和中的每一项均为负数,这里取β>10,使
(3)端点检测:频域系数对数和大于阈值T的帧被认为是话语部分;频域系数对数和小于阈值T的帧被认为是静音段。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810938673.XA CN109102799B (zh) | 2018-08-17 | 2018-08-17 | 一种基于频域系数对数和的语音端点检测方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810938673.XA CN109102799B (zh) | 2018-08-17 | 2018-08-17 | 一种基于频域系数对数和的语音端点检测方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN109102799A true CN109102799A (zh) | 2018-12-28 |
| CN109102799B CN109102799B (zh) | 2023-01-24 |
Family
ID=64850076
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810938673.XA Expired - Fee Related CN109102799B (zh) | 2018-08-17 | 2018-08-17 | 一种基于频域系数对数和的语音端点检测方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN109102799B (zh) |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0663778A2 (en) * | 1994-01-12 | 1995-07-19 | Samsung Electronics Co., Ltd. | Image coding method and apparatus therefor |
| US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
| US20030110033A1 (en) * | 2001-10-22 | 2003-06-12 | Hamid Sheikhzadeh-Nadjar | Method and system for real-time speech recognition |
| CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
| CN105304091A (zh) * | 2015-06-26 | 2016-02-03 | 信阳师范学院 | 一种基于dct的语音篡改恢复方法 |
| CN105845143A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于支持向量机的说话人确认方法及其系统 |
| CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
| WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
| CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
-
2018
- 2018-08-17 CN CN201810938673.XA patent/CN109102799B/zh not_active Expired - Fee Related
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0663778A2 (en) * | 1994-01-12 | 1995-07-19 | Samsung Electronics Co., Ltd. | Image coding method and apparatus therefor |
| US6345246B1 (en) * | 1997-02-05 | 2002-02-05 | Nippon Telegraph And Telephone Corporation | Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates |
| US20030110033A1 (en) * | 2001-10-22 | 2003-06-12 | Hamid Sheikhzadeh-Nadjar | Method and system for real-time speech recognition |
| CN101221762A (zh) * | 2007-12-06 | 2008-07-16 | 上海大学 | 一种mp3压缩域音频分割方法 |
| CN105304091A (zh) * | 2015-06-26 | 2016-02-03 | 信阳师范学院 | 一种基于dct的语音篡改恢复方法 |
| CN105845143A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于支持向量机的说话人确认方法及其系统 |
| WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
| CN106898362A (zh) * | 2017-02-23 | 2017-06-27 | 重庆邮电大学 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
| CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
Non-Patent Citations (8)
| Title |
|---|
| KALPANA.C. JONDHALE ET AL.: "Performance Analysis of DeT in Logarithm Domain and Two -Point Normalization Method for Illumination and Expression Variation in Face Recognition", 《2010 IEEE》 * |
| LI JIE ET AL.: "Speech Endpoint Detection Method Based on TEO in Noisy Environment", 《PROCEDIA ENGINEERING》 * |
| PETER LEE ET AL,: "An Evaluation of a Hybrid-Logarithmic Number System DCT/IDCT Algorithm", 《2005 IEEE》 * |
| ZHENGHUI LIU ET AL.: "Authentication and recovery algorithm for speech signal based on digital watermarking", 《SIGNAL PROCESSING》 * |
| 王振寰等: "基于一阶有限差分商的带噪语音端点检测方法", 《昆明学院学报》 * |
| 王静等: "一种精确篡改定位的数字语音取证算法", 《信阳师范学院学报( 自然科学版)》 * |
| 聂祥飞等: "利用离散余弦变换与梯度脸的人脸光照处理", 《微型机与应用》 * |
| 董胡等: "基于DCT增强和改进谱熵的语音端点检测方法", 《通信技术》 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN109102799B (zh) | 2023-01-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI480855B (zh) | 聲音訊號之特徵指紋擷取與匹配 | |
| CN106486131B (zh) | 一种语音去噪的方法及装置 | |
| US8586847B2 (en) | Musical fingerprinting based on onset intervals | |
| US10019998B2 (en) | Detecting distorted audio signals based on audio fingerprinting | |
| US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
| Xie et al. | Acoustic classification of australian anurans using syllable features | |
| CN110599987A (zh) | 基于卷积神经网络的钢琴音符识别算法 | |
| CN101465122A (zh) | 语音的频谱波峰的检测以及语音识别方法和系统 | |
| CN110890087A (zh) | 一种基于余弦相似度的语音识别方法和装置 | |
| CN108986824A (zh) | 一种回放语音检测方法 | |
| CN106098079A (zh) | 音频信号的信号提取方法与装置 | |
| CN116110417B (zh) | 一种面向超声波声纹防伪的数据增强方法及装置 | |
| CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
| CN114234061A (zh) | 一种基于神经网络的带压运行供水管道漏水音智能判别方法 | |
| CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
| CN111782861A (zh) | 一种杂音检测方法及装置、存储介质 | |
| WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
| WO2022179360A1 (zh) | 一种声纹识别方法、装置及计算机可读存储介质 | |
| CN109997186A (zh) | 一种用于分类声环境的设备和方法 | |
| CN110647656A (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
| CN105909979B (zh) | 基于小波变换融合盲源分离算法的泄漏声波特征提取方法 | |
| CN110767248A (zh) | 一种抗变调干扰的音频指纹提取方法 | |
| CN119763585B (zh) | 一种声纹匹配方法 | |
| CN109102799A (zh) | 一种基于频域系数对数和的语音端点检测方法 | |
| CN108597537A (zh) | 一种音频信号相似度检测方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant | ||
| CF01 | Termination of patent right due to non-payment of annual fee | ||
| CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230124 |