[go: up one dir, main page]

CN106875936A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN106875936A
CN106875936A CN201710254628.8A CN201710254628A CN106875936A CN 106875936 A CN106875936 A CN 106875936A CN 201710254628 A CN201710254628 A CN 201710254628A CN 106875936 A CN106875936 A CN 106875936A
Authority
CN
China
Prior art keywords
pronunciation
speech signal
probability
signal frame
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710254628.8A
Other languages
English (en)
Other versions
CN106875936B (zh
Inventor
李忠杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201710254628.8A priority Critical patent/CN106875936B/zh
Publication of CN106875936A publication Critical patent/CN106875936A/zh
Priority to PCT/CN2017/104382 priority patent/WO2018192186A1/zh
Application granted granted Critical
Publication of CN106875936B publication Critical patent/CN106875936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种语音识别方法及装置,所述方法包括:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。实施本发明实施例,在识别语音信号的过程中,无需再执行与被过滤掉的发音相关的识别操作,如:无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低语音识别过程耗费的时间,进而能提高语音识别效率。

Description

语音识别方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及语音识别方法及装置。
背景技术
随着计算机技术的发展,语音识别(Automatic Speech Recognition,ASR)技术在人机交互等领域的应用越来越多。目前,语音识别技术主要通过信号处理模块、特征提取模块、声学模型、语言模型(Language Model,LM)、字典和解码器(Decoder),将待识别的语音信号转换为文本信息,完成语音识别。
在语音识别过程中,信号处理模块和特征提取模块,先将待识别的语音信号划分成多个语音信号帧,然后通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。而根据训练语音库的特征参数训练出的声学模型,以特征提取模块所提取的声学特征为输入,映射到能够描述语音信号帧的发音特征的发音、并计算出语音信号帧映射到各发音的概率,得到特征分类结果。
语言模型含有不同的字词(如:字、词、短语)之间关联关系、及其概率(可能性),用于估计由不同字词组成的各种文本信息的可能性。解码器可以基于己经训练好的声学模型、语言模型及字典建立一个识别网络,识别网络中的各路径分别与各种文本信息、以及各文本信息的发音对应,然后针对声学模型输出的发音,在该识别网络中寻找最佳的一条路径,基于该路径能够以最大概率输出该语音信号对应的文本信息,完成语音识别。
但是,语言模型一般是基于大量语料训练出来的模型,包含大量字词之间的关联关系和可能性,所以,基于语音模型建立的识别网络包含的节点较多,每个节点的分支数量也非常多。在识别网络中进行路径搜索时,各语音信号帧的发音涉及的节点数会以指数形式暴增,导致路径搜索量极大,搜索过程耗费的时间较多,进而会降低语音识别效率。
发明内容
有鉴于此,本发明提供一种语音识别方法及装置,以解决语音识别过程耗时多、识别效率低的问题。
根据本发明的第一方面,提供一种语音识别方法,包括步骤:
获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;
基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;
基于过滤后的特征分类结果识别所述语音信号。
在一个实施例中,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:
判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则;
如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。
在一个实施例中,如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则;
如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。
在一个实施例中,所述预定数目为以下任一:
该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;
预定的比例阈值与该帧语音信号帧对应的发音的总数目的乘积。
在一个实施例中,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:
获取任一语音信号帧映射到各发音的概率的直方图分布;
获取与所述直方图分布对应的束宽;
将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;
将满足所述预定过滤规则的发音,从所述特征分类结果所含的发音中删除。
在一个实施例中,所述将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除,包括:
如果任一语音信号帧映射到对应的发音的概率满足预定过滤规则,将该发音确定为候选发音;
如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结果所含的发音中删除;
如果该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则,则将该候选发音保留在所述特征分类结果所含的发音中。
根据本发明的第二方面,提供一种语音识别装置,包括:
分类结果获取模块,用于获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;
发音过滤模块,用于基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;
语音识别模块,用于基于过滤后的特征分类结果识别所述语音信号。
在一个实施例中,所述发音过滤模块还包括:
第一过滤模块,用于在任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内时,对所述对应的发音进行过滤;
第二过滤模块,用于在任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率时,对所述对应的发音进行过滤。
在一个实施例中,所述发音过滤模块包括:
概率分布模块,用于获取任一语音信号帧映射到各发音的概率的直方图分布;
束宽确定模块,用于获取与所述直方图分布对应的束宽;
发音确定模块,用于将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;
发音删除模块,用于将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除。
在一个实施例中,所述发音过滤模块包括:
候选发音模块,用于在任一语音信号帧映射到对应的发音的概率满足预定过滤规则时,将该发音确定为候选发音;
候选发音删除模块,用于在该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则时,将该候选发音从所述特征分类结果所含的发音中删除;
候选发音保留模块,用于在该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则时,将该候选发音保留在所述特征分类结果所含的发音中。
实施本发明提供的实施例,在识别语音信号时,先获取该语音信号的特征分类结果,然后基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,那么在识别语音信号的过程中,无需再执行与被过滤掉的发音相关的识别操作,如无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低语音识别过程耗费的时间,进而能提高语音识别效率。
附图说明
图1是本发明一示例性实施例示出的语音识别方法的流程图;
图2是本发明另一示例性实施例示出的语音识别方法的流程图;
图3是本发明一示例性实施例示出的语音识别装置的逻辑框图;
图4是本发明另一示例性实施例示出的语音识别装置的逻辑框图;
图5是本发明一示例性实施例示出的语音识别装置的硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明实施例的语音识别,在识别过程中会涉及到声学模型和语言模型,其中,声学模型是对声学、语音学、环境的变量、以及发出语音的人员的性别、口音等的差异进行的知识表示,可以通过LSTM(Long Short-Term Memory,时间递归神经网络)、CTC(Connectionist temporal classification)模型、或者隐马尔可夫模型HMM,对训练语音库所含的语音进行训练,获得语音的声学特征到发音的映射,构成声学模型,该发音与建模单元相关。如果建模单元为音节,该发音为音节;如果建模单元为音素,该发音为音素;如果建模单元为构成音素的状态,该发音为状态。
而训练声学模型时,考虑到发音会随着字词、语速、语调、轻重音、以及方言等影响发音的因素不同而不同,训练语音库需要涵盖不同的字词、语速、语调、轻重音、以及方言等影响发音的因素的大量语音。此外,考虑到语音识别的精确性,可以选择音节、音素、状态等较小的发音单位为建模单元。因此,基于训练语音库所含的大量语音以及预定的建模单元,进行模型训练,会构建出大量的声学模型。语音识别过程中,通过大量的声学模型对待识别的语音信号进行特征分类,所获得特征分类结果会包含大量的发音(类别),如:3000到10000个发音。
此外,目前的语音识别技术要识别出语音信号对应的文本信息,需针对每一个发音,在识别网络中搜索所有可能的路径,在这个搜索过程中会产生指数形式的路径增量。如果在识别网络中搜索3000到10000个发音涉及的所有可能的路径,搜索所需的存储资源和计算量可能超出语音识别系统所能承受的极限,因此,目前的语音识别技术会耗费大量的时间和资源,存在语音识别效率低的问题,本发明针对如何提高语音识别效率,提出解决方案。
本发明的方案,为了解决语音识别效率低这个问题,针对语音识别过程所得的特征分类结果进行改进,预先根据语音识别涉及的设备资源、识别效率需求设定过滤规则,然后在识别语音信号时,先获取该语音信号的特征分类结果,然后基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,那么在识别语音信号的过程中,无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低搜索过程耗费的时间,进而能提高语音识别效率。以下结合附图详细说明本发明的语音识别过程。
请参阅图1,图1是本发明一示例性实施例示出的语音识别方法的流程图,该实施例能应用于具备语音处理能力的各种电子设备上,可以包括以下步骤S101-S103:
步骤S101、获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率。
步骤S102、基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤。
步骤S103、基于过滤后的特征分类结果识别所述语音信号。
本发明实施例中,所述语音信号可以是本地语音采集设备所实时采集的用户发出的语音,也可以是其语音采集设备远程传送过来的语音。在获取语音信号的特征分类结果时,可以实时通过本领域的语音预处理模块对语音信号进行预处理,通过特征提取模块对预处理后的语音信号进行特征提取,所提取的特征可以包括PLP(Perceptual LinearPredictive,感知线性预测)、LPCC(Linear Predictive Cepstral Coefficient,线性预测倒谱系数)、FBANK(Mel-Scale Filter Bank,梅尔标度滤波器组)、MFCC(Mel-FrequencyCepstral Coefficients,梅尔倒谱系数)等,然后通过声学模型对提取的特征进行相应处理,获得特征分类结果,特征分类结果所含的概率,用于表示语音信号帧映射到对应的发音的可能性。在其他例子中,也可以直接接收其他终端设备传送过来的特征分类结果。
在得到特征分类结果后,本发明的方案,考虑到特征分类结果所含的部分发音,与待识别的语音信号的语音信号帧相关性较低,对语音识别准确率的影响较小,在降低特征分类结果所含的大量发音对语音识别效率的影响时,可以在基于特征分类结果进行语音识别前,将这些对语音识别准确率影响较小的发音从所述特征分类结果中过滤掉,来减少特征分类结果所含的发音的数量,进而提高语音识别效率。
一般情况下,发音与待识别的语音信号帧的相关性越低,在通过声学模型对语音信号的声学特征进行分类时,语音信号帧映射到该发音的概率越低。因此,可以基于语音信号帧映射到各发音的概率,来过滤特征分类结果所含的发音,过滤后,任一语音信号帧映射到被过滤掉的发音的概率,小于该语音信号帧映射到其他发音的概率。
此外,在过滤相关性较低的发音时,考虑到不同应用场景对语音识别准确率的需求,还需要衡量所过滤掉的发音对语音识别准确率的影响,因此,可以根据语音识别准确率的需求,预先设定能限制过滤掉的发音对识别准确率的影响程度的各种过滤规则。针对各种预定过滤规则,在过滤特征分类结果所含的发音时,判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则,如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。过滤掉的发音一般指从特征分类结果中删除掉的发音。
以下列举几种对所述特征分类结果所含的发音进行过滤的方式:
过滤方式一:按预定数目过滤掉低概率的发音,该预定数目可以指语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;也可以指预定的比例阈值与语音信号帧对应的发音的总数目的乘积。在过滤时,如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。
其中,预定的比例阈值,可以由本发明的设计人员根据需要达到的语音识别准确率来设定,例如,设定为1/4,指被保留的发音与所有发音的数量比例。
在一例子中,实际过滤时,可以按概率从小到大的顺序,从特征分类结果中删除发音,当保留的发音的数量与原来所有发音的数量的比例,满足预定的比例阈值,完成对特征分类结果的过滤。
在其他例子中,预定的比例阈值可以指未被过滤掉的发音与被过滤掉的发音的数量比例。实际过滤时,可以按概率从大到小的顺序,在特征分类结果中挑选发音,当挑选出的发音的数量与剩余的发音的数量的比例,满足预定的比例阈值时,完成对特征分类结果的过滤。
实际应用中,预定数目指该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量时,可以由本发明的设计人员根据需要达到的语音识别准确率来设定预定数目,例如,设定为2000至9000中的任一数值。过滤时,可以按概率从小到大的顺序,将每一语音信号帧所映射到的发音进行排列,然后将排列在前预定位数的发音从特征分类结果中给删除,完成对特征分类结果的过滤,所述预定位数与所述预定数目的数值相等。
在其他例子中,预定数目可以指未被过滤掉的发音的数量,例如,设定为1000。实际过滤时,可以按概率从大到小的顺序,将每一语音信号帧所映射到的发音进行排列,然后将排列在前预定位数的发音保留在特征分类结果中,将其他发音从特征分类结果中删除,完成对特征分类结果的过滤,所述预定位数与所述数量阈值的数值相等。在其他实施例中,还可以采取其他技术手段按过滤方式一对特征分类结果进行过滤,本发明对此不做限制。
过滤方式二:按预定的差值阈值过滤掉低概率的发音,该差值阈值可以由本发明的设计人员根据需要达到的语音识别准确率来设定,例如,设定为-0.5,指被过滤掉的发音的概率与同一语音信号帧映射到的概率最大的发音之间的概率差。过滤时,如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则,可以对所述对应的发音进行过滤。
在一例子中,实际过滤时,可以按概率从大到小的顺序,将每一语音信号帧所映射到的发音进行排列,将该语音信号帧映射到排列在第一位的发音的概率,确定为最大概率,然后从排列在最后一位的发音开始,依次获得该语音信号帧映射到每个发音的概率与最大概率的差值,如果差值小于-0.5,则将该发音从特征分类结果中删除。在其他实施例中,还可以采取其他技术手段按过滤方式二对特征分类结果进行过滤,本发明对此不做限制。
过滤方式三:按概率的直方图分布过滤分布在所述束宽之外的发音,实际过滤时,可以先获取任一语音信号帧映射到各发音的概率的直方图分布;获取与所述直方图分布对应的束宽;然后将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;最终将满足所述预定过滤规则的发音,从所述特征分类结果所含的发音中删除。实际应用中,束宽可以由本发明的设计人员根据需要达到的语音识别准确率、以及直方图的分布状况来确定,如:预先设定需要过滤掉8000个低概率的发音,可以从直方图中低概率一侧开始查找8000个发音,将第8000个发音所在位置确定为束宽边界。在其他实施例中,还可以采取其他技术手段按过滤方式三对特征分类结果进行过滤,本发明对此不做限制。
在按以上任一过滤方式,对所述特征分类结果所含的发音进行过滤后,可以直接调取预定的识别网络,搜索与过滤后的特征分类结果所含的发音相关的路径,寻找最佳的一条路径,基于该路径以最大概率输出待识别的语音信号对应的文本信息,完成语音识别,这里提到的识别网络,可以指解码器针对待识别的语音信号,根据己经训练好的声学模型、语言模型及字典建立的识别网络。
在寻找最佳的一条路径时,可以将特征分类结果所含的概率(声学得分)转换到和语音模型所含的字词(如:字、词、短语)之间关联概率(语言得分)相近的数值空间,并加权相加,作为路径搜索过程的综合分值,每一语音信号帧都会用一个预设的门限值来限制,与最佳路径的差值大于这个门限值,则该路径丢弃,否则保留;每一语音信号帧完成搜索后,会根据预设的最大路径数量,对所有路径进行排序,只保留此数量的最优路径,直至最后一帧完成,由此得出最后的路径图。
在某些例子中,输出特征分类结果的声学模型的建模单元较小,如以状态为建模单元,由于单个音素可以由三到五个状态组成,一个音素的发音所成的语音信号可以分割为多个语音信号帧,因此,易出现多个连续的语音信号帧的声学特征较类似的状况,那么特征分类结果中描述这些连续的语音信号帧中的各帧的发音,易出现类似状况。针对这种状况,如果本发明基于特征分类结果所含的概率和预定过滤规则,分别对每帧语音信号帧映射到的发音进行过滤,易将对识别准确率影响较大的发音过滤掉,为了避免误过滤这类发音,在过滤特征分类结果时,可以综合考虑连续的语音信号帧的过滤状况,具体实现过程可以参阅图2所示的方法,包括以下步骤S201-S205:
步骤S201、获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率。
步骤S202、如果任一语音信号帧映射到对应的发音的概率,满足预定过滤规则,将该发音确定为候选发音。
步骤S203、如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结果所含的发音中删除。
步骤S204、如果该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则,则将该候选发音保留在所述特征分类结果所含的发音中。
步骤S205、基于过滤后的特征分类结果识别所述语音信号。
本发明实施例中,预定过滤规则可以是以上所述的过滤方式一至过滤方式四涉及的任一种规则,还可以是能限制过滤掉的发音对识别准确率的影响程度的其他过滤规则。
连续的语音信号帧的预定帧数可以由本发明的设计人员根据需要达到的语音识别准确率来设定,例如,设定为6,相邻的前三帧以及相邻的后三帧。
由上述实施例可知:本发明的语音识别方法在识别语音信号时,先获取该语音信号的特征分类结果,然后基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,那么在识别语音信号的过程中,无需再执行与被过滤掉的发音执行相关的识别操作,如无需再在识别网络中搜索与被过滤掉的发音相关的路径,因此能有效降低语音识别过程耗费的时间,进而能提高语音识别效率。
进而,本发明实施例的语音识别方法可以应用于各种电子设备的人机交互软件内,例如:智能手机内的语音拨号、语音操控、语音查找,应用于智能手机内的语音查找时,如果用户在距离智能手机的预定范围内发出一段语音,那么应用于语音查找上的语音识别方法,可以在接收到语音采集设备采集的用户语音后,先获取该语音的特征分类结果,然后基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,然后在识别网络中只搜索未被过滤掉的发音相关的路径,通过路径搜索快速识别出用户语音对应的文本信息,进而使语音助手基于该识别结果快速响应用户。
与前述方法的实施例相对应,本发明还提供了装置的实施例。
参见图3,图3是本发明一示例性实施例示出的语音识别装置的逻辑框图,该装置可以包括:分类结果获取模块310、发音过滤模块320和语音识别模块330。
其中,分类结果获取模块310,用于获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率。
发音过滤模块320,用于基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤。
语音识别模块330,用于基于过滤后的特征分类结果识别所述语音信号。
一些例子中,发音过滤模块320可以包括:
第一过滤模块,用于在任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内时,对所述对应的发音进行过滤。
第二过滤模块,用于在任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率时,对所述对应的发音进行过滤。
另一些例子中,发音过滤模块320还可以包括:
概率分布模块,用于获取任一语音信号帧映射到各发音的概率的直方图分布。
束宽确定模块,用于获取与所述直方图分布对应的束宽。
发音确定模块,用于将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音。
发音删除模块,用于将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除。
参见图4,图4是本发明另一示例性实施例示出的语音识别装置的逻辑框图,该装置可以包括:分类结果获取模块410、发音过滤模块420和语音识别模块430。发音过滤模块420可以包括候选发音确定模块421、候选发音删除模块422和候选发音保留模块423。
其中,分类结果获取模块410,用于获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率。
候选发音确定模块421,用于在任一语音信号帧映射到对应的发音的概率满足预定过滤规则时,将该发音确定为候选发音。
候选发音删除模块422,用于在该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则时,将该候选发音从所述特征分类结果所含的发音中删除。
候选发音保留模块423,用于在该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则时,将该候选发音保留在所述特征分类结果所含的发音中。
语音识别模块430,用于基于过滤后的特征分类结果识别所述语音信号。
上述装置中各个单元(或模块)的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元或模块可以是或者也可以不是物理上分开的,作为单元或模块显示的部件可以是或者也可以不是物理单元或模块,即可以位于一个地方,或者也可以分布到多个网络单元或模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明语音识别装置的实施例可以应用在电子设备上。具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现中,电子设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备、互联网电视、智能机车、无人驾驶汽车、智能冰箱、其他智能家居设备或者这些设备中的任意几种设备的组合。
装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器等可读介质中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明语音识别装置所在电子设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。电子设备的存储器可以存储处理器可执行的程序指令;处理器可以耦合存储器,用于读取所述存储器存储的程序指令,并作为响应,执行如下操作:获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;基于过滤后的特征分类结果识别所述语音信号。
在其他实施例中,处理器所执行的操作可以参考上文方法实施例中相关的描述,在此不予赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括步骤:
获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;
基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;
基于过滤后的特征分类结果识别所述语音信号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:
判断任一语音信号帧映射到对应的发音的概率是否满足预定过滤规则;
如果所述对应的发音满足预定过滤规则,对所述对应的发音进行滤掉。
3.根据权利要求2所述的方法,其特征在于:
如果任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内,则确定所述对应的发音满足预定过滤规则;
如果任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率,则确定所述对应的发音满足预定过滤规则。
4.根据权利要求3所述的方法,其特征在于,所述预定数目为以下任一:
该帧语音信号帧对应的发音中被保留在特征分类结果内的发音的数量;
预定的比例阈值与该帧语音信号帧对应的发音的总数目的乘积。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:
获取任一语音信号帧映射到各发音的概率的直方图分布;
获取与所述直方图分布对应的束宽;
将概率分布在所述束宽之外的发音,确定为满足预定过滤规则的发音;
将满足预定过滤规则的发音,从所述特征分类结果所含的发音中删除。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤,包括:
如果任一语音信号帧映射到对应的发音的概率满足预定过滤规则,将该发音确定为候选发音;
如果该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则,则将该候选发音从所述特征分类结果所含的发音中删除;
如果该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则,则将该候选发音保留在所述特征分类结果所含的发音中。
7.一种语音识别装置,其特征在于,包括:
分类结果获取模块,用于获取待识别的语音信号的特征分类结果;所述特征分类结果包含用于描述各语音信号帧的发音特征的发音以及各语音信号帧映射到对应的发音的概率;
发音过滤模块,用于基于所述特征分类结果所含的概率,对所述特征分类结果所含的发音进行过滤;
语音识别模块,用于基于过滤后的特征分类结果识别所述语音信号。
8.根据权利要求7所述的装置,其特征在于,所述发音过滤模块还包括:
第一过滤模块,用于在任一语音信号帧映射到对应的发音的概率,与该语音信号帧的最大映射概率之间的概率差,在预定的差值范围内时,对所述对应的发音进行过滤;
第二过滤模块,用于在任一语音信号帧映射到对应的发音的概率,小于该语音信号帧映射到预定数目的发音中各发音的概率时,对所述对应的发音进行过滤。
9.根据权利要求7所述的装置,其特征在于,所述发音过滤模块包括:
概率分布模块,用于获取任一语音信号帧映射到各发音的概率的直方图分布;
束宽确定模块,用于获取与所述直方图分布对应的束宽;
发音确定模块,用于将概率分布在所述束宽之外的发音,确定为满足所述预定过滤规则的发音;
发音删除模块,用于将满足所述预定过滤规则的发音从所述特征分类结果所含的发音中删除。
10.根据权利要求7至9中任一项所述的装置,其特征在于,所述发音过滤模块包括:
候选发音确定模块,用于在任一语音信号帧映射到对应的发音的概率满足预定过滤规则时,将该发音确定为候选发音;
候选发音删除模块,用于在该语音信号帧的预定帧数的相邻语音信号帧中的任一帧,映射到该候选发音的概率满足预定过滤规则时,将该候选发音从所述特征分类结果所含的发音中删除;
候选发音保留模块,用于在该语音信号帧的预定帧数的相邻语音信号帧,映射到该候选发音的概率均不满足预定过滤规则时,将该候选发音保留在所述特征分类结果所含的发音中。
CN201710254628.8A 2017-04-18 2017-04-18 语音识别方法及装置 Active CN106875936B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710254628.8A CN106875936B (zh) 2017-04-18 2017-04-18 语音识别方法及装置
PCT/CN2017/104382 WO2018192186A1 (zh) 2017-04-18 2017-09-29 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710254628.8A CN106875936B (zh) 2017-04-18 2017-04-18 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN106875936A true CN106875936A (zh) 2017-06-20
CN106875936B CN106875936B (zh) 2021-06-22

Family

ID=59162735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710254628.8A Active CN106875936B (zh) 2017-04-18 2017-04-18 语音识别方法及装置

Country Status (2)

Country Link
CN (1) CN106875936B (zh)
WO (1) WO2018192186A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481718A (zh) * 2017-09-20 2017-12-15 广东欧珀移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
WO2018192186A1 (zh) * 2017-04-18 2018-10-25 广州视源电子科技股份有限公司 语音识别方法及装置
CN108877782A (zh) * 2018-07-04 2018-11-23 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN108899013A (zh) * 2018-06-27 2018-11-27 广州视源电子科技股份有限公司 语音搜索方法、装置和语音识别系统
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
CN109192211A (zh) * 2018-10-29 2019-01-11 珠海格力电器股份有限公司 一种语音信号识别的方法、装置及设备
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置
WO2023036283A1 (zh) * 2021-09-10 2023-03-16 广州视源电子科技股份有限公司 一种在线课堂交互的方法及在线课堂系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959865A (en) * 1987-12-21 1990-09-25 The Dsp Group, Inc. A method for indicating the presence of speech in an audio signal
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN102426836A (zh) * 2011-08-25 2012-04-25 哈尔滨工业大学 基于分位数自适应裁剪的快速关键词检出方法
CN102436816A (zh) * 2011-09-20 2012-05-02 安徽科大讯飞信息科技股份有限公司 一种语音数据解码方法和装置
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN105243143A (zh) * 2015-10-14 2016-01-13 湖南大学 基于即时语音内容检测的推荐方法及系统
CN105845128A (zh) * 2016-04-06 2016-08-10 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241771B2 (ja) * 2006-07-04 2009-03-18 株式会社東芝 音声認識装置及びその方法
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN102779510B (zh) * 2012-07-19 2013-12-18 东南大学 基于特征空间自适应投影的语音情感识别方法
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
CN106875936B (zh) * 2017-04-18 2021-06-22 广州视源电子科技股份有限公司 语音识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959865A (en) * 1987-12-21 1990-09-25 The Dsp Group, Inc. A method for indicating the presence of speech in an audio signal
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN102426836A (zh) * 2011-08-25 2012-04-25 哈尔滨工业大学 基于分位数自适应裁剪的快速关键词检出方法
CN102436816A (zh) * 2011-09-20 2012-05-02 安徽科大讯飞信息科技股份有限公司 一种语音数据解码方法和装置
CN103730115A (zh) * 2013-12-27 2014-04-16 北京捷成世纪科技股份有限公司 一种语音中检测关键词的方法和装置
CN105243143A (zh) * 2015-10-14 2016-01-13 湖南大学 基于即时语音内容检测的推荐方法及系统
CN105845128A (zh) * 2016-04-06 2016-08-10 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018192186A1 (zh) * 2017-04-18 2018-10-25 广州视源电子科技股份有限公司 语音识别方法及装置
CN107481718B (zh) * 2017-09-20 2019-07-05 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN107481718A (zh) * 2017-09-20 2017-12-15 广东欧珀移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN110310623B (zh) * 2017-09-20 2021-12-28 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN110310623A (zh) * 2017-09-20 2019-10-08 Oppo广东移动通信有限公司 样本生成方法、模型训练方法、装置、介质及电子设备
CN108694951A (zh) * 2018-05-22 2018-10-23 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108694951B (zh) * 2018-05-22 2020-05-22 华南理工大学 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
CN108899013A (zh) * 2018-06-27 2018-11-27 广州视源电子科技股份有限公司 语音搜索方法、装置和语音识别系统
CN108877782A (zh) * 2018-07-04 2018-11-23 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
CN109192211A (zh) * 2018-10-29 2019-01-11 珠海格力电器股份有限公司 一种语音信号识别的方法、装置及设备
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置
WO2023036283A1 (zh) * 2021-09-10 2023-03-16 广州视源电子科技股份有限公司 一种在线课堂交互的方法及在线课堂系统

Also Published As

Publication number Publication date
WO2018192186A1 (zh) 2018-10-25
CN106875936B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN106875936B (zh) 语音识别方法及装置
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Fohr et al. New paradigm in speech recognition: deep neural networks
CN115132170B (zh) 语种分类方法、装置及计算机可读存储介质
JP7544989B2 (ja) ルックアップテーブルリカレント言語モデル
US11978438B1 (en) Machine learning model updating
CN114416989A (zh) 一种文本分类模型优化方法和装置
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
Kumar et al. Machine learning based speech emotions recognition system
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Moyal et al. Phonetic search methods for large speech databases
CN113990325B (zh) 流式语音识别方法及装置、电子设备、存储介质
CN114360514B (zh) 语音识别方法、装置、设备、介质及产品
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
CN114203159A (zh) 语音情感识别方法、终端设备及计算机可读存储介质
US20210225366A1 (en) Speech recognition system with fine-grained decoding
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
CN115083397B (zh) 歌词声学模型的训练方法、歌词识别方法、设备和产品
Ons et al. A self learning vocal interface for speech-impaired users
CN112489646B (zh) 语音识别方法及其装置
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN115762480B (zh) 一种语音唤醒方法、语音唤醒装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant