[go: up one dir, main page]

CN112634900A - 话术检测方法和话术检测装置 - Google Patents

话术检测方法和话术检测装置 Download PDF

Info

Publication number
CN112634900A
CN112634900A CN202110258035.5A CN202110258035A CN112634900A CN 112634900 A CN112634900 A CN 112634900A CN 202110258035 A CN202110258035 A CN 202110258035A CN 112634900 A CN112634900 A CN 112634900A
Authority
CN
China
Prior art keywords
pinyin
standard
hot word
speech
standard pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110258035.5A
Other languages
English (en)
Inventor
邓玉龙
刘琼琼
丁文彪
刘子韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110258035.5A priority Critical patent/CN112634900A/zh
Publication of CN112634900A publication Critical patent/CN112634900A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种话术检测方法和话术检测装置。该话术检测方法包括:获取至少一个预设的热词;针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音;获取所述扩展拼音集合对应的第一非标准拼音集合;获取所述第一非标准拼音集合对应的第二非标准拼音集合;获取标准拼音集合;获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。该话术检测方法能够提话术检测的准确度。

Description

话术检测方法和话术检测装置
技术领域
本公开涉及语音识别技术领域,尤其涉及一种话术检测方法和话术检测装置。
背景技术
话术检测,是指对音频中的一些特定内容进行检测。其过程为输入音频文件和相关的热词列表,检测自动语音识别后的文本是否包含违禁的话或者是否包含特定热词(比如:人名、昵称等),或者是否包含赞扬、引导、纠正内容等。
现有技术中,话术检测一般采用简单的关键词匹配的方法检测音频中的热词,导致话术检测的准确性较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种话术检测方法和话术检测装置,能够提高话术检测的准确性。
第一方面,本发明实施例提供了一种话术检测方法,包括:
获取至少一个预设的热词;
针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音;
获取所述扩展拼音集合对应的第一非标准拼音集合,其中,所述第一非标准拼音集合中的第一非标准拼音的部分字母与所述扩展拼音集合中的拼音的部分字母满足预设对应关系;
获取所述第一非标准拼音集合对应的第二非标准拼音集合,其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值;
获取标准拼音集合,其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;
获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
可选地,所述获取所述热词对应的扩展拼音集合,包括:
获取所述热词的全拼;
根据模糊音对照表中声母模糊音对照关系、韵母模糊音对照关系和/或字母组合模糊音对照关系,获取所述全拼对应的模糊拼音;
根据所述全拼和所述全拼对应的模糊拼音,确定所述扩展拼音集合。
可选地,所述获取所述扩展拼音集合对应的第一非标准拼音集合,包括:
根据非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述全拼对应的第一非标准拼音,以及所述模糊拼音对应的第一非标准拼音。
可选地,所述获取标准拼音集合,包括:
根据所述非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述第二非标准拼音集合中的所述第二非标准拼音对应的标准拼音。
可选地,所述获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,包括:
根据标准拼音与汉字的对应关系,删除所述标准拼音集合中与所述汉字不存在对应关系的无效标准拼音,获取有效标准拼音集合;
根据所述有效标准拼音集合中的有效标准拼音,遍历所述待检测语音文本的拼音序列,获取所述拼音序列中与所述有效标准拼音集合中相同的目标拼音。
可选地,话术检测方法还包括:
获取语音识别文本的分类结果;
所述将所述目标拼音对应的热词作为话术检测结果,包括:
将所述目标拼音对应的热词,以及所述待检测语音文本对应的分类结果作为所述话术检测结果。
可选地,所述获取语音识别文本的分类结果,包括:
将所述语音识别文本中的所述至少一个热词替换为统一的标识符号;
根据替换后的语音识别文本,获取所述分类结果。
可选地,所述获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音之前,还包括:
若语音识别文本中的第一个标点符号之前包括一个汉字,将所述第一个标点符号之前的所述一个汉字修正为两个相同的汉字;
若所述语音识别文本中包括英文字母,将所述英文字母修正为与所述英文字母的发音相同的汉字;
根据修正后的语音识别文本,获取所述待检测的语音文本。
可选地,所述将所述语音识别文本中的所述至少一个热词替换为统一的标识符号之前;还包括:
对待检测音频进行标准化处理;
根据标准化的待检测音频,获取所述语音识别文本。
第二方面,本发明实施例提供了一种话术检测装置,包括:
热词获取模块,用于获取至少一个预设的热词;
拼音扩展模块,用于针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音;
第一非标准化模块,用于获取所述扩展拼音集合对应的第一非标准拼音集合,其中,所述第一非标准拼音集合中的第一非标准拼音的部分字母与所述扩展拼音集合中的拼音的部分字母满足预设对应关系;
第二非标准化模块,用于获取所述第一非标准拼音集合对应的第二非标准拼音集合,其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值;
标准化模块,用于获取标准拼音集合,其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;
检测模块,用于获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
本发明实施例提供的技术方案中,通过获取至少一个预设的热词;针对每个热词,获取热词对应的扩展拼音集合,扩展拼音集合包括热词的全拼,以及全拼对应的模糊拼音;获取扩展拼音集合对应的第一非标准拼音集合,其中,第一非标准拼音集合中的第一非标准拼音的部分字母与扩展拼音集合中的拼音的部分字母满足预设对应关系;获取第一非标准拼音集合对应的第二非标准拼音集合,其中,第二非标准拼音集合中的各第二非标准拼音与对应的第一非标准拼音的编辑距离小于等于预设阈值;获取标准拼音集合,其中,标准拼音集合中的标准拼音的部分字母与第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;获取待检测语音文本的拼音序列中与标准拼音集合中相同的目标拼音,并将目标拼音对应的热词作为话术检测结果,能够对热词的全拼对应的非标准拼音进行扩展,提高热词的全拼对应的标准拼音的数量,从而提高话术检测结果的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种话术检测方法的流程示意图;
图2为本发明实施例提供的又一种话术检测方法的流程示意图;
图3为本发明实施例提供的又一种话术检测方法的流程示意图;
图4为本发明实施例提供的又一种话术检测方法的流程示意图;
图5为本发明实施例提供的一种分类模型的结构示意图;
图6为本发明实施例提供的又一种话术检测方法的流程示意图;
图7为本发明实施例提供的又一种话术检测方法的流程示意图;
图8为本发明实施例提供的一种话术检测装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本发明实施例提供的一种话术检测方法的流程示意图,如图1所示,具体包括:
S110,获取至少一个预设的热词。
具体地,根据实际需要获取至少一个热词,所有的热词组成热词集。例如:在教学过程中,可以将学生的名字作为热词,则整个班级所有学生的名字组成热词集。
S120,针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音。
具体地,话术的检测的过程主要包括:首先将音频转换为语音识别文本,其次,根据语音识别文本获取待检测语音文本,最后对待检测语音文本中的热词进行检测。在音频转语音识别文本的过程中,由于说话者的口音以及语音识别过程中的容错率等原因,可能会导致语音识别文本中的部分文字与音频中的部分信息不对应。如此,针对热词集中的每个热词,对各热词的全拼进行扩展形成模糊拼音,从而根据各热词的全拼及其对应的模糊拼音形成各热词对应的扩展拼音集合,能够降低音频转语音识别文本的过程产生的错误对话术检测结果造成影响。
示例性地,获取到的热词为“弯弯”,“弯弯”对应的全拼为“wanwan”,根据全拼“wanwan”能够获取其对应的模糊拼音为“wangwan”、“wangwang”、“wanwang”,全拼“wanwan”及其对应的模糊拼音“wangwan”、“wangwang”、“wanwang”组成热词“弯弯”对应的扩展拼音集合[wangwan,wangwang,wanwang,wanwan]。
S130,获取所述扩展拼音集合对应的第一非标准拼音集合。
其中,第一非标准拼音集合中的第一非标准拼音的部分字母与扩展拼音集合中的拼音的部分字母满足预设对应关系。
具体地,标准的拼音方案不能很好的体现汉字的发音相似问题,例如“挖”的全拼“wa”和“华”的全拼“hua”读音相似,若采用标准拼音方案,拼音的“wa”和“hua”编辑距离为2,而若采用非标准拼音方案,“挖”的非标准拼音为“ua”,华”的非标准拼音仍然为“hua”“ua”和“hua”的编辑距离为1,因此,采用非标准拼音方案更能准确地描述语音识别文本出现错误的规律。本发明实施例能够获取各热词的扩展拼音集合对应的第一非标准拼音集合,第一非标准拼音集合中的第一非标准拼音相较于扩展拼音集合中的拼音,能够更加准确地描述语音识别文本出现错误的规律,有利于提高话术检测结果的准确性。
示例性地,基于上述实施例,扩展拼音集合[wangwan,wangwang,wanwang,wanwan]对应的第一非标准拼音集合为[uanguan,uanguang,uanuang,uanuan]。
S140,获取所述第一非标准拼音集合对应的第二非标准拼音集合。
其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值。
具体地,基于第一非标准拼音集合中的第一非标准拼音,获取与第一非标准拼音的编辑距离等于预设阈值的第二非标准拼音,以及与第一非标准拼音的编辑距离小于预设阈值的第二非标准拼音。其中,与第一非标准拼音的编辑距离为0的第二非标准拼音即为第一非标准拼音自身,显然第二非标准拼音包括第一非标准拼音,故对第一非标准拼音进行扩展得到第二非标准拼音,实现对热词的全拼对应的非标准拼音进行扩展,提高热词的全拼对应的标准拼音的数量,从而提高话术检测结果的准确性。
示例性地,基于上述实施例,预设阈值为1,与第一非标准拼音“uan”的编辑距离为1的第二非标准拼音为“auan”、“buan”、“cuan”、“an”等。
S150,获取标准拼音集合。
其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系。
具体地,后续检测需要与待检测语音文本的拼音序列进行匹配,由于待检测语音文本的拼音序列是标准拼音,故需要将第二非标准拼音转换为标准拼音,即获取各热词对应的标准拼音集合,以保证话术检测顺利进行。需要说明的是第二非标准拼音集合中第二非标准拼音与标准拼音集合中的标准拼音的转换关系,与步骤S130中扩展拼音集合中的拼音与第一非标准拼音集合中的第一非标准拼音的转换关系相同。
S160,获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
具体地,获取待检测语音文本的拼音序列,根据标准拼音集合中的标准拼音匹配待检测语音文本的拼音序列,若待检测语音文本的拼音序列中存在与标准拼音集合中的标准拼音相同的拼音,该相同的拼音即为目标拼音,并将目标拼音对应的热词作为话术检测结果。若检测语音文本的拼音序列中不存在与标准拼音集合中的标准拼音相同的拼音,则说明待检测语音文本中不包括热词。
本发明实施例提供的技术方案中,通过获取至少一个预设的热词;针对每个热词,获取热词对应的扩展拼音集合,扩展拼音集合包括热词的全拼,以及全拼对应的模糊拼音;获取扩展拼音集合对应的第一非标准拼音集合,其中,第一非标准拼音集合中的第一非标准拼音的部分字母与扩展拼音集合中的拼音的部分字母满足预设对应关系;获取第一非标准拼音集合对应的第二非标准拼音集合,其中,第二非标准拼音集合中的各第二非标准拼音与对应的第一非标准拼音的编辑距离小于等于预设阈值;获取标准拼音集合,其中,标准拼音集合中的标准拼音的部分字母与第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;获取待检测语音文本的拼音序列中与标准拼音集合中相同的目标拼音,并将目标拼音对应的热词作为话术检测结果,能够对热词的全拼对应的非标准拼音进行扩展,提高热词的全拼对应的标准拼音的数量,从而提高话术检测结果的准确性。
可选地,图2为本发明实施例提供的有一种话术检测方法的流程示意图,如图2所示,在执行如图1所示的S120时,包括:
S121,获取所述热词的全拼。
具体地,根据汉语拼音字典,获取热词集中每个热词的全拼。
S122,根据模糊音对照表中声母模糊音对照关系、韵母模糊音对照关系和/或字母组合模糊音对照关系,获取所述全拼对应的模糊拼音。
具体地,表1为模糊音对照表,表中包括声母模糊音对照关系、韵母模糊音对照关系和字母组合模糊音对照关系,根据声母模糊音对照关系、韵母模糊音对照关系和/或字母组合模糊音对照关系,对热词的全拼进行扩展。
表1 模糊音对照表
声母模糊音对照关系 韵母模糊音对照关系 字母组合模糊音对照关系
s ↔sh an ↔ang fa ↔hua
c ↔ch en↔eng fan ↔huan
z ↔zh in ↔ing fang ↔huang
l ↔ n ian↔iang fei↔ hui
f ↔ h uan↔uang fen ↔hun
r ↔ l feng↔hong
fo↔huo
fu↔hu
声母模糊音对照关系韵母模糊音对照关系字母组合模糊音对照关系
示例性地,基于上述实施例,针对热词“弯弯”的全拼“wanwan”,根据表1中的韵母模糊音对照关系,可获取其对应的模糊拼音为“wanwang”、“wangwan”和“wangwang”。针对热词“小郑”的全拼“xiaozheng”,根据表1中的声母模糊音对照关系,可获取其对应的模糊拼音为“xiaozeng”。本发明实施例仅示例性说明了,根据模糊音对照表中的声母模糊音对照关系或韵母模糊音对照关系,获取热词的全拼对应的模糊拼音,在其他实施方式中,还可以是根据模糊音对照表中的声母模糊音对照关系、韵母模糊音对照关系以及字母组合模糊音对照关系中的一种或者多种对照关系,获取模糊拼音。
S123,根据所述全拼和所述全拼对应的模糊拼音,确定所述扩展拼音集合。
具体地,基于上述实施例,获取到了热词的全拼对应的模糊拼音,将各热词的全拼及其对应的模糊拼音,确定为该热词对应的扩展拼音集合。显然,扩展拼音集合包括热词的全拼以及全拼对应的模糊拼音,即实现了热词对应的拼音的扩展,能够获取语音识别文本中的热词可能出现的错误词语,有利于纠正语音识别文本的错误,提高话术检测结果的准确性。
示例性地,热词“弯弯”的全拼“wanwan”对应的模糊拼音为“wanwang”、“wangwan”和“wangwang”,则热词“弯弯”对应的扩展拼音集合为[wanwan,wanwang,wangwan,wangwang]。
可选地,继续参见图2,在执行如图1所示的步骤S130时,包括:
S131,根据非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述全拼对应的第一非标准拼音,以及所述模糊拼音对应的第一非标准拼音。
具体地,根据文字的实际发音,将部分标准拼音转换为对应的非标准拼音。表2为非标准拼音对照表,表中包括字母对照关系和字母组合对照关系。由于非标准拼音更接近文字的实际发音,有利于更加准确地描述语音识别文本出现错误的规律,进而有利于提高话术检测结果的准确性。
表2 非标准拼音对照表
u ↔wu ua↔wa uo↔ wo
uai↔wai ui↔wei uan↔ wan
uang↔wang un ↔weng ueng↔weng
i↔yi ia↔ya ie↔ ye
iao↔yao iu↔ you ian↔yan
iang↔ yang in ↔ yin ing↔ying
iong↔yong ü↔yu üe↔yue
üan↔ yuan ün↔yun
示例性地,基于上述实施例,针对扩展拼音集合 [wanwan,wanwang,wangwan,wangwang],根据表2中字母组合对照关系,热词“弯弯”的全拼“wanwan”对应的第一非标准拼音为“uanuan”,热词“弯弯”的模糊音“wanwang”对应的第一非标准拼音为“uanuang”,热词“弯弯”的模糊音“wangwan”对应的第一非标准拼音为“uanguan”,热词“弯弯”的模糊音“wangwang”对应的第一非标准拼音为“uanguang”,因而可以获取到第一非标准拼音集合为[uanuan,uanuang,uanguan,uanguang]。
可选地,继续参见图2,执行如图1所示的S150时,包括:
S151,根据所述非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述第二非标准拼音集合中的所述各第二非标准拼音对应的标准拼音。
具体地,根据表2中的字母对照关系和/或字母组合对照关系,将第二非标准拼音集合中的第二非标准拼音转换为对应的标准拼音,以保证能够与待检测语音文本的拼音序列进行匹配。
图3为本发明实施例提供的又一种话术检测方法的流程示意图,如图3所示,在执行S160时,包括:
S161,根据标准拼音与汉字的对应关系,删除所述标准拼音集合中与所述汉字不存在对应关系的无效标准拼音,获取有效标准拼音集合。
具体地,汉语拼音字典给出了汉字与标准拼音的对应关系,不与汉字存在对应关系的标准拼音定义为无效标准拼音。标准拼音集合中存在部分无效标准拼音,删除标准拼音集合中的无效标准拼音,从而获取热词对应的有效标准拼音集合。
S162,根据所述有效标准拼音集合中的有效标准拼音,遍历所述待检测语音文本的拼音序列,获取所述拼音序列中与所述有效标准拼音集合中相同的目标拼音。
具体地,根据汉语拼音字典获取待检测语音文本的拼音序列,根据有效标准拼音集合中的有效标准拼音,遍历待检测语音文本的拼音序列。若待检测语音文本的拼音序列中存在与有效标准拼音集合中的有效标准拼音相同的目标拼音,则说明待检测语音文本的拼音序列中存在热词,并将目标拼音对应的热词作为话术检测结果。既然无效标准拼音不存在于汉语拼音字典中,那么无效标准拼音不会出现在待检测语音文本的拼音序列中,因此本发明实施例能够剔除热词对应的标准拼音中的无效标准拼音,提高热词对应的标准拼音的有效性,进而提高话术检测的效率。
可选地,图4为本发明实施例提供的又一种话术检测方法的流程示意图,如图4所示,具体包括:
S210,获取语音识别文本的分类结果。
具体地,上述实施例能够检测出音频中的热词,在一些实施例中,还需要检测音频表达的语义。例如,在教学过程中,音频为“小华的作文写得很棒”,在检测出热词“小华”的基础上,还需要检测该句话表达的语义是对“小华”的赞扬还是批评等。将语音识别文本将输入至分类模型,能够获取语音识别文本的语义分类结果。
示例性地,图5为本发明实施例提供的一种分类模型的结构示意图,如图5所示,分类模型包括预训练模型10和分类器20,将语音识别文本将输入至预训练模型,例如,可以是双向解码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型。BERT模型根据语音识别文本对其输出文本进行预测,将BERT模型的输出文本输入至分类器,例如,可以是softmax分类器。分类器根据语义将BERT模型的输出文本进行分类,从而能够实现语音识别文本的语义分类。
需要说明的是,本发明实施例仅示例性展示了预训练模型为BERT模型,分类器为softmax分类器,在实际应用中可以根据实际需求,灵活选择预训练模型和分类器的类型。
采用分类模型在对语音识别文本进行语义分类之前,还需要对分类模型进行训练。具体地,将多个语音识别文本训练数据输入至预训练模型,经过给定任务的多轮训练收敛后,获得训练好的预训练模型。将多个标注的语音识别文本训练数据以及分类标签输入至分类模型,经过多轮训练收敛后,得到训练好的分类模型。
S220,将所述目标拼音对应的热词,以及所述语音识别文本对应的分类结果作为所述话术检测结果。
具体地,上述实施例中通过分类模型获取语音识别文本的类型,根据该语音识别文本能够获取其对应的待检测语音识别文本,从而获取该待检测语音识别文本的拼音序列中与标准拼音集合中相同的目标拼音。将语音识别文本的分类结果,以及该语音识别文本对应的待检测语音文本中的热词作为最终的话术检测结果。
示例性地,语音识别文本为“妮妮很聪明”,将其输入至分类模型,得到“赞扬”的分类结果,根据“妮妮很聪明”得到其对应的待检测语音文本,获取“妮妮很聪明”对应的待检测语音中的热词为“妮妮”,将[妮妮,赞扬]作为最终的话术检测结果。
本发明实施例,通过获取语音识别文本的分类结果,将目标拼音对应的热词,以及待检测语音文本对应的分类结果作为话术检测结果,既能够获取音频的热词检测结果又能获得音频的分类结果。
可选地,图6为本发明实施例提供的又一种话术检测方法的流程示意图,如图6所示,执行如图4所示的S210时,具体包括:
S213,将所述语音识别文本中的所述至少一个热词替换为统一的标识符号。
具体地,根据语音识别文本对应的待检测语音文本检测到的热词,将语音识别文本中的所有热词替换为统一的标识符号,替换后的语音识别文本不包括热词。
S214,根据替换后的语音识别文本,获取所述分类结果。
具体地,将不包括热词的语音识别文本输入至分类模型,获取分类结果。由于分类模型的输入的语音识别文本剔除了与语义分类无关的热词,即去除了分类过程中的干扰词语,能够提高话术检测的效率。
可选地,图7为本发明实施例提供的又一种话术检测方法的流程示意图,如图7所示,执行S160之前,还包括:
S310,若语音识别文本中的第一个标点符号之前包括一个汉字,将所述第一个标点符号之前的所述一个汉字修正为两个相同的汉字。
具体地,音频转换为语音识别文本的过程中,对于每句话开头的识别,容易产生吞音。若语音识别文本中的第一个标点符号之前包括一个汉字,即认为第一个标点符号之前发生吞音,针对此类情况,在第一个标点符号之前,将该单个汉字复制粘贴一次,使得第一个标点符号之前包括两个相同的汉字。如此,能够提高被吞文字的召回率,有利于纠正语音识别文本的错误,从而能够提高话术检测的准确性。
示例性,若音频内容为“妮妮,你很棒”,该句话的开头为人名,在说话习惯中,人名与后面的内容之间会有停顿,容易造成吞音,故获得的语音识别文本为“妮,你很棒”。针对此种情况,将第一个标点符号之前的汉字“妮”修正为两个相同的汉字“妮妮”,即修正后的语音识别文本为“妮妮,你很棒”,能够召回被吞的文字,纠正了语音识别文本的错误。
S320,若所述语音识别文本中包括英文字母,将所述英文字母修正为与所述英文字母的发音相同的汉字。
具体地,在汉语语音识别过程中,语音识别文本中可能会出现英文字母,该情况显示然是出现了语音识别错误。针对此种情况,将语音识别文本中的英文字母替换为与该英文字母发音相同的汉字,修正语音识别文本,能够纠正语音识别文本的错误。
S330,根据修正后的语音识别文本,获取所述待检测语音文本。
具体地,基于上述实施例,能够针语音识别文本的吞音以及其中的英文字母进行修正,从而获取修正后的语音识别文本,该修正后的语音识别文本为待检测语音文本。由此可知,待检测语音文本为语音识别文本纠错后的文本,待检测语音文本更接近音频所表达的内容,有利于提高话术检测结果的准确性。
可选地,继续参见图6,在执行S213之前,还包括:
S211,对待检测音频进行标准化处理。
示例地,将待检测音频转换为标准化的待检测音频,这里的标准化的待检测音频为16K采样率的单通道脉码调制(Pulse Code Modulation,pcm)音频格式。在实际应用中,可以灵活选择标准化的音频格式,本发明实施例对此不做具体限制。
S212,根据标准化的待检测音频,获取所述语音识别文本。
具体地,将标准化的待检测音频输入至自动语音识别模型中,自动语音识别模型能够根据输入的标准化的待检测音频,输出其对应的语音识别文本。标准化的待检测音频保留了待检测音频的内容,此外,能够提高语音识别的效率。
本发明实施例还提供了一种话术检测装置,用于执行上述实施例提提供的任一种话术检测方法,具备话术检测方法相应的有益效果。
图8为本发明实施例提供的一种话术检测装置的结构示意图,如图8所示,话术检测装置包括:
热词获取模块110,用于获取至少一个预设的热词。
拼音扩展模块120,用于针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音。
第一非标准化模块130,用于获取所述扩展拼音集合对应的第一非标准拼音集合,其中,所述第一非标准拼音集合中的第一非标准拼音的部分字母与所述扩展拼音集合中的拼音的部分字母满足预设对应关系。
第二非标准化模块140,用于获取所述第一非标准拼音集合对应的第二非标准拼音集合,其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值。
标准化模块150,用于获取标准拼音集合,其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系。
检测模块160,用于获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
本发明实施例提供的技术方案中,通过热词获取模块110获取至少一个预设的热词;拼音扩展模块120针对每个热词,获取热词对应的扩展拼音集合,扩展拼音集合包括热词的全拼,以及全拼对应的模糊拼音;第一非标准化模块130获取扩展拼音集合对应的第一非标准拼音集合,其中,第一非标准拼音集合中的第一非标准拼音的部分字母与扩展拼音集合中的拼音的部分字母满足预设对应关系;第二非标准化模块140获取第一非标准拼音集合对应的第二非标准拼音集合,其中,第二非标准拼音集合中的各第二非标准拼音与对应的第一非标准拼音的编辑距离小于等于预设阈值;标准化模块150获取标准拼音集合,其中,标准拼音集合中的标准拼音的部分字母与第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;检测模块160获取待检测语音文本的拼音序列中与标准拼音集合中相同的目标拼音,并将目标拼音对应的热词作为话术检测结果,能够对热词的全拼对应的非标准拼音进行扩展,提高热词的全拼对应的标准拼音的数量,从而提高话术检测结果的准确性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种话术检测方法,其特征在于,包括:
获取至少一个预设的热词;
针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音;
获取所述扩展拼音集合对应的第一非标准拼音集合,其中,所述第一非标准拼音集合中的第一非标准拼音的部分字母与所述扩展拼音集合中的拼音的部分字母满足预设对应关系;
获取所述第一非标准拼音集合对应的第二非标准拼音集合,其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值;
获取标准拼音集合,其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;
获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
2.根据权利要求1所述的话术检测方法,其特征在于,所述获取所述热词对应的扩展拼音集合,包括:
获取所述热词的全拼;
根据模糊音对照表中声母模糊音对照关系、韵母模糊音对照关系和/或字母组合模糊音对照关系,获取所述全拼对应的模糊拼音;
根据所述全拼和所述全拼对应的模糊拼音,确定所述扩展拼音集合。
3.根据权利要求1或2所述的话术检测方法,其特征在于,所述获取所述扩展拼音集合对应的第一非标准拼音集合,包括:
根据非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述全拼对应的第一非标准拼音,以及所述模糊拼音对应的第一非标准拼音。
4.根据权利要求3所述的话术检测方法,其特征在于,所述获取标准拼音集合,包括:
根据所述非标准拼音对照表中字母对照关系和/或字母组合对照关系,获取所述第二非标准拼音集合中的所述第二非标准拼音对应的标准拼音。
5.根据权利要求1所述的话术检测方法,其特征在于,所述获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,包括:
根据标准拼音与汉字的对应关系,删除所述标准拼音集合中与所述汉字不存在对应关系的无效标准拼音,获取有效标准拼音集合;
根据所述有效标准拼音集合中的有效标准拼音,遍历所述待检测语音文本的拼音序列,获取所述拼音序列中与所述有效标准拼音集合中相同的目标拼音。
6.根据权利要求1所述的话术检测方法,其特征在于,还包括:
获取语音识别文本的分类结果;
所述将所述目标拼音对应的热词作为话术检测结果,包括:
将所述目标拼音对应的热词,以及所述待检测语音文本对应的分类结果作为所述话术检测结果。
7.根据权利要求6所述的话术检测方法,其特征在于,所述获取语音识别文本的分类结果,包括:
将所述语音识别文本中的所述至少一个热词替换为统一的标识符号;
根据替换后的语音识别文本,获取所述分类结果。
8.根据权利要求1所述的话术检测方法,其特征在于,所述获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音之前,还包括:
若语音识别文本中的第一个标点符号之前包括一个汉字,将所述第一个标点符号之前的所述一个汉字修正为两个相同的汉字;
若所述语音识别文本中包括英文字母,将所述英文字母修正为与所述英文字母的发音相同的汉字;
根据修正后的语音识别文本,获取所述待检测的语音文本。
9.根据权利要求7所述的话术检测方法,其特征在于,所述将所述语音识别文本中的所述至少一个热词替换为统一的标识符号之前;还包括:
对待检测音频进行标准化处理;
根据标准化的待检测音频,获取所述语音识别文本。
10.一种话术检测装置,其特征在于,包括:
热词获取模块,用于获取至少一个预设的热词;
拼音扩展模块,用于针对每个热词,获取所述热词对应的扩展拼音集合,所述扩展拼音集合包括所述热词的全拼,以及所述全拼对应的模糊拼音;
第一非标准化模块,用于获取所述扩展拼音集合对应的第一非标准拼音集合,其中,所述第一非标准拼音集合中的第一非标准拼音的部分字母与所述扩展拼音集合中的拼音的部分字母满足预设对应关系;
第二非标准化模块,用于获取所述第一非标准拼音集合对应的第二非标准拼音集合,其中,所述第二非标准拼音集合中的各第二非标准拼音与对应的所述第一非标准拼音的编辑距离小于等于预设阈值;
标准化模块,用于获取标准拼音集合,其中,所述标准拼音集合中的标准拼音的部分字母与所述第二非标准拼音集合中的第二非标准拼音的部分字母满足所述预设对应关系;
检测模块,用于获取待检测语音文本的拼音序列中与所述标准拼音集合中相同的目标拼音,并将所述目标拼音对应的热词作为话术检测结果。
CN202110258035.5A 2021-03-10 2021-03-10 话术检测方法和话术检测装置 Pending CN112634900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110258035.5A CN112634900A (zh) 2021-03-10 2021-03-10 话术检测方法和话术检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110258035.5A CN112634900A (zh) 2021-03-10 2021-03-10 话术检测方法和话术检测装置

Publications (1)

Publication Number Publication Date
CN112634900A true CN112634900A (zh) 2021-04-09

Family

ID=75297806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110258035.5A Pending CN112634900A (zh) 2021-03-10 2021-03-10 话术检测方法和话术检测装置

Country Status (1)

Country Link
CN (1) CN112634900A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581034B1 (en) * 1999-10-01 2003-06-17 Korea Advanced Institute Of Science And Technology Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words
CN104679276A (zh) * 2013-12-02 2015-06-03 余泽栋 音读码
CN106570180A (zh) * 2016-11-10 2017-04-19 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
CN107657471A (zh) * 2016-09-22 2018-02-02 腾讯科技(北京)有限公司 一种虚拟资源的展示方法、客户端及插件
CN109101604A (zh) * 2018-08-01 2018-12-28 深圳市元征科技股份有限公司 车辆品牌识别的方法及车辆品牌识别装置
WO2019062112A1 (zh) * 2017-09-30 2019-04-04 广东美的制冷设备有限公司 空调器控制方法、装置、空调器及计算机可读存储介质
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN112100332A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 词嵌入表示学习方法及装置、文本召回方法及装置
CN112153206A (zh) * 2020-09-23 2020-12-29 北京百度网讯科技有限公司 一种联系人匹配方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581034B1 (en) * 1999-10-01 2003-06-17 Korea Advanced Institute Of Science And Technology Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words
CN104679276A (zh) * 2013-12-02 2015-06-03 余泽栋 音读码
CN107657471A (zh) * 2016-09-22 2018-02-02 腾讯科技(北京)有限公司 一种虚拟资源的展示方法、客户端及插件
CN106570180A (zh) * 2016-11-10 2017-04-19 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
WO2019062112A1 (zh) * 2017-09-30 2019-04-04 广东美的制冷设备有限公司 空调器控制方法、装置、空调器及计算机可读存储介质
CN109101604A (zh) * 2018-08-01 2018-12-28 深圳市元征科技股份有限公司 车辆品牌识别的方法及车辆品牌识别装置
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN112100332A (zh) * 2020-09-14 2020-12-18 腾讯科技(深圳)有限公司 词嵌入表示学习方法及装置、文本召回方法及装置
CN112153206A (zh) * 2020-09-23 2020-12-29 北京百度网讯科技有限公司 一种联系人匹配方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US7810030B2 (en) Fault-tolerant romanized input method for non-roman characters
US9471568B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US9502036B2 (en) Correcting text with voice processing
CN109461436B (zh) 一种语音识别发音错误的纠正方法及系统
WO2022105235A1 (zh) 一种信息识别方法、装置及存储介质
CN110021293B (zh) 语音识别方法及装置、可读存储介质
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
KR102794379B1 (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN112231480A (zh) 一种基于bert的字音混合纠错模型
CN104239579B (zh) 构建多语言音标数据库的方法、多语言注音的方法及装置
WO2024045527A1 (zh) 词句的纠错方法、装置、可读存储介质和计算机程序产品
CN114386399A (zh) 一种文本纠错方法及装置
CN118278394B (zh) 一种中文拼写纠错方法
EP4356286A1 (en) Multilingual grammatical error correction
CN116229947A (zh) 一种语音识别方法及语音识别装置
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
Xu et al. Tweet normalization with syllables
CN117809656A (zh) 一种基于半监督方式的中文语音识别文本纠错方法及装置
US10614170B2 (en) Method of translating speech signal and electronic device employing the same
CN112634900A (zh) 话术检测方法和话术检测装置
CN115455949A (zh) 中文语法纠错方法及系统、存储介质及终端
CN114429128A (zh) 一种汉字-通用盲文对照语料库的构建方法及系统
CN110399608A (zh) 一种基于拼音的对话系统文本纠错系统及方法
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210409

RJ01 Rejection of invention patent application after publication