具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于基于中文语音信息训练英文语音模型的设备示意图。模型训练设备1包括语音获取装置101、英文判断装置102、语音识别装置103和模型训练装置104。
其中,语音获取装置101获取用户通过语音采集装置输入的语音数据。具体地,用户或大量用户通过与语音采集装置的交互,输入了语音数据,语音获取装置101通过调用该语音采集装置所提供的应用程序接口(API),获取该用户或大量用户输入的语音数据;或者,用户或大量用户通过与语音采集装置的交互,输入了语音数据,并将该语音数据存入语音数据库中,语音获取装置101通过调用该语音数据库所提供的应用程序接口(API),从该语音数据库中获取用户或大量用户输入的语音数据。
本领域技术人员应能理解上述获取语音数据的方式仅为举例,其他现有的或今后可能出现的获取语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
英文判断装置102判断所述语音数据是否为英文语音数据。具体地,英文判断装置102根据语音获取装置101所获取的用户通过语音采集装置输入的语音数据,例如通过声学模型匹配等方式,判断该语音数据是否为英文语音数据。
本领域技术人员应能理解上述判断英文语音数据的方式仅为举例,其他现有的或今后可能出现的判断英文语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
语音识别装置103当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息。具体地,当英文判断装置102判断该语音数据为英文语音数据,语音识别装置103根据中文语音信息,如中文声韵母信息,对该英文语音数据进行语音识别处理,例如,当英文判断装置判断该语音数据为英文语音数据时,语音识别装置103采用所有可能的中文声韵母信息去识别该英文语音数据,以确定该英文语音数据的发音信息。
例如,用户通过与语音采集装置的交互,输入了语音数据单词“iphone”,语音获取装置101通过调用该语音采集装置所提供的应用程序接口(API),获取了该语音数据“iphone”;随后,英文判断装置102采用声学模型匹配的方式,判断该语音数据为英文语音数据;随后,语音识别装置103采用所有可能的中文声韵母信息,对该英文语音数据“iphone”进行强制对齐,确定该英文语音数据“iphone”的发音信息为“aa ai4 f eng1”。在此,aa、ai4、f、eng1等即为中文声韵母信息,其中的数字表示该韵母信息所对应的声调。本领域技术人员应能理解,在此,中文声韵母信息及声调的表示仅为示例,而不应对本发明产生任何限制。
优选地,语音识别装置103还可以根据单词模型所对应的中文语音信息、或字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息、或字母发音信息。例如,对于“iphone”,若用户输入语音采集装置的为按单词读的“iphone”,则语音识别装置103确定其对应的采用中文语音信息表示的发音信息为“aa ai4 f eng1”;若用户输入语音采集装置的为按字母读的“iphone”,即,“i、p、h、o、n、e”,则语音识别装置103确定其对应的采用中文语音信息表示的发音信息为“aa ai4 p i4ei2 ch oo ou1 ee en1 ii i4”。
本领域技术人员应能理解上述识别发音信息的方式仅为举例,其他现有的或今后可能出现的识别发音信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
模型训练装置104根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。具体地,模型训练装置104根据该语音识别装置103所识别获得的发音信息,确定该英文语音数据所对应的英文数据,如根据发音信息“aa ai4 f eng1”,确定该发音信息对应的英文数据为“iphone”,再将该发音信息与该英文数据的映射关系存入英文语音模型,以实现对该英文语音模型的建立或更新,其中,该发音信息与该英文数据通过该中文语音信息相映射。
在此,英文数据为一具体的英文单词,如“iphone”等,而英文语音数据为该具体的英文单词所对应的语音数据,如“iphone”所对应的语音数据,通过语音获取装置101所获取。
本领域技术人员应能理解上述建立或更新英文语音模型的方式仅为举例,其他现有的或今后可能出现的建立或更新英文语音模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模。
优选地,模型训练设备1的各个装置之间是持续不断工作的。具体地,语音获取装置101获取用户通过语音采集装置输入的语音数据;英文判断装置102判断所述语音数据是否为英文语音数据;语音识别装置103当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;模型训练装置104根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。在此,本领域技术人员应理解“持续”是指模型训练设备1的各装置分别不断地进行语音数据的获取、英文语音数据的判断、英文语音数据的识别处理及英文语音模型的建立或更新,直至该模型训练设备1在较长时间内停止获取语音数据。
优选地,语音识别装置103当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。具体地,当该英文判断装置102判断语音获取装置101所获取的语音数据为英文语音数据,语音识别装置103采用单词模型所对应的中文语音信息,如“aa ai4 f eng1”等,对所述英文语音数据进行语音识别处理,如强制对齐处理,采用所有可能的中文声韵母信息,对该英文语音数据进行强制对齐,以获得与所述英文语音数据相对应的单词发音信息。
在此,该单词模型中存储有大量单词所对应的中文语音信息,该单词模型可以位于模型训练设备1中,或者位于与该模型训练设备1通过网络相连接的第三方设备中。
优选地,语音识别装置103当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。具体地,当该英文判断装置102判断语音获取装置101所获取的语音数据为英文语音数据,语音识别装置103根据字母模型所对应的中文语音信息,如二十六个英文字母所对应的中文语音信息,如字母“a”对应的中文语音信息“aa ei1”、字母“b”对应的中文语音信息“b i4”、字母“c”对应的中文语音信息“s ei4”等,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。
优选地,语音识别装置103对于英文判断装置102判断为英文语音数据为语音数据,优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当该语音识别装置103采用单词模型无法识别出该英文语音数据的发音信息时,再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。相似地,该语音识别装置103也可以优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当该语音识别装置103采用字母模型无法识别出该英文语音数据的发音信息时,再采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息。在此,优先采用单词模型还是优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,可以是该模型训练设备1预先设定的,也可以应事件而进行调整。
例如,对于语音获取装置101所获取的语音数据“iphone”,英文判断装置102判断该语音数据“iphone”为英文语音数据,语音识别装置103优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,但无法识别出该英文语音数据的发音信息;随后,该语音获取装置101再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,获得与该英文语音数据相对应的字母发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,则可知该语音获取装置101所获取的语音数据为按字母读的“iphone”,即,“i、p、h、o、n、e”。
更优选地,语音识别装置103分别采用单词模型所对应的中文语音信息、字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,并分别对语音识别处理所获得的结果进行打分,确定打分较高的发音信息为该英文语音数据的发音信息。
在此,由于用户在输入英文单词时有时按单词读有时按字母读,本发明对每个需要识别的英文单词,利用相似的单词模型对应的中文语音信息、字母模型对应的中文语音信息,确定其对应的发音信息,提升了语音识别的准确性。
在一优选实施例中,该模型训练设备1还包括模型更新装置(未示出)。该模型更新装置统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;根据所述概率值,更新所述英文语音模型。具体地,当大量用户通过语音采集装置输入语音数据,其中,多个用户所输入的英文语音数据为相同的英文语音数据,语音获取装置101获取该大量用户输入的大量语音数据;英文判断装置102判断该大量语音数据为英文语音数据;随后,语音识别装置103根据中文语音信息,对该大量英文语音数据进行语音识别处理,以获得与该大量英文语音数据相对应的发音信息,在此,由于该多个用户输入的为相同的英文语音数据,因此,该语音识别装置103所获得的关于该多个用户输入的英文语音数据所对应的发音信息相同或相似;接着,模型训练装置104根据该多个相同或相似的发音信息,确定该多个英文语音数据所对应的相同的英文数据;模型更新装置统计该相同的英文数据所对应的英文语音数据在该语音数据中的出现次数;接着,该模型更新装置再根据该英文语音数据的出现次数,并结合该语音数据的数量信息,确定该英文数据的概率值,如将该出现次数除以该大量语音数据的数量信息,获得该英文数据的概率值;该模型更新装置再将该英文数据及其对应的概率值存入该英文语音模型中,以实现对该英文语音模型的更新。
优选地,该模型训练设备1还包括数据提取装置(未示出)和单元训练装置(未示出)。该数据提取装置当所述出现次数大于预定数量阈值,自所述英文语音模型中提取所述英文数据与所述英文语音数据;该单元训练装置根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。具体地,该模型训练设备1可以设置一个预定数量阈值,该预定数量阈值用来判断英文数据所对应的英文语音数据在该语音数据中的出现次数是否超过该值,当该出现次数大于该预定数量阈值时,数据提取装置自该英文语音模型中提取该英文数据与该英文语音数据;该单元训练装置根据该英文数据与该英文语音数据的映射关系,为该英文语音数据新建一个英文语音单元,以实现对该英文语音单元的建立或更新。
更优选地,该单元训练装置根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。具体地,该单元训练装置根据该英文数据与该英文语音数据的映射关系,为该英文数据新建一英文语音单元,再例如通过将该中文发音信息所对应的中文语音单元的模型参数复制给该英文语音单元,然后在英文数据上对齐,得到统计量,再与该复制所获得的参数进行插值计算,以实现对该英文语音单元的建立或更新。在此,所述中文语音单元包括为每个中文发音信息,如中文声母或韵母信息所建立的发音单元,如“s”、“ei4”等中文声韵母信息所对应的中文语音单元。
更优选地,该模型训练设备1还包括单元更新装置(未示出)。该单元更新装置根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。具体地,在单元训练装置为英文数据新建一英文语音单元之后,单元更新装置不断地根据用户输入的英文语音数据,及由语音识别装置103识别所获得的与该英文语音数据相对应的发音信息,训练该英文语音单元。
在此,本发明对出现此处大于预定阈值的英文语音数据,为该英文语音数据及英文数据新建英文语音单元,并对该英文语音单元不断地进行训练,以进一步提升该英文语音数据的发音信息的准确性。
图2示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的设备示意图。该模型训练设备1还包括序列获取装置205、序列确定装置206和信息提供装置207。以下参照图2对该优选实施例进行详细描述:具体地,语音获取装置201获取用户通过语音采集装置输入的语音数据;英文判断装置202判断所述语音数据是否为英文语音数据;语音识别装置203当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;模型训练装置204根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射;序列获取装置205获取所述用户为目标应用输入的单词语音序列;序列确定装置206根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;信息提供装置207将与所述英文字符序列相对应的信息提供给所述用户。其中,语音获取装置201、英文判断装置202、语音识别装置203和模型训练装置204与图1所示对应装置相同或相似,故此处不再赘述,并通过引用的方式包含于此。
其中,序列获取装置205获取所述用户为目标应用输入的单词语音序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入单词语音序列,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的单词语音序列。
序列确定装置206根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列。具体地,序列确定装置206根据该序列获取装置205所获取的单词语音序列,通过语音识别处理,确定该单词语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”。
信息提供装置207将与所述英文字符序列相对应的信息提供给所述用户。例如,当该目标应用为语音输入应用,该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列作为语音输入候选词条提供给该用户;当该目标应用为语音搜索应用;该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将根据该英文字符序列搜索获得的一个或多个搜索结果提供给该用户。
优选地,该目标应用为语音输入应用;其中,该信息提供装置207将所述英文字符序列作为语音输入候选词条提供给所述用户。例如,当该目标应用为语音输入应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入。
优选地,该目标应用为语音搜索应用;其中,该模型训练设备1还包括搜索获取装置(未示出)。该搜索获取装置将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;其中,该信息提供装置207将所述一个或多个搜索结果提供给所述用户。具体地,当该目标应用为语音搜索应用,序列确定装置206根据该英文语音模型,确定与该单词语音序列相对应的英文字符序列;搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果提供给该用户。
例如,当该目标应用为语音搜索应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,序列确定装置206根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
更优选地,序列获取装置205获取所述用户为目标应用输入的字母语音序列;其中,所述序列确定装置206根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入字母语音序列,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的字母语音序列;随后,序列确定装置206根据该序列获取装置205所获取的字母语音序列,通过语音识别处理,确定该字母语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了字母语音序列“i、p、h、o、n、e”,序列获取装置205例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的字母语音序列“i、p、h、o、n、e”;随后,序列确定装置206根据该字母语音序列“i、p、h、o、n、e”,通过语音识别处理,确定该字母语音序列的发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列“iphone”。
相似地,信息提供装置207将与该英文字符序列相对应的信息提供给所述用户。接上例,当该目标应用为语音输入应用,该信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入;当该目标应用为语音搜索应用;搜索获取装置根据该序列确定装置206所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,信息提供装置207通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
在此,本发明还可与语音识别相结合,支持用户以按字母及按单词两种方式输入英文语音序列,提升了用户的使用体验。
图3示出根据本发明另一个方面的用于基于中文语音信息训练英文语音模型的方法流程图。
在步骤S301中,模型训练设备1获取用户通过语音采集装置输入的语音数据。具体地,用户或大量用户通过与语音采集装置的交互,输入了语音数据,在步骤S301中,模型训练设备1通过调用该语音采集装置所提供的应用程序接口(API),获取该用户或大量用户输入的语音数据;或者,用户或大量用户通过与语音采集装置的交互,输入了语音数据,并将该语音数据存入语音数据库中,在步骤S301中,模型训练设备1通过调用该语音数据库所提供的应用程序接口(API),从该语音数据库中获取用户或大量用户输入的语音数据。
本领域技术人员应能理解上述获取语音数据的方式仅为举例,其他现有的或今后可能出现的获取语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S302中,模型训练设备1判断所述语音数据是否为英文语音数据。具体地,在步骤S302中,模型训练设备1根据在步骤S301中所获取的用户通过语音采集装置输入的语音数据,例如通过声学模型匹配等方式,判断该语音数据是否为英文语音数据。
本领域技术人员应能理解上述判断英文语音数据的方式仅为举例,其他现有的或今后可能出现的判断英文语音数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息。具体地,当在步骤S302中,模型训练设备1判断该语音数据为英文语音数据,在步骤S303中,模型训练设备1根据中文语音信息,如中文声韵母信息,对该英文语音数据进行语音识别处理,例如,当在步骤S302中,模型训练设备1判断该语音数据为英文语音数据时,在步骤S303中,模型训练设备1采用所有可能的中文声韵母信息去识别该英文语音数据,以确定该英文语音数据的发音信息。
例如,用户通过与语音采集装置的交互,输入了语音数据单词“iphone”,在步骤S301中,模型训练设备1通过调用该语音采集装置所提供的应用程序接口(API),获取了该语音数据“iphone”;随后,在步骤S302中,模型训练设备1采用声学模型匹配的方式,判断该语音数据为英文语音数据;随后,在步骤S303中,模型训练设备1采用所有可能的中文声韵母信息,对该英文语音数据“iphone”进行强制对齐,确定该英文语音数据“iphone”的发音信息为“aa ai4f eng1”。在此,aa、ai4、f、eng1等即为中文声韵母信息,其中的数字表示该韵母信息所对应的声调。本领域技术人员应能理解,在此,中文声韵母信息及声调的表示仅为示例,而不应对本发明产生任何限制。
优选地,在步骤S303中,模型训练设备1还可以根据单词模型所对应的中文语音信息、或字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息、或字母发音信息。例如,对于“iphone”,若用户输入语音采集装置的为按单词读的“iphone”,则在步骤S303中,模型训练设备1确定其对应的采用中文语音信息表示的发音信息为“aa ai4 feng1”;若用户输入语音采集装置的为按字母读的“iphone”,即,“i、p、h、o、n、e”,则在步骤S303中,模型训练设备1确定其对应的采用中文语音信息表示的发音信息为“aa ai4 pi4 ei2 ch oo ou1 ee en1 iii4”。
本领域技术人员应能理解上述识别发音信息的方式仅为举例,其他现有的或今后可能出现的识别发音信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S304中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。具体地,在步骤S304中,模型训练设备1根据在步骤S303中所识别获得的发音信息,确定该英文语音数据所对应的英文数据,如根据发音信息“aa ai4 f eng1”,确定该发音信息对应的英文数据为“iphone”,再将该发音信息与该英文数据的映射关系存入英文语音模型,以实现对该英文语音模型的建立或更新,其中,该发音信息与该英文数据通过该中文语音信息相映射。
在此,英文数据为一具体的英文单词,如“iphone”等,而英文语音数据为该具体的英文单词所对应的语音数据,如“iphone”所对应的语音数据,通过语音获取装置101所获取。
本领域技术人员应能理解上述建立或更新英文语音模型的方式仅为举例,其他现有的或今后可能出现的建立或更新英文语音模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本发明在原有中文声学模型基础上,利用相似的中文语音信息,对英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的发音信息,实现对英文语音模型的建立或更新,有效地控制了英文语音模型的规模。
优选地,模型训练设备1的各个步骤之间是持续不断工作的。具体地,在步骤S301中,模型训练设备1获取用户通过语音采集装置输入的语音数据;在步骤S302中,模型训练设备1判断所述语音数据是否为英文语音数据;在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;在步骤S304中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射。在此,本领域技术人员应理解“持续”是指模型训练设备1的各步骤分别不断地进行语音数据的获取、英文语音数据的判断、英文语音数据的识别处理及英文语音模型的建立或更新,直至该模型训练设备1在较长时间内停止获取语音数据。
优选地,在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据单词模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的单词发音信息。具体地,当在步骤S302中,模型训练设备1判断在步骤S301中所获取的语音数据为英文语音数据,在步骤S303中,模型训练设备1采用单词模型所对应的中文语音信息,如“aa ai4 f eng1”等,对所述英文语音数据进行语音识别处理,如强制对齐处理,采用所有可能的中文声韵母信息,对该英文语音数据进行强制对齐,以获得与所述英文语音数据相对应的单词发音信息。
在此,该单词模型中存储有大量单词所对应的中文语音信息,该单词模型可以位于模型训练设备1中,或者位于与该模型训练设备1通过网络相连接的第三方设备中。
优选地,在步骤S303中,模型训练设备1当所述语音数据为英文语音数据,根据字母模型所对应的中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的字母发音信息。具体地,当在步骤S302中,模型训练设备1判断在步骤S301中所获取的语音数据为英文语音数据,在步骤S303中,模型训练设备1根据字母模型所对应的中文语音信息,如二十六个英文字母所对应的中文语音信息,如字母“a”对应的中文语音信息“aa ei1”、字母“b”对应的中文语音信息“b i4”、字母“c”对应的中文语音信息“s ei4”等,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。
优选地,在步骤S303中,模型训练设备1对于在步骤S302中判断为英文语音数据为语音数据,优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当在步骤S303中,模型训练设备1采用单词模型无法识别出该英文语音数据的发音信息时,再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的字母发音信息。相似地,在步骤S303中,模型训练设备1也可以优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,当在步骤S303中,模型训练设备1采用字母模型无法识别出该英文语音数据的发音信息时,再采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,以获得与该英文语音数据相对应的单词发音信息。在此,优先采用单词模型还是优先采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,可以是该模型训练设备1预先设定的,也可以应事件而进行调整。
例如,对于在步骤S301中,模型训练设备1所获取的语音数据“iphone”,在步骤S302中,模型训练设备1判断该语音数据“iphone”为英文语音数据,在步骤S303中,模型训练设备1优先采用单词模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,但无法识别出该英文语音数据的发音信息;随后,在步骤S301中,模型训练设备1再采用字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,获得与该英文语音数据相对应的字母发音信息“aa ai4 p i4 ei2 ch oo ou1 ee en1 ii i4”,则可知在步骤S301中所获取的语音数据为按字母读的“iphone”,即,“i、p、h、o、n、e”。
更优选地,在步骤S303中,模型训练设备1分别采用单词模型所对应的中文语音信息、字母模型所对应的中文语音信息,对该英文语音数据进行语音识别处理,并分别对语音识别处理所获得的结果进行打分,确定打分较高的发音信息为该英文语音数据的发音信息。
在此,由于用户在输入英文单词时有时按单词读有时按字母读,本发明对每个需要识别的英文单词,利用相似的单词模型对应的中文语音信息、字母模型对应的中文语音信息,确定其对应的发音信息,提升了语音识别的准确性。
在一优选实施例中,该方法还包括步骤S308(未示出)。在步骤S308中,模型训练设备1统计所述英文数据所对应的英文语音数据在所述语音数据中的出现次数;根据所述出现次数,并结合所述语音数据的数量信息,确定所述英文数据的概率值;根据所述概率值,更新所述英文语音模型。具体地,当大量用户通过语音采集装置输入语音数据,其中,多个用户所输入的英文语音数据为相同的英文语音数据,在步骤S301中,模型训练设备1获取该大量用户输入的大量语音数据;在步骤S302中,模型训练设备1判断该大量语音数据为英文语音数据;随后,在步骤S303中,模型训练设备1根据中文语音信息,对该大量英文语音数据进行语音识别处理,以获得与该大量英文语音数据相对应的发音信息,在此,由于该多个用户输入的为相同的英文语音数据,因此,在步骤S303中,模型训练设备1所获得的关于该多个用户输入的英文语音数据所对应的发音信息相同或相似;接着,在步骤S304中,模型训练设备1根据该多个相同或相似的发音信息,确定该多个英文语音数据所对应的相同的英文数据;在步骤S308中,模型训练设备1统计该相同的英文数据所对应的英文语音数据在该语音数据中的出现次数;接着,在步骤S308中,模型训练设备1再根据该英文语音数据的出现次数,并结合该语音数据的数量信息,确定该英文数据的概率值,如将该出现次数除以该大量语音数据的数量信息,获得该英文数据的概率值;该在步骤S308中,模型训练设备1再将该英文数据及其对应的概率值存入该英文语音模型中,以实现对该英文语音模型的更新。
优选地,该方法还包括步骤S309(未示出)和步骤S310(未示出)。在步骤S309中,当所述出现次数大于预定数量阈值,模型训练设备1自所述英文语音模型中提取所述英文数据与所述英文语音数据;在步骤S310中,模型训练设备1根据所述英文数据与所述英文语音数据的映射关系,建立或更新与所述英文语音数据相对应的英文语音单元。具体地,该模型训练设备1可以设置一个预定数量阈值,该预定数量阈值用来判断英文数据所对应的英文语音数据在该语音数据中的出现次数是否超过该值,当该出现次数大于该预定数量阈值时,在步骤S309中,模型训练设备1自该英文语音模型中提取该英文数据与该英文语音数据;在步骤S310中,模型训练设备1根据该英文数据与该英文语音数据的映射关系,为该英文语音数据新建一个英文语音单元,以实现对该英文语音单元的建立或更新。
更优选地,在步骤S310中,模型训练设备1根据所述英文数据与所述英文语音数据的映射关系,采用插值计算方法,建立或更新所述英文语音单元。具体地,在步骤S310中,模型训练设备1根据该英文数据与该英文语音数据的映射关系,为该英文数据新建一英文语音单元,再例如通过将该中文发音信息所对应的中文语音单元的模型参数复制给该英文语音单元,然后在英文数据上对齐,得到统计量,再与该复制所获得的参数进行插值计算,以实现对该英文语音单元的建立或更新。在此,所述中文语音单元包括为每个中文发音信息,如中文声母或韵母信息所建立的发音单元,如“s”、“ei4”等中文声韵母信息所对应的中文语音单元。
更优选地,该方法还包括步骤S311(未示出)。在步骤S311中,模型训练设备1根据所述英文语音数据及与该英文语音数据相对应的发音信息,更新所述英文语音单元。具体地,在步骤S310中,模型训练设备1为英文数据新建一英文语音单元之后,在步骤S311中,模型训练设备1不断地根据用户输入的英文语音数据,及由在步骤S303中识别所获得的与该英文语音数据相对应的发音信息,训练该英文语音单元。
在此,本发明对出现此处大于预定阈值的英文语音数据,为该英文语音数据及英文数据新建英文语音单元,并对该英文语音单元不断地进行训练,以进一步提升该英文语音数据的发音信息的准确性。
图4示出根据本发明一个优选实施例的用于基于中文语音信息训练英文语音模型的方法流程图。以下参照图4对该优选实施例进行详细描述:具体地,在步骤S401中,模型训练设备1获取用户通过语音采集装置输入的语音数据;在步骤S402中,模型训练设备1判断所述语音数据是否为英文语音数据;在步骤S403中,模型训练设备1当所述语音数据为英文语音数据,根据中文语音信息,对所述英文语音数据进行语音识别处理,以获得与所述英文语音数据相对应的发音信息;在步骤S404中,模型训练设备1根据所述发音信息,确定所述英文语音数据所对应的英文数据,以建立或更新英文语音模型,其中,所述发音信息与所述英文数据通过所述中文语音信息相映射;在步骤S405中,模型训练设备1获取所述用户为目标应用输入的单词语音序列;在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列;在步骤S407中,模型训练设备1将与所述英文字符序列相对应的信息提供给所述用户。其中,步骤S401-S404与图3所示对应步骤相同或相似,故此处不再赘述,并通过引用的方式包含于此。
在步骤S405中,模型训练设备1获取所述用户为目标应用输入的单词语音序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入单词语音序列,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的单词语音序列。
在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述单词语音序列相对应的英文字符序列。具体地,在步骤S406中,模型训练设备1根据在步骤S405中所获取的单词语音序列,通过语音识别处理,确定该单词语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”。
在步骤S407中,模型训练设备1将与所述英文字符序列相对应的信息提供给所述用户。例如,当该目标应用为语音输入应用,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列作为语音输入候选词条提供给该用户;当该目标应用为语音搜索应用;在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将根据该英文字符序列搜索获得的一个或多个搜索结果提供给该用户。
优选地,该目标应用为语音输入应用;其中,在步骤S407中,模型训练设备1将所述英文字符序列作为语音输入候选词条提供给所述用户。例如,当该目标应用为语音输入应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入。
优选地,该目标应用为语音搜索应用;其中,该方法还包括步骤S412(未示出)。在步骤S412中,模型训练设备1将所述英文字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;其中,在步骤S407中,模型训练设备1将所述一个或多个搜索结果提供给所述用户。具体地,当该目标应用为语音搜索应用,在步骤S406中,模型训练设备1根据该英文语音模型,确定与该单词语音序列相对应的英文字符序列;在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该一个或多个搜索结果提供给该用户。
例如,当该目标应用为语音搜索应用,用户通过与用户设备的语音采集装置的交互,在语音输入应用中输入了单词语音序列“iphone”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的单词语音序列“iphone”;随后,在步骤S406中,模型训练设备1根据该单词语音序列“iphone”,通过语音识别处理,确定该单词语音序列的发音信息“aa ai4 f eng1”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该单词语音序列相对应的英文字符序列“iphone”;进而,在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
更优选地,在步骤S405中,模型训练设备1获取所述用户为目标应用输入的字母语音序列;其中,在步骤S406中,模型训练设备1根据所述英文语音模型,确定与所述字母语音序列相对应的英文字符序列。具体地,用户例如通过与用户设备的语音采集装置的交互,在目标应用中输入字母语音序列,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取该用户为目标应用所输入的字母语音序列;随后,在步骤S406中,模型训练设备1根据在步骤S405中所获取的字母语音序列,通过语音识别处理,确定该字母语音序列的发音信息,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列。例如,用户通过与用户设备的语音采集装置的交互,输入了字母语音序列“i、p、h、o、n、e”,在步骤S405中,模型训练设备1例如通过调用该用户设备所提供的应用程序接口(API)等方式,获取了该用户输入的字母语音序列“i、p、h、o、n、e”;随后,在步骤S406中,模型训练设备1根据该字母语音序列“i、p、h、o、n、e”,通过语音识别处理,确定该字母语音序列的发音信息“aa ai4 p i4 ei2 ch oo ou1 eeen1 ii i4”,进而,根据该发音信息,在该英文语音模型中进行匹配查询,确定与该字母语音序列相对应的英文字符序列“iphone”。
相似地,在步骤S407中,模型训练设备1将与该英文字符序列相对应的信息提供给所述用户。接上例,当该目标应用为语音输入应用,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将该英文字符序列“iphone”作为语音输入候选词条提供给该用户,以供该用户选择输入;当该目标应用为语音搜索应用;在步骤S412中,模型训练设备1根据在步骤S406中所确定的英文字符序列,将该英文字符序列“iphone”作为该用户的查询序列,进行匹配查询,获取与该查询序列相对应的一个或多个搜索结果;随后,在步骤S407中,模型训练设备1通过调用诸如JSP、ASP或PHP等动态网页技术,将与该英文字符序列“iphone”相对应的一个或多个搜索结果提供给该用户,供该用户浏览。
在此,本发明还可与语音识别相结合,支持用户以按字母及按单词两种方式输入英文语音序列,提升了用户的使用体验
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。