JP6537996B2 - Unknown word detection device, unknown word detection method, program - Google Patents
Unknown word detection device, unknown word detection method, program Download PDFInfo
- Publication number
- JP6537996B2 JP6537996B2 JP2016074330A JP2016074330A JP6537996B2 JP 6537996 B2 JP6537996 B2 JP 6537996B2 JP 2016074330 A JP2016074330 A JP 2016074330A JP 2016074330 A JP2016074330 A JP 2016074330A JP 6537996 B2 JP6537996 B2 JP 6537996B2
- Authority
- JP
- Japan
- Prior art keywords
- unknown word
- phoneme
- candidate
- unknown
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声認識技術に関するものであり、特に音声認識システムの語彙として含まれない単語を入力音声信号から検出する技術に関する。 TECHNICAL FIELD The present invention relates to speech recognition technology, and more particularly to technology for detecting, from an input speech signal, a word not included as a vocabulary of a speech recognition system.
講演や講義の音声など、特定のトピックに関する数十分〜数時間に及ぶ発話を音声ドキュメントという。この音声ドキュメントを音声認識技術によりテキスト化し、全文検索やテキストマイニングなどの言語処理により音声ドキュメントから有用な情報を素早く抽出することが可能となる。 An utterance ranging from tens of minutes to several hours on a specific topic, such as speech of a lecture or lecture, is called a speech document. This speech document can be converted to text by speech recognition technology, and useful information can be quickly extracted from the speech document by language processing such as full text search and text mining.
しかし、音声ドキュメントを音声認識する際に誤認識が生じると、実際に発声された単語が認識結果に出現しないこととなる。このとき、例えば全文検索しても所望の単語がヒットしなくなるという問題が生じる。特に、音声認識システムの語彙にない単語(以下、未知語という)が音声ドキュメント中で繰り返し発声された場合、未知語は必ず誤認識されてしまい、決して認識結果として現れることはない。音声ドキュメントの活用を考えるうえで、この問題は深刻である。しかも、繰り返し発声される単語は、当該音声ドキュメントでのキーワードであることが多いため、キーワードがすべて誤認識された音声認識結果から有用な情報を抽出することが難しくなる。 However, if misrecognition occurs during speech recognition of a speech document, words actually uttered will not appear in the recognition result. At this time, for example, there is a problem that a desired word can not be hit even if full-text search is performed. In particular, when a word not found in the vocabulary of the speech recognition system (hereinafter referred to as an unknown word) is repeatedly uttered in a speech document, the unknown word is always misrecognized and never appears as a recognition result. This problem is serious when considering the use of voice documents. Furthermore, since the words uttered repeatedly are often keywords in the voice document, it is difficult to extract useful information from the speech recognition result in which all the keywords are misrecognized.
未知語を正しく認識できない問題への対処として、繰り返し発声されている単語を未知語として検出するための技術が非特許文献1に開示されている。繰り返し発声されている単語を未知語として検出することができれば、音声認識システムの語彙に当該未知語を追加して再度音声認識を行うことにより、未知語を含む音声ドキュメントを正しくテキスト化することが可能となる。 Non-Patent Document 1 discloses a technique for detecting a word uttered repeatedly as an unknown word as a countermeasure against the problem that the unknown word can not be recognized correctly. If a word uttered repeatedly can be detected as an unknown word, the speech document containing the unknown word can be correctly converted into a text by adding the unknown word to the vocabulary of the speech recognition system and performing speech recognition again. It becomes possible.
以下、図8を参照して非特許文献1に開示されている未知語検出装置800の概略を説明する。図8は、非特許文献1の未知語検出装置800の構成を示すブロック図である。図8に示すように未知語検出装置800は、未知語区間検出部810と、未知語区間クラスタリング部820と、クラスタ選別部830を含む。
Hereinafter, an outline of the unknown word detection device 800 disclosed in Non-Patent Document 1 will be described with reference to FIG. FIG. 8 is a block diagram showing the configuration of the unknown word detection device 800 of Non-Patent Document 1. As shown in FIG. As shown in FIG. 8, the unknown word detection device 800 includes an unknown word
未知語区間検出部810は、入力される音声ドキュメントから、当該音声ドキュメント中の未知語が発声されている複数の区間(以下、未知語区間という)を検出し、各未知語区間で発声されている音素列を推定、音素列付き未知語区間群を生成する。ここでは、未知語区間と当該未知語区間の音素列を推定する方法として、非特許文献2に記載されている方法を用いる。未知語区間クラスタリング部820は、未知語区間検出部810の出力である音素列付き未知語区間群をクラスタリングし、未知語区間クラスタ群を生成する。クラスタリングに用いる距離尺度としては、未知語区間の音素列同士の編集距離を用いる。多数の未知語区間が同一のクラスタに分類された場合、当該クラスタに属す未知語区間は繰り返し発声された同じ未知語だと考えられる。そこで、クラスタ選別部830は、未知語区間クラスタリング部820の出力である未知語区間クラスタ群の中から、クラスタサイズが所定の閾値以上の未知語区間クラスタを選別し、繰り返し出現する未知語を含む未知語群を生成する。
The unknown word
未知語検出装置800では、まず未知語区間検出部810により未知語区間を検出する。このため、繰り返し発声された未知語を最終的に検出できるかどうかは、未知語区間検出部810の検出精度に大きく依存する。未知語区間検出部810における検出方法である非特許文献2では、発声された未知語の音素列に似た発音の単語が音声認識システムの語彙に含まれていると、未知語ではなく発音の似た既知語が発声されたとみなしてしまう結果、検出精度が低下してしまう。特に、講演や講義を対象とする音声認識システムでは10万語を超える大語彙を備えることも多いため、未知語区間検出部810の検出精度が著しく低下してしまう。その結果、未知語検出装置800では繰り返し発声された未知語を精度良く検出することができない。
In the unknown word detection device 800, first, the unknown word
そこで本発明では、音声ドキュメント中で繰り返し発声される未知語を高精度で検出する未知語検出装置を提供することを目的とする。 Therefore, it is an object of the present invention to provide an unknown word detection device that detects unknown words repeatedly uttered in a speech document with high accuracy.
本発明の一態様は、入力信号である音声ドキュメントから音声認識システムの語彙に含まれない未知語を検出する未知語検出装置であって、前記音声ドキュメントから、当該音声ドキュメントの音素列である音声ドキュメント音素列を生成する音素認識部と、前記音声ドキュメント音素列から部分音素列を抽出し、類似する部分音素列群である未知語候補を抽出する未知語候補抽出部と、前記音声ドキュメントから、言語スコアを含む音声認識結果を生成する音声認識部と、前記未知語候補と前記音声認識結果から、前記未知語候補に含まれる部分音素列の言語スコアから算出される未知語特徴を前記未知語候補に付与した未知語特徴付き未知語候補を生成する未知語特徴抽出部と、前記未知語特徴付き未知語候補の未知語特徴に基づいて前記未知語候補が未知語であるか否かを判定する未知語判定部とを含む。 One aspect of the present invention is an unknown word detection device for detecting an unknown word not included in the vocabulary of a speech recognition system from a speech document which is an input signal, which is a phoneme string of the speech document from the speech document. From a phoneme recognition unit that generates a document phoneme string, an unknown word candidate extraction unit that extracts a partial phoneme string from the voice document phoneme string, and extracts an unknown word candidate that is a similar partial phoneme string group; A speech recognition unit generating a speech recognition result including a language score; an unknown word feature calculated from a language score of a partial phoneme string included in the unknown word candidate from the unknown word candidate and the speech recognition result; An unknown word feature extraction unit for generating an unknown word candidate with unknown word features assigned to a candidate, and an unknown word feature of the unknown word candidate with the unknown word feature Unknown word candidates containing the unknown word determination unit determines whether the unknown word.
本発明によれば、音声ドキュメント中で繰り返し発声される未知語を高精度で検出することが可能となる。 According to the present invention, it is possible to detect an unknown word repeatedly uttered in an audio document with high accuracy.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. Note that components having the same function will be assigned the same reference numerals and redundant description will be omitted.
また、以下の説明でも音声認識システムの語彙にない単語のことを未知語という。 Also in the following description, words that are not in the vocabulary of the speech recognition system are referred to as unknown words.
<本願発明の要点>
本願発明では、非特許文献1のように未知語の音素列が発声された区間を個別に未知語区間として検出するのでなく、類似した音素列が発声された区間を検出し、これらの類似した複数の区間をまとめる。繰り返し現れる類似した音素列をまとめておくことにより、「未知語に対応する音素列が発声された区間では“一貫して”音声認識結果の言語スコアが低くなる」という未知語発声時の特徴を捉えることが可能となる。この特徴を示す音素列を未知語として判定することにより、繰り返し現れた単語を未知語として精度よく検出することができる。類似した音素列が発声された複数の区間に渡って現れる「一貫して言語スコアが低くなる」という特徴は、個別に未知語区間として検出するだけでは捉えられないため、非特許文献1の技術では利用できていない情報である。
<The point of the present invention>
In the present invention, instead of detecting a section in which a phoneme string of an unknown word is uttered individually as an unknown word section as in Non-Patent Document 1, a section in which a similar phoneme string is uttered is detected Organize multiple sections. By putting together similar phoneme strings that appear repeatedly, the feature at the time of unknown word utterance that “consistently the language score of the speech recognition result is lowered in the section where the phoneme string corresponding to the unknown word is uttered” It becomes possible to capture. By determining the phoneme string indicating this feature as an unknown word, it is possible to accurately detect a word that has repeatedly appeared as an unknown word. The technique of “consistently lowering the language score” which appears over a plurality of sections in which similar phoneme strings are uttered can not be grasped only by separately detecting as an unknown word section, so the technique of Non-Patent Document 1 Is information that can not be used.
<実施形態>
以下、図1〜図2を参照して未知語検出装置100を説明する。図1は、未知語検出装置100の構成を示すブロック図である。図2は、未知語検出装置100の動作を示すフローチャートである。図1に示すように未知語検出装置100は、音素認識部110と、未知語候補抽出部120と、音声認識部130と、未知語特徴抽出部140と、未知語判定部150を含む。
Embodiment
The unknown word detection device 100 will be described below with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing the configuration of the unknown word detection device 100. As shown in FIG. FIG. 2 is a flowchart showing the operation of the unknown word detection device 100. As shown in FIG. 1, the unknown word detection device 100 includes a
未知語検出装置100では、まず音声ドキュメントに対して音素認識を行い、音声ドキュメント全体を音素列(音声ドキュメント音素列)に変換する(S110)。次に、得られた音声ドキュメント音素列の中に繰り返し出現する部分音素列を抽出し、未知語候補とする(S120)。未知語候補は通常複数得られる。同じ音声ドキュメントに対して音声認識処理を行う(S130)。各未知語候補が出現する区間において「常に言語スコアが低くなっているかどうか」を特徴量として算出し(S140)、当該特徴量を用いて当該未知語候補が未知語か否かを判定する(S150)。 The unknown word detection apparatus 100 first performs phoneme recognition on a speech document, and converts the entire speech document into a phoneme string (speech document phoneme string) (S110). Next, a partial phoneme string that repeatedly appears in the obtained voice document phoneme string is extracted and used as an unknown word candidate (S120). Usually, a plurality of unknown word candidates are obtained. Speech recognition processing is performed on the same speech document (S130). In the section where each unknown word candidate appears, "whether or not the language score is always low" is calculated as a feature amount (S140), and it is determined using the feature amount whether the unknown word candidate is an unknown word or not (S140) S150).
なお、S110、S120の処理とS130の処理は独立して行うことができる。つまり、図2に示したS110〜S130の順は一例である。 The processes of S110 and S120 and the process of S130 can be performed independently. That is, the order of S110 to S130 shown in FIG. 2 is an example.
以下、構成部ごとに入力、出力、動作について説明する。 The input, output, and operation will be described below for each component.
<音素認識部110>
入力:音声ドキュメント
出力:音声ドキュメント音素列
入力された音声ドキュメントに対して音素認識を行い、音声ドキュメント全体の音素列である音声ドキュメント音素列を生成し、音声ドキュメント音素列を未知語候補検出部120へ出力する(S110)。
<Phoneme Recognition Unit 110>
Input: voice document output: voice document phoneme string Phoneme recognition is performed on the input voice document to generate a voice document phoneme string which is a phoneme string of the entire voice document, and the voice document phoneme string is an unknown word
音声ドキュメント音素列の一例を図3に示す。図3は、「……ログメルは特に………………………特にログメルに……」という発声内容から生成した音声ドキュメント音素列を示す。各音素には、音声ドキュメント中での出現区間(音声ドキュメント冒頭を時刻0とした始端時刻と終端時刻)が付与される。 An example of a voice document phoneme string is shown in FIG. FIG. 3 shows a voice document phoneme string generated from the utterance content of "... Each phoneme is given an appearance interval (a start time and an end time with the start of the audio document as time 0) in the audio document.
<未知語候補抽出部120>
入力:音声ドキュメント音素列
出力:未知語候補群
入力された音声ドキュメント音素列において、繰り返し現れる類似した部分音素列(以下、未知語候補という)を抽出し、抽出された未知語候補すべて(以下、未知語候補群という)を未知語特徴抽出部140へ出力する(S120)。
<Unknown word
Input: voice document phoneme string output: unknown word candidate group In the input voice document phoneme string, a similar partial phoneme string (hereinafter referred to as unknown word candidate) that appears repeatedly is extracted, and all extracted unknown word candidates (below, The unknown word candidate group is output to the unknown word feature extraction unit 140 (S120).
未知語候補群の一例を図4に示す。各未知語候補は複数の類似した部分音素列の集合であり、各部分音素列には、音声ドキュメント中での出現区間が付与される。例えば、未知語候補1には、4つの部分音素列”rogumeru”、”ragumeru”、”rogumeru”、”ragumeru”が対応している。また、1つ目の”rogumeru”の出現区間の始端時刻、終端時刻は、それぞれ図3の音素”r”の始端時刻4.31、音素”u”の終端時刻4.88と一致している。 An example of the unknown word candidate group is shown in FIG. Each unknown word candidate is a set of a plurality of similar partial phoneme strings, and each partial phoneme string is given an appearance interval in a speech document. For example, four partial phoneme sequences “rogumeru”, “ragumeru”, “rogumeru”, and “ragumeru” correspond to unknown word candidate 1. The start time and the end time of the appearance section of the first "rogumeru" coincide with the start time 4.31 of the phoneme "r" and the end time 4.88 of the phoneme "u" in FIG. 3, respectively.
音声ドキュメント音素列からの未知語候補群の抽出は、例えば以下の手順で行う。 Extraction of the unknown word candidate group from the voice document phoneme string is performed, for example, by the following procedure.
1. 音声ドキュメント音素列(図5(a)参照)から5音素以上の長さを持つ頻度2以上の部分音素列をすべて列挙する(図5(b)参照)。 1. From the voice document phoneme string (see FIG. 5A), all partial phoneme strings with a frequency of 2 or more having a length of 5 phonemes or more are listed (see FIG. 5B).
列挙の方法としては、例えば、系列の中から長さL以上かつ頻度N以上の部分系列を列挙するアルゴリズムである非特許文献3に記載のPrefixSpan法をL=5、N=2の設定で適用すればよい。4音素以下の短い単語が未知語となることは稀なので、L=5程度に設定するのがよい。また、N=1とすると、すべての5音素列が抽出されてしまう(つまり、繰り返し出現しない音素列も抽出されてしまう)。そこで、最低限繰り返し出現する音素列を抽出するため、N=2と設定する。
(参考非特許文献3: Jian Pei, Jiawei Han, Behzad Mortazavi-Asl and Helen Pinto, “PrefixSpan: Mining Sequential Pattern Efficiently by Prefix-Projected Pattern Growth”, in Proceedings of ICDE, pp.215-224, 2001.)
As a method of enumeration, for example, PrefixSpan method described in Non-Patent Document 3, which is an algorithm for enumerating subsequences having a length L or more and a frequency N or more from among sequences, is applied with L = 5 and N = 2. do it. Since it is rare that a short word of 4 phonemes or less will be an unknown word, it is preferable to set it to about L = 5. If N = 1, all five phoneme strings are extracted (that is, phoneme strings that do not repeatedly appear are also extracted). Therefore, N = 2 is set to extract a phoneme string that appears at least repeatedly.
(Reference Non-Patent Document 3: Jian Pei, Jiawei Han, Behzad Mortazavi-Asl and Helen Pinto, “PrefixSpan: Mining Sequential Pattern Efficient by Prefix-Projected Pattern Growth”, in Proceedings of ICDE, pp. 215-224, 2001.)
最後に、得られた各部分音素列の先頭音素の始端時刻から末尾音素の終端時刻までの区間を、当該部分音素列の出現区間とする。 Finally, a section from the start time of the top phoneme of each partial phoneme string obtained to the end time of the end phoneme is taken as the appearance section of the partial phoneme string.
2. 列挙された部分音素列のうち、音素列間の編集距離が近いもの同士をまとめるようにクラスタリングする(図5(c)参照)。 2. Among the partial phoneme strings listed, clustering is performed so as to put together those which are close in editing distance between phoneme strings (see FIG. 5C).
何個のクラスタに分かれるかは不明なので、クラスタ数を指定する必要のないクラスタリング方法を用いる。なお、クラスタ数を指定する必要のないクラスタリング方法であれば既存のいずれの手法を用いてもよい。例えば、音素列間の編集距離を基準として非特許文献4に記載のChinese Whispers法を適用することで編集距離が近い部分音素列がまとまるようにクラスタリングすることができる。
(参考非特許文献4: Chris Biemann, “Chinese Whispers - an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems,” in Proceedings of the first workshop on graph based methods for natural language processing, pp.73-80, 2006.)
Since it is unclear how many clusters it will be divided into, we use a clustering method that does not require specifying the number of clusters. Any existing method may be used as long as it is a clustering method that does not require designation of the number of clusters. For example, by applying the Chinese Whispers method described in Non-Patent Document 4 on the basis of the edit distance between phoneme strings, clustering can be performed such that partial phoneme strings close in edit distance are collected.
(Reference non-patent document 4: Chris Biemann, “Chinese Whispers-an Efficient Graph Clustering Algorithm and its Application to Natural Language Processing Problems,” in Proceedings of the first workshop on graph based methods for natural language processing, pp. 73-80, 2006.)
3. クラスタリング結果の各クラスタを一つの未知語候補とし、得られたクラスタの集合を未知語候補群とする。 3. Each cluster of the clustering result is set as one unknown word candidate, and a set of obtained clusters is set as an unknown word candidate group.
なお、上述の手順以外でも、音声ドキュメント音素列に含まれる類似した部分音素列を抽出できればどんな方法を用いてもよい。例えば、塩基配列中に繰り返し現れる類似した部分配列を抽出する際に用いられるBLASTアルゴリズムなどを適用しても構わない。 In addition to the above procedure, any method may be used as long as similar partial phoneme strings included in the audio document phoneme string can be extracted. For example, the BLAST algorithm or the like used when extracting similar partial sequences that repeatedly appear in the base sequence may be applied.
<音声認識部130>
入力:音声ドキュメント
出力:音声認識結果
入力された音声ドキュメントに対して音声認識を行い、生成した音声認識結果を未知語特徴検出部140へ出力する(S130)。
<
Input: Speech document output: Speech recognition result Speech recognition is performed on the inputted speech document, and the generated speech recognition result is output to the unknown word feature detection unit 140 (S130).
音声認識結果の一例を図6に示す。この例では「ログメル」が未知語となっている。各単語には、音声ドキュメント中での出現区間、および音声認識の過程で計算される言語スコアが付与される。言語スコアとは、単語の並びとしての尤もらしさを表す実数値であり、スコアが高いほど自然な単語の並びであることを表すものである。この例では未知語「ログメル」は、「ログ」と「寝る」の2つの単語として認識されている。つまり、現段階では正しく認識されていない。 An example of the result of speech recognition is shown in FIG. In this example, "logmer" is an unknown word. Each word is given an appearance interval in the speech document and a language score calculated in the process of speech recognition. The language score is a real value representing likelihood as a sequence of words, and the higher the score, the more natural the sequence of words. In this example, the unknown word "log-meal" is recognized as two words "log" and "sleep". In other words, it is not recognized correctly at this stage.
なお、音声認識部130が計算した言語スコアが一貫して低いかどうかを示す未知語特徴を用いて未知語であるか否かを判定するので、音声認識部130は検出した未知語を追加する対象となる音声認識システムを用いて構成するのがよい。
In addition, since it is judged whether it is an unknown word using the unknown word feature which shows whether the language score calculated by the
<未知語特徴抽出部140>
入力:未知語候補群、音声認識結果
出力:未知語特徴付き未知語候補群
入力された未知語候補群の各未知語候補に対して、同時に入力された音声認識結果を参照して未知語特徴を算出し、算出された未知語特徴を当該未知語候補に付与する。生成した未知語特徴付き未知語候補群を未知語判定部150へ出力する(S140)。
<Unknown Word
Input: Unknown word candidate group, Speech recognition result output: Unknown word candidate group with unknown word feature For each unknown word candidate of the inputted unknown word candidate group, unknown word feature referring to the speech recognition result inputted simultaneously Is calculated, and the calculated unknown word feature is assigned to the unknown word candidate. The generated unknown word feature-added unknown word candidate group is output to the unknown word determination unit 150 (S140).
未知語特徴は、未知語候補の出現箇所(未知語候補に含まれる部分音素列の出現区間)の言語スコア群から算出されるものであり、実数値または複数の実数値を並べたベクトルで表現されるものである。未知語特徴が未知語候補の複数の出現箇所の言語スコアが全体として低いものとなっている(つまり、全体的に値が小さいことを示す所定の範囲にある)場合、未知語と判定される。判定方法については、後述する。 The unknown word feature is calculated from the language score group of the appearance point of the unknown word candidate (the appearance interval of the partial phoneme string included in the unknown word candidate), and is represented by a real value or a vector of multiple real values. It is If the unknown word feature has a low overall language score for multiple occurrences of the unknown word candidate (that is, is within a predetermined range indicating that the value is generally small), it is determined to be an unknown word . The determination method will be described later.
例えば、図7に示す例のように未知語候補の複数の出現箇所における言語スコアの平均と標準偏差を並べた2次元ベクトルを未知語特徴として利用できる。平均が低く、標準偏差が小さければ複数の出現箇所全体で一貫して言語スコアが低いことを表すからである。図7の未知語候補1の未知語特徴[0.003, 0.002]は、部分音素列”rogumeru”、”ragumeru”、”rogumeru”、”ragumeru”の言語スコアの平均と標準偏差の組となっている。 For example, as in the example shown in FIG. 7, a two-dimensional vector in which the average and the standard deviation of the language scores at a plurality of appearance points of the unknown word candidate can be used as the unknown word feature. This is because the lower the mean and the lower the standard deviation, the lower the speech score consistently across multiple occurrences. The unknown word feature [0.003, 0.002] of unknown word candidate 1 in FIG. 7 is a set of the average and standard deviation of language scores of partial phoneme strings "rogumeru", "ragumeru", "rogumeru", and "ragumeru" .
なお、未知語候補の複数の出現箇所における言語スコアのバラつき度合いを表す値として、標準偏差以外の値を用いることもできる。例えば、複数の出現箇所の言語スコアの最大値と最小値の差を用いることとしてもよい。 A value other than the standard deviation can also be used as a value representing the degree of variation of the language score at a plurality of occurrences of the unknown word candidate. For example, the difference between the maximum value and the minimum value of the language score of a plurality of occurrences may be used.
また、未知語特徴として、複数の出現箇所の言語スコアの最大値を用いてもよい。この場合は実数値で表現される。 In addition, as the unknown word feature, the maximum value of the language score of a plurality of appearance points may be used. In this case, they are represented by real numbers.
言語スコアの平均と標準偏差を未知語特徴として使う場合における、一つの未知語候補に対して未知語特徴を算出する手順は以下の通りである。 The procedure for calculating the unknown word feature for one unknown word candidate in the case of using the language score average and the standard deviation as the unknown word feature is as follows.
1.音声認識結果を参照して、未知語候補の各部分音素列の言語スコアを計算する。 1. The speech score of each partial phoneme string of the unknown word candidate is calculated with reference to the speech recognition result.
具体的には、未知語候補の部分音素列の出現区間の始端時刻をT1、終端時刻をT2としたとき、音声認識結果のうち、T1〜T2と重複する区間に現れるすべての単語の言語スコアの平均値を当該部分音素列の言語スコアとする。 Specifically, when the start time of the appearance section of the partial phoneme string of the unknown word candidate is T1 and the end time is T2, the language scores of all the words appearing in the section overlapping with T1 to T2 among the speech recognition results The average value of is taken as the language score of the partial phoneme string.
2. 未知語候補の各部分音素列の言語スコアの平均と標準偏差を計算して並べた2次元ベクトルを当該未知語候補の未知語特徴とする。 2. A two-dimensional vector obtained by arranging and calculating the average and standard deviation of the language scores of each partial phoneme string of the unknown word candidate is taken as the unknown word feature of the unknown word candidate.
<未知語判定部150>
入力:未知語特徴付き未知語候補群
出力:未知語群
入力された未知語特徴付き未知語候補群の各未知語候補について、付与されている未知語特徴に基づいて未知語か否かを判定する。未知語候補のうち未知語と判定されたものを最終的に検出された未知語群として出力する(S150)。
<Unknown
Input: Unknown word feature-added unknown word candidate group output: Unknown word group For each unknown word candidate of the unknown word feature-added candidate word group inputted, it is judged whether it is an unknown word or not based on the added unknown word feature Do. Of the unknown word candidates, those determined to be unknown words are output as the finally detected unknown word group (S150).
未知語か否かの判定方法としては、経験に基づくルールを用いてもよいし、未知語区間が分かっている音声ドキュメントから算出した未知語特徴を事前に学習させたサポートベクターマシンやニューラルネットワークなどの識別器を用いてもよい。 As a method of judging whether it is an unknown word or not, a rule based on experience may be used, or a support vector machine or neural network etc. in which an unknown word feature calculated from an audio document in which an unknown word section is known is learned in advance. A classifier of may be used.
未知語候補の言語スコアの平均と標準偏差の値を未知語特徴として利用する場合、例えば「言語スコアの平均が0.01未満かつ標準偏差が0.005未満であれば未知語とする」というルールを用いることで、複数の出現箇所で一貫して言語スコアが低くなる音素列を未知語として検出することができる。このルールに照らすと、図7の未知語候補1は未知語と判定される。 When using the average and standard deviation values of the language score of unknown word candidate as the unknown word feature, for example, "If the average of language score is less than 0.01 and the standard deviation is less than 0.005, it is said as an unknown word" By using a rule, it is possible to detect a phoneme string whose language score is consistently low at a plurality of occurrences as an unknown word. In light of this rule, the unknown word candidate 1 in FIG. 7 is determined to be an unknown word.
また、未知語候補の言語スコアの最大値を未知語特徴として利用する場合は、例えば「言語スコアの最大値が0.02未満であれば未知語とする」というルールを用いることで、同様に、複数の出現箇所で一貫して言語スコアが低くなる音素列を未知語として検出することができる。 Moreover, when using the maximum value of the language score of the unknown word candidate as the unknown word feature, for example, by using the rule "If the maximum value of the language score is less than 0.02, it is regarded as an unknown word" It is possible to detect, as an unknown word, a phoneme string in which the language score is consistently lowered at a plurality of appearance points.
本実施形態の発明によれば、未知語かどうかを判定する前に、未知語候補検出部120によって繰り返し出現する音素列を未知語候補としてまとめ、未知語特徴抽出部140によって「複数の出現箇所において一貫して言語スコアが低くなるかどうか」を表す値が未知語特徴として算出され、未知語候補に付与される。未知語判定部150がこの未知語特徴を用いて未知語候補が未知語であるか否かを判定するため、個々の未知語区間を検出してからクラスタリングを行う従来技術よりも高精度に繰り返し現れる未知語を検出することができるようになる。
According to the invention of this embodiment, the phoneme string repeatedly appearing by the unknown word
また、未知語の検出漏れがなくなることにより、音声ドキュメントのキーワードが一切認識結果に現れないという深刻な問題の発生にシステム運用者が正確に気づくことができるようになるため、未知語を語彙に追加して再度音声認識を行う対処を適切に実施することが可能となる。その結果として音声ドキュメントから全文検索等で正確な情報を得ることができるようになるため、システム利用者にとっての利便性が向上する。 In addition, since the system operator can accurately notice the occurrence of a serious problem that the keyword of the audio document does not appear in the recognition result by eliminating the omission of the unknown word detection, the unknown word has a vocabulary It is possible to appropriately implement measures for performing speech recognition again in addition. As a result, since accurate information can be obtained from a voice document by full-text search etc., the convenience for the system user is improved.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary Note>
The apparatus according to the present invention is, for example, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected as a single hardware entity, or a communication device (for example, communication cable) capable of communicating outside the hardware entity. Communication unit that can be connected, CPU (central processing unit, cache memory, registers, etc. may be provided), RAM or ROM that is memory, external storage device that is hard disk, input unit for these, output unit, communication unit , CPU, RAM, ROM, and a bus connected so as to enable exchange of data between external storage devices. If necessary, the hardware entity may be provided with a device (drive) capable of reading and writing a recording medium such as a CD-ROM. Examples of physical entities provided with such hardware resources include general purpose computers.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above-mentioned function, data required for processing the program, and the like (not limited to the external storage device, for example, the program is read) It may be stored in the ROM which is a dedicated storage device). In addition, data and the like obtained by processing of these programs are appropriately stored in a RAM, an external storage device, and the like.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in the external storage device (or ROM etc.) and data necessary for processing of each program are read into the memory as necessary, and interpreted and processed appropriately by the CPU . As a result, the CPU realizes predetermined functions (each component requirement expressed as the above-mentioned,...
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the spirit of the present invention. Further, the processing described in the above embodiment may be performed not only in chronological order according to the order of description but also may be performed in parallel or individually depending on the processing capability of the device that executes the processing or the necessity. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing function in the hardware entity (the apparatus of the present invention) described in the above embodiment is implemented by a computer, the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on a computer, the processing function of the hardware entity is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing content can be recorded in a computer readable recording medium. As the computer readable recording medium, any medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, etc. may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only) Memory), CD-R (Recordable) / RW (Rewritable), etc. as magneto-optical recording medium, MO (Magneto-Optical disc) etc., as semiconductor memory EEP-ROM (Electronically Erasable and Programmable Only Read Memory) etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, this program is distributed, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM or the like in which the program is recorded. Furthermore, this program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 For example, a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, at the time of execution of the process, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, the computer may read the program directly from the portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer Each time, processing according to the received program may be executed sequentially. In addition, a configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes processing functions only by executing instructions and acquiring results from the server computer without transferring the program to the computer It may be Note that the program in the present embodiment includes information provided for processing by a computer that conforms to the program (such as data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the hardware entity is configured by executing a predetermined program on a computer, but at least a part of the processing content may be realized as hardware.
100 未知語検出装置
110 音素認識部
120 未知語候補抽出部
130 音声認識部
140 未知語特徴抽出部
150 未知語判定部
100 unknown
Claims (5)
前記音声ドキュメントから、当該音声ドキュメントの音素列である音声ドキュメント音素列を生成する音素認識部と、
前記音声ドキュメント音素列から部分音素列を抽出し、類似する部分音素列群である未知語候補を抽出する未知語候補抽出部と、
前記音声ドキュメントから、言語スコアを含む音声認識結果を生成する音声認識部と、
前記未知語候補と前記音声認識結果から、前記未知語候補に含まれる部分音素列の言語スコアから算出される未知語特徴を前記未知語候補に付与した未知語特徴付き未知語候補を生成する未知語特徴抽出部と、
前記未知語特徴付き未知語候補の未知語特徴に基づいて前記未知語候補が未知語であるか否かを判定する未知語判定部と
を含む未知語検出装置。 An unknown word detection device for detecting an unknown word not included in the vocabulary of a speech recognition system from an audio document which is an input signal, comprising:
A phoneme recognition unit that generates, from the voice document, a voice document phoneme string that is a phoneme string of the voice document;
An unknown word candidate extraction unit that extracts a partial phoneme string from the voice document phoneme string and extracts an unknown word candidate that is a similar partial phoneme string group;
A voice recognition unit that generates a voice recognition result including a language score from the voice document;
An unknown word feature added unknown word feature with the unknown word feature calculated from the language score of the partial phoneme string included in the unknown word candidate from the unknown word candidate and the speech recognition result Word feature extraction unit,
An unknown word detection device comprising: an unknown word determination unit that determines whether or not the unknown word candidate is an unknown word based on unknown word features of the unknown word candidate with the unknown word feature.
前記未知語特徴は、前記未知語候補に含まれる部分音素列の言語スコアの平均と標準偏差の組、または、前記未知語候補に含まれる部分音素列の言語スコアの平均と当該言語スコアの最大値と最小値の差の組である未知語検出装置。 The unknown word detection device according to claim 1, wherein
The unknown word feature is a combination of the average and standard deviation of language scores of partial phoneme strings included in the unknown word candidate, or the average of language scores of partial phoneme strings included in the unknown word candidate and the maximum of the language score Unknown word detection device which is a set of difference between value and minimum value.
前記未知語候補抽出部は、
前記音声ドキュメント音素列から所定の頻度以上出現する部分音素列を抽出し、抽出した部分音素列をクラスタリングして類似する部分音素列群を求め、求めた部分音素列群を未知語候補として抽出する未知語検出装置。 The unknown word detection device according to claim 1 or 2, wherein
The unknown word candidate extraction unit
A partial phoneme string that appears at a predetermined frequency or more is extracted from the voice document phoneme string, the extracted partial phoneme strings are clustered to obtain similar partial phoneme string groups, and the determined partial phoneme string groups are extracted as unknown word candidates Unknown word detection device.
前記音素認識部が、前記音声ドキュメントから、当該音声ドキュメントの音素列である音声ドキュメント音素列を生成する音素認識ステップと、
前記未知語候補抽出部が、前記音声ドキュメント音素列から部分音素列を抽出し、類似する部分音素列群である未知語候補を抽出する未知語候補抽出ステップと、
前記音声認識部が、前記音声ドキュメントから、言語スコアを含む音声認識結果を生成する音声認識ステップと、
前記未知語特徴抽出部が、前記未知語候補と前記音声認識結果から、前記未知語候補に含まれる部分音素列の言語スコアから算出される未知語特徴を前記未知語候補に付与した未知語特徴付き未知語候補を生成する未知語特徴抽出ステップと、
前記未知語判定部が、前記未知語特徴付き未知語候補の未知語特徴に基づいて前記未知語候補が未知語であるか否かを判定する未知語判定ステップと
を含む未知語検出方法。 An unknown word detection apparatus including a phoneme recognition unit, an unknown word candidate extraction unit, a speech recognition unit, an unknown word feature extraction unit, and an unknown word determination unit converts a speech document as an input signal into a vocabulary of a speech recognition system An unknown word detection method for detecting an unknown word not included, comprising:
A phoneme recognition step in which the phoneme recognition unit generates a speech document phoneme sequence which is a phoneme sequence of the speech document from the speech document;
An unknown word candidate extraction step of the unknown word candidate extraction unit extracting a partial phoneme string from the voice document phoneme string and extracting an unknown word candidate that is a similar partial phoneme string group;
A voice recognition step in which the voice recognition unit generates a voice recognition result including a language score from the voice document;
The unknown word feature in which the unknown word feature extraction unit assigns the unknown word feature calculated from the language score of the partial phoneme string included in the unknown word candidate from the unknown word candidate and the speech recognition result to the unknown word candidate An unknown word feature extraction step of generating a tagged unknown word candidate;
An unknown word determining step of determining whether the unknown word candidate is an unknown word based on the unknown word feature of the unknown word candidate with the unknown word feature.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016074330A JP6537996B2 (en) | 2016-04-01 | 2016-04-01 | Unknown word detection device, unknown word detection method, program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016074330A JP6537996B2 (en) | 2016-04-01 | 2016-04-01 | Unknown word detection device, unknown word detection method, program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017187541A JP2017187541A (en) | 2017-10-12 |
| JP6537996B2 true JP6537996B2 (en) | 2019-07-03 |
Family
ID=60045625
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016074330A Active JP6537996B2 (en) | 2016-04-01 | 2016-04-01 | Unknown word detection device, unknown word detection method, program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6537996B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12135737B1 (en) * | 2023-06-21 | 2024-11-05 | Sas Institute Inc. | Graphical user interface and pipeline for text analytics |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002215184A (en) * | 2001-01-19 | 2002-07-31 | Casio Comput Co Ltd | Voice recognition device and program |
| JP4213608B2 (en) * | 2004-03-08 | 2009-01-21 | 独立行政法人科学技術振興機構 | Speech waveform information analyzer and its pre-processing device |
| JP5454469B2 (en) * | 2008-05-09 | 2014-03-26 | 富士通株式会社 | Speech recognition dictionary creation support device, processing program, and processing method |
-
2016
- 2016-04-01 JP JP2016074330A patent/JP6537996B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2017187541A (en) | 2017-10-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109065031B (en) | Voice labeling method, device and equipment | |
| US10789956B1 (en) | Text-to-speech modeling | |
| JP6495792B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
| JP2022120024A (en) | Audio signal processing method, model training method, and their device, electronic apparatus, storage medium, and computer program | |
| US11227580B2 (en) | Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program | |
| KR20140028174A (en) | Method for recognizing speech and electronic device thereof | |
| US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
| CN112784009A (en) | Subject term mining method and device, electronic equipment and storage medium | |
| JP2018081169A (en) | Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program | |
| JP6612277B2 (en) | Turn-taking timing identification device, turn-taking timing identification method, program, and recording medium | |
| JP6537996B2 (en) | Unknown word detection device, unknown word detection method, program | |
| JP5959063B2 (en) | Apparatus and method for supporting acquisition of information | |
| JP2015018372A (en) | Expression extraction model learning device, expression extraction model learning method and computer program | |
| KR102887108B1 (en) | Automatic mining of real-world audio training data | |
| JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
| JPWO2011083528A1 (en) | Data processing apparatus, computer program thereof, and data processing method | |
| JP4829910B2 (en) | Speech recognition error analysis apparatus, method, program, and recording medium therefor | |
| CN110647622A (en) | Interactive data validity identification method and device | |
| JP5369079B2 (en) | Acoustic model creation method and apparatus and program thereof | |
| US12125474B2 (en) | Learning apparatus, estimation apparatus, methods and programs for the same | |
| JPWO2019171537A1 (en) | Semantic estimation systems, methods and programs | |
| CN115114627A (en) | Malware detection method and device | |
| KR20190061460A (en) | question answering system and method based on reliability | |
| JP2016017980A (en) | Voice imitation voice evaluation device, voice imitation voice evaluation method and program | |
| US20240211700A1 (en) | Dialogue support system and dialogue support method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180626 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190528 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190605 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6537996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |