[go: up one dir, main page]

JP2003005787A - Speech recognition device and speech recognition program - Google Patents

Speech recognition device and speech recognition program

Info

Publication number
JP2003005787A
JP2003005787A JP2001187042A JP2001187042A JP2003005787A JP 2003005787 A JP2003005787 A JP 2003005787A JP 2001187042 A JP2001187042 A JP 2001187042A JP 2001187042 A JP2001187042 A JP 2001187042A JP 2003005787 A JP2003005787 A JP 2003005787A
Authority
JP
Japan
Prior art keywords
phoneme
output probability
information storage
continuous
phoneme information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001187042A
Other languages
Japanese (ja)
Inventor
Junko Yagi
順子 八木
Junichi Nakabashi
順一 中橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001187042A priority Critical patent/JP2003005787A/en
Publication of JP2003005787A publication Critical patent/JP2003005787A/en
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 大語彙音声認識システムにおいて、出力確率
計算部の処理量を削減することにより、フレーム長内で
実時間の認識処理を実現する音声認識装置を提供する。 【解決手段】 現フレームの音素と次フレームに発生す
ると考えられる音素の関係が、連続音素情報格納部14
に格納されている。音素選択部15は、まず、現フレー
ムで出力確率の高い音素を選択し、次に、選択された音
素の次フレームに発生すると考えられる音素を、連続音
素情報格納部14の連続音素情報をもとに音素情報格納
部11から抽出し、選択音素情報格納部16に格納す
る。次フレームでの出力確率計算は、選択音素情報格納
部16に格納されている音素のみに対して行うことによ
り、出力確率計算部10での処理量を削減する。
(57) [Summary] In a large vocabulary speech recognition system, a speech recognition device that realizes real-time recognition processing within a frame length by reducing the processing amount of an output probability calculation unit is provided. SOLUTION: A relationship between a phoneme of a current frame and a phoneme considered to be generated in the next frame is stored in a continuous phoneme information storage unit 14.
Is stored in The phoneme selection unit 15 first selects a phoneme with a high output probability in the current frame, and then searches the phoneme that is considered to occur in the next frame of the selected phoneme by using the continuous phoneme information in the continuous phoneme information storage unit 14. At this time, it is extracted from the phoneme information storage unit 11 and stored in the selected phoneme information storage unit 16. The output probability calculation in the next frame is performed only on the phonemes stored in the selected phoneme information storage unit 16, so that the processing amount in the output probability calculation unit 10 is reduced.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、隠れマルコフモデ
ル(Hidden Makcov Model:以下、HMMと表記する)
を用いた音声認識装置に関するものである。
TECHNICAL FIELD The present invention relates to a Hidden Makcov Model (hereinafter referred to as HMM).
The present invention relates to a voice recognition device using.

【0002】[0002]

【従来の技術】近年、カーナビゲーションシステムや携
帯端末などにおいて、音声によって操作することができ
る音声認識機能付機器が広まっている。
2. Description of the Related Art In recent years, devices with a voice recognition function that can be operated by voice have become widespread in car navigation systems, portable terminals and the like.

【0003】音声認識技術は、現時点では、HMMを用
いた音声認識技術が主流となっている。HMMを用いた
方法とは、音声信号を表すモデルの状態系列を複数個用
意しておき、入力信号がどのモデルから生成されたのか
を求めるものである。ここでのモデルとは、単語毎や音
素毎といった方法がある。
As the voice recognition technology, at present, the voice recognition technology using HMM is predominant. The method using the HMM is to prepare a plurality of model state sequences representing a voice signal and determine from which model the input signal was generated. The model here includes a method for each word or each phoneme.

【0004】具体的には、ある状態から別の状態に遷移
するときに、次にどの状態に遷移するのが一番確率が高
いかを求め、状態が遷移する(自己遷移も含む)度にそ
の確率を累積させることによって、最終的に累積確率が
もっとも大きいものが認識結果となる方法である。
Specifically, when transitioning from one state to another, which state has the highest probability of transition next is determined, and each time the state transitions (including self transition). By accumulating the probabilities, the method with the highest cumulative probability finally becomes the recognition result.

【0005】図17に従来のHMMを用いた音声認識装
置を示す。従来の音声認識装置は、入力音声がどのモデ
ルである可能性が高いかを算出する出力確率計算部2
0、あらかじめ認識最小単位であるモデル(音素情報)
が格納されている音素情報格納部21、単語毎の累積尤
度を算出するマッチング部22、及び認識単語の音素系
列を保持している単語辞書23で構成される。
FIG. 17 shows a conventional voice recognition device using an HMM. The conventional voice recognition device has an output probability calculation unit 2 for calculating which model the input voice is likely to be.
0, model that is the minimum recognition unit in advance (phoneme information)
Is stored in the phoneme information storage unit 21, a matching unit 22 that calculates the cumulative likelihood of each word, and a word dictionary 23 that holds a phoneme sequence of recognized words.

【0006】従来の音声認識装置の動作の一連の流れを
説明する。まず、フレーム長毎の音声の特徴パラメータ
を、出力確率計算部20に入力する。次に、出力確率計
算部20において、音素情報格納部21の音素情報をも
とに、入力音声がどの音素である可能性が高いかという
出力確率を計算する。なお、出力確率計算部20は、登
録した音素の全分布数分(全分布数=HMMの数×HM
Mの状態数×混合数)だけ繰り返される。出力確率計算
部20で算出された出力確率は、マッチング部22に入
力される。次に、マッチング部22は、単語辞書23を
もとに、単語毎に出力確率を累積していく。その後、次
フレームの特徴パラメータを出力確率計算部20に入力
し、出力確率計算部20の処理とマッチング部22の処
理を、音声入力が終了するまで実行することによって、
最終的な認識結果を判定する。
A series of operations of the conventional speech recognition apparatus will be described. First, the speech feature parameter for each frame length is input to the output probability calculation unit 20. Next, the output probability calculation unit 20 calculates the output probability of which phoneme the input voice is likely to have, based on the phoneme information in the phoneme information storage unit 21. The output probability calculation unit 20 calculates the total number of registered phonemes (the total number of distributions = the number of HMMs × HM).
The number of states of M × the number of mixtures) is repeated. The output probability calculated by the output probability calculation unit 20 is input to the matching unit 22. Next, the matching unit 22 accumulates the output probabilities for each word based on the word dictionary 23. Then, the characteristic parameter of the next frame is input to the output probability calculation unit 20, and the processing of the output probability calculation unit 20 and the processing of the matching unit 22 are executed until the voice input is completed,
Determine the final recognition result.

【0007】[0007]

【発明が解決しようとする課題】HMMを用いた音声認
識技術を、処理性能に上限があるマイコンなどで実現す
る場合に、フレーム長内での認識処理を実時間で実現さ
せるためには、処理の高速化が必須となる。小語彙音声
認識の場合は、出力確率計算部のトータルの計算量と、
マッチング部の処理量とはほぼ同じである。一方、大語
彙音声認識の場合、類似単語が増加するため、認識性能
を高めるために、各音素をより細分化して区別する必要
がある。
When the voice recognition technology using the HMM is realized by a microcomputer having an upper limit of processing performance, in order to realize the recognition processing within the frame length in real time, the processing is It is essential to speed up. In the case of small vocabulary speech recognition, the total calculation amount of the output probability calculation unit,
The processing amount of the matching unit is almost the same. On the other hand, in the case of large vocabulary speech recognition, since the number of similar words increases, it is necessary to further subdivide and distinguish each phoneme in order to improve the recognition performance.

【0008】例えば、小語彙音声認識の場合は、「ア」
という音声について「a」という音素のみで表していた
ものを、大語彙音声認識の場合は「a−i」(次フレー
ムの音素がi(イ)であるア)、「a−u」(次フレー
ムの音素がu(ウ)であるア)、「a−sil」(次フレ
ームの音素がsil(無音)であるア)といった具合に、
同じ「a」という音声についても、条件に応じて様々な
「a」に分類する。小語彙認識向けに35音素で認識単
語を記述した一例を表1に、大語彙認識向けに288音
素で認識単語を記述した一例を表2に示す。
For example, in the case of small vocabulary voice recognition, "A"
In the case of large vocabulary speech recognition, the speech represented by the phoneme "a" is represented by "a-i" (i.e., the phoneme of the next frame is i), "au" (next). The phoneme of the frame is u (a), "a-sil" (the phoneme of the next frame is sil (silent)), and so on.
The same voice "a" is also classified into various "a" according to the conditions. An example in which a recognition word is described with 35 phonemes for small vocabulary recognition is shown in Table 1, and an example in which a recognition word is described with 288 phonemes for large vocabulary recognition is shown in Table 2.

【0009】[0009]

【表1】 [Table 1]

【0010】[0010]

【表2】 [Table 2]

【0011】前記状態数や前記混合数としては、一般的
に、3状態4混合といった値が用いられる。したがっ
て、35音素の場合、全分布数は35音素×3状態×4
混合=420分布だったのに対し、288音素の場合、
288音素×3状態×4混合=3456分布となり、大
語彙音声認識の場合、出力確率計算部20での処理量が
大幅に増加する。結果として、フレーム長内での認識処
理を実時間で実現することができなくなる。
As the number of states and the number of mixtures, values such as three states and four mixtures are generally used. Therefore, in the case of 35 phonemes, the total number of distributions is 35 phonemes x 3 states x 4
Mixing = 420 distribution, whereas for 288 phonemes,
288 phonemes × 3 states × 4 mixture = 3456 distribution, and in the case of large vocabulary speech recognition, the processing amount in the output probability calculation unit 20 increases significantly. As a result, the recognition processing within the frame length cannot be realized in real time.

【0012】前記問題に鑑み、本発明は、大語彙音声認
識システムにおいて出力確率計算部の処理量を削減する
ことができ、フレーム長内で実時間の実行処理を提供す
ることが可能な音声認識装置を提供することを目的とす
る。
In view of the above problems, the present invention can reduce the processing amount of the output probability calculation unit in the large vocabulary speech recognition system, and can provide the real-time execution processing within the frame length. The purpose is to provide a device.

【0013】[0013]

【課題を解決するための手段】前記課題を解決するた
め、本発明の音声認識装置は、隠れマルコフモデルを用
いた音声認識装置であって、すべての音素に関してフレ
ーム長毎の音声の特徴パラメータを隠れマルコフモデル
として保持する音素情報格納手段と、前記音素情報格納
手段に保持されている隠れマルコフモデルと、フレーム
長毎の入力音声の特徴パラメータから、当該フレームで
の各音素の出力確率を計算する出力確率計算手段と、現
フレームの音素と次フレームに発生すると考えられる音
素との関係を保持する連続音素情報格納手段と、選択音
素情報格納手段と、前記出力確率計算手段で算出された
出力確率と、前記連続音素情報格納手段の連続音素情報
とに基づき、次フレームで発生すると考えられる音素に
関する音素情報のみを前記音素情報格納手段から選択
し、前記選択音素情報格納手段に格納する音素選択手段
と、各認識単語の音素系列を保持した単語辞書格納手段
と、前記出力確率計算手段で計算された出力確率を、前
記単語辞書をもとに単語毎に累積するマッチング手段と
を備えたことを特徴とする。
In order to solve the above-mentioned problems, a speech recognition apparatus of the present invention is a speech recognition apparatus using a hidden Markov model, wherein characteristic parameters of speech for each frame length are set for all phonemes. The output probability of each phoneme in the frame is calculated from the phoneme information storage unit held as a hidden Markov model, the hidden Markov model held in the phoneme information storage unit, and the characteristic parameter of the input speech for each frame length. Output probability calculation means, continuous phoneme information storage means for holding the relationship between the phoneme of the current frame and the phoneme considered to occur in the next frame, selected phoneme information storage means, and the output probability calculated by the output probability calculation means. And the phoneme information regarding the phoneme that is considered to occur in the next frame, based on the phoneme information stored in the phoneme information storage means A phoneme selection unit that is selected from the phoneme information storage unit and stored in the selected phoneme information storage unit, a word dictionary storage unit that holds a phoneme sequence of each recognized word, and an output probability calculated by the output probability calculation unit. And matching means for accumulating each word based on the word dictionary.

【0014】前記の構成において、音素選択手段は、出
力確率計算手段で算出された出力確率と、連続音素情報
格納手段に格納されている連続音素情報とを用いて、次
フレームで発生すると考えられる音素を音素情報格納手
段から抽出し、選択音素情報格納手段に格納する。次フ
レームでは、出力確率計算手段は、全音素についてでは
なく、選択されて前記選択音素情報格納手段に格納され
ている音素のみに対して出力確率計算を行う。これによ
り、出力確率計算手段の処理量が削減でき、フレーム長
内で実時間の実行処理を実現する音声認識装置を提供す
ることが可能となる。
In the above configuration, the phoneme selection means is considered to occur in the next frame using the output probability calculated by the output probability calculation means and the continuous phoneme information stored in the continuous phoneme information storage means. Phonemes are extracted from the phoneme information storage means and stored in the selected phoneme information storage means. In the next frame, the output probability calculation means calculates the output probability not only for all phonemes but only for the phonemes selected and stored in the selected phoneme information storage means. As a result, the processing amount of the output probability calculation means can be reduced, and it is possible to provide a voice recognition device that realizes real-time execution processing within the frame length.

【0015】さらに、本発明の音声認識装置は、前記連
続音素情報格納手段の連続音素情報のうち、連続的に発
生することがないと見なされる音素の関係を、前記単語
辞書格納手段の前記音素系列に基づいてあらかじめ削除
する連続音素情報最適化手段を備えたことが好ましい。
Further, in the speech recognition apparatus of the present invention, among the continuous phoneme information of the continuous phoneme information storage means, the relationship of phonemes that are considered not to occur continuously is determined by the phoneme of the word dictionary storage means. It is preferable to include continuous phoneme information optimizing means for deleting in advance based on the sequence.

【0016】前記の構成によると、単語辞書格納手段に
格納されている認識単語の音素系列を基に、連続音素情
報格納手段に格納されている音素情報のうち、連続的に
発生することがないと見なされる音素の関係が削除さ
れ、連続音素情報が最適化される。その結果、次フレー
ムに発生することのない音素に関して出力確率計算を行
うことがなくなるため、出力確率計算手段の処理量をさ
らに削減することができる。
According to the above configuration, the phoneme information stored in the continuous phoneme information storage means is not continuously generated based on the phoneme series of the recognized words stored in the word dictionary storage means. The phoneme relationship considered to be deleted is deleted, and continuous phoneme information is optimized. As a result, the output probability calculation is not performed for the phoneme that does not occur in the next frame, so that the processing amount of the output probability calculation means can be further reduced.

【0017】さらに、本発明の音声認識装置において、
前記音素選択手段が、前記出力確率計算手段で算出され
た出力確率と前記連続音素情報に加えて、前記マッチン
グ手段で求められた単語毎の累積確率を参照し、前記出
力確率を基準とした場合に選択対象とならない音素につ
いて、前記累積確率を基準とした場合に現フレームの音
素である可能性が高いと見なされる場合には当該音素を
選択することが好ましい。
Further, in the voice recognition device of the present invention,
When the phoneme selection unit refers to the cumulative probability of each word obtained by the matching unit in addition to the output probability calculated by the output probability calculation unit and the continuous phoneme information, and the output probability is used as a reference It is preferable to select a phoneme that is not selected as a target phoneme, when it is considered that the phoneme of the current frame is likely to occur when the cumulative probability is used as a reference.

【0018】前記構成によると、現フレームでの出力確
率が小さく選択されない場合においても、認識開始フレ
ームから現フレームまでの累積確率が高く現フレームの
音素である可能性が高い場合にはその音素を選択する。
その結果、音素選択誤りによる認識率低下を防ぎ、かつ
出力確率計算手段の処理量を削減することができる。
According to the above construction, even if the output probability in the current frame is not selected so small, if the cumulative probability from the recognition start frame to the current frame is high and there is a high possibility that it is a phoneme of the current frame, that phoneme is selected. select.
As a result, it is possible to prevent a reduction in recognition rate due to a phoneme selection error and reduce the processing amount of the output probability calculation means.

【0019】さらに、本発明の音声認識装置は、類似音
素を格納する類似音素格納手段をさらに備え、前記出力
確率計算手段が、前期類似音素を入力し、前記音素選択
手段において選択された音素のうち、選択基準の充足度
に関してより下位に属する第1の音素がより上位に属す
る第2の音素に類似している場合は、前記第1の音素に
ついては出力確率計算を行わずに前記第2の音素につい
て算出した出力確率を用いることが好ましい。
Further, the speech recognition apparatus of the present invention further comprises similar phoneme storage means for storing similar phonemes, wherein the output probability calculation means inputs the previous similar phoneme and selects the phoneme selected by the phoneme selection means. If the first phoneme belonging to the lower rank with respect to the sufficiency of the selection criterion is similar to the second phoneme belonging to the higher rank, the second phoneme is not calculated for the output probability. It is preferable to use the output probability calculated for the phoneme of.

【0020】前記の構成によると、音素選択手段におい
て選択された音素のうち、選択基準の充足度に関してよ
り下位に属する音素がより上位に属する音素に類似して
いる場合は、前記出力確率計算手段において、前記のよ
り下位に属する音素についての出力確率計算を行わず、
前記のより上位に属する音素について計算した出力確率
を代用する。その結果、出力確率計算手段での処理量を
より削減することが可能となる。
According to the above configuration, when the phoneme belonging to the lower rank of the phonemes selected by the phoneme selecting means is similar to the phoneme belonging to the higher rank, the output probability calculating means. In, the output probability calculation is not performed for the phonemes belonging to the lower order,
The output probabilities calculated for the phonemes belonging to the higher order are substituted. As a result, it becomes possible to further reduce the amount of processing in the output probability calculation means.

【0021】また、前記音声認識装置において、前記音
素情報格納手段に格納されている前記隠れマルコフモデ
ルは、類似している音素の状態が共有化されていること
が好ましい。類似している音素の状態を共有化すること
により、音素全体の分布数が削減され、出力確率計算手
段での処理量をより削減することができる。
In the speech recognition apparatus, it is preferable that the hidden Markov models stored in the phoneme information storage unit share common phoneme states. By sharing the states of similar phonemes, the number of distributions of the entire phonemes can be reduced, and the amount of processing in the output probability calculation means can be further reduced.

【0022】[0022]

【発明の実施の形態】以下、本発明の各実施形態に係る
音声認識装置について、図面を参照しながら説明する。
BEST MODE FOR CARRYING OUT THE INVENTION A voice recognition device according to each embodiment of the present invention will be described below with reference to the drawings.

【0023】(第1の実施の形態)図1は、本発明の第
1の実施形態に係る音声認識装置の構成を示すブロック
図である。図1の音声認識装置は、出力確率計算部1
0、連続音素情報格納部14、音素選択部15、音素情
報格納部11、選択音素情報格納部16、単語辞書1
3、およびマッチング部12を備えている。
(First Embodiment) FIG. 1 is a block diagram showing the arrangement of a voice recognition apparatus according to the first embodiment of the present invention. The speech recognition apparatus of FIG. 1 has an output probability calculation unit 1
0, continuous phoneme information storage unit 14, phoneme selection unit 15, phoneme information storage unit 11, selected phoneme information storage unit 16, word dictionary 1
3 and a matching unit 12.

【0024】出力確率計算部10は、フレーム長毎の音
声の特徴パラメータを入力とし、選択音素情報格納部に
格納されている音素情報をもとに、出力確率を計算す
る。連続音素情報格納部14は、時刻tの音素と、時刻
t+1に発生すると考えられる音素との関係を保持す
る。音素選択部15は、時刻t+1に発生する音素を選
択する。音素情報格納部11は、全音素に関して、フレ
ーム毎の音声の特徴パラメータを、HMMとして格納し
ている。選択音素情報格納部16は、音素選択部15で
選択された音素に関する音素情報のみを抽出して格納し
ている。単語辞書13は、あらかじめ認識させたい単語
の音素系列を登録している。マッチング部12は、出力
確率計算部10で算出された出力確率と単語辞書13と
を用いて、単語毎の出力確率を累積していく。
The output probability calculation unit 10 receives the feature parameters of the voice for each frame length as input, and calculates the output probability based on the phoneme information stored in the selected phoneme information storage unit. The continuous phoneme information storage unit 14 holds the relationship between the phoneme at time t and the phoneme that is considered to occur at time t + 1. The phoneme selection unit 15 selects a phoneme generated at time t + 1. The phoneme information storage unit 11 stores, for all phonemes, the characteristic parameters of the voice for each frame as an HMM. The selected phoneme information storage unit 16 extracts and stores only the phoneme information regarding the phoneme selected by the phoneme selection unit 15. The word dictionary 13 has registered phoneme sequences of words to be recognized in advance. The matching unit 12 accumulates output probabilities for each word using the output probabilities calculated by the output probability calculation unit 10 and the word dictionary 13.

【0025】次に、前記の構成にかかる音声認識装置の
動作について説明する。
Next, the operation of the voice recognition device according to the above configuration will be described.

【0026】まず、時刻tにおける音声の特徴パラメー
タytを、出力確率計算部10に入力する。
Firstly, the feature parameter y t of the speech at time t, and inputs the output probability calculation unit 10.

【0027】次に、選択音素情報格納部16に格納され
ている音素Hp(pは音素番号)のみに対して出力確率
を計算する。選択音素情報格納部16では、予め定めら
れた時間長(以下、フレーム長)毎の音声の特徴パラメ
ータをHMMとして保持している。ここで保持されてい
るHMMは、音素毎の特徴パラメータの平均値μpや分
散σpといった音素情報λp(μ,σ)である。一例とし
て、音素sil(無音)のμpとσpを、表3に示す。
Next, the output probability is calculated only for the phoneme H p (p is a phoneme number) stored in the selected phoneme information storage unit 16. The selected phoneme information storage unit 16 holds the characteristic parameter of the voice for each predetermined time length (hereinafter, frame length) as an HMM. The HMM held here is phoneme information λ p (μ, σ) such as the average value μ p and the variance σ p of the feature parameter for each phoneme. As an example, Table 3 shows μ p and σ p of the phoneme sil (silent).

【0028】[0028]

【表3】 [Table 3]

【0029】表3にある次元とは、特徴パラメータyt
をベクトル表現するために用いられるパラメータであ
る。なおこの値は、状態数1、混合数1に対応した値で
あり、そのほかに状態数2〜3、混合数2〜4に対応し
た値が実際には存在する。また、弊社独自の算出方法に
より算出した値であるため、一般的に用いられている値
ではない。
The dimension in Table 3 is the characteristic parameter y t.
Is a parameter used to represent a vector. Note that this value is a value corresponding to the number of states 1 and the number of mixtures 1, and in addition, values corresponding to the numbers of states 2 to 3 and the numbers of mixtures 2 to 4 actually exist. In addition, since it is a value calculated by our own calculation method, it is not a commonly used value.

【0030】なお、全音素数をN個、選択音素情報格納
部16に格納されている音素の個数をn個(0<n≦
N)とする。また、選択音素情報格納部16の初期値は
sil(無音)である。
The total number of phonemes is N, and the number of phonemes stored in the selected phoneme information storage unit 16 is n (0 <n ≦
N). The initial value of the selected phoneme information storage unit 16 is
It is sil (silence).

【0031】出力確率計算部10は、時刻tの入力音声
の特徴パラメータytと、選択音素情報格納部16に格
納されている音素情報λp(μ,σ)を入力とし、入力
音声がどの音素である可能性が高いかという出力確率b
i p(yt)を計算する。ここで、iは状態数を表す。な
お、選択音素情報格納部16に格納されている音素のみ
に対して、出力確率計算を行う。選択音素情報格納部1
6に格納されている音素の個数はn個、状態数・混合数
はそれぞれ3状態4混合とすると、全分布数は、n×3
状態×4混合=12nとなり、12n回出力確率計算を
行う。
The output probability calculation unit 10 and the feature parameter y t of the input speech at time t, and inputs the phoneme information lambda p stored in the selected phoneme information storing section 16 (mu, sigma), which input speech is Output probability b whether it is likely a phoneme
Calculate i p (y t ). Here, i represents the number of states. The output probability calculation is performed only on the phonemes stored in the selected phoneme information storage unit 16. Selected phoneme information storage unit 1
Assuming that the number of phonemes stored in 6 is n and the number of states and the number of mixtures are 3 and 4 respectively, the total distribution number is n × 3.
State × 4 mixture = 12n, and output probability calculation is performed 12n times.

【0032】次に、音素選択部15の処理の一連の流れ
について説明する。
Next, a series of processing flow of the phoneme selection unit 15 will be described.

【0033】音素選択部15は、まず、出力確率計算部
10で算出された時刻tの出力確率bi p(yt)を入力
する。次に、音素選択部15は、連続音素情報格納部1
4に格納されている連続音素情報をもとに、時刻t+1
に発生すると考えられる音素を選択する。
The phoneme selection unit 15 first receives the output probability b i p (y t ) at time t calculated by the output probability calculation unit 10. Next, the phoneme selection unit 15 uses the continuous phoneme information storage unit 1.
Based on the continuous phoneme information stored in 4, the time t + 1
Select a phoneme that is thought to occur in.

【0034】連続音素情報格納部14には、時刻tの音
素と時刻t+1に発生すると考えられる音素との関係が
保持されている。例えば、時刻t+1にi(イ)がくる
a(ア)のことを「a−i」と記述するものとする。す
ると、時刻tの音素が「a−i」の場合、時刻t+1に
発生すると考えられる音素は、同様の記述をすると「i
−○」(ただし、○は任意の音素)であると考えられ
る。この「i−○」に値する音素を「a−i」が発生し
た時刻に発生する可能性のある音素として図示したもの
を、図4に示す。例えば、時刻tに発生した音素が「a
−i」であった場合、時刻t+1に発生すると考えられ
る音素は、図4に示すように、「i−a」、「i−
b」、「i−d」、「i−i」の4種類の音素の可能性
がある。このような、時刻tの音素と時刻t+1に発生
すると考えられる音素との関係を、全ての音素に関して
記述したものが、連続音素情報格納部14に格納されて
いる。
The continuous phoneme information storage unit 14 holds the relationship between the phoneme at time t and the phoneme that is considered to occur at time t + 1. For example, it is assumed that a (a) at which i (a) comes at time t + 1 is described as “a-i”. Then, if the phoneme at time t is "a-i", the phoneme considered to occur at time t + 1 is "i
-○ "(where ○ is an arbitrary phoneme). FIG. 4 shows a phoneme worthy of “i− ◯” as a phoneme that may occur at the time when “ai” occurs. For example, the phoneme generated at time t is “a
-I ", the phonemes considered to occur at time t + 1 are" i-a "and" i- ", as shown in FIG.
There are four possible phonemes: "b", "id", and "ii". Such a relationship between the phoneme at time t and the phoneme that is considered to occur at time t + 1 is described for all phonemes and stored in the continuous phoneme information storage unit 14.

【0035】音素選択部15は、出力確率計算部10で
計算された出力確率bi p(yt)と、連続音素情報格納
部14の連続音素情報とに基づいて、時刻t+1で発生
すると考えられる音素に関する音素情報のみを音素情報
格納部11から選択して、選択音素情報格納部16に格
納する。なお、音素情報格納部11には、登録されてい
る全音素N個に関して、フレーム長毎の音素情報λ
p(μ,σ)が保持されている。音素情報格納部11か
らの選択方法は、以下の2パターンがある。
It is considered that the phoneme selection unit 15 will occur at time t + 1 based on the output probability b i p (y t ) calculated by the output probability calculation unit 10 and the continuous phoneme information in the continuous phoneme information storage unit 14. Only the phoneme information regarding the selected phoneme is selected from the phoneme information storage unit 11 and stored in the selected phoneme information storage unit 16. The phoneme information storage unit 11 stores phoneme information λ for each frame length for all N registered phonemes.
p (μ, σ) is retained. The selection method from the phoneme information storage unit 11 has the following two patterns.

【0036】(パターン1)図2は、パターン1による
音素選択部15の処理のフローチャートである。
(Pattern 1) FIG. 2 is a flowchart of the processing of the phoneme selection unit 15 according to pattern 1.

【0037】音素選択部15は、前記出力確率計算結果
i p(yt)を入力し(ステップS1)、続いて、bi p
(yt)をソーティングする(ステップS2)。そし
て、ソーティング結果より、値の大きい上位m個の音素
を選択する(ステップS3)。そして、そのm個の音素
に対して、連続音素情報格納部14の連続音素情報を用
いて、時刻t+1で発生すると考えられる音素を選択す
る(ステップS4)。そして選択された音素に関する音
素情報を音素情報格納部11より抽出し(ステップS
5)、選択音素情報格納部16に格納する(ステップS
6)。
The phoneme selection unit 15 inputs the output probability calculation result b i p (y t ) (step S1), and then b i p
(Y t ) is sorted (step S2). Then, the top m phonemes having a large value are selected from the sorting result (step S3). Then, for the m phonemes, the phonemes considered to occur at time t + 1 are selected using the continuous phoneme information in the continuous phoneme information storage unit 14 (step S4). Then, the phoneme information regarding the selected phoneme is extracted from the phoneme information storage unit 11 (step S
5) and stores it in the selected phoneme information storage unit 16 (step S
6).

【0038】(パターン2)図3は、パターン2による
音素選択部15の処理のフローチャートである。
(Pattern 2) FIG. 3 is a flowchart of the processing of the phoneme selection unit 15 according to pattern 2.

【0039】音素選択部15は、まず、前記出力確率計
算結果bi p(yt)を入力する(ステップS11)。次
に、音素選択に用いるためにあらかじめ設定されたしき
い値thを参照し、bi p(yt)がthより大きい音素を選
択する(ステップS12)。選択された音素に対して、
連続音素情報格納部14の連続音素情報を用いて時刻t
+1で発生すると考えられる音素を選択する(ステップ
S13)。そして選択された音素に関する音素情報を音
素情報格納部11より抽出し(ステップS14)、選択
音素情報格納部16に格納する(ステップS15)。
The phoneme selection unit 15 first inputs the output probability calculation result b i p (y t ) (step S11). Next, a threshold th that is set in advance for use in phoneme selection is referred to, and a phoneme for which b i p (y t ) is larger than th is selected (step S12). For the selected phoneme,
Time t is calculated using the continuous phoneme information in the continuous phoneme information storage unit 14.
A phoneme considered to occur at +1 is selected (step S13). Then, the phoneme information regarding the selected phoneme is extracted from the phoneme information storage unit 11 (step S14) and stored in the selected phoneme information storage unit 16 (step S15).

【0040】音素選択部15は、ステップS12〜S1
5の処理を、すべての音素について処理が終了するま
で、繰り返し実行する。
The phoneme selection unit 15 performs steps S12 to S1.
The process of 5 is repeatedly executed until the process is completed for all phonemes.

【0041】以上のパターン1のステップS5またはパ
ターン2のステップS14において、例えば、時刻tに
おいて音素「a−i」の出力確率が高かった場合、時刻
t+1の音素として考えられるものは、図4を参照して
前述したように、「i−a」、「i−b」、「i−
d」、「i−i」の4種類である。音素選択部15は、
この4種類の音素情報λp(μ,σ)を音素情報格納部
から抽出し、選択音素情報格納部16に格納する。
In step S5 of pattern 1 or step S14 of pattern 2 described above, for example, when the output probability of the phoneme "a-i" is high at time t, what is considered as the phoneme at time t + 1 is shown in FIG. As described above with reference to "i-a", "i-b", "i-".
There are four types, "d" and "ii". The phoneme selection unit 15
The four types of phoneme information λ p (μ, σ) are extracted from the phoneme information storage unit and stored in the selected phoneme information storage unit 16.

【0042】以上のように、出力確率計算部10により
出力確率計算が行われた後、マッチング部12が、単語
辞書13を参照し、出力確率計算部10で算出された出
力確率を、認識単語毎に累積していく。なお単語辞書1
3は、以前に示した表2に示すような各認識単語の音素
系列を保持する。
As described above, after the output probability calculation unit 10 has performed the output probability calculation, the matching unit 12 refers to the word dictionary 13 and sets the output probability calculated by the output probability calculation unit 10 to the recognition word. It accumulates every time. The word dictionary 1
3 holds the phoneme sequence of each recognized word as shown in Table 2 shown previously.

【0043】マッチング部12での単語毎の出力確率を
累積後、時刻t+1の特徴パラメータyt+1を出力確率
計算部10に入力し、時刻t+1における出力確率bi p
(yt +1)を算出する。なお出力確率計算時は、選択音
素情報格納部16に保持されている音素のみに対して計
算を行う。
After accumulating the output probabilities for each word in the matching unit 12, the characteristic parameter y t + 1 at time t + 1 is input to the output probability calculation unit 10, and the output probability b i p at time t + 1.
Calculate (y t +1 ). When calculating the output probability, only the phonemes held in the selected phoneme information storage unit 16 are calculated.

【0044】このようにして、全フレームの音声、すな
わち時刻T(0≦t<T)までの音声に対して出力確率
および累積確率の計算を繰り返す。そして最終的に最も
累積確率が高い単語を認識結果とする。
In this way, the calculation of the output probability and the cumulative probability is repeated for the voices of all the frames, that is, the voices until time T (0≤t <T). Finally, the word with the highest cumulative probability is used as the recognition result.

【0045】次に、本実施形態において、出力確率計算
部10の計算量がどのくらい削減されているかというこ
とについて、具体的な例を示して説明する。
Next, how much the calculation amount of the output probability calculation unit 10 is reduced in the present embodiment will be described by showing a concrete example.

【0046】まず、時刻tにおいて、選択音素情報格納
部16に格納されている音素がsil(無音)のみである
とする。したがって、出力確率計算部10の計算回数は
1回である。音素選択部15によれば、出力確率の高い
音素が選択されるが、この場合はsilの出力確率のみ入
力されるため、silのみ選択されるとする。音素選択部
15は、次に、連続音素情報格納部14の連続音素情報
を用いて、時刻t+1に発生すると考えられる音素を選
択する。図5にsilに関する連続音素情報を示す。音素
選択部15により、図5に示すように、時刻t+1に発
生すると考えられる23個の音素が選択され、それらの
音素に関する音素情報が音素情報格納部11から抽出さ
れ、選択音素情報格納部16に格納される。
First, at time t, it is assumed that the phoneme stored in the selected phoneme information storage unit 16 is only sil (silent). Therefore, the output probability calculator 10 calculates once. The phoneme selection unit 15 selects a phoneme with a high output probability, but in this case, only the output probability of sil is input, so only sil is selected. Next, the phoneme selection unit 15 uses the continuous phoneme information in the continuous phoneme information storage unit 14 to select a phoneme that is considered to occur at time t + 1. FIG. 5 shows continuous phoneme information regarding sil. As shown in FIG. 5, the phoneme selection unit 15 selects 23 phonemes that are considered to occur at time t + 1, phoneme information regarding these phonemes is extracted from the phoneme information storage unit 11, and the selected phoneme information storage unit 16 is selected. Stored in.

【0047】次時刻t+1では、選択音素情報格納部1
6に23個の音素が格納されているため、出力確率計算
部10の計算回数は23回である。出力確率計算後、音
素選択方法として上記のパターン2を使うものとし、si
l-k、sil-Toの出力確率がしきい値thよりも大きいとす
る。次に、sil-k、sil-Toの次時刻に発生すると考えら
れる音素が、連続音素情報格納部14より選択される。
図6にsil-kに関する連続音素情報、図7にsil-Toに関
する連続音素情報を示す。図6に示すように、sil-kの
次時刻に発生すると考えられる音素14個と、図7に示
すように、sil-Toの次時刻に発生すると考えられる音素
1個との、計15個の音素が選択され、その15個の音
素に関する音素情報が、音素情報格納部11から抽出さ
れ、選択音素情報格納部16に格納される。
At the next time t + 1, the selected phoneme information storage unit 1
Since 6 phonemes have 23 phonemes stored therein, the number of calculations performed by the output probability calculation unit 10 is 23. After calculating the output probability, it is assumed that pattern 2 above is used as the phoneme selection method, and si
It is assumed that the output probabilities of lk and sil-To are larger than the threshold th. Next, the phonemes considered to occur at the next time of sil-k and sil-To are selected from the continuous phoneme information storage unit 14.
FIG. 6 shows continuous phoneme information regarding sil-k, and FIG. 7 shows continuous phoneme information regarding sil-To. As shown in FIG. 6, 14 phonemes that are considered to occur at the next time of sil-k and 1 phoneme that is considered to occur at the next time of sil-To, as shown in FIG. The phoneme information of 15 phonemes is extracted from the phoneme information storage unit 11 and stored in the selected phoneme information storage unit 16.

【0048】次時刻t+2では、選択音素情報格納部1
6に15個の音素が格納されているため、出力確率計算
部での計算回数は15回である。
At the next time t + 2, the selected phoneme information storage unit 1
Since 15 phonemes are stored in 6, the number of calculations in the output probability calculation unit is 15.

【0049】このような時刻t〜t+2までの出力確率
計算の計算回数を、従来方法と本実施形態にかかる方法
(表4中に「提案方法」と表記)とで比較したものが、
表4である。
A comparison of the number of times of the output probability calculation from time t to t + 2 between the conventional method and the method according to the present embodiment (indicated as “proposed method” in Table 4) is as follows.
It is Table 4.

【0050】[0050]

【表4】 [Table 4]

【0051】このように、従来方法に比較して、本実施
形態では、出力確率計算部10の処理量が大幅に削減さ
れることがわかる。
As described above, it can be seen that the processing amount of the output probability calculation unit 10 is significantly reduced in this embodiment as compared with the conventional method.

【0052】従来例の中には、同一音素に対して少なく
とも2種の音素情報(HMM:簡単なHMMと詳細なH
MM)を備えることにより、出力確率計算部の処理量を
削減するという方法がある。この方法では、一方の簡単
なHMMで全音素の出力確率を計算した後、この出力確
率の上位のものに関してもう一方の詳細なHMMで出力
確率を計算する。しかしこの方法では、2種のHMMを
保持するため、記憶メモリ量の増加、および出力確率計
算を簡易・詳細HMMの両方を用いて二度行うために、
処理量のオーバーヘッドも発生すると考えられる。
Among the conventional examples, at least two types of phoneme information (HMM: simple HMM and detailed HMM) for the same phoneme.
There is a method of reducing the processing amount of the output probability calculation unit by providing MM). In this method, one simple HMM is used to calculate the output probabilities of all phonemes, and then the other detailed HMM is used to calculate the output probabilities for the higher ones of the output probabilities. However, in this method, since two kinds of HMMs are held, the storage memory amount is increased and the output probability calculation is performed twice by using both the simple and detailed HMMs.
It is thought that processing overhead will also occur.

【0053】なお、前記の音素情報格納部11に格納さ
れている音素情報は、異なる音素においても類似してい
る状態が存在するならば、その状態が共有化されていて
もよい。状態を共有化することにより、音素全体の分布
数が削減され、出力確率計算部11での処理量を削減す
ることができる。
The phoneme information stored in the phoneme information storage unit 11 may be shared if different phonemes have similar states. By sharing the states, the number of distributions of the entire phonemes can be reduced, and the processing amount in the output probability calculation unit 11 can be reduced.

【0054】以上説明したように、第1の実施形態によ
ると、まず時刻tにおいて出力確率の高い音素を選択
し、その選択された音素の中から連続音素情報をもと
に、時刻t+1に発生すると考えられる音素を選択し、
時刻t+1では選択された音素のみに対して出力確率計
算を行うことにより、出力確率計算部の処理量を削減す
ることができる。その結果、出力確率計算部の処理量の
削減により、認識処理の高速化を実現でき、マイコンな
ど限られた処理性能で音声認識を行う場合に、フレーム
長内での実時間の認識処理を実現することが可能とな
る。
As described above, according to the first embodiment, a phoneme having a high output probability is first selected at time t, and the phoneme generated at time t + 1 is selected from the selected phonemes based on continuous phoneme information. Then, select the phoneme
At time t + 1, the output probability calculation is performed only on the selected phoneme, so that the processing amount of the output probability calculation unit can be reduced. As a result, the processing rate of the output probability calculation unit is reduced, which enables faster recognition processing, and real-time recognition processing within the frame length when speech recognition is performed with limited processing performance such as a microcomputer. It becomes possible to do.

【0055】(第2の実施の形態)図8に、本発明の第
2の実施形態に係る音声認識装置の構成を示す。
(Second Embodiment) FIG. 8 shows the configuration of a speech recognition apparatus according to the second embodiment of the present invention.

【0056】本発明の第2の実施形態は、図8に示すよ
うに、第1の実施形態の単語辞書と連続音素情報格納部
の間に、連続音素情報最適化部47を備えた構成であ
る。出力確率計算部40、選択音素情報格納部46、音
素情報格納部41、音素選択部45、マッチング部42
は、それぞれ第1の実施形態における同一名の構成要素
と同じ作用をするものであるので、これらについての詳
細な説明は省略する。
As shown in FIG. 8, the second embodiment of the present invention has a configuration in which a continuous phoneme information optimizing unit 47 is provided between the word dictionary and the continuous phoneme information storage unit of the first embodiment. is there. Output probability calculation unit 40, selected phoneme information storage unit 46, phoneme information storage unit 41, phoneme selection unit 45, matching unit 42
Have the same operation as the components having the same names in the first embodiment, and detailed description thereof will be omitted.

【0057】連続音素情報最適化部47は、図9のフロ
ーチャートに示すように、連続音素情報格納部44に含
まれる音素情報のうち、単語辞書43に記述されている
各認識単語の音素系列には使われていない時刻tの音素
と時刻t+1の音素との関係(音素つながり)を削除す
る処理を行う。
As shown in the flowchart of FIG. 9, the continuous phoneme information optimizing unit 47 selects the phoneme sequence of each recognized word described in the word dictionary 43 from the phoneme information contained in the continuous phoneme information storage unit 44. Performs a process of deleting the relationship (phoneme connection) between the unused phoneme at time t and the phoneme at time t + 1.

【0058】もともとの連続音素情報格納部44には、
時刻tの音素と、時刻t+1に発生する可能性のあるす
べての音素との関係が格納されている。しかし、認識さ
せたい単語によっては、全ての音素つながりが発生して
いるとは考えられない。そこで、連続音素情報最適化部
47は、音素系列が記述されている単語辞書43を参考
にして、発生しないと考えられる音素のつながり、すな
わち単語辞書43に含まれない音素つながりを、連続音
素情報格納部44からあらかじめ削除する。その結果、
出力確率計算部40が、現在用いられている単語辞書4
3内では連続的に発生しない音素に関して不要な出力確
率計算を行うことがなくなる。これにより、出力確率計
算部40の処理量をより削減することができる。
In the original continuous phoneme information storage section 44,
The relationship between the phoneme at time t and all the phonemes that may occur at time t + 1 is stored. However, it cannot be considered that all phoneme connections are generated depending on the word to be recognized. Therefore, the continuous phoneme information optimization unit 47 refers to the word dictionary 43 in which the phoneme sequence is described, and determines the phoneme connections that are considered not to occur, that is, the phoneme connections that are not included in the word dictionary 43. It is deleted from the storage unit 44 in advance. as a result,
The output probability calculator 40 uses the word dictionary 4 currently used.
Within 3, the unnecessary output probability calculation is not performed for phonemes that do not continuously occur. Thereby, the processing amount of the output probability calculation unit 40 can be further reduced.

【0059】以下、例を用いて具体的に説明する。A specific description will be given below with reference to an example.

【0060】ここで、単語辞書43が、前述の表2に示
す単語を持つものとする。また、sil-kに関して連続音
素情報格納部44に格納されている連続音素情報が、図
6に示したとおりの14個であるとする。しかし、単語
辞書43によると、sil-kとつながりをもつ音素は、k-j
およびk-oのみであるため、発生することがない音素つ
ながりを連続音素情報格納部44から削除すると、sil-
kに関する連続音素情報は、図10に示す2個のみとな
る。したがって、sil-kとつながりがある音素14個全
てに対して出力確率計算を行う場合と比較して、本実施
形態の出力確率計算部40の計算回数は2回で済み、出
力確率計算部40の処理量をより削減することが可能に
なる。
Here, it is assumed that the word dictionary 43 has the words shown in Table 2 above. Further, it is assumed that there are 14 pieces of continuous phoneme information stored in the continuous phoneme information storage unit 44 for sil-k as shown in FIG. However, according to the word dictionary 43, the phonemes connected to sil-k are kj
And ko, only phoneme connections that do not occur are deleted from the continuous phoneme information storage unit 44 by sil-
There are only two pieces of continuous phoneme information about k shown in FIG. Therefore, as compared with the case where the output probability calculation is performed for all 14 phonemes connected to sil-k, the output probability calculation unit 40 according to the present embodiment only needs to calculate twice. It is possible to further reduce the processing amount of.

【0061】以上説明したように、第2の実施形態によ
ると、単語辞書の音素系列をもとに、現在用いられてい
る単語認識では発生することはないと考えられる音素情
報を連続音素情報から削除することによって、音素情報
数を削減することができ、よって出力確率計算部の処理
量を削減することが可能となる。
As described above, according to the second embodiment, based on the phoneme sequence of the word dictionary, the phoneme information which is considered not to be generated by the word recognition currently used is generated from the continuous phoneme information. By deleting, the number of phoneme information can be reduced, and thus the processing amount of the output probability calculation unit can be reduced.

【0062】(第3の実施の形態)本発明の第3の実施
形態は、第1の実施形態における音素選択部で、マッチ
ング部での単語毎の累積確率の情報を用いるものであ
る。
(Third Embodiment) A third embodiment of the present invention is a phoneme selection unit in the first embodiment, which uses information of cumulative probabilities for each word in the matching unit.

【0063】図11に、第3の実施形態に係る音声認識
装置の構成を示す。
FIG. 11 shows the configuration of a voice recognition device according to the third embodiment.

【0064】出力確率計算部50、選択音素格納部5
6、音素情報格納部51、連続音素情報格納部54、単
語辞書53は、それぞれ第1の実施形態における同一名
の構成要素と同じ作用をするものであるので、その詳細
な説明を省略する。
Output probability calculation unit 50, selected phoneme storage unit 5
6, the phoneme information storage unit 51, the continuous phoneme information storage unit 54, and the word dictionary 53 have the same operations as the components having the same names in the first embodiment, and thus detailed description thereof will be omitted.

【0065】音素選択部55は、出力確率計算部50で
算出された出力確率、連続音素情報格納部54に格納さ
れている音素情報、およびマッチング部52で算出され
た累積確率をもとに、次フレームで発生すると考えられ
る音素を選択する。
The phoneme selection unit 55 uses the output probabilities calculated by the output probability calculation unit 50, the phoneme information stored in the continuous phoneme information storage unit 54, and the cumulative probabilities calculated by the matching unit 52. Select a phoneme that is thought to occur in the next frame.

【0066】第1の実施形態では、出力確率および連続
音素情報のみに基づき、時刻t+1で発生すると考えら
れる音素を選択していた。これによれば、認識開始時刻
から時刻tまでトータルで計算した累積確率は高いが、
時刻tでの出力確率が低いため選択されなかった音素が
ある可能性がある。時刻tでの出力確率は低くても、時
刻t−1までの累積確率が高い場合、認識結果となる可
能性が十分にある。したがって、本実施形態の音声認識
装置は、累積確率も考慮した場合に認識結果となりうる
音素も選択するように、単語毎の累積確率も音素選択部
55への入力とし、出力確率および累積確率の両方に基
づき、時刻tの音素である可能性の高い音素を選択し、
次に連続音素情報格納部54からの連続音素情報に基づ
き、時刻t+1に発生すると考えられる音素を選択す
る。
In the first embodiment, the phoneme considered to occur at time t + 1 is selected based on only the output probability and the continuous phoneme information. According to this, the cumulative probability calculated from the recognition start time to the time t is high,
There is a possibility that some phonemes have not been selected because the output probability at time t is low. Even if the output probability at time t is low, if the cumulative probability up to time t−1 is high, there is a sufficient possibility that it will be a recognition result. Therefore, the speech recognition apparatus of the present embodiment also inputs the cumulative probability of each word to the phoneme selection unit 55 so as to select the phonemes that can be the recognition result when the cumulative probability is also taken into consideration. Based on both, select a phoneme that is likely to be the phoneme at time t,
Next, based on the continuous phoneme information from the continuous phoneme information storage unit 54, a phoneme considered to occur at time t + 1 is selected.

【0067】本実施形態の音素選択部55の処理の流れ
を、図12のフローチャートに示す。
The processing flow of the phoneme selection unit 55 of this embodiment is shown in the flowchart of FIG.

【0068】音素選択部55は、まず、出力確率計算部
50から、その計算結果である出力確率bi p(yt)を
入力し(ステップS31)、さらに、マッチング部52
から累積確率を入力する(ステップS32)。続いて、
出力確率bi p(yt)が設定されたしきい値thよりも大
きいかを判別する(ステップS33)。判別結果がYE
Sであれば、さらに、累積確率が設定されたしきい値th
2よりも大きいかを判別する(ステップS34)。そし
て、ステップS33の判別結果がNOの場合、またはス
テップS33の判別結果がYESかつステップS34の
判別結果がYESの場合、連続音素情報格納部54の連
続音素情報を用いて、時刻t+1で発生すると考えられ
る音素を選択する(ステップS35)。そして選択され
た音素に関する音素情報を音素情報格納部51より抽出
し(ステップS36)、選択音素情報格納部56に格納
する(ステップS37)。
The phoneme selection unit 55 first inputs the output probability b i p (y t ) which is the calculation result from the output probability calculation unit 50 (step S31), and further, the matching unit 52.
The cumulative probability is input from (step S32). continue,
It is determined whether the output probability b i p (y t ) is larger than the set threshold th (step S33). The determination result is YE
If S, the threshold value th for which the cumulative probability is set
It is determined whether it is larger than 2 (step S34). When the determination result of step S33 is NO, or when the determination result of step S33 is YES and the determination result of step S34 is YES, the continuous phoneme information in the continuous phoneme information storage unit 54 is used to generate at time t + 1. A possible phoneme is selected (step S35). Then, the phoneme information regarding the selected phoneme is extracted from the phoneme information storage unit 51 (step S36) and stored in the selected phoneme information storage unit 56 (step S37).

【0069】次に、上記の動作を、具体的な例を用いて
さらに説明する。
Next, the above operation will be further described using a concrete example.

【0070】ここで、単語辞書53に、表2の単語を持
つものとし、「きょうと」という音声が入力された場合
の時刻tの出力確率計算結果を表5に、時刻t−1まで
の累積確率を表6に示す。
Here, it is assumed that the word dictionary 53 has the words in Table 2 and the output probability calculation result at time t when the voice "Kyoto" is input is shown in Table 5 and accumulated up to time t-1. The probabilities are shown in Table 6.

【0071】[0071]

【表5】 [Table 5]

【0072】[0072]

【表6】 [Table 6]

【0073】この出力確率をもとに、時刻tでの音素を
選択する場合のしきい値thが90であるとすると、表5
より音素o-oは選択されるが、j-oおよびa-rは選択され
ない。しかし、入力音声は「きょうと(sil-k k-j j-o o-o
o-t t-o oT sil)」であるため、j-oが選択されないと
認識エラーが生じる。そこで、音声選択部55は、時刻
tの出力確率だけでなく、マッチング部52で算出され
た時刻t−1までの累積確率も用いて音素選択を行う。
この場合も、しきい値th2を設定して、各認識単語の累
積確率が当該しきい値th2よりも大きいか否かを判別す
る。ここで設定したしきい値th2が1000であるもの
とする。表6から分かるように、「きょうと(sil-k k-
j j-o o-o o-t t-o oT sil)」の部分単語である「sil-
k k-j」の累積確率がしきい値th2以上であることか
ら、j-oを選択することが可能である。
Assuming that the threshold value th is 90 when selecting a phoneme at time t based on this output probability, Table 5
More phonemes oo are selected, but jo and ar are not. However, the input voice is "Kyoto (sil-k kj jo oo
ot to oT sil) ”, a recognition error occurs if jo is not selected. Therefore, the voice selection unit 55 performs phoneme selection using not only the output probability at time t but also the cumulative probability up to time t−1 calculated by the matching unit 52.
Also in this case, the threshold value th2 is set and it is determined whether or not the cumulative probability of each recognized word is larger than the threshold value th2. It is assumed that the threshold value th2 set here is 1000. As can be seen from Table 6, "Kyoto (sil-k k-
j jo oo ot to oT sil) ”is a partial word
Since the cumulative probability of “k kj” is equal to or greater than the threshold value th2, jo can be selected.

【0074】以上説明したように、第3の実施形態によ
れば、音素選択部が、マッチング部での累積確率の計算
結果も用いて、出力確率計算を行う必要のある音素を選
択することにより、認識率低下を防ぎ、かつ出力確率計
算部での処理量を削減することが可能となる。
As described above, according to the third embodiment, the phoneme selection unit selects the phoneme for which the output probability calculation is required by using the calculation result of the cumulative probability in the matching unit. It is possible to prevent the recognition rate from decreasing and to reduce the processing amount in the output probability calculating unit.

【0075】(第4の実施の形態)本発明の第4の実施
形態は、第1の実施形態にかかる音声認識装置に、出力
確率計算部の入力として、類似している音素を格納して
いる類似音素格納部を加えたものである。
(Fourth Embodiment) In the fourth embodiment of the present invention, similar phonemes are stored in the speech recognition apparatus according to the first embodiment as an input of the output probability calculation unit. A similar phoneme storage unit is added.

【0076】図13に、第4の実施形態に係る音声認識
装置の構成を示す。選択音素格納部66、音素情報格納
部61、連続音素情報格納部64、マッチング部62、
単語辞書63は、それぞれ第1の実施形態における同一
名の構成要素と同じ作用をするものであるので、その詳
細な説明は省略する。
FIG. 13 shows the configuration of a voice recognition device according to the fourth embodiment. A selected phoneme storage unit 66, a phoneme information storage unit 61, a continuous phoneme information storage unit 64, a matching unit 62,
Each of the word dictionaries 63 has the same operation as that of the component having the same name in the first embodiment, and thus detailed description thereof will be omitted.

【0077】本実施形態の出力確率計算部60は、時刻
tの特徴パラメータytと、選択音素情報格納部66に
格納されている選択音素情報と、類似音素格納部67に
格納されている類似音素情報とを入力し、出力確率を計
算する。
The output probability calculation unit 60 of this embodiment uses the characteristic parameter y t at time t, the selected phoneme information stored in the selected phoneme information storage unit 66, and the similarity stored in the similar phoneme storage unit 67. The phoneme information is input and the output probability is calculated.

【0078】類似音素格納部67は、音素情報格納部6
1に格納されている全音素のなかで類似しているものが
ある場合、類似している音素はどれとどれであるか(類
似している音素が2種類以上であってもかまわない)と
いう情報を格納しているものである。例えば、音素Hp
とHqは類似しているといった具合である。その情報を
出力確率計算部60の入力として用いる。
The similar phoneme storage unit 67 is a phoneme information storage unit 6.
If there are similar phonemes among all the phonemes stored in 1, it is said which is the similar phoneme (it does not matter even if there are two or more similar phonemes). It stores information. For example, phoneme H p
And H q are similar. The information is used as an input to the output probability calculator 60.

【0079】第1の実施形態では、出力確率計算部10
が、選択音素情報格納部16に格納されていた音素情報
のみを用いて出力確率計算を行っていた。これに対し
て、本実施形態では、出力確率計算部60での処理量を
より削減するために、音素選択部65で選択された選択
音素情報の中で、選択基準により下位に選択された音素
のうち、上位に選択された音素に類似しているものがあ
る場合、下位に選択された音素に関しては出力確率計算
を行わず、類似している上位の音素の出力確率計算結果
を代用するものとする。
In the first embodiment, the output probability calculator 10
However, the output probability calculation is performed using only the phoneme information stored in the selected phoneme information storage unit 16. On the other hand, in the present embodiment, in order to further reduce the amount of processing in the output probability calculation unit 60, in the selected phoneme information selected by the phoneme selection unit 65, the phoneme selected lower by the selection criterion. If there is a phoneme that is similar to the upper selected phoneme, the output probability calculation is not performed for the lower selected phoneme, and the output probability calculation result of the similar upper phoneme is used instead. And

【0080】ここで、図14のフローチャートを参照し
て、出力確率計算部60の処理の流れを説明する。出力
確率計算部60は、時刻tの特徴パラメータytと、選
択音素情報格納部66の音素情報とを入力する(ステッ
プS41,S42)。そして、出力確率計算部60は、
選択された音素Hpの中に、類似音素Hqが存在するか否
かを判別する(ステップS43)。ステップS43の判
別結果がYESであれば、出力確率計算部60は、音素
pの前時刻の音素の方が、類似音素Hqの前時刻の音素
の出力確率よりも高いか否かを判別する(ステップS4
4)。
Here, the flow of processing of the output probability calculation unit 60 will be described with reference to the flowchart of FIG. The output probability calculation unit 60 inputs the characteristic parameter y t at time t and the phoneme information in the selected phoneme information storage unit 66 (steps S41 and S42). Then, the output probability calculation unit 60
It is determined whether or not there is a similar phoneme H q in the selected phonemes H p (step S43). If the decision result in the step S43 is YES, the output probability calculation unit 60 decides whether or not the phoneme at the previous time of the phoneme H p is higher than the output probability of the phoneme at the previous time of the similar phoneme H q. Yes (step S4
4).

【0081】ステップS43の判別結果がNOまたはス
テップS44の判別結果がYESである場合は、b
i p(yt)を算出する(ステップS45)。一方、ステ
ップS43の判別結果がYESであり、かつステップS
44の判別結果がNOである場合、bi q(yt)を算出
せずに、bi q(yt)としてbi p(yt)の値を用いる
(ステップS46)。出力確率計算部60は、以上のス
テップS43〜S46の処理を、すべての音素について
行う。
If the determination result of step S43 is NO or the determination result of step S44 is YES, b
i p (y t ) is calculated (step S45). On the other hand, the determination result of step S43 is YES, and step S43
If 44 of the determined result is NO, without calculating the b i q (y t), using the value of b i p (y t) as b i q (y t) (step S46). The output probability calculation unit 60 performs the above-described processing of steps S43 to S46 for all phonemes.

【0082】例えば、時刻t−1において、音素選択部
65によりHpとHqが選択され、λ p(μ,σ)とλ
q(μ,σ)が選択音素情報格納部66に格納されてい
るとする。但し、Hpの前時刻の音素の方が、Hqの前時
刻の音素より出力確率が高いものとする。時刻tにおい
て出力確率を計算する場合は、類似音素格納部67の情
報により、選択音素情報格納部66に格納されているH
pとHqが類似していることがわかるので、bi p(yt
のみを計算で求め、bi q(yt)≒bi p(yt)とするこ
とにより、bi q(yt)の計算を省略する。この結果、
出力確率計算部での処理量をより削減することが可能と
なる。
For example, at time t-1, the phoneme selection unit
H by 65pAnd HqIs selected, λ p(Μ, σ) and λ
q(Μ, σ) is stored in the selected phoneme information storage unit 66.
Suppose. However, HpThe phoneme at the previous time is HqBefore
It is assumed that the output probability is higher than that of tick phonemes. Smell at time t
If the output probability is calculated by using the
H stored in the selected phoneme information storage unit 66 according to the report.
pAnd HqB are similar to each other, so bi p(Yt)
Only calculated, bi q(Yt) ≒ bi p(Yt)
And by bi q(Yt) Is omitted. As a result,
It is possible to further reduce the amount of processing in the output probability calculator.
Become.

【0083】以上の動作を、具体的な例を用いてさらに
説明する。ここでは、類似音素格納部67に格納されて
いる情報が、図15のとおりであるものとする。また、
図16に、選択音素情報格納部66に格納されている音
素を、前時刻の音素の出力確率が高い順に示す。
The above operation will be further described using a concrete example. Here, it is assumed that the information stored in the similar phoneme storage unit 67 is as shown in FIG. Also,
FIG. 16 shows the phonemes stored in the selected phoneme information storage unit 66 in the descending order of the phoneme output probability at the previous time.

【0084】図15および図16から分かるように、図
16の選択音素情報格納部66に格納されている上位の
音素k-jは、下位の音素k-oと類似している。したがっ
て、音素k-oに関する出力確率を求める時は、計算を行
わずに、音素k-jに関する出力確率を代用することによ
り、出力確率計算部60での計算量をより削減すること
ができる。
As can be seen from FIGS. 15 and 16, the upper phoneme kj stored in the selected phoneme information storage unit 66 of FIG. 16 is similar to the lower phoneme ko. Therefore, when the output probability regarding the phoneme ko is obtained, the output probability regarding the phoneme kj is substituted instead of performing the calculation, so that the calculation amount in the output probability calculating unit 60 can be further reduced.

【0085】以上説明したように、第4の実施形態によ
れば、音素選択部で選択された音素のなかで類似してい
る音素があれば、その上位音素の出力確率計算結果を下
位音素の出力確率に代用することにより、出力確率計算
部での処理量をより削減することが可能となる。
As described above, according to the fourth embodiment, if there is a similar phoneme among the phonemes selected by the phoneme selection unit, the output probability calculation result of the upper phoneme is set as the lower phoneme. By substituting the output probability, it becomes possible to further reduce the processing amount in the output probability calculation unit.

【0086】なお、上述の第1〜第4の実施形態では、
音声認識装置として本発明を実施する例を説明したが、
前述した各部の動作をコンピュータに実行させるプログ
ラムとしても、本発明を実施することが可能である。こ
の場合、このプログラムをコンピュータに読み込んで実
行させることにより、当該コンピュータを本発明にかか
る音声認識装置として動作させることができる。
In the above-mentioned first to fourth embodiments,
An example of implementing the present invention as a voice recognition device has been described.
The present invention can be implemented as a program that causes a computer to execute the operations of the above-described units. In this case, by reading this program into a computer and executing the program, the computer can be operated as the voice recognition device according to the present invention.

【0087】[0087]

【発明の効果】以上のように、本発明は、時刻t+1に
発生すると考えられる音素の音素情報を格納している連
続音素情報格納部を備えることにより、時刻tで出力確
率の高い音素を選択し、その音素の次時刻に発生すると
考えられる音素を抽出して、時刻t+1では抽出された
音素のみに対して出力確率計算を行う。これにより、大
語彙音声認識において音素数が増加した場合において
も、出力確率計算部の処理量の増加を削減することが可
能となり、フレーム長内での実時間の認識処理の実現が
可能となる。
As described above, according to the present invention, by providing the continuous phoneme information storage unit that stores the phoneme information of the phonemes considered to occur at time t + 1, the phoneme having a high output probability is selected at time t. Then, the phoneme that is considered to occur at the next time of the phoneme is extracted, and at time t + 1, the output probability is calculated only for the extracted phoneme. As a result, even when the number of phonemes increases in large vocabulary speech recognition, it is possible to reduce the increase in the processing amount of the output probability calculation unit, and it is possible to realize real-time recognition processing within the frame length. .

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の第1の実施形態に係る音声認識装置
の構成を示すブロック図
FIG. 1 is a block diagram showing a configuration of a voice recognition device according to a first embodiment of the present invention.

【図2】 第1の実施形態に係る音素選択部の動作の一
例(パターン1)を示すフローチャート
FIG. 2 is a flowchart showing an example (pattern 1) of the operation of the phoneme selection unit according to the first embodiment.

【図3】 第1の実施形態に係る音素選択部の動作の他
の例(パターン2)を示すフローチャート
FIG. 3 is a flowchart showing another example (Pattern 2) of the operation of the phoneme selection unit according to the first embodiment.

【図4】 連続音素情報格納部に格納されている連続音
素情報の一例を示す説明図
FIG. 4 is an explanatory diagram showing an example of continuous phoneme information stored in a continuous phoneme information storage unit.

【図5】 音素silに関する連続音素情報の一例を示す
説明図
FIG. 5 is an explanatory diagram showing an example of continuous phoneme information regarding a phoneme sil.

【図6】 音素sil-kに関する連続音素情報の一例を示
す説明図
FIG. 6 is an explanatory diagram showing an example of continuous phoneme information about phoneme sil-k.

【図7】 音素sil-Toに関する連続音素情報の一例を示
す説明図
FIG. 7 is an explanatory diagram showing an example of continuous phoneme information about phoneme sil-To.

【図8】 本発明の第2の実施形態に係る音声認識装置
の構成を示すブロック図
FIG. 8 is a block diagram showing a configuration of a voice recognition device according to a second embodiment of the present invention.

【図9】 第2の実施形態に係る連続音素情報最適化部
の動作を示すフローチャート
FIG. 9 is a flowchart showing the operation of the continuous phoneme information optimizing unit according to the second embodiment.

【図10】 表2に示す単語辞書と連続音素情報最適化
部により最適化された音素sil-kに関する連続音素情報
の一例を示す説明図
FIG. 10 is an explanatory diagram showing an example of continuous phoneme information regarding a phoneme sil-k optimized by the word dictionary and the continuous phoneme information optimizing unit shown in Table 2.

【図11】 本発明の第3の実施形態に係る音声認識装
置の構成を示すブロック図
FIG. 11 is a block diagram showing a configuration of a voice recognition device according to a third embodiment of the present invention.

【図12】 第3の実施形態に係る音素選択部の動作を
示すフローチャート
FIG. 12 is a flowchart showing the operation of the phoneme selection unit according to the third embodiment.

【図13】 本発明の第4の実施形態に係る音声認識装
置の構成を示すブロック図
FIG. 13 is a block diagram showing the configuration of a voice recognition device according to a fourth embodiment of the present invention.

【図14】 第4の実施形態に係る出力確率部の動作を
示すフローチャート
FIG. 14 is a flowchart showing the operation of the output probability section according to the fourth embodiment.

【図15】 第4の実施形態に係る類似音素格納部に格
納されている情報の例を示す説明図
FIG. 15 is an explanatory diagram showing an example of information stored in a similar phoneme storage unit according to the fourth embodiment.

【図16】 第4の実施形態に係る選択音素情報格納部
に格納されている音素を、前時刻の音素の出力確率が高
い順に示す説明図
FIG. 16 is an explanatory diagram showing phonemes stored in the selected phoneme information storage unit according to the fourth embodiment in the order of higher output probability of phonemes at the previous time.

【図17】 音声認識装置の従来の構成例を示すブロッ
ク図
FIG. 17 is a block diagram showing a conventional configuration example of a voice recognition device.

【符号の説明】[Explanation of symbols]

10、20、40、50、60 出力確率計算部 11、21、41、51、61 音素情報格納部 12、22、42、52、62 マッチング部 13、23、43、53、63 単語辞書 14、44、54、64 連続音素情報格納脳 15、45、55、65 音素選択部 16、46、56、66 選択音素情報格納部 47 連続音素情報最適化部 67 類似音素格納部 10, 20, 40, 50, 60 Output probability calculator 11, 21, 41, 51, 61 Phoneme information storage unit 12, 22, 42, 52, 62 Matching unit 13, 23, 43, 53, 63 word dictionary 14, 44, 54, 64 Continuous phoneme information storage brain 15, 45, 55, 65 Phoneme selection section 16, 46, 56, 66 Selected phoneme information storage unit 47 Continuous phoneme information optimization unit 67 Similar Phoneme Storage

Claims (14)

【特許請求の範囲】[Claims] 【請求項1】 隠れマルコフモデルを用いた音声認識装
置であって、 すべての音素に関してフレーム長毎の音声の特徴パラメ
ータを隠れマルコフモデルとして保持する音素情報格納
手段と、 前記音素情報格納手段に保持されている隠れマルコフモ
デルと、フレーム長毎の入力音声の特徴パラメータか
ら、当該フレームでの各音素の出力確率を計算する出力
確率計算手段と、 現フレームの音素と次フレームに発生すると考えられる
音素との関係を保持する連続音素情報格納手段と、 選択音素情報格納手段と、 前記出力確率計算手段で算出された出力確率と、前記連
続音素情報格納手段の連続音素情報とに基づき、次フレ
ームで発生すると考えられる音素に関する音素情報のみ
を前記音素情報格納手段から選択し、前記選択音素情報
格納手段に格納する音素選択手段と、 各認識単語の音素系列を保持した単語辞書格納手段と、 前記出力確率計算手段で計算された出力確率を、前記単
語辞書をもとに単語毎に累積するマッチング手段とを備
えたことを特徴とする音声認識装置。
1. A speech recognition apparatus using a hidden Markov model, comprising: phoneme information storage means for retaining, as a hidden Markov model, feature parameters of speech for each frame length for all phonemes; and retained in the phoneme information storage means. An output probability calculation unit that calculates the output probability of each phoneme in the frame from the hidden Markov model that is being used and the feature parameters of the input speech for each frame length, and the phoneme of the current frame and the phoneme that is considered to occur in the next frame. Based on the continuous phoneme information storage unit that holds the relationship with the selected phoneme information storage unit, the output probability calculated by the output probability calculation unit, and the continuous phoneme information of the continuous phoneme information storage unit, in the next frame. Only phoneme information relating to a phoneme that is considered to occur is selected from the phoneme information storage means, and stored in the selected phoneme information storage means. A phoneme selection unit to be stored, a word dictionary storage unit that holds a phoneme sequence of each recognized word, and a matching unit that accumulates the output probability calculated by the output probability calculation unit for each word based on the word dictionary. A voice recognition device comprising:
【請求項2】 前記音素選択手段は、前記出力確率計算
手段で算出された出力確率を値の大きい順に並び替え、
その中の上位の所定の個数の音素を選択し、現フレーム
がその音素である場合に次フレームで発生すると考えら
れる音素を前記連続音素情報格納手段の連続音素情報を
もとに選択する、請求項1記載の音声認識装置。
2. The phoneme selection unit sorts the output probabilities calculated by the output probability calculation unit in descending order of value,
Selecting a predetermined number of phonemes in the upper order among them, and selecting a phoneme that is considered to occur in the next frame when the current frame is that phoneme based on the continuous phoneme information of the continuous phoneme information storage means; Item 1. A voice recognition device according to item 1.
【請求項3】 前記音素選択手段は、前記出力確率計算
手段で算出された出力確率に所定のしきい値を設け、前
記出力確率が前記しきい値を超えている音素を選択し、
現フレームがその音素である場合に次フレームで発生す
ると考えられる音素を前記連続音素情報格納手段の連続
音素情報をもとに選択する、請求項1記載の音声認識装
置。
3. The phoneme selecting means provides a predetermined threshold value to the output probability calculated by the output probability calculating means, and selects a phoneme whose output probability exceeds the threshold value.
2. The speech recognition device according to claim 1, wherein a phoneme that is considered to be generated in the next frame when the current frame is the phoneme is selected based on the continuous phoneme information in the continuous phoneme information storage means.
【請求項4】 前記連続音素情報格納手段の連続音素情
報のうち、連続的に発生することがないと見なされる音
素の関係を、前記単語辞書格納手段の前記音素系列に基
づいてあらかじめ削除する連続音素情報最適化手段を備
えた、請求項1〜3のいずれか一項に記載の音声認識装
置。
4. A continuous deletion of phoneme relationships that are considered not to occur continuously among the continuous phoneme information stored in the continuous phoneme information storage means based on the phoneme series stored in the word dictionary storage means. The voice recognition device according to claim 1, further comprising a phoneme information optimization unit.
【請求項5】 前記音素選択手段は、前記出力確率計算
手段で算出された出力確率と前記連続音素情報に加え
て、前記マッチング手段で求められた単語毎の累積確率
を参照し、前記出力確率を基準とした場合に選択対象と
ならない音素について、前記累積確率を基準とした場合
に現フレームの音素である可能性が高いと見なされる場
合には当該音素を選択する、請求項1〜3のいずれか一
項に記載の音声認識装置。
5. The phoneme selection unit refers to the cumulative probability of each word obtained by the matching unit, in addition to the output probability calculated by the output probability calculation unit and the continuous phoneme information, and the output probability. Regarding a phoneme that is not a selection target when the reference is based on, the phoneme is selected if it is considered that the phoneme of the current frame is highly likely when based on the cumulative probability. The voice recognition device according to any one of claims.
【請求項6】 類似音素を格納する類似音素格納手段を
さらに備え、 前記出力確率計算手段は、前期類似音素を入力し、前記
音素選択手段において選択された音素のうち、選択基準
の充足度に関してより下位に属する第1の音素がより上
位に属する第2の音素に類似している場合は、前記第1
の音素については出力確率計算を行わずに前記第2の音
素について算出した出力確率を用いる、請求項1〜3の
いずれか一項に記載の音声認識装置。
6. A similar phoneme storage means for storing similar phonemes is further provided, wherein the output probability calculation means inputs a similar phoneme in the previous period, and regarding the satisfaction degree of the selection criterion among the phonemes selected by the phoneme selection means. If the lower first phoneme is similar to the higher second phoneme, then the first
4. The speech recognition apparatus according to claim 1, wherein the output probability calculated for the second phoneme is used for the phoneme of No. 1 without using the output probability calculation.
【請求項7】 前記音素情報格納手段に格納されている
前記隠れマルコフモデルは、類似している音素の状態が
共有化されている、請求項1〜6のいずれか一項に記載
の音声認識装置。
7. The speech recognition according to claim 1, wherein the hidden Markov models stored in the phoneme information storage unit share common phoneme states. apparatus.
【請求項8】 すべての音素に関してフレーム長毎の音
声の特徴パラメータを隠れマルコフモデルとして保持す
る音素情報格納手段と、 現フレームの音素と次フレームに発生すると考えられる
音素との関係を保持する連続音素情報格納手段と、 選択音素情報格納手段と、 各認識単語の音素系列を保持した単語辞書格納手段を利
用可能なコンピュータに読み込まれ、 前記音素情報格納手段に保持されている隠れマルコフモ
デルと、フレーム長毎の入力音声の特徴パラメータか
ら、当該フレームでの各音素の出力確率を計算する出力
確率計算処理と、 前記出力確率計算処理で算出された出力確率と、前記連
続音素情報格納手段の連続音素情報とに基づき、次フレ
ームで発生すると考えられる音素に関する音素情報のみ
を前記音素情報格納手段から選択し、前記選択音素情報
格納手段に格納する音素選択処理と、 前記出力確率計算処理で計算された出力確率を、前記単
語辞書をもとに単語毎に累積するマッチング処理とを前
記コンピュータに実行させることを特徴とする音声認識
プログラム。
8. A phoneme information storage unit that holds a feature parameter of speech for each frame length as a hidden Markov model for all phonemes, and a continuation that holds the relationship between the phoneme of the current frame and the phoneme considered to occur in the next frame. A phoneme information storage unit, a selected phoneme information storage unit, and a hidden Markov model stored in the phoneme information storage unit, which is read by a computer that can use a word dictionary storage unit that holds a phoneme sequence of each recognized word, From the characteristic parameters of the input speech for each frame length, the output probability calculation process of calculating the output probability of each phoneme in the frame, the output probability calculated by the output probability calculation process, the continuation of the continuous phoneme information storage means Based on the phoneme information, only the phoneme information regarding the phoneme considered to be generated in the next frame is stored in the phoneme information storage means. A phoneme selection process of selecting and storing in the selected phoneme information storage unit, and a matching process of accumulating the output probability calculated by the output probability calculation process for each word based on the word dictionary are executed on the computer. A voice recognition program characterized by:
【請求項9】 前記音素選択処理は、前記出力確率計算
処理で算出された出力確率を値の大きい順に並び替え、
その中の上位の所定の個数の音素を選択し、現フレーム
がその音素である場合に次フレームで発生すると考えら
れる音素を前記連続音素情報格納手段の連続音素情報を
もとに選択する処理である、請求項8記載の音声認識プ
ログラム。
9. The phoneme selection process sorts the output probabilities calculated by the output probability calculation process in descending order of value,
In the process of selecting a predetermined number of upper phonemes among them, and selecting a phoneme that is considered to occur in the next frame when the current frame is that phoneme based on the continuous phoneme information of the continuous phoneme information storage means. The voice recognition program according to claim 8, which is provided.
【請求項10】 前記音素選択処理は、前記出力確率計
算処理で算出された出力確率に所定のしきい値を設け、
前記出力確率が前記しきい値を超えている音素を選択
し、現フレームがその音素である場合に次フレームで発
生すると考えられる音素を前記連続音素情報格納手段の
連続音素情報をもとに選択する処理である、請求項8記
載の音声認識プログラム。
10. The phoneme selection process provides a predetermined threshold value to the output probability calculated by the output probability calculation process,
A phoneme whose output probability exceeds the threshold value is selected, and a phoneme considered to be generated in the next frame when the current frame is the phoneme is selected based on the continuous phoneme information of the continuous phoneme information storage means. The speech recognition program according to claim 8, which is a process for performing.
【請求項11】 前記連続音素情報格納手段の連続音素
情報のうち、連続的に発生することがないと見なされる
音素の関係を、前記単語辞書格納手段の前記音素系列に
基づいてあらかじめ削除する連続音素情報最適化処理
を、前記コンピュータにさらに実行させる、請求項8〜
10のいずれか一項に記載の音声認識プログラム。
11. A continuous deletion of phoneme relations, which are considered not to occur continuously, among the continuous phoneme information stored in the continuous phoneme information storage means based on the phoneme sequence stored in the word dictionary storage means. The phoneme information optimizing process is further executed by the computer.
10. The voice recognition program according to any one of 10.
【請求項12】 前記音素選択処理は、前記出力確率計
算処理で算出された出力確率と前記連続音素情報に加え
て、前記マッチング処理で求められた単語毎の累積確率
を参照し、前記出力確率を基準とした場合に選択対象と
ならない音素について、前記累積確率を基準とした場合
に現フレームの音素である可能性が高いと見なされる場
合には当該音素を選択する処理である、請求項8〜10
のいずれか一項に記載の音声認識プログラム。
12. The phoneme selection process refers to the cumulative probability of each word obtained by the matching process in addition to the output probability calculated by the output probability calculation process and the continuous phoneme information, and the output probability The process of selecting a phoneme that is not a selection target based on the above, when it is considered that there is a high possibility that the phoneme is the current frame based on the cumulative probability. -10
The speech recognition program according to any one of 1.
【請求項13】 前記コンピュータが、さらに、類似音
素を格納する類似音素格納手段を利用可能であり、 前記出力確率計算処理は、前期類似音素を入力し、前記
音素選択処理において選択された音素のうち、選択基準
の充足度に関してより下位に属する第1の音素がより上
位に属する第2の音素に類似している場合は、前記第1
の音素については出力確率計算を行わずに前記第2の音
素について算出した出力確率を用いる処理である、請求
項8〜10のいずれか一項に記載の音声認識プログラ
ム。
13. The computer can further utilize a similar phoneme storage means for storing a similar phoneme, wherein the output probability calculation process inputs a similar phoneme in the previous period, and outputs the phoneme selected in the phoneme selection process. Among them, if the first phoneme belonging to the lower rank with respect to the satisfaction degree of the selection criterion is similar to the second phoneme belonging to the higher rank, the first phoneme
The speech recognition program according to any one of claims 8 to 10, which is a process of using the output probability calculated for the second phoneme without performing the output probability calculation for the phoneme of.
【請求項14】 前記コンピュータは、類似している音
素の状態が共有化されている隠れマルコフモデルを、前
記音素情報格納手段に格納された隠れマルコフモデルと
して参照する、請求項8〜13のいずれか一項に記載の
音声認識プログラム。
14. The computer according to claim 8, wherein the computer refers to a hidden Markov model in which similar phoneme states are shared as a hidden Markov model stored in the phoneme information storage means. The speech recognition program according to claim 1.
JP2001187042A 2001-06-20 2001-06-20 Speech recognition device and speech recognition program Withdrawn JP2003005787A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001187042A JP2003005787A (en) 2001-06-20 2001-06-20 Speech recognition device and speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001187042A JP2003005787A (en) 2001-06-20 2001-06-20 Speech recognition device and speech recognition program

Publications (1)

Publication Number Publication Date
JP2003005787A true JP2003005787A (en) 2003-01-08

Family

ID=19026398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001187042A Withdrawn JP2003005787A (en) 2001-06-20 2001-06-20 Speech recognition device and speech recognition program

Country Status (1)

Country Link
JP (1) JP2003005787A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011027A (en) * 2005-06-30 2007-01-18 Canon Inc Speech recognition method and speech recognition apparatus
KR100908444B1 (en) 2006-12-05 2009-07-21 한국전자통신연구원 Continuous Speech Recognition Apparatus and Method Using Phoneme Recognition Based Search Space Limitation
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
CN115101064A (en) * 2022-07-20 2022-09-23 安克创新科技股份有限公司 Instruction word recognition method and device, electronic equipment and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011027A (en) * 2005-06-30 2007-01-18 Canon Inc Speech recognition method and speech recognition apparatus
KR100908444B1 (en) 2006-12-05 2009-07-21 한국전자통신연구원 Continuous Speech Recognition Apparatus and Method Using Phoneme Recognition Based Search Space Limitation
US8032374B2 (en) 2006-12-05 2011-10-04 Electronics And Telecommunications Research Institute Method and apparatus for recognizing continuous speech using search space restriction based on phoneme recognition
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system
CN115101064A (en) * 2022-07-20 2022-09-23 安克创新科技股份有限公司 Instruction word recognition method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
JP3581401B2 (en) Voice recognition method
CN112102815B (en) Speech recognition method, speech recognition device, computer equipment and storage medium
US6266634B1 (en) Method and apparatus for generating deterministic approximate weighted finite-state automata
US7292976B1 (en) Active learning process for spoken dialog systems
EP1241661A1 (en) Speech recognition apparatus
JP2015121707A (en) Decoder, decoding method, and program
CN112951211A (en) Voice awakening method and device
JP2002215187A (en) Voice recognition method and apparatus
JP2003005787A (en) Speech recognition device and speech recognition program
KR100321463B1 (en) Method of selectively assigning a penalty to a probability associated with a voice recognition system
US20030110032A1 (en) Fast search in speech recognition
JPH10187181A (en) Voice recognition device
JP4298672B2 (en) Method and apparatus for calculating output probability of state of mixed distribution HMM
US6631349B1 (en) Speech recognition method and system
JP2996925B2 (en) Phoneme boundary detection device and speech recognition device
JP3315565B2 (en) Voice recognition device
JP3873418B2 (en) Voice spotting device
JPH11202886A (en) Speech recognition device, word recognition device, word recognition method, and storage medium storing word recognition program
JP3439700B2 (en) Acoustic model learning device, acoustic model conversion device, and speech recognition device
JP4292191B2 (en) Segment-connected speech synthesizer and computer program
JPH07261786A (en) Continuous voice recognition method and device
JPH08297499A (en) Voice speed conversion control device and voice speed conversion control method
JP5148543B2 (en) Text input device with personal adaptation function
JP3100208B2 (en) Voice recognition device
WO2002067245A1 (en) Speaker verification

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080902