KR101113770B1 - The same speaker's voice to change the algorithm for speech recognition error rate reduction - Google Patents
The same speaker's voice to change the algorithm for speech recognition error rate reduction Download PDFInfo
- Publication number
- KR101113770B1 KR101113770B1 KR1020090131971A KR20090131971A KR101113770B1 KR 101113770 B1 KR101113770 B1 KR 101113770B1 KR 1020090131971 A KR1020090131971 A KR 1020090131971A KR 20090131971 A KR20090131971 A KR 20090131971A KR 101113770 B1 KR101113770 B1 KR 101113770B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- speech
- voice
- distribution
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 38
- 230000009467 reduction Effects 0.000 title claims abstract description 13
- 238000009826 distribution Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012706 support-vector machine Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000513 principal component analysis Methods 0.000 abstract 1
- 230000001419 dependent effect Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 241000219094 Vitaceae Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 235000021021 grapes Nutrition 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것으로, 다수의 화자들로부터 여러번 발회된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰값의 가중치를 부여하고 음성분포도가 작을 경우, 작은값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계 이루어진다.The present invention relates to a speaker recognition method using a voice recognition error rate reduction algorithm for the voice change of the same speaker, to obtain a voice that has been multiple times from a plurality of speakers to classify the voice according to each speaker and to the corresponding speakers If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model in the analysis step and the speech distribution diagram based on the support vector machine model, a large weight is assigned. If the speech distribution is small, the weighting step of assigning a small weight to obtain the slope according to the speech distribution and the weighting value of each speaker by calculating the weight value according to the speech distribution of each speaker are all equal. Apply a eigenvalue to each speaker so that it is a value. An individual change amount calculation step of obtaining a change amount of the component eigenvalues, and an application step of applying the main component eigenvalue change amount for each speaker obtained in the individual change amount calculation step to the speaker's training or recognition process.
본 발명은 각각의 화자들로부터 발화된 음성을 인식할 때, 각각의 화자들로부터 발화된 음성을 각각 고차원의 벡터를 이용하여 분류하고 분류된 음성분포도를 파악하여 각각의 화자들에게 개별적인 가중치를 부여한 후, 개별적으로 화자들에게 부여한 가중치를 모두 동일한 값이 되도록 별도의 고유치를 부여하여 각각의 화자들의 음성의 특성을 찾아내고 음성인식의 오차율을 줄일 수 있는 장점이 있다.The present invention classifies speech spoken by each speaker using high-dimensional vectors and grasps the classified speech distribution to give each speaker an individual weight. After that, the weights assigned to the speakers are individually assigned to the same eigenvalues so that each speaker's voice can be found and the error rate of speech recognition can be reduced.
음성인식, 고유분석, 고유치, 고유치변화량, 주성분분석 Speech Recognition, Eigen Analysis, Eigen Value, Eigen Value Variation, Principal Component Analysis
Description
본 발명은 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것으로, 보다 구체적으로는 다양한 화자들에게서부터 기본음성을 제작하거나 음성인식을 하기 위해 입력되는 음성을 인식할 때, 각각의 화자에게서 발화된 음성에 따라 음성의 정보량을 분석하여 세션변화모델을 생성할 때, 화자별 각각의 가중치를 다르게 부여하여 음성인식의 오차율을 줄이고 각각의 화자들에 대한 최적의 음성을 획득할 수 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것이다.The present invention relates to a speaker recognition method using a speech recognition error rate reduction algorithm for the voice change of the same speaker, and more particularly, when recognizing the input voice to make a basic voice or speech recognition from various speakers, When generating a session change model by analyzing the amount of information of speech according to the speech spoken by each speaker, it is possible to reduce the error rate of speech recognition by obtaining different weights for each speaker and obtain an optimal speech for each speaker. The present invention relates to a speaker recognition method using a speech recognition error rate reduction algorithm for the voice change of the same speaker.
일반적으로 화자들로부터 음성인식을 수행할 때, 음성인식의 오차율은 화자로부터 발화된 음성을 입력받는 장치(마이크, 전화 등)나 주위환경과 같은 외부환경에 따라 화자들로부터 발화된 음성에 노이즈가 섞이게 되면서 음성인식의 오차율 이 발생하게 된다.In general, when speech recognition is performed from the speakers, the error rate of the speech recognition is that noise is generated from the speech produced by the speakers according to the external environment such as a device (microphone, telephone, etc.) receiving the spoken speech from the speaker or the surrounding environment. As it is mixed, an error rate of speech recognition occurs.
그래서, 외부환경으로부터 발생되는 오차율을 줄이기 위해 화자들로부터 발화된 음성에서 노이즈를 제거하기 위해 다양한 형태의 필터를 사용하거나 화자들로부터 발화된 음성을 분석하여 일정한 음성분포도를 기준을 설정하여 일정한 음성분포도 이상을 차지하는 화자들을 모두 동일한 가중치를 일정하게 적용하고, 일정한 음성분포도 이하를 차지하는 화자들도 동일한 가중치를 적용하여 음성인식의 오차율을 줄이고자 하였다.Therefore, in order to reduce the error rate generated from the external environment, various types of filters are used to remove noise from the speech spoken by the speakers, or the speech distribution diagram is set by analyzing the speech spoken by the speakers and setting a constant speech distribution diagram. All the speakers occupying the above apply the same weight uniformly, and the speakers occupying less than the constant speech distribution apply the same weight to reduce the error rate of speech recognition.
하지만, 상기와 같이 외부환경에 따라 인식되는 음성의 오차율을 줄일 수는 있었으나 화자들을 분류할 때, 화자들의 음성분포도에 기준을 두어 음성분포도가 넓은 화자들과 음성분포도가 낮은 화자들로만 분류하여 두 부류에 속한 모든 화자들에게 각각 동일한 가중치를 부여하게 되면, 각각의 화자들의 상태에 따라 변환되는 음성의 상태를 정확하게 획득하지 못하는 문제점이 있었다.However, although the error rate of speech recognized according to the external environment can be reduced as described above, when classifying speakers, the two categories are classified into only those with a wide speech distribution and those with a low speech distribution based on the speech distribution of the speakers. When all speakers belonging to the same weight are given to each other, there is a problem in that the state of the voice that is converted according to the state of each speaker cannot be obtained correctly.
예를 들어, 동일한 화자가 동일한 장치로 음성을 입력하더라도 화자의 건강상태 등과 같이 회부환경이 아닌 화자들의 건강상태와 같이 내부환경으로 인한 음성분포도에 따라 각각의 화자들에게 개별적인 가중치를 부여하지 못하여 각각의 화자들에 대한 음성을 정확하게 측정하지 못하여 화자들에 대한 음성인식의 오차율이 발생하였다.For example, even if the same speaker inputs the voice to the same device, each speaker cannot be individually weighted according to the voice distribution due to the internal environment such as the health status of the speaker rather than the health condition of the speaker. The error rate of the speech recognition for the speakers occurred because the speech for the speakers was not measured accurately.
본 발명의 화자인식방법에 이용하는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘은 다수의 화자들로부터 여러 번 발화된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰값의 가중치를 부여하고 음성분포도가 작을 경우, 작은값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계로 이루어진다.The voice recognition error reduction algorithm for the voice change of the same speaker used in the speaker recognition method of the present invention obtains the voices uttered several times from a plurality of speakers, classifies the voices according to the corresponding speakers, and distributes the voices to the corresponding speakers. If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model based on the support vector machine model based on the support vector machine model, the weight is given a large value and the speech distribution map If is small, the weighting step of calculating the slope according to the speech distribution and giving the weight of the small value, and the weight value assigned to each speaker by calculating the weight value according to the speech distribution of each speaker, Apply the eigenvalues to each speaker as much as possible so that the principal component And individual variation calculation step of obtaining an amount of change, is made the main component eigenvalues change amount for each of the speaker determined by the individual variation amount calculation step to the application step of applying the training or recognition of the speaker.
상기에서 살펴본 바와 같이 본 발명은 각각의 화자들로부터 발화된 음성을 인식할 때, 각각의 화자들로부터 발화된 음성을 각각 고차원의 벡터를 이용하여 분류하고 분류된 음성분포도를 파악하여 각각의 화자들에게 개별적인 가중치를 부여한 후, 개별적으로 화자들에게 부여한 가중치를 모두 동일한 값이 되도록 별도의 고유치를 부여하여 각각의 화자들의 음성의 특성을 찾아내고 음성인식의 오차율을 줄일 수 있는 장점이 있다.As described above, the present invention classifies speech spoken from each speaker by using a high-dimensional vector and grasps the classified speech distribution from each speaker. After assigning the individual weights to the individual weights, the weights assigned to the speakers are individually assigned to the same eigenvalue so that all of the characteristics of the speech of each speaker can be found and the error rate of speech recognition can be reduced.
그리고, 상기와 같은 방법으로 각각의 화자들에 개별적인 고유치값을 부여함으로써, 화자들의 신체상태에 따라 변화되는 미세한 음성의 차이를 확인하여 음성인식의 오차율을 줄일 수 있는 장점이 있다.In addition, by giving an individual eigenvalue to each speaker in the same manner as described above, there is an advantage that the error rate of speech recognition can be reduced by checking the difference of the minute voice that changes according to the speaker's physical state.
상기와 같은 목적을 달성하기 위한 본 발명의 화자인식방법에서 이용하는, 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘의 구성을 살펴보면 다음과 같다.Looking at the configuration of the speech recognition error rate reduction algorithm for the voice change of the same speaker, used in the speaker recognition method of the present invention for achieving the above object as follows.
이하, 첨부된 도면에 의거하여 본 발명의 구성을 상세히 설명하도록 한다.Hereinafter, the configuration of the present invention will be described in detail with reference to the accompanying drawings.
본 발명에 이용하는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘은 다수의 화자들로부터 여러 번 발화된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰 값의 가중치를 부여하고 음성분포도가 작을 경우, 작은 값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계 이루어진다.The voice recognition error reduction algorithm for the voice change of the same speaker used in the present invention obtains the uttered voices from a plurality of speakers, classifies the voices according to the corresponding speakers, and supports the voice distribution for the corresponding speakers. If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model based in the analysis step and the analysis based on the model-based, the weighting of a large value and the speech distribution is small The weighting step of calculating the slope according to the speech distribution and giving the weight of the small value and calculating the value of the weight according to the speech distribution of each speaker so that the weights assigned to each speaker are equal to each other Apply the eigenvalues to the speakers to determine the amount of change in the principal component eigenvalues for each speaker. And individual variation calculation step of, is made applying step of applying the principal component eigenvalues change amount for each of the speakers calculated by the change amount calculating step to the individual training or recognition of the speaker.
여기서, 상기 분석단계는 각각의 화자들의 음성분포도를 고유치분석에 따라 각각의 화자들의 샘플이 차지하는 방향벡터를 구한 후, 그 방향벡터에 대한 샘플들 간의 거리를 파악하고 그 평균의 기울기를 구하도록 하며, 상기 분석단계에서 각각의 화자들에 의해 발화된 음성의 분포도는
에 의해 구해지도록 하고, 상기 개별변화량연산단계에서 각각의 화자들의 주성분 고유치의 변화량(αs)은
에 의해 구해지게 된다.Here, the analyzing step is to obtain the direction vector occupied by the samples of each speaker according to the eigenvalue analysis of the speech distribution of each speaker, then to determine the distance between the samples for the direction vector and the slope of the average , The distribution of speech spoken by each speaker in the analysis step is
The change amount (α s ) of the principal component eigenvalue of each speaker in the individual change amount calculation step is calculated by
It is saved by.
덧붙여, 상기 적용단계는 주성분 고유치의 변화량에 의해 연상된 가중치를 통해 각각의 화자들의 음성변화는
에 의해 구해지도록 한다.In addition, in the applying step, the change in the voice of each speaker through the weight associated with the change in the principal component eigenvalue
To be obtained.
상기와 같은 구성을 가진 본 발명의 바람직한 실시 예에 따른 작용을 살펴보면 다음과 같다.Looking at the operation according to a preferred embodiment of the present invention having the configuration as described above are as follows.
먼저, 다수의 화자들로부터 여러번 발화된 음성을 획득하여 획득한 음성을 각각 해당 화자들에 맞추어 분류하여, 발화된 음성에 대한 음성분포도를 서포트벡터머신을 이용하여 분석한다.First, voices obtained by obtaining multiple spoken voices from a plurality of speakers are classified according to the respective speakers, and a speech distribution diagram of the spoken voices is analyzed using a support vector machine.
이를 상세히 설명하면, 상기 서포트벡터머신(support vector machine : SVM)은 통계 분류와 회귀분석(통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다)을 쓰는, 지도 학습 방법을 가리키는 말로, 이는 커널 트릭을 써서 비선형 분류 문제에 선형 분류의 테크닉을 적용하는 것이다.In detail, the support vector machine (SVM) is a linear relational expression which is a mathematical model according to the causal relationship between independent and dependent variables for the continuous variables observed in statistical classification and regression analysis (statistics). To predict a dependent variable given an independent variable, which is an analytical method to measure the goodness-of-fit to determine how well this mathematical model describes it. Kernel tricks apply linear classification techniques to nonlinear classification problems.
또한, 현재 알려져 있는 많은 수법 중에서 가장 인식 성능이 뛰어난 학습 모델의 하나로써, 선형 문턱 소자를 이용하고, 2 클래스의 패턴 식별기를 구성하는 수법이다. In addition, as one of the most recognizable learning models among many known methods, a linear threshold element is used and a two-class pattern identifier is constructed.
이는, 각각의 화자들의 음성분포도에 대한 특성(응집성과와 방향성)을 파악하여 그에 대한 특징(각각의 화자들의 분포된 음성 : 수많은 작은 벡터를 연결하여 하나의 고차원적인 벡터화를 시킨 것)으로 추출하는 것이다.This is to grasp the characteristics (aggregation and direction) of each speaker's speech distribution map and extract it as a feature (distributed speech of each speaker: connecting a large number of small vectors into one high-dimensional vectorization). will be.
여기서, 화자들의 음성분포도를 다음의 수학식을 이용하여 연산하도록 한다.Here, the speaker's speech distribution is calculated using the following equation.
[수학식 1][Equation 1]
상기와 같은 수식은 같은 화자들에게서 여러번 발화된 음성간의 거리(음성분포도)를 측정하는 것이다. The above equation is to measure the distance (sound component grapes) between the voices spoken many times from the same speakers.
위 식에서,
s는 화자 인덱스(index),
k는 화자들로부터 발화된 음성(session) 인덱스,
msk는 각 발화(session)들의 GMM spervector(공간분포도),
μ는 각 클래스(한 화자에 속한 session들)의 평균벡터값,
ns는 s번째 화자가 가지고 있는 음성(session)의 수,
μs는 s번째 화자의 평균 샘플값,
괄호로 묶인 부분은 샘플의 공분산행렬(covariance matrix),
Us는 고유벡터(eigen vevtor)행렬,
∧s는 고유치(eigen value)행렬이다.
Λ=(λ1,λ2 , ,......λn) 이고, λn는 고유치이다.
위 식을 이용하여, 화자들로부터 발화된 음성을 모든 값이 0이 아닌 일정한 특정값을 가지는 특유벡터값을 구하게 되는 것이다. In the above equation,
s is the speaker index,
k is the session index spoken from the speakers,
m sk is the GMM spervector (spatial distribution) of each session,
μ is the average vector of each class (sessions belonging to one speaker),
n s is the number of sessions held by the sth speaker,
μ s is the average sample value of the s-th speaker,
The parentheses indicate the covariance matrix of the sample,
U s is the eigen vevtor matrix,
S s is an eigen value matrix.
Λ = (λ 1 , λ 2 , ......... λ n ), and λ n is an eigenvalue.
Using the above equation, the speech spoken by the speakers is used to find a unique vector value where all values have a certain value other than zero.
그러면, 도 1과 같이 다수의 화자들로부터 다양한 음성분포도를 얻을 수 있게 된다.Then, various voice distributions can be obtained from the plurality of speakers as shown in FIG.
여기서, 화자들로부터 획득한 음성분포도가 일정한 지점에 뭉쳐있을수록 화 자가 일정하게 음성을 발화한 것이다.Here, the more the voice distribution obtained from the speakers is clustered at a certain point, the more the speaker utters the voice.
덧붙여, 일반적으로 화자들의 음성분포도를 구할 때, 음성분포도가 큰 경우는 외부환경(화자들로부터 음성이 입력되는 장치종류 및 화자가 발화하는 장소 등과 같이 외부환경에 의해 노이즈 등이 섞이게 되면서 음성분포도가 크게 나타남)에 의해 크게 나타나게 되고, 음성분포도가 작은 경우는 화자들의 건강상태 등 환자의 내부환경에 따라 조금씩 차이가 나타난다.In addition, generally, when obtaining a voice distribution diagram of a speaker, when the voice distribution degree is large, the voice distribution diagram is mixed with noise by an external environment such as the external environment (type of a device to which the voice is input from the speaker and the place where the speaker speaks). Large), and a small voice distribution is slightly different depending on the internal environment of the patient such as the health of the speakers.
즉, 음성분포도가 크면 클수록 외부환경에 대한 원인으로 가정하고, 음성분포도가 작을 경우, 외부환경의 요인보다는 화자들의 신체상태와 같은 내부환경의 원인으로 가정할 수 있게 되는 것이다.In other words, the larger the voice distribution, the more it is assumed to be the cause of the external environment, and if the voice distribution is smaller, it can be assumed to be the cause of the internal environment such as the physical state of the speaker rather than the factor of the external environment.
상기와 같은 방법으로 각각의 화자들에 대한 음성분포도를 구하고 각각의 화자들에 대한 음성분포도의 벡터값들을 구한 후, 각각의 화자들의 음성분포도에 대해 기울기를 구하도록 한다.In this way, the speech distribution for each speaker is obtained, the vector values of the speech distribution for each speaker are obtained, and then the slope is obtained for the speech distribution of each speaker.
이를 상세히 설명하면, 임의의 s번째의 화자의 고유벡터행렬(∧s)에서 각 고유치를 내림차순이나 오름차순으로 정렬한다. In detail, each eigenvalue is sorted in descending or ascending order in the eigenvector matrix ∧ s of any s-th speaker.
그리고, 해당 화자에게서 발화된 음성의 그룹의 전체의 합에서 평균값을 아래의 수식을 이용하여 구하도록 한다.Then, the average value of the total sum of speech groups spoken by the speaker is calculated using the following equation.
[수학식 2][Equation 2]
수학식 1에서 구한 s번째 화자의 고유벡터 행렬을 ∧s라고 했을 때, 예를 들어 각 고유치를 내림차순으로 전개하여 Λ=(λ1,λ2 , ,......λn), λi >λi+1 라 하고, 각 고유치를 속한 클래스 전체의 고유치 합으로 평균한 것을 라 표현한 것이다.
즉 , 이고,
이다.
When the eigenvector matrix of the s-th speaker obtained from
In other words , ego,
to be.
그러면, 각각의 개별적인 화자들로부터 발화된 음성이 공분산행렬로부터 주성분 고유치(주성분이 원래 변수의 변량에 대해 얼마만큼의 특징을 나타내는 것)의 변화량이나 기울기값을 구하게 된다.(S10)Then, the speech uttered from each individual speaker obtains the amount of change or the slope of the principal component eigenvalue (where the principal component represents some characteristic of the variance of the original variable) from the covariance matrix (S10).
그리고, 도 2에 도시된 바와 같이 상기와 같이 구해진 값을 따라 각각의 해당 화자들에 음성분포도에 대해 가중치를 부여하도록 한다.Then, as shown in FIG. 2, weights of the speech distributions are assigned to respective speakers according to the values obtained as described above.
예를 들어, 상기의 식을 이용하여 얻어진 화자의 음성분포도가 3일 경우, 그에 대응하는 3의 가중치를 부여하고, 음성분포도가 1일 경우 1의 가중치를 부여하도록 한다.For example, if the speaker's voice distribution degree obtained using the above equation is 3, the
상기와 같이 공분산행렬을 이용하여 각각의 화자들의 발화음성의 기울기 등을 구하는 것은 일반적인 사항으로 자세한 설명은 생략하도록 한다.(S20)As described above, it is a general matter to obtain the inclination of speech of each speaker using a covariance matrix, and detailed description thereof will be omitted.
그런 후, 각각의 화자들로부터 구한 가중치가 동일한 값을 가질 수 있도록 각각의 화자들의 가중치에 별도의 고유치를 곱하여 연산하도록 하는데 아래의 수식을 이용하여 구하도록 한다.Then, the weight of each speaker is multiplied by a separate eigenvalue so that the weights obtained from each speaker have the same value.
[수학식 3]&Quot; (3) "
예를 들어, 1번의 화자는 4의 가중치를, 2번의 화자에게는 2의 가중치를 3의 화자에게는 1의 가중치를 부여하면, 1번의 화자에게는 0.25의 고유치를, 2번의 화자에게는 0.5의 고유치를 3번의 화자에게는 1의 고유치를 부여하도록 한다.For example, if one speaker has a weight of 4, two speakers have a weight of 2, and three speakers have a weight of 1, one speaker has a 0.25 eigenvalue and two speakers have a eigenvalue of 3 Gives 1 speaker an eigenvalue.
여기서, 각각의 화자들에게 부여된 가중치는 음성분포도가 클 경우, 큰 가중치를 부여하는데 가중치가 크면 클수록, 해당 화자의 음성이 일정하지 않고 분산되어 있어 그에 따라 화자의 음성특징이 제대로 파악되지 않기 때문에, 음성분포도가 가장 낮은 화자를 기준으로 하기 위한 것이다.Here, the weights assigned to the respective speakers are given a large weight when the speech distribution is large, but the larger the weight is, the more the voice of the speaker is not uniformly distributed and therefore the voice characteristics of the speaker are not properly recognized. This is to refer to the speaker with the lowest voice distribution.
또한, 음성분포도가 낮은 경우는 해당 화자로부터 일정한 음성을 얻을 수 있다는 것을 의미하는 것이다.(S30)In addition, the low voice distribution means that a certain voice can be obtained from the speaker. (S30)
또한, 상기와 같이 각각의 화자들의 음성분포도에 따라 주성분 고유치의 변화량을 구한 후, 아래의 수식에 대응하여 각각의 화자들의 음성인식을 수행하도록 한다.In addition, after obtaining the change amount of the principal component eigenvalues according to the speech distribution of each speaker as described above, the speech recognition of each speaker is performed according to the following equation.
[수학식 4]&Quot; (4) "
위 식에서, 위쪽 조건은 화자 i와 화자 j가 동일한 화자일 경우이고, 아래 쪽 조건은 그렇지 않은 경우이다, 식 중 W는 행렬. Wij는 행렬 W의 i번째 열, j번째의 칼럼이다. 즉, 화자가 n명 있을 때 i=1~n, j=1~n이 될 수 있고, i=j이면 같은 화자로부터 발화된 문장이며 이땐 2-4와 같은 가중치를 준다. 만약 i≠j이면 (화자가 다르면) 0 값을 준다.
In the above equation, the upper condition is when speaker i and speaker j are the same speaker, and the lower condition is not, where W is a matrix. W ij is the i-th column and the j-th column of the matrix W. That is, when there are n speakers, i = 1 ~ n, j = 1 ~ n can be, if i = j is a sentence uttered from the same speaker, this time gives a weight equal to 2-4. If i ≠ j (if the speakers are different) it gives a value of zero.
이는, 각각의 개별적인 화자들로부터 다수번의 훈련과정을 통화여 기본적인 음성을 추출할 때 사용하며, 임의의 화자가 기본적인 음성을 저장하고 음성인식을 수행할 때도 동일하게 적용하는 것이다.(S40)This is used to extract a basic voice through a number of training sessions from each individual speaker, and the same applies to any speaker storing the basic voice and performing voice recognition (S40).
상기와 같은 방법으로 각각의 화자들의 개별적인 가중치와 그에 따른 주성분 고유치 변화량을 구하여 각각의 화자들에게 추출한 음성정보에 상기에서 구한 고유치 변화량을 대응시켜, 각각의 화자들로부터 발화된 음성분포도를 보다 세밀하게 구별하도록 함으로써, 화자들의 내부환경변화에 따른 음성의 변화를 파악하여 화자들의 음성을 최적화하여 인식할 수 있게 되는 것이다.In this way, the individual weights of each speaker and the amount of change in principal component eigenvalues are obtained, and the eigenvalue changes obtained above are matched with the extracted speech information to each speaker, thereby more precisely expressing the speech distribution from each speaker. By distinguishing, it is possible to optimize the speech of the speaker by recognizing the change of the voice according to the change of the internal environment of the speaker.
덧붙여, 이는 화자들의 음성을 기본데이터화시키기 위해 훈련을 시행하거나 기본데이터화된 음성에 음성인식을 시행할 때 사용하면 되는 것이다.In addition, it can be used to train the speaker's voice to basic data or to perform voice recognition on the basic data.
도 1은 일반적인 방법으로 화자들의 음성을 추출한 음성분포도를 도시한 그래프.1 is a graph illustrating a speech distribution diagram of extracting speech of speakers in a general manner;
도 2는 화자들의 음성분포도에 대해 가중치를 부여한 그래프.2 is a graph weighted to the speaker's speech distribution.
도 3은 본 발명에 의한 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 도식화한 흐름도.Figure 3 is a flow diagram illustrating a speech recognition error rate reduction algorithm for the voice change of the same speaker according to the present invention.
Claims (5)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020090131971A KR101113770B1 (en) | 2009-12-28 | 2009-12-28 | The same speaker's voice to change the algorithm for speech recognition error rate reduction |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020090131971A KR101113770B1 (en) | 2009-12-28 | 2009-12-28 | The same speaker's voice to change the algorithm for speech recognition error rate reduction |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20110075503A KR20110075503A (en) | 2011-07-06 |
| KR101113770B1 true KR101113770B1 (en) | 2012-03-05 |
Family
ID=44915492
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020090131971A Active KR101113770B1 (en) | 2009-12-28 | 2009-12-28 | The same speaker's voice to change the algorithm for speech recognition error rate reduction |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR101113770B1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080010065A1 (en) | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
| KR100893154B1 (en) | 2008-10-13 | 2009-04-16 | 한국과학기술연구원 | Gender Recognition Method and Gender Recognition System for Speech Signals Using Discrete Weights |
-
2009
- 2009-12-28 KR KR1020090131971A patent/KR101113770B1/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080010065A1 (en) | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
| KR100893154B1 (en) | 2008-10-13 | 2009-04-16 | 한국과학기술연구원 | Gender Recognition Method and Gender Recognition System for Speech Signals Using Discrete Weights |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20110075503A (en) | 2011-07-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Dahake et al. | Speaker dependent speech emotion recognition using MFCC and Support Vector Machine | |
| US10832685B2 (en) | Speech processing device, speech processing method, and computer program product | |
| JP7342915B2 (en) | Audio processing device, audio processing method, and program | |
| KR102198273B1 (en) | Machine learning based voice data analysis method, device and program | |
| Sadjadi et al. | Speaker age estimation on conversational telephone speech using senone posterior based i-vectors | |
| CN110349597B (en) | A kind of voice detection method and device | |
| CN105096955B (en) | A kind of speaker's method for quickly identifying and system based on model growth cluster | |
| Niu et al. | Automatic depression level detection via lp-norm pooling | |
| Zhang et al. | Speech emotion recognition using combination of features | |
| Sethu et al. | Speaker variability in speech based emotion models-Analysis and normalisation | |
| CN108899046A (en) | A kind of speech-emotion recognition method and system based on Multistage Support Vector Machine classification | |
| CN114765028A (en) | Voiceprint recognition method and device, terminal equipment and computer readable storage medium | |
| JP4717872B2 (en) | Speaker information acquisition system and method using voice feature information of speaker | |
| Yerramreddy et al. | Speaker identification using MFCC feature extraction: a comparative study using GMM, CNN, RNN, KNN and random forest classifier | |
| Kothalkar et al. | Fusing text-dependent word-level i-vector models to screen’at risk’child speech | |
| CN111475634B (en) | Representative speaking segment extraction device and method based on seat voice segmentation | |
| CN114822517A (en) | Voice annotation quality evaluation method and device, electronic equipment and storage medium | |
| KR101113770B1 (en) | The same speaker's voice to change the algorithm for speech recognition error rate reduction | |
| Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
| CN105006231A (en) | Distributed large population speaker recognition method based on fuzzy clustering decision tree | |
| Kalaivani | A study on speaker recognition system and pattern classification techniques | |
| Gupta et al. | Speech based Emotion Recognition using Machine Learning | |
| Rajesh | Performance analysis of ML algorithms to detect gender based on voice | |
| KR101397846B1 (en) | Apparatus and method of voice processing for classifying sasang constitution and identifying user | |
| Ettorre et al. | Speech emotion recognition using MFCCs extracted from a mobile terminal based on ETSI front end |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20091228 |
|
| PA0201 | Request for examination | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20110310 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20111130 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20120201 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20120201 End annual number: 18 Start annual number: 1 |
|
| PG1601 | Publication of registration |