[go: up one dir, main page]

KR101113770B1 - The same speaker's voice to change the algorithm for speech recognition error rate reduction - Google Patents

The same speaker's voice to change the algorithm for speech recognition error rate reduction Download PDF

Info

Publication number
KR101113770B1
KR101113770B1 KR1020090131971A KR20090131971A KR101113770B1 KR 101113770 B1 KR101113770 B1 KR 101113770B1 KR 1020090131971 A KR1020090131971 A KR 1020090131971A KR 20090131971 A KR20090131971 A KR 20090131971A KR 101113770 B1 KR101113770 B1 KR 101113770B1
Authority
KR
South Korea
Prior art keywords
speaker
speech
voice
distribution
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020090131971A
Other languages
Korean (ko)
Other versions
KR20110075503A (en
Inventor
강홍구
최정윤
정치상
서현선
심재균
Original Assignee
대한민국(국가기록원)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(국가기록원) filed Critical 대한민국(국가기록원)
Priority to KR1020090131971A priority Critical patent/KR101113770B1/en
Publication of KR20110075503A publication Critical patent/KR20110075503A/en
Application granted granted Critical
Publication of KR101113770B1 publication Critical patent/KR101113770B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것으로, 다수의 화자들로부터 여러번 발회된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰값의 가중치를 부여하고 음성분포도가 작을 경우, 작은값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계 이루어진다.The present invention relates to a speaker recognition method using a voice recognition error rate reduction algorithm for the voice change of the same speaker, to obtain a voice that has been multiple times from a plurality of speakers to classify the voice according to each speaker and to the corresponding speakers If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model in the analysis step and the speech distribution diagram based on the support vector machine model, a large weight is assigned. If the speech distribution is small, the weighting step of assigning a small weight to obtain the slope according to the speech distribution and the weighting value of each speaker by calculating the weight value according to the speech distribution of each speaker are all equal. Apply a eigenvalue to each speaker so that it is a value. An individual change amount calculation step of obtaining a change amount of the component eigenvalues, and an application step of applying the main component eigenvalue change amount for each speaker obtained in the individual change amount calculation step to the speaker's training or recognition process.

본 발명은 각각의 화자들로부터 발화된 음성을 인식할 때, 각각의 화자들로부터 발화된 음성을 각각 고차원의 벡터를 이용하여 분류하고 분류된 음성분포도를 파악하여 각각의 화자들에게 개별적인 가중치를 부여한 후, 개별적으로 화자들에게 부여한 가중치를 모두 동일한 값이 되도록 별도의 고유치를 부여하여 각각의 화자들의 음성의 특성을 찾아내고 음성인식의 오차율을 줄일 수 있는 장점이 있다.The present invention classifies speech spoken by each speaker using high-dimensional vectors and grasps the classified speech distribution to give each speaker an individual weight. After that, the weights assigned to the speakers are individually assigned to the same eigenvalues so that each speaker's voice can be found and the error rate of speech recognition can be reduced.

음성인식, 고유분석, 고유치, 고유치변화량, 주성분분석 Speech Recognition, Eigen Analysis, Eigen Value, Eigen Value Variation, Principal Component Analysis

Description

동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법 {The same speaker's voice to change the algorithm for speech recognition error rate reduction}Speaker recognition method using speech recognition error reduction algorithm for speech change of same speaker {The same speaker's voice to change the algorithm for speech recognition error rate reduction}

본 발명은 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것으로, 보다 구체적으로는 다양한 화자들에게서부터 기본음성을 제작하거나 음성인식을 하기 위해 입력되는 음성을 인식할 때, 각각의 화자에게서 발화된 음성에 따라 음성의 정보량을 분석하여 세션변화모델을 생성할 때, 화자별 각각의 가중치를 다르게 부여하여 음성인식의 오차율을 줄이고 각각의 화자들에 대한 최적의 음성을 획득할 수 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법에 관한 것이다.The present invention relates to a speaker recognition method using a speech recognition error rate reduction algorithm for the voice change of the same speaker, and more particularly, when recognizing the input voice to make a basic voice or speech recognition from various speakers, When generating a session change model by analyzing the amount of information of speech according to the speech spoken by each speaker, it is possible to reduce the error rate of speech recognition by obtaining different weights for each speaker and obtain an optimal speech for each speaker. The present invention relates to a speaker recognition method using a speech recognition error rate reduction algorithm for the voice change of the same speaker.

일반적으로 화자들로부터 음성인식을 수행할 때, 음성인식의 오차율은 화자로부터 발화된 음성을 입력받는 장치(마이크, 전화 등)나 주위환경과 같은 외부환경에 따라 화자들로부터 발화된 음성에 노이즈가 섞이게 되면서 음성인식의 오차율 이 발생하게 된다.In general, when speech recognition is performed from the speakers, the error rate of the speech recognition is that noise is generated from the speech produced by the speakers according to the external environment such as a device (microphone, telephone, etc.) receiving the spoken speech from the speaker or the surrounding environment. As it is mixed, an error rate of speech recognition occurs.

그래서, 외부환경으로부터 발생되는 오차율을 줄이기 위해 화자들로부터 발화된 음성에서 노이즈를 제거하기 위해 다양한 형태의 필터를 사용하거나 화자들로부터 발화된 음성을 분석하여 일정한 음성분포도를 기준을 설정하여 일정한 음성분포도 이상을 차지하는 화자들을 모두 동일한 가중치를 일정하게 적용하고, 일정한 음성분포도 이하를 차지하는 화자들도 동일한 가중치를 적용하여 음성인식의 오차율을 줄이고자 하였다.Therefore, in order to reduce the error rate generated from the external environment, various types of filters are used to remove noise from the speech spoken by the speakers, or the speech distribution diagram is set by analyzing the speech spoken by the speakers and setting a constant speech distribution diagram. All the speakers occupying the above apply the same weight uniformly, and the speakers occupying less than the constant speech distribution apply the same weight to reduce the error rate of speech recognition.

하지만, 상기와 같이 외부환경에 따라 인식되는 음성의 오차율을 줄일 수는 있었으나 화자들을 분류할 때, 화자들의 음성분포도에 기준을 두어 음성분포도가 넓은 화자들과 음성분포도가 낮은 화자들로만 분류하여 두 부류에 속한 모든 화자들에게 각각 동일한 가중치를 부여하게 되면, 각각의 화자들의 상태에 따라 변환되는 음성의 상태를 정확하게 획득하지 못하는 문제점이 있었다.However, although the error rate of speech recognized according to the external environment can be reduced as described above, when classifying speakers, the two categories are classified into only those with a wide speech distribution and those with a low speech distribution based on the speech distribution of the speakers. When all speakers belonging to the same weight are given to each other, there is a problem in that the state of the voice that is converted according to the state of each speaker cannot be obtained correctly.

예를 들어, 동일한 화자가 동일한 장치로 음성을 입력하더라도 화자의 건강상태 등과 같이 회부환경이 아닌 화자들의 건강상태와 같이 내부환경으로 인한 음성분포도에 따라 각각의 화자들에게 개별적인 가중치를 부여하지 못하여 각각의 화자들에 대한 음성을 정확하게 측정하지 못하여 화자들에 대한 음성인식의 오차율이 발생하였다.For example, even if the same speaker inputs the voice to the same device, each speaker cannot be individually weighted according to the voice distribution due to the internal environment such as the health status of the speaker rather than the health condition of the speaker. The error rate of the speech recognition for the speakers occurred because the speech for the speakers was not measured accurately.

본 발명의 화자인식방법에 이용하는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘은 다수의 화자들로부터 여러 번 발화된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰값의 가중치를 부여하고 음성분포도가 작을 경우, 작은값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계로 이루어진다.The voice recognition error reduction algorithm for the voice change of the same speaker used in the speaker recognition method of the present invention obtains the voices uttered several times from a plurality of speakers, classifies the voices according to the corresponding speakers, and distributes the voices to the corresponding speakers. If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model based on the support vector machine model based on the support vector machine model, the weight is given a large value and the speech distribution map If is small, the weighting step of calculating the slope according to the speech distribution and giving the weight of the small value, and the weight value assigned to each speaker by calculating the weight value according to the speech distribution of each speaker, Apply the eigenvalues to each speaker as much as possible so that the principal component And individual variation calculation step of obtaining an amount of change, is made the main component eigenvalues change amount for each of the speaker determined by the individual variation amount calculation step to the application step of applying the training or recognition of the speaker.

상기에서 살펴본 바와 같이 본 발명은 각각의 화자들로부터 발화된 음성을 인식할 때, 각각의 화자들로부터 발화된 음성을 각각 고차원의 벡터를 이용하여 분류하고 분류된 음성분포도를 파악하여 각각의 화자들에게 개별적인 가중치를 부여한 후, 개별적으로 화자들에게 부여한 가중치를 모두 동일한 값이 되도록 별도의 고유치를 부여하여 각각의 화자들의 음성의 특성을 찾아내고 음성인식의 오차율을 줄일 수 있는 장점이 있다.As described above, the present invention classifies speech spoken from each speaker by using a high-dimensional vector and grasps the classified speech distribution from each speaker. After assigning the individual weights to the individual weights, the weights assigned to the speakers are individually assigned to the same eigenvalue so that all of the characteristics of the speech of each speaker can be found and the error rate of speech recognition can be reduced.

그리고, 상기와 같은 방법으로 각각의 화자들에 개별적인 고유치값을 부여함으로써, 화자들의 신체상태에 따라 변화되는 미세한 음성의 차이를 확인하여 음성인식의 오차율을 줄일 수 있는 장점이 있다.In addition, by giving an individual eigenvalue to each speaker in the same manner as described above, there is an advantage that the error rate of speech recognition can be reduced by checking the difference of the minute voice that changes according to the speaker's physical state.

상기와 같은 목적을 달성하기 위한 본 발명의 화자인식방법에서 이용하는, 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘의 구성을 살펴보면 다음과 같다.Looking at the configuration of the speech recognition error rate reduction algorithm for the voice change of the same speaker, used in the speaker recognition method of the present invention for achieving the above object as follows.

이하, 첨부된 도면에 의거하여 본 발명의 구성을 상세히 설명하도록 한다.Hereinafter, the configuration of the present invention will be described in detail with reference to the accompanying drawings.

본 발명에 이용하는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘은 다수의 화자들로부터 여러 번 발화된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계와, 상기 분석단계에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰 값의 가중치를 부여하고 음성분포도가 작을 경우, 작은 값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계와, 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계와, 상기 개별변화량연산단계에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계 이루어진다.The voice recognition error reduction algorithm for the voice change of the same speaker used in the present invention obtains the uttered voices from a plurality of speakers, classifies the voices according to the corresponding speakers, and supports the voice distribution for the corresponding speakers. If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model based in the analysis step and the analysis based on the model-based, the weighting of a large value and the speech distribution is small The weighting step of calculating the slope according to the speech distribution and giving the weight of the small value and calculating the value of the weight according to the speech distribution of each speaker so that the weights assigned to each speaker are equal to each other Apply the eigenvalues to the speakers to determine the amount of change in the principal component eigenvalues for each speaker. And individual variation calculation step of, is made applying step of applying the principal component eigenvalues change amount for each of the speakers calculated by the change amount calculating step to the individual training or recognition of the speaker.

여기서, 상기 분석단계는 각각의 화자들의 음성분포도를 고유치분석에 따라 각각의 화자들의 샘플이 차지하는 방향벡터를 구한 후, 그 방향벡터에 대한 샘플들 간의 거리를 파악하고 그 평균의 기울기를 구하도록 하며, 상기 분석단계에서 각각의 화자들에 의해 발화된 음성의 분포도는

Figure 112011061674976-pat00014

에 의해 구해지도록 하고, 상기 개별변화량연산단계에서 각각의 화자들의 주성분 고유치의 변화량(αs)은
Figure 112011061674976-pat00032

에 의해 구해지게 된다.Here, the analyzing step is to obtain the direction vector occupied by the samples of each speaker according to the eigenvalue analysis of the speech distribution of each speaker, then to determine the distance between the samples for the direction vector and the slope of the average , The distribution of speech spoken by each speaker in the analysis step is
Figure 112011061674976-pat00014

The change amount (α s ) of the principal component eigenvalue of each speaker in the individual change amount calculation step is calculated by
Figure 112011061674976-pat00032

It is saved by.

덧붙여, 상기 적용단계는 주성분 고유치의 변화량에 의해 연상된 가중치를 통해 각각의 화자들의 음성변화는

Figure 112011061674976-pat00016

에 의해 구해지도록 한다.In addition, in the applying step, the change in the voice of each speaker through the weight associated with the change in the principal component eigenvalue
Figure 112011061674976-pat00016

To be obtained.

상기와 같은 구성을 가진 본 발명의 바람직한 실시 예에 따른 작용을 살펴보면 다음과 같다.Looking at the operation according to a preferred embodiment of the present invention having the configuration as described above are as follows.

먼저, 다수의 화자들로부터 여러번 발화된 음성을 획득하여 획득한 음성을 각각 해당 화자들에 맞추어 분류하여, 발화된 음성에 대한 음성분포도를 서포트벡터머신을 이용하여 분석한다.First, voices obtained by obtaining multiple spoken voices from a plurality of speakers are classified according to the respective speakers, and a speech distribution diagram of the spoken voices is analyzed using a support vector machine.

이를 상세히 설명하면, 상기 서포트벡터머신(support vector machine : SVM)은 통계 분류와 회귀분석(통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의 인과관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다. 또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다)을 쓰는, 지도 학습 방법을 가리키는 말로, 이는 커널 트릭을 써서 비선형 분류 문제에 선형 분류의 테크닉을 적용하는 것이다.In detail, the support vector machine (SVM) is a linear relational expression which is a mathematical model according to the causal relationship between independent and dependent variables for the continuous variables observed in statistical classification and regression analysis (statistics). To predict a dependent variable given an independent variable, which is an analytical method to measure the goodness-of-fit to determine how well this mathematical model describes it. Kernel tricks apply linear classification techniques to nonlinear classification problems.

또한, 현재 알려져 있는 많은 수법 중에서 가장 인식 성능이 뛰어난 학습 모델의 하나로써, 선형 문턱 소자를 이용하고, 2 클래스의 패턴 식별기를 구성하는 수법이다. In addition, as one of the most recognizable learning models among many known methods, a linear threshold element is used and a two-class pattern identifier is constructed.

이는, 각각의 화자들의 음성분포도에 대한 특성(응집성과와 방향성)을 파악하여 그에 대한 특징(각각의 화자들의 분포된 음성 : 수많은 작은 벡터를 연결하여 하나의 고차원적인 벡터화를 시킨 것)으로 추출하는 것이다.This is to grasp the characteristics (aggregation and direction) of each speaker's speech distribution map and extract it as a feature (distributed speech of each speaker: connecting a large number of small vectors into one high-dimensional vectorization). will be.

여기서, 화자들의 음성분포도를 다음의 수학식을 이용하여 연산하도록 한다.Here, the speaker's speech distribution is calculated using the following equation.

[수학식 1][Equation 1]

Figure 112011061674976-pat00017
Figure 112011061674976-pat00017

상기와 같은 수식은 같은 화자들에게서 여러번 발화된 음성간의 거리(음성분포도)를 측정하는 것이다. The above equation is to measure the distance (sound component grapes) between the voices spoken many times from the same speakers.

위 식에서,
s는 화자 인덱스(index),
k는 화자들로부터 발화된 음성(session) 인덱스,
msk는 각 발화(session)들의 GMM spervector(공간분포도),
μ는 각 클래스(한 화자에 속한 session들)의 평균벡터값,
ns는 s번째 화자가 가지고 있는 음성(session)의 수,
μs는 s번째 화자의 평균 샘플값,
괄호로 묶인 부분은 샘플의 공분산행렬(covariance matrix),
Us는 고유벡터(eigen vevtor)행렬,
s는 고유치(eigen value)행렬이다.
Λ=(λ12 , ,......λn) 이고, λn는 고유치이다.
위 식을 이용하여, 화자들로부터 발화된 음성을 모든 값이 0이 아닌 일정한 특정값을 가지는 특유벡터값을 구하게 되는 것이다.
In the above equation,
s is the speaker index,
k is the session index spoken from the speakers,
m sk is the GMM spervector (spatial distribution) of each session,
μ is the average vector of each class (sessions belonging to one speaker),
n s is the number of sessions held by the sth speaker,
μ s is the average sample value of the s-th speaker,
The parentheses indicate the covariance matrix of the sample,
U s is the eigen vevtor matrix,
S s is an eigen value matrix.
Λ = (λ 1 , λ 2 , ......... λ n ), and λ n is an eigenvalue.
Using the above equation, the speech spoken by the speakers is used to find a unique vector value where all values have a certain value other than zero.

그러면, 도 1과 같이 다수의 화자들로부터 다양한 음성분포도를 얻을 수 있게 된다.Then, various voice distributions can be obtained from the plurality of speakers as shown in FIG.

여기서, 화자들로부터 획득한 음성분포도가 일정한 지점에 뭉쳐있을수록 화 자가 일정하게 음성을 발화한 것이다.Here, the more the voice distribution obtained from the speakers is clustered at a certain point, the more the speaker utters the voice.

덧붙여, 일반적으로 화자들의 음성분포도를 구할 때, 음성분포도가 큰 경우는 외부환경(화자들로부터 음성이 입력되는 장치종류 및 화자가 발화하는 장소 등과 같이 외부환경에 의해 노이즈 등이 섞이게 되면서 음성분포도가 크게 나타남)에 의해 크게 나타나게 되고, 음성분포도가 작은 경우는 화자들의 건강상태 등 환자의 내부환경에 따라 조금씩 차이가 나타난다.In addition, generally, when obtaining a voice distribution diagram of a speaker, when the voice distribution degree is large, the voice distribution diagram is mixed with noise by an external environment such as the external environment (type of a device to which the voice is input from the speaker and the place where the speaker speaks). Large), and a small voice distribution is slightly different depending on the internal environment of the patient such as the health of the speakers.

즉, 음성분포도가 크면 클수록 외부환경에 대한 원인으로 가정하고, 음성분포도가 작을 경우, 외부환경의 요인보다는 화자들의 신체상태와 같은 내부환경의 원인으로 가정할 수 있게 되는 것이다.In other words, the larger the voice distribution, the more it is assumed to be the cause of the external environment, and if the voice distribution is smaller, it can be assumed to be the cause of the internal environment such as the physical state of the speaker rather than the factor of the external environment.

상기와 같은 방법으로 각각의 화자들에 대한 음성분포도를 구하고 각각의 화자들에 대한 음성분포도의 벡터값들을 구한 후, 각각의 화자들의 음성분포도에 대해 기울기를 구하도록 한다.In this way, the speech distribution for each speaker is obtained, the vector values of the speech distribution for each speaker are obtained, and then the slope is obtained for the speech distribution of each speaker.

이를 상세히 설명하면, 임의의 s번째의 화자의 고유벡터행렬(∧s)에서 각 고유치를 내림차순이나 오름차순으로 정렬한다. In detail, each eigenvalue is sorted in descending or ascending order in the eigenvector matrix ∧ s of any s-th speaker.

그리고, 해당 화자에게서 발화된 음성의 그룹의 전체의 합에서 평균값을 아래의 수식을 이용하여 구하도록 한다.Then, the average value of the total sum of speech groups spoken by the speaker is calculated using the following equation.

[수학식 2][Equation 2]

Figure 112011061674976-pat00033

수학식 1에서 구한 s번째 화자의 고유벡터 행렬을 ∧s라고 했을 때, 예를 들어 각 고유치를 내림차순으로 전개하여 Λ=(λ12 , ,......λn), λii+1 라 하고, 각 고유치를 속한 클래스 전체의 고유치 합으로 평균한 것을
Figure 112011061674976-pat00019
라 표현한 것이다.
Figure 112011061674976-pat00020
,
Figure 112011061674976-pat00021
이고,
Figure 112011061674976-pat00022
이다.
Figure 112011061674976-pat00033

When the eigenvector matrix of the s-th speaker obtained from Equation 1 is ∧ s , for example, each eigenvalue is expanded in descending order and Λ = (λ 1 , λ 2 ,, ...... λ n ), λ Let i > λ i + 1 and average each sum of the eigenvalues of the classes
Figure 112011061674976-pat00019
It is expressed.
In other words
Figure 112011061674976-pat00020
,
Figure 112011061674976-pat00021
ego,
Figure 112011061674976-pat00022
to be.

그러면, 각각의 개별적인 화자들로부터 발화된 음성이 공분산행렬로부터 주성분 고유치(주성분이 원래 변수의 변량에 대해 얼마만큼의 특징을 나타내는 것)의 변화량이나 기울기값을 구하게 된다.(S10)Then, the speech uttered from each individual speaker obtains the amount of change or the slope of the principal component eigenvalue (where the principal component represents some characteristic of the variance of the original variable) from the covariance matrix (S10).

그리고, 도 2에 도시된 바와 같이 상기와 같이 구해진 값을 따라 각각의 해당 화자들에 음성분포도에 대해 가중치를 부여하도록 한다.Then, as shown in FIG. 2, weights of the speech distributions are assigned to respective speakers according to the values obtained as described above.

예를 들어, 상기의 식을 이용하여 얻어진 화자의 음성분포도가 3일 경우, 그에 대응하는 3의 가중치를 부여하고, 음성분포도가 1일 경우 1의 가중치를 부여하도록 한다.For example, if the speaker's voice distribution degree obtained using the above equation is 3, the weighting factor 3 is assigned to the speaker, and if the voice distribution degree is 1, the weighting factor is 1.

상기와 같이 공분산행렬을 이용하여 각각의 화자들의 발화음성의 기울기 등을 구하는 것은 일반적인 사항으로 자세한 설명은 생략하도록 한다.(S20)As described above, it is a general matter to obtain the inclination of speech of each speaker using a covariance matrix, and detailed description thereof will be omitted.

그런 후, 각각의 화자들로부터 구한 가중치가 동일한 값을 가질 수 있도록 각각의 화자들의 가중치에 별도의 고유치를 곱하여 연산하도록 하는데 아래의 수식을 이용하여 구하도록 한다.Then, the weight of each speaker is multiplied by a separate eigenvalue so that the weights obtained from each speaker have the same value.

[수학식 3]&Quot; (3) "

Figure 112011061674976-pat00034
Figure 112011061674976-pat00034

예를 들어, 1번의 화자는 4의 가중치를, 2번의 화자에게는 2의 가중치를 3의 화자에게는 1의 가중치를 부여하면, 1번의 화자에게는 0.25의 고유치를, 2번의 화자에게는 0.5의 고유치를 3번의 화자에게는 1의 고유치를 부여하도록 한다.For example, if one speaker has a weight of 4, two speakers have a weight of 2, and three speakers have a weight of 1, one speaker has a 0.25 eigenvalue and two speakers have a eigenvalue of 3 Gives 1 speaker an eigenvalue.

여기서, 각각의 화자들에게 부여된 가중치는 음성분포도가 클 경우, 큰 가중치를 부여하는데 가중치가 크면 클수록, 해당 화자의 음성이 일정하지 않고 분산되어 있어 그에 따라 화자의 음성특징이 제대로 파악되지 않기 때문에, 음성분포도가 가장 낮은 화자를 기준으로 하기 위한 것이다.Here, the weights assigned to the respective speakers are given a large weight when the speech distribution is large, but the larger the weight is, the more the voice of the speaker is not uniformly distributed and therefore the voice characteristics of the speaker are not properly recognized. This is to refer to the speaker with the lowest voice distribution.

또한, 음성분포도가 낮은 경우는 해당 화자로부터 일정한 음성을 얻을 수 있다는 것을 의미하는 것이다.(S30)In addition, the low voice distribution means that a certain voice can be obtained from the speaker. (S30)

또한, 상기와 같이 각각의 화자들의 음성분포도에 따라 주성분 고유치의 변화량을 구한 후, 아래의 수식에 대응하여 각각의 화자들의 음성인식을 수행하도록 한다.In addition, after obtaining the change amount of the principal component eigenvalues according to the speech distribution of each speaker as described above, the speech recognition of each speaker is performed according to the following equation.

[수학식 4]&Quot; (4) "

Figure 112011061674976-pat00024

위 식에서, 위쪽 조건은 화자 i와 화자 j가 동일한 화자일 경우이고, 아래 쪽 조건은 그렇지 않은 경우이다, 식 중 W는 행렬. Wij는 행렬 W의 i번째 열, j번째의 칼럼이다. 즉, 화자가 n명 있을 때 i=1~n, j=1~n이 될 수 있고, i=j이면 같은 화자로부터 발화된 문장이며 이땐 2-4와 같은 가중치를 준다. 만약 i≠j이면 (화자가 다르면) 0 값을 준다.
Figure 112011061674976-pat00024

In the above equation, the upper condition is when speaker i and speaker j are the same speaker, and the lower condition is not, where W is a matrix. W ij is the i-th column and the j-th column of the matrix W. That is, when there are n speakers, i = 1 ~ n, j = 1 ~ n can be, if i = j is a sentence uttered from the same speaker, this time gives a weight equal to 2-4. If i ≠ j (if the speakers are different) it gives a value of zero.

이는, 각각의 개별적인 화자들로부터 다수번의 훈련과정을 통화여 기본적인 음성을 추출할 때 사용하며, 임의의 화자가 기본적인 음성을 저장하고 음성인식을 수행할 때도 동일하게 적용하는 것이다.(S40)This is used to extract a basic voice through a number of training sessions from each individual speaker, and the same applies to any speaker storing the basic voice and performing voice recognition (S40).

상기와 같은 방법으로 각각의 화자들의 개별적인 가중치와 그에 따른 주성분 고유치 변화량을 구하여 각각의 화자들에게 추출한 음성정보에 상기에서 구한 고유치 변화량을 대응시켜, 각각의 화자들로부터 발화된 음성분포도를 보다 세밀하게 구별하도록 함으로써, 화자들의 내부환경변화에 따른 음성의 변화를 파악하여 화자들의 음성을 최적화하여 인식할 수 있게 되는 것이다.In this way, the individual weights of each speaker and the amount of change in principal component eigenvalues are obtained, and the eigenvalue changes obtained above are matched with the extracted speech information to each speaker, thereby more precisely expressing the speech distribution from each speaker. By distinguishing, it is possible to optimize the speech of the speaker by recognizing the change of the voice according to the change of the internal environment of the speaker.

덧붙여, 이는 화자들의 음성을 기본데이터화시키기 위해 훈련을 시행하거나 기본데이터화된 음성에 음성인식을 시행할 때 사용하면 되는 것이다.In addition, it can be used to train the speaker's voice to basic data or to perform voice recognition on the basic data.

도 1은 일반적인 방법으로 화자들의 음성을 추출한 음성분포도를 도시한 그래프.1 is a graph illustrating a speech distribution diagram of extracting speech of speakers in a general manner;

도 2는 화자들의 음성분포도에 대해 가중치를 부여한 그래프.2 is a graph weighted to the speaker's speech distribution.

도 3은 본 발명에 의한 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 도식화한 흐름도.Figure 3 is a flow diagram illustrating a speech recognition error rate reduction algorithm for the voice change of the same speaker according to the present invention.

Claims (5)

다수의 화자들로부터 여러 번 발화된 음성을 획득하여 음성을 각각 해당 화자들에 맞추어 분류하고 해당 화자들에 대한 음성분포도를 서포트벡터머신 모델기반을 이용하여 분석하는 분석단계(S10);An analysis step (S10) of acquiring a plurality of speeches from a plurality of speakers, classifying the speeches according to the respective speakers, and analyzing a speech distribution diagram of the speakers using a support vector machine model; 상기 분석단계(S10)에서 서포트벡터머신 모델기반에 의해 분석된 각각의 화자들의 음성분포도에 따라 음성분포도가 클 경우, 큰값의 가중치를 부여하고 음성분포도가 작을 경우, 작은값의 가중치를 부여하며 음성분포도에 따른 기울기를 구하는 가중치부여단계(S20);If the speech distribution is large according to the speech distribution of each speaker analyzed by the support vector machine model in the analysis step (S10), the weight is given a large value, and if the speech distribution is small, the weight is assigned a small value. A weighting step (S20) of obtaining a slope according to the distribution; 각각의 화자들의 음성분포도에 따른 가중치의 값을 연산하여 각각의 화자들에게 부여된 가중치가 모두 동일한 값이 되도록 각각의 화자들에게 고유치를 적용하여 각각의 화자들에 대한 주성분 고유치의 변화량을 구하는 개별변화량연산단계(S30);Calculate the variation of the principal component eigenvalues for each speaker by calculating the weighted values according to the voice distribution of each speaker and applying the eigenvalues to each speaker so that the weights assigned to each speaker are all the same. Change amount calculation step (S30); 상기 개별변화량연산단계(S30)에서 구한 각각의 화자들에 대한 주성분 고유치 변화량을 화자들의 훈련이나 인식과정에 적용하는 적용단계(S40)로 이루어진 것에 특징이 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법.Reduction of the speech recognition error rate for the speech change of the same speaker characterized in that the application step (S40) of applying the change in the principal component eigenvalue for each speaker obtained in the individual variation calculation step (S30) Speaker recognition method using algorithm. 청구항 1에 있어서, 상기 분석단계는 각각의 화자들의 음성분포도를 고유치분석에 따라 각각의 화자들의 샘플이 차지하는 방향벡터를 구한 후, 그 방향벡터에 대한 샘플들 간의 거리를 파악하고 그 평균의 기울기를 구하는 것에 특징이 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법.The method of claim 1, wherein the analyzing step obtains a direction vector occupied by the samples of each speaker according to the eigenvalue analysis of the speech distribution of each speaker, and then grasps the distance between the samples with respect to the direction vector and slopes of the mean. Speaker recognition method using a speech recognition error rate reduction algorithm for the voice change of the same speaker characterized by obtaining. 청구항 1에 있어서, 상기 분석단계에서 각각의 화자들에 의해 발화된 음성의 음성분포도는 다음 수학식The speech distribution diagram of the speech spoken by the respective speakers in the analyzing step is
Figure 112011061674976-pat00035
Figure 112011061674976-pat00035
(위 식에서, s는 화자 인덱스, k는 화자들로부터 발화된 음성 인덱스, msk는 각 발화들의 GMM spervector(공간분포도), μ는 각 클래스(한 화자에 속한 session들)의 평균벡터값, ns는 s번째 화자가 가지고 있는 음성(session)의 수, μs는 s번째 화자의 평균 샘플값, 괄호로 묶인 부분은 샘플의 공분산행렬(covariance matrix), Us는 고유벡터(eigen vevtor)행렬, ∧s는 고유치(eigen value)행렬, λ는 고유치임. )Where s is the speaker index, k is the speech index spoken from the speakers, m sk is the GMM spervector (spatial distribution) of each utterance, μ is the average vector value of each class (sessions belonging to one speaker), n s is the number of sessions held by the s-th speaker, μ s is the average sample value of the s-th speaker, parentheses are the covariance matrix of the samples, and U s is the eigen vevtor matrix. Where s is the eigen value matrix and λ is the eigenvalue.) 에 의해 구해지는 것에 특징이 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법.A speaker recognition method using a voice recognition error rate reduction algorithm for the voice change of the same speaker characterized by being obtained by.
청구항 1에 있어서, 상기 개별변화량연산단계에서 각각의 화자들의 주성분 고유치의 변화량(αs)은 다음 수학식The method according to claim 1, wherein the change amount (α s ) of the principal component eigenvalue of each speaker in the individual change amount calculation step is
Figure 112011061674976-pat00036
Figure 112011061674976-pat00036
(위 식에서, s는 화자 인덱스, k는 화자들로부터 발화된 음성 인덱스, λ 는 고유치,
Figure 112011061674976-pat00037
는 각 고유치(λ)를 속한 클래스 전체의 고유치 합으로 평균한 것으로
Figure 112011061674976-pat00038
임.)
Where s is the speaker index, k is the speech index spoken from the speakers, λ is the eigenvalue,
Figure 112011061674976-pat00037
Is the average of each eigenvalue (λ), which is the sum of the eigenvalues of the entire class.
Figure 112011061674976-pat00038
being.)
에 의해 구해지는 것에 특징이 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법.A speaker recognition method using a voice recognition error rate reduction algorithm for the voice change of the same speaker characterized by being obtained by.
청구항 1에 있어서, 상기 적용단계는 주성분 고유치의 변화량에 의해 연상된 가중치를 통해 각각의 화자들의 음성변화는 디음 수학식The method according to claim 1, wherein the applying step is the change of the voice of each speaker through the weight associated with the change amount of the principal component eigenvalue
Figure 112011061674976-pat00039
Figure 112011061674976-pat00039
(위 식에서, 위쪽 조건은 화자 i와 화자 j가 동일한 화자일 경우이고, 아래 쪽 조건은 그렇지 않은 경우이며, s는 화자 인덱스, k는 화자들로부터 발화된 음성 인덱스,
Figure 112011061674976-pat00040
는 각 고유치(λ)를 속한 클래스 전체의 고유치 합으로 평균한 것, W는 행렬. Wij는 행렬 W의 i번째 열, j번째의 칼럼임.)
(In the above equation, the upper condition is when speaker i and speaker j are the same speaker, and the lower condition is not, where s is the speaker index, k is the speech index spoken from the speakers,
Figure 112011061674976-pat00040
Is the sum of the eigenvalues of the entire class to which each eigenvalue (λ) is derived, and W is the matrix. W ij is the i th column and j th column of the matrix W.)
에 적용하여 구해지는 것에 특징이 있는 동일화자의 음성변화에 대한 음성인식오차율감소알고리즘을 이용한 화자인식방법.Speaker recognition method using a speech recognition error rate reduction algorithm for the speech change of the same speaker characterized by being applied to.
KR1020090131971A 2009-12-28 2009-12-28 The same speaker's voice to change the algorithm for speech recognition error rate reduction Active KR101113770B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090131971A KR101113770B1 (en) 2009-12-28 2009-12-28 The same speaker's voice to change the algorithm for speech recognition error rate reduction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090131971A KR101113770B1 (en) 2009-12-28 2009-12-28 The same speaker's voice to change the algorithm for speech recognition error rate reduction

Publications (2)

Publication Number Publication Date
KR20110075503A KR20110075503A (en) 2011-07-06
KR101113770B1 true KR101113770B1 (en) 2012-03-05

Family

ID=44915492

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090131971A Active KR101113770B1 (en) 2009-12-28 2009-12-28 The same speaker's voice to change the algorithm for speech recognition error rate reduction

Country Status (1)

Country Link
KR (1) KR101113770B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
KR100893154B1 (en) 2008-10-13 2009-04-16 한국과학기술연구원 Gender Recognition Method and Gender Recognition System for Speech Signals Using Discrete Weights

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
KR100893154B1 (en) 2008-10-13 2009-04-16 한국과학기술연구원 Gender Recognition Method and Gender Recognition System for Speech Signals Using Discrete Weights

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training

Also Published As

Publication number Publication date
KR20110075503A (en) 2011-07-06

Similar Documents

Publication Publication Date Title
Dahake et al. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
JP7342915B2 (en) Audio processing device, audio processing method, and program
KR102198273B1 (en) Machine learning based voice data analysis method, device and program
Sadjadi et al. Speaker age estimation on conversational telephone speech using senone posterior based i-vectors
CN110349597B (en) A kind of voice detection method and device
CN105096955B (en) A kind of speaker's method for quickly identifying and system based on model growth cluster
Niu et al. Automatic depression level detection via lp-norm pooling
Zhang et al. Speech emotion recognition using combination of features
Sethu et al. Speaker variability in speech based emotion models-Analysis and normalisation
CN108899046A (en) A kind of speech-emotion recognition method and system based on Multistage Support Vector Machine classification
CN114765028A (en) Voiceprint recognition method and device, terminal equipment and computer readable storage medium
JP4717872B2 (en) Speaker information acquisition system and method using voice feature information of speaker
Yerramreddy et al. Speaker identification using MFCC feature extraction: a comparative study using GMM, CNN, RNN, KNN and random forest classifier
Kothalkar et al. Fusing text-dependent word-level i-vector models to screen’at risk’child speech
CN111475634B (en) Representative speaking segment extraction device and method based on seat voice segmentation
CN114822517A (en) Voice annotation quality evaluation method and device, electronic equipment and storage medium
KR101113770B1 (en) The same speaker's voice to change the algorithm for speech recognition error rate reduction
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
CN105006231A (en) Distributed large population speaker recognition method based on fuzzy clustering decision tree
Kalaivani A study on speaker recognition system and pattern classification techniques
Gupta et al. Speech based Emotion Recognition using Machine Learning
Rajesh Performance analysis of ML algorithms to detect gender based on voice
KR101397846B1 (en) Apparatus and method of voice processing for classifying sasang constitution and identifying user
Ettorre et al. Speech emotion recognition using MFCCs extracted from a mobile terminal based on ETSI front end

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20091228

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20110310

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20111130

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20120201

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20120201

End annual number: 18

Start annual number: 1

PG1601 Publication of registration