KR20230103667A - Method and apparatus for determining speaker similarity - Google Patents
Method and apparatus for determining speaker similarity Download PDFInfo
- Publication number
- KR20230103667A KR20230103667A KR1020210194701A KR20210194701A KR20230103667A KR 20230103667 A KR20230103667 A KR 20230103667A KR 1020210194701 A KR1020210194701 A KR 1020210194701A KR 20210194701 A KR20210194701 A KR 20210194701A KR 20230103667 A KR20230103667 A KR 20230103667A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- feature vector
- similarity
- concentration
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 화자 유사도 판단 장치의 프로세서에 의해 수행되는 화자 유사도를 판단하기 위한 방법으로서, 화자 정보 및 테스트 음성 데이터를 수신하고, 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하고, 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하고, 제1 화자 특징 벡터 및 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하고, 제1 화자 특징 벡터 및 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하고, 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하고, 화자 특징 유사도 행렬 및 교차 집중도에 기초하여 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 단계를 포함할 수 있다.The present invention is a method for determining speaker similarity, which is performed by a processor of a speaker similarity determination device, by receiving speaker information and test voice data, searching for registered voice data of a speaker registered in advance according to the speaker information, and testing voice data. A first speaker feature vector and a first auxiliary feature vector are derived from the data, a second speaker feature vector and a second auxiliary feature vector are extracted from the registered speech data, and based on the first speaker feature vector and the second speaker feature vector to derive a speaker feature similarity matrix, generate a first composite feature vector based on the first speaker feature vector and the first auxiliary feature vector, and generate a second composite feature vector based on the second speaker feature vector and the second speaker feature vector generating a feature vector, calculating a cross concentration using the first comprehensive feature vector and the second comprehensive feature vector, and calculating a similarity between the test voice and the speaker's voice based on the speaker feature similarity matrix and the cross concentration can include
Description
본 발명은 화자의 유사도를 판단하기 위한 방법 및 장치에 관한 발명으로서, 보다 상세하게는 교차 주의(Cross Attention) 기법을 활용하여 발화된 음성의 화자가 미리 등록된 화자인지를 판단하기 위한 화자 유사도 판단 방법 및 장치에 관한 발명이다.The present invention relates to a method and apparatus for determining the similarity of speakers, and more particularly, to determine speaker similarity to determine whether a speaker of an uttered voice is a previously registered speaker using a cross attention technique. The invention relates to a method and apparatus.
이하에서 기술되는 내용은 본 발명의 실시 예와 관련되는 배경 정보를 제공할 목적으로 기재된 것일 뿐이고, 기술되는 내용들이 당연하게 종래기술을 구성하는 것은 아니다. The contents described below are only described for the purpose of providing background information related to an embodiment of the present invention, and the contents described do not naturally constitute prior art.
화자 인식은 입력된 음성으로부터 특징을 추출해 분석하여 화자의 정체성을 판별하는 분야이다. 화자 인식은 기기 사용 및 서비스 접근을 위한 인증, 미리 선별된 종류의 화자인지를 판별해서 사용자에 적합한 서비스를 제공하기 위한 화자 판별, 접근이 차단된 화자인지 판단하기 위한 필터링 절차 등 다양한 적용처를 가지는 기술이다.Speaker recognition is a field in which the identity of a speaker is discriminated by extracting and analyzing features from an input voice. Speaker recognition is a technology that has various applications, such as authentication for device use and service access, speaker identification to provide services appropriate to the user by determining whether the speaker is a preselected type, and filtering procedures to determine whether the speaker is blocked from access. am.
일반적으로, 음성 분석을 통한 화자 인식은 입력 문장으로부터 프레임 단위의 특징들을 추출하는 과정 및 프레임 단위 특징들을 통해 화자 임베딩이라고 부르는 하나의 고정된 차원의 특징 벡터를 추출하는 과정, 그리고 문장들로부터 얻어진 화자 임베딩들 간의 비교를 통해 동일인 여부를 판단하는 과정으로 구성되어 있다. In general, speaker recognition through speech analysis includes a process of extracting frame-unit features from input sentences, a process of extracting a fixed-dimensional feature vector called speaker embedding through frame-unit features, and a speaker obtained from sentences. It consists of a process of determining whether the embeddings are the same through comparison.
최근 다양한 연산 장치 성능의 발전 및 머신 러닝 분야에 대한 연구가 활발히 진행되어 기술의 발전이 이루어지고, 대용량 데이터 셋이 제공됨에 따라 딥러닝 기반의 화자 인식 기술들의 성능이 상당 수준 향상되었으며, 보다 효과적인 딥러닝 기반 화자 인식 시스템에 대한 다양한 연구들(e.g., 심층심경망 구조, 손실 함수 모델링, pooling 기법 등)이 진행되고 있다. Recently, research on the development of performance of various computing devices and the field of machine learning has been actively carried out, and technology has been developed. As large data sets are provided, the performance of deep learning-based speaker recognition technologies has improved considerably, and more effective deep learning technologies have been developed. Various studies on learning-based speaker recognition systems (e.g., deep neural network structure, loss function modeling, pooling technique, etc.) are in progress.
음성 분석은 개별 화자의 언어적 요소 중 특정인의 언어적 습관이나 특성에 대한 이해가 선행되어야 하고, 이런 요소들은 개인별로 편차가 크다. 또한, 수신 기기, 노이즈 등의 주변 환경에 따라 음성 특성이 달라질 수 있기 때문에 음성 분석을 통해 특정 화자를 인식하는 기술은 그 정확도를 높이는 것이 쉽지 않고, 이를 위해 여러가지 연구가 시도되고 있으며, 보다 정확한 화자 인식을 위한 기술 발전이 요구되고 있다.Speech analysis requires an understanding of the linguistic habits or characteristics of a specific person among the linguistic factors of each individual speaker, and these factors vary widely among individuals. In addition, since the voice characteristics may vary depending on the surrounding environment such as the receiving device and noise, it is not easy to improve the accuracy of the technology for recognizing a specific speaker through voice analysis. Advances in technology for recognition are required.
한편, 전술한 선행기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.On the other hand, the above-mentioned prior art is technical information that the inventor possessed for derivation of the present invention or acquired during the derivation process of the present invention, and cannot necessarily be said to be known art disclosed to the general public prior to the filing of the present invention. .
본 발명의 일 과제는 화자 정보와 함께 제공된 음성 데이터에 기초하여 제공된 음성이 화자 정보에 따른 화자의 음성과 얼마나 유사한지를 판단할 수 있는 방법 및 장치를 제공하는 것이다.An object of the present invention is to provide a method and apparatus capable of determining how similar a voice provided with speaker information is to a speaker's voice according to speaker information, based on voice data provided together with speaker information.
본 발명의 일 과제는 딥 러닝 기반 화자 인식 프레임 워크 중 동일 화자 검증 점수를 산출할 수 있도록 입력된 테스트 음성 데이터와 미리 등록된 화자의 음성 데이터를 비교하여 화자의 음성 유사도를 판단하기 위한 방법 및 장치를 제공하는 것이다.An object of the present invention is a method and apparatus for determining the similarity of a speaker's voice by comparing input test voice data with pre-registered voice data of a speaker so as to calculate the same speaker verification score in a deep learning-based speaker recognition framework is to provide
본 발명의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.The object of the present invention is not limited to the above-mentioned tasks, and other objects and advantages of the present invention not mentioned above can be understood by the following description and will be more clearly understood by the embodiments of the present invention. It will also be seen that the objects and advantages of the present invention may be realized by means of the instrumentalities and combinations indicated in the claims.
본 발명의 일 실시예에 따른 방법 및 장치는 교차 주의 기법을 활용하여 음성으로부터 추출한 프레임 단위의 보조 특징 벡터들 간의 상관도를 계산하고 이를 검증 점수 단계에서 활용함으로써 화자 정보 이외의 정보들 간의 유사성을 이용하여 검거 딥 러닝 기반 화자 인식 프레임 워크 중 동일 화자 검증 점수를 산출하기 위한 기법에 대한 것이다.The method and apparatus according to an embodiment of the present invention calculates the correlation between frame-by-frame auxiliary feature vectors extracted from speech using a cross attention technique and uses it in the verification score step to determine the similarity between information other than speaker information. It is about a technique for calculating the same speaker verification score among the deep learning-based speaker recognition frameworks using this method.
본 발명의 일 실시예에 따른 기법은 음성으로부터 화자의 정보를 표현할 수 있는 정보를 입력 프레임 수만큼의 보조 특징 벡터와 화자 관련 특징 벡터의 집합들을 추출하고, 등록 및 테스트 과정에서 보조 특징 벡터를 활용하여 등록된 화자와 입력 화자의 특징 벡터 집합 간의 유사도를 계산하여 동일인인지 여부를 판단할수 있도록 구성될 수 있다.A technique according to an embodiment of the present invention extracts as many sets of auxiliary feature vectors and speaker-related feature vectors as the number of input frames for information capable of representing speaker information from speech, and utilizes the auxiliary feature vectors in registration and testing processes. Thus, it may be configured to determine whether or not they are the same person by calculating the degree of similarity between the registered speaker and the feature vector set of the input speaker.
본 발명의 일 실시예에 따른 화자 유사도 판단 방법은 화자 유사도 판단 장치의 프로세서에 의해 수행되는 화자 유사도를 판단하기 위한 방법으로서, 화자 정보 및 테스트 음성 데이터를 수신하고, 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하고, 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하고, 제1 화자 특징 벡터 및 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하고, 제1 화자 특징 벡터 및 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하고, 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하고, 화자 특징 유사도 행렬 및 교차 집중도에 기초하여 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 단계를 포함할 수 있다.A method for determining speaker similarity according to an embodiment of the present invention is a method for determining speaker similarity, which is performed by a processor of a speaker similarity determining device, receives speaker information and test voice data, and determines a speaker previously registered according to the speaker information. Retrieves the registration speech data of , derives a first speaker feature vector and a first auxiliary feature vector from the test speech data, extracts a second speaker feature vector and a second auxiliary feature vector from the registration speech data, and A speaker feature similarity matrix is derived based on the feature vector and the second speaker feature vector, a first synthetic feature vector is generated based on the first speaker feature vector and the first auxiliary feature vector, and the second speaker feature vector and the second speaker feature vector are generated. 2 Generates a second comprehensive feature vector based on the speaker feature vector, calculates cross concentration using the first comprehensive feature vector and the second comprehensive feature vector, and calculates the cross concentration based on the speaker feature similarity matrix and the cross concentration, and compares the test voice and The method may include calculating a similarity of the speaker's voice.
전술한 것 외의 다른 측면, 특징, 및 이점이 이하의 도면, 청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.Other aspects, features, and advantages other than those described above will become apparent from the following drawings, claims, and detailed description of the invention.
본 실시예에 의하면, 음성 분석을 통한 화자 유사도 판단의 정확도가 향상됨으로써 화자 인식이 보다 효과적으로 정확하게 이루어질 수 있다.According to the present embodiment, speaker recognition can be performed more effectively and accurately by improving the accuracy of speaker similarity determination through voice analysis.
본 실시예에 의하면, 입력된 음성이 미리 등록된 화자의 음성인지를 판단하여 기기 또는 서비스에 접근하기 위한 인증이 보다 정확하게 수행될 수 있다.According to this embodiment, authentication for access to a device or service can be more accurately performed by determining whether an input voice is the voice of a speaker registered in advance.
본 실시예에 따른 기법은 두 음성 간의 화자 유사도를 비교하는 과정에서 프레임 단위의 특징 벡터로부터 교차주의 기법을 이용해 별도의 요약 과정을 가지지 않고 화자 유사도를 계산하기 때문에 추론 단계에서 두 음성 간의 화자 유사도 계산 시 프레임 단위의 짧은 시간으로부터 얻을 수 있는 유의미한 화자의 특징에 집중하여 비교를 가능하도록 한다.In the method according to the present embodiment, in the process of comparing speaker similarity between two voices, the speaker similarity between two voices is calculated in the inference step because the speaker similarity is calculated using the intersection attention technique from the frame-unit feature vector without a separate summary process. Concentrate on the meaningful speaker characteristics that can be obtained from a short time in the unit of hour frame to enable comparison.
본 실시예에 따른 기법은 화자 인식 시스템에서 화자 정보 및 이외의 두 음성간의 유사한 정보를 동시에 고려하여 비교 분석할 수 있다는 장점이 있다. The technique according to the present embodiment has an advantage in that the speaker recognition system can compare and analyze speaker information and other similar information between two voices simultaneously.
또한, 본 실시예에 따른 화자 유사도 판단을 위한 모델 구조는 기존 화자 인식 분야에서 널리 사용되고 있는 구조를 일부 적용하지만, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용 할 수 있다는 장점이 있다.In addition, the model structure for determining speaker similarity according to this embodiment partially applies a structure widely used in the existing speaker recognition field, but can be easily replaced with an appropriate model structure to suit the purpose and applied, so that it can be used in various fields. There is an advantage to being
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The effects of the present invention are not limited to those mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the description below.
도 1은 본 실시예에 따른 화자 유사도 판단이 구현되는 동작 환경의 예시도이다.
도 2는 본 실시예에 따라 화자 유사도 판단이 수행되는 방법의 흐름도이다.
도 3은 본 실시예에 따른 화자 유사도 판단 장치의 블록도이다.
도 4는 본 실시예에 따른 화자 인식 시스템 전체 구성을 예시적으로 도시한 개략도이다.
도 5는 본 실시예에 따른 화자 인식 시스템 중 교차 주의 집중도 추출부를 예시적으로 도시한 개략도이다.1 is an exemplary view of an operating environment in which a speaker similarity determination according to an exemplary embodiment is implemented.
2 is a flowchart of a method for determining speaker similarity according to the present embodiment.
3 is a block diagram of an apparatus for determining speaker similarity according to the present embodiment.
4 is a schematic diagram exemplarily showing the overall configuration of a speaker recognition system according to the present embodiment.
5 is a schematic diagram exemplarily illustrating a cross attention extraction unit in the speaker recognition system according to the present embodiment.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예들에 한정되지 않는다. 이하 실시 예에서는 본 발명을 명확하게 설명하기 위해서 설명과 직접적인 관계가 없는 부분을 생략하지만, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 생략된 구성이 불필요함을 의미하는 것은 아니다. 아울러, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조번호를 사용한다.Hereinafter, the present invention will be described in more detail with reference to the drawings. The invention may be embodied in many different forms and is not limited to the embodiments set forth herein. In the following embodiments, parts not directly related to the description are omitted in order to clearly describe the present invention, but this does not mean that the omitted configuration is unnecessary in implementing a device or system to which the spirit of the present invention is applied. . In addition, the same reference numbers are used for the same or similar elements throughout the specification.
이하의 설명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 되며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 또한, 이하의 설명에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. In the following description, terms such as first and second may be used to describe various components, but the components should not be limited by the terms, and the terms refer to one component from another. Used only for distinguishing purposes. Also, in the following description, singular expressions include plural expressions unless the context clearly indicates otherwise.
이하의 설명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In the following description, terms such as "comprise" or "having" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, but one or more other It should be understood that it does not preclude the possibility of addition or existence of features, numbers, steps, operations, components, parts, or combinations thereof.
이하 도면을 참고하여 본 발명을 상세히 설명하기로 한다. The present invention will be described in detail with reference to the drawings below.
도 1은 본 실시예에 따른 화자 유사도 판단이 구현되는 동작 환경의 예시도이다.1 is an exemplary diagram of an operating environment in which a speaker similarity determination according to an exemplary embodiment is implemented.
본 실시예에 따른 화자 유사도 판단은, 먼저 검증 대상이 되는 사용자(100)가 인증, 서비스 접근 등을 위해 발화를 수행하면 이를 입력 인터페이스(200)가 수집하고, 수집된 음성 데이터에 기초하여 화자 유사도 판단 장치(400)에서 유사도 판단이 수행됨으로써 이루어질 수 있다.In determining the speaker similarity according to the present embodiment, first, when the
여기서, 입력 인터페이스(200)는 음성 수신 장치를 가지는 모든 디바이스들이 될 수 있으며, 예를 들어, 스마트폰, 노트북, 고정식으로 설치된 단말기 등 다양한 전자기기들이 될 수 있다.Here, the
입력 인터페이스(200)는 유사도 판단 대상인 사용자의 발화를 오디오 데이터로 변환하는 마이크로폰을 포함할 수 있다. The
화자 유사도 판단 장치(400)가 수신하는 음성 데이터는 마이크(200)를 통해 수집된 음성 자체의 적어도 일부를 포함한 오디오 파일일 수도 있고, 오디오 파일에 대해 변환을 수행한 음성 스펙트럼 파일일 수도 있으며, 사용될 수 있는 변환은 다양하게 선택될 수 있다.The voice data received by the speaker
도 1에서 화자 유사도 판단 장치(400)는 일종의 원격 서버로서, 인터넷(300)을 통해 수집된 음성 데이터가 화자 유사도 판단 장치(400)로 전달되어 화자 유사도 판단이 이루어지는 것으로 도시되었다.In FIG. 1 , the speaker
여기서, 인터넷(300)은 네트워크의 일 예시로서, 네트워크는 유선 및 무선 네트워크, 예를 들어 LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, LTE, 5G, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.Here, the Internet 300 is an example of a network, and the network includes wired and wireless networks, such as a local area network (LAN), a wide area network (WAN), the Internet, an intranet, and an extranet ( extranet), and mobile networks such as cellular, 3G, LTE, 5G, WiFi networks, ad hoc networks, and combinations thereof.
또한, 네트워크는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. Also, a network may include connections of network elements such as hubs, bridges, routers, switches, and gateways. A network may include one or more connected networks, such as a multi-network environment, including a public network such as the Internet and a private network such as a secure corporate private network. Access to the network may be provided through one or more wired or wireless access networks.
한편, 기기의 프로세서 성능, 메모리 용량, 처리 대상이 되는 데이터의 용량에 따라 화자 유사도 판단 장치(400)는 마이크(200)에 연결된 일체형 장치로 구현될 수도 있다.Meanwhile, depending on the device's processor performance, memory capacity, and data capacity to be processed, the speaker
예를 들어, 화자 유사도 판단 장치(400)는 마이크(200)를 포함한 사용자 단말기일 수도 있다.For example, the speaker
화자 유사도 판단 장치(400)는 화자 유사도 판단을 위한 모델 및 판별이 필요한 화자의 음성이 화자 정보와 함께 저장되어 있는 메모리 및 메모리와 동작적으로 연결된 적어도 하나의 프로세서를 포함할 수 있다. The speaker
한편, 메모리는 화자 유사도 판단 장치(400)의 내부에 결합된 경우 이외에 유무선 통신, 인터넷 등을 통해 연결될 수 있는 외부 서버의 메모리로 구현될 수도 있다.Meanwhile, the memory may be implemented as a memory of an external server that can be connected through wired/wireless communication, the Internet, or the like, other than being coupled to the speaker
메모리는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD, CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다. 메모리는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 이에 한정되는 것은 아니다.The memory may include internal memory and/or external memory, and may include volatile memory such as DRAM, SRAM, or SDRAM, one time programmable ROM (OTPROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND flash memory, or non-volatile memory such as NOR flash memory, flash drive such as SSD, compact flash (CF) card, SD card, Micro-SD card, Mini-SD card, Xd card, or memory stick, or HDD The same storage device may be included. The memory may include magnetic storage media or flash storage media, but is not limited thereto.
프로세서는 일종의 중앙처리장치로서, 메모리에 저장된 하나 이상의 명령어를 실행하여 화자 유사도 판단 장치(400)의 동작을 제어할 수 있다.The processor, as a kind of central processing unit, may control the operation of the speaker
프로세서는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 프로세서는 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다.A processor may include any kind of device capable of processing data. For example, a processor may refer to a data processing device embedded in hardware having a physically structured circuit to perform functions expressed by codes or instructions included in a program.
이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로서, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 이에 한정되는 것은 아니다. 프로세서는 하나 이상의 프로세서를 포함할 수 있다.As an example of such a data processing device built into hardware, a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated (ASIC) circuit) and a processing device such as a field programmable gate array (FPGA), but is not limited thereto. A processor may include one or more processors.
화자 정보는 화자의 이름, 주소, 주민번호, 전화번호, 사용자 계정, 서비스 접근 레벨 등 화자를 식별할 수 있는 정보를 포함할 수 있으며, 화자 유사도 판단 장치(400)의 메모리에는 서비스 종류, 인증 종류 등에 따라 이러한 화자 정보가 미리 저장되어 있다.The speaker information may include information for identifying the speaker, such as the speaker's name, address, resident registration number, phone number, user account, and service access level. Such speaker information is stored in advance according to the like.
화자 유사도 판단 장치(400)에 저장된 신경망 모델은 지도 학습 방식 등 다양한 학습 방식을 통해 미리 훈련된 모델일 수 있다.The neural network model stored in the speaker
지도 학습 방식의 경우에는 음성 데이터와 해당 음성 데이터의 화자에 대한 정확한 정보가 레이블링된 훈련 데이터를 이용하여 훈련이 수행될 수 있으며, 화자 유사도 판단 모델은 서로 다른 두 화자의 음성 데이터 및 동일 화자의 음성 데이터와 해당 쌍마다의 동일여부가 레이블링된 훈련 데이터를 통해 훈련이 수행될 수 있다.In the case of the supervised learning method, training may be performed using voice data and training data labeled with accurate information about the speaker of the corresponding voice data, and the speaker similarity judgment model is the voice data of two different speakers and the voice of the same speaker. Training may be performed through training data labeled with data and whether each pair is identical.
도 2는 본 실시예에 따라 화자 유사도 판단이 수행되는 방법의 흐름도이다. 2 is a flowchart of a method for determining speaker similarity according to the present embodiment.
먼저, 화자 유사도 판단 장치(에 사용자에 의해 생성된 음성 데이터가 입력될 수 있다(S210). First, voice data generated by the user may be input to the speaker similarity determining device (S210).
음성 데이터는 입력 인터페이스(200)를 통해 수집된 것으로, 수집된 음성 자체의 적어도 일부를 포함한 오디오 파일일 수도 있고, 오디오 파일에 대해 퓨리에 변환 등을 수행한 음성 스펙트럼 파일일 수도 있으며, 사용될 수 있는 변환은 다양하게 선택될 수 있다.The voice data is collected through the
화자 유사도 판단 장치(400)는 음성 데이터와 함께 화자 정보를 수신할 수 있다. 여기서, 수신된 음성 데이터는 화자 유사도 판단의 대상이 되는 사용자의 음성으로 테스트 음성 데이터로 지칭될 수 있다. The speaker
예를 들어, 입력 인터페이스(200)가 스마트폰의 마이크로폰이라면, 화자 정보는 스마트폰의 소유자로 설정된 사람의 이름, 전화번호, 주민등록번호 등 스마트폰 소유자를 식별할 수 있는 정보를 포함할 수 있다.For example, if the
입력 인터페이스(200)가 노트북의 마이크로폰이고, 사용자가 특정 웹사이트에 로그인한 후 화자 유사도 판단이 요청되는 경우라면, 화자 정보는 특정 웹사이트의 로그인 정보에 따른 사용자 정보를 포함할 수 있다.If the
이러한 화자 정보에 따라 화자 유사도 판단 장치(400)는 미리 등록된 화자의 등록 음성 데이터를 검색할 수 있다.According to the speaker information, the speaker
화자 유사도 판단 장치(400)와 연결된 메모리에는 화자 정보와 연동되어 등록된 화자의 음성 데이터가 미리 저장되어 있으며, 화자 유사도 판단 장치(400)는 수신된 화자 정보에 기초하여 등록 음성 데이터를 검색하여 로딩할 수 있다.In a memory connected to the speaker
화자 유사도 판단 장치(400)에서는 로딩된 등록 음성 데이터와 수신된 테스트 음성 데이터를 대상으로 프레임 단계 화자 특징 정보 추출 및 프레임 단계 보조 특징 정보 추출을 수행할 수 있다(S220 및 S230).The speaker
프레임 단계 특징 추출 단계에서는 입력된 음성 데이터의 음성 특징 벡터(e.g., MFCC, STFT, Mel Filter Bank 등)로부터 프레임 단위 특징 정보 출력을 계산한다. In the frame-level feature extraction step, frame-wise feature information output is calculated from the voice feature vector (e.g., MFCC, STFT, Mel Filter Bank, etc.) of the input voice data.
음성 특징 벡터들은 입력 웨이브(wave) 신호에 특정 길이(예를 들어, 250ms)의 윈도우를 씌워 일정 길이로 이동(shift)시켜 처리되며 테스트 음성 데이터 A와 등록 음성 데이터 B로부터 추출된 음성 특징 벡터들을 xA,t (0≤t≤TA), xB,t (0≤t≤TB)로 정의할 수 있다. 한편, 특정 길이는 데이터 성격 및 인증 강도, 프로세서 성능에 따라 조정될 수 있다.The voice feature vectors are processed by shifting the input wave signal to a certain length by covering a window of a specific length (eg, 250 ms), and the voice feature vectors extracted from the test voice data A and the registered voice data B It can be defined as x A,t (0≤t≤T A ) and x B,t (0≤t≤T B ). Meanwhile, the specific length may be adjusted according to data characteristics, authentication strength, and processor performance.
추출된 음성 특징 벡터들은 프레임 단계 화자 특징 정보 추출 단계와 보조 특징 추출 단계를 거쳐 화자 특징 벡터 및 보조 특징 벡터로 변환된다. 추출된 화자 특징 벡터들을 hA,t (0≤t≤TA), hB,t (0≤t≤TB) 라 정의하고, 보조 특징 벡터들을 cA,t (0≤t≤TA), cB,t (0≤t≤TB)라 정의할 수 있다.The extracted speech feature vectors are converted into speaker feature vectors and auxiliary feature vectors through a frame stage speaker feature information extraction step and an auxiliary feature extraction step. The extracted speaker feature vectors are defined as h A,t (0≤t≤T A ) and h B,t (0≤t≤T B ), and the auxiliary feature vectors are defined as c A,t (0≤t≤T A ), c B,t (0≤t≤T B ).
여기서, 화자 특징 정보란 음성 데이터에 있어서 개별인마다의 특징을 드러내는 화자의 특징을 보여주는 정보를 의미하고, 보조 특징이란 음성 데이터에서 개별인마다의 특징과는 별개로 오디오 자체의 유무, 볼륨의 크기, 노이즈 존재 여부 등과 같은 보조적인 특징을 의미할 수 있다.Here, the speaker characteristic information means information showing the characteristics of a speaker that reveals the characteristics of each individual in the voice data, and the auxiliary characteristics are the presence or absence of the audio itself and the size of the volume apart from the characteristics of each individual in the voice data , may mean auxiliary characteristics such as presence or absence of noise.
입력 음성 특징 처리를 위한 신경망 모델로는 TDNN(time delay neural network), CNN (convolutional neural network), RNN (recurrent neural network) 등을 사용할 수 있다.A time delay neural network (TDNN), a convolutional neural network (CNN), a recurrent neural network (RNN), or the like can be used as a neural network model for processing input speech features.
화자 유사도 판단 장치(400)의 프로세서는 화자 특징 추출 단계(S220) 및 보조 특징 추출 단계(S230)에 따라 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출할 수 있다.The processor of the speaker
화자 유사도 판단 장치(400)는 추출된 화자 특징 벡터 및 보조 특징 벡터를 활용하여 유사도를 계산할 수 있다(S230).The speaker
유사도 계산부에서는 테스트 음성 데이터 A와 등록 음성 데이터 B로부터 추출한 프레임 단계 화자 특징 벡터들 사이의 유사도들과 보조 특징 벡터들 사이의 유사도들을 계산해 행렬로 출력한다. 이 과정에서 유사도로는 코사인 유사도가 계산될 수 있다. 유사도 행렬 계산과정은 아래와 같이 정의될 수 있다.The similarity calculation unit calculates similarities between frame-level speaker feature vectors extracted from test speech data A and registration speech data B and similarities between auxiliary feature vectors and outputs them in a matrix. In this process, cosine similarity may be calculated as the degree of similarity. The similarity matrix calculation process can be defined as follows.
[수학식 1][Equation 1]
위 식에서 는 화자 특징 유사도 행렬이며, 는 보조 특징 유사도 행렬이다. 두 행렬 모두 의 차원을 가질 수 있다.in the above expression is the speaker feature similarity matrix, is the auxiliary feature similarity matrix. both matrices can have dimensions of
한편, 유사도 계산 시에는 코사인 유사도 외에 거리 기준 유사도, L2 디스턴스에 기초한 유사도 계산 방식을 사용할 수도 있다.Meanwhile, when calculating the similarity, a similarity calculation method based on distance-based similarity and L2 distance may be used in addition to cosine similarity.
또한, 화자 유사도 판단 장치(400)는 교차 주의 집중도를 계산할 수 있다(S250).Also, the speaker
교차 주의 집중도 추출부에서는 도 5에서 도시된 바와 같이 두 개의 단계를 거쳐 교차 집중도를 계산한다. 먼저, 집중도 추출부에서는 프레임 단계 화자 특징 벡터와 보조 특징 벡터를 입력 받아 차원을 이어 붙여 종합 특징 벡터 를 만들 수 있다. The cross attentional concentration extraction unit calculates the cross attention through two stages as shown in FIG. 5 . First, the concentration extraction unit receives the frame-level speaker feature vector and the auxiliary feature vector as input and concatenates the dimensions to create a comprehensive feature vector. can make
종합 특징 벡터는 신경망 모델을 거쳐 시간별 음성 집중도로 추출된다. 특징 처리를 위한 신경망 모델로는 보통 2개 이상의 FCDNN(Fully connected deep neural network)를 사용하며, 마지막 신경망의 출력 차원은 1이다. Comprehensive feature vectors are extracted by voice concentration over time through a neural network model. As a neural network model for feature processing, two or more fully connected deep neural networks (FCDNNs) are usually used, and the output dimension of the last neural network is 1.
화자 유사도 판단 장치(400)는 제1 화자 특징 벡터 및 상기 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 상기 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성할 수 있다.The speaker
교차 집중도를 계산하는 단계는, 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터에 기초하여 테스트 음성 데이터에 대한 제1 시간별 음성 집중도 벡터 및 등록 음성 데이터에 대한 제2 시간별 음성 집중도 벡터를 생성하고, 제1 보조 특징 벡터와 상기 제2 보조 특징 벡터에 기초하여 보조 특징 유사도 행렬을 도출하는 단계 및 보조 특징 유사도 행렬, 제1 시간별 음성 집중도 벡터 및 상기 제2 시간별 음성 집중도 벡터에 기초하여 교차 집중도를 계산하는 단계를 포함할 수 있다.Calculating the cross concentration may include generating a first voice concentration vector for test speech data and a second voice concentration vector for registration voice data based on the first comprehensive feature vector and the second comprehensive feature vector; Deriving an auxiliary feature similarity matrix based on the first auxiliary feature vector and the second auxiliary feature vector, and calculating cross concentration based on the auxiliary feature similarity matrix, the first voice concentration vector for each time, and the second voice concentration vector for each time. steps may be included.
도 5에서 도시되는 시간별 음성 집중도 계산은 신경망 모델에 의해 수행될 수 있드며, 이를 위한 수학식은 다음과 같이 정의될 수 있다.The calculation of the voice concentration by time shown in FIG. 5 may be performed by a neural network model, and the equation for this may be defined as follows.
[수학식 2][Equation 2]
위 식에서 는 시간별 음성 집중도 벡터이고, 과 는 신경망의 파라미터이며, 는 시그모이드(sigmoid) 함수 등의 활성화 함수이다. 여기서 활성화 함수는 시그모이드 함수 외에 다른 종류의 활성화 함수가 사용될 수 있음은 물론이다.in the above expression is the hourly speech concentration vector, class is a parameter of the neural network, Is an activation function such as a sigmoid function. It goes without saying that other types of activation functions other than the sigmoid function may be used as the activation function.
와 는 테스트, 등록 음성 집중도 벡터이며, 각각 와 차원의 벡터이다. and are test and registration speech concentration vectors, respectively and is a vector of dimensions.
교차 주의 집중도 계산부에서는 보조 특징 유사도 행렬 과 시간별 음성 집중도 벡터 를 입력 받아 행렬곱을 통해 교차 집중도를 계산할 수 있다. In the cross attention calculation unit, the auxiliary feature similarity matrix and hourly speech concentration vector can be input and the cross concentration can be calculated through matrix multiplication.
교차 집중도를 계산하는 단계는, 제1 시간별 음성 집중도 벡터에 대한 제1 교차 집중도 및 상기 제2 시간별 음성 집중도 벡터에 대한 제2 교차 집중도를 계산하는 단계를 포함할 수 있다.The calculating of the cross-concentration may include calculating a first cross-concentration for the first voice concentration vector for each time and a second cross-concentration for the second voice concentration vector for each time.
등록 음성 데이터에 대한 교차 집중도인 제1 교차 집중도와 테스트 음성 데이터에 대한 교차 집중도인 제2 교차 집중도의 계산은 다음과 같이 표현될 수 있다.Calculation of the first cross-concentration, which is the cross-concentration for the registration voice data, and the second cross-concentration, which is the cross-concentration for the test voice data, can be expressed as follows.
[수학식 3][Equation 3]
[수학식 4][Equation 4]
계산된 테스트 음성 교차 집중도 와 등록 음성 교차 집중도 는 와 차원의 벡터일 수 있다.Calculated test voice cross-concentration and registration voice cross-concentration Is and It can be a vector of dimensions.
화자 유사도 판단 장치(400)는 위의 결과를 이용하여 화자 유사도 계산을 수행할 수 있다(S260).The speaker
자 유사도 계산 과정에서는 테스트 음성 집중도 와 등록 음성 집중도 그리고 화자 특징 유사도 행렬을 통해 화자 유사도를 계산한다. 계산 과정은 다음과 같이 정의될 수 있다.In the process of calculating the similarity, the test voice concentration and registration speech concentration Then, the speaker similarity is calculated through the speaker feature similarity matrix. The calculation process can be defined as:
[수학식 5][Equation 5]
최종적으로 구한 화자 유사도 s는 1차원의 값이며, 그 크기가 클수록 등록 음성과 테스트 음성의 화자가 유사하다는 지표로 사용될 수 있다.The finally obtained speaker similarity s is a one-dimensional value, and as its magnitude increases, it can be used as an indicator that the speakers of the registration voice and the test voice are similar.
한편, 화자 유사도 판단 방법은, 등록 음성 데이터를 검색하는 단계 이후 및 상기 추출하는 단계 이전에, 등록 음성 데이터 및 테스트 음성 데이터 각각에서 적어도 하나의 프레임을 선택하는 단계를 더 포함할 수 있다.Meanwhile, the method of determining speaker similarity may further include selecting at least one frame from each of the registration voice data and the test voice data after the step of searching for the registered voice data and before the step of extracting the registered voice data.
또한, 화자 특징 벡터 및 보조 특징 벡터를 추출하는 단계는, 테스트 음성 데이터의 적어도 하나의 프레임로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터의 적어도 하나의 프레임으로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 단계를 포함할 수 있다.In addition, the step of extracting the speaker feature vector and the auxiliary feature vector may include deriving a first speaker feature vector and a first auxiliary feature vector from at least one frame of the test speech data, and deriving a first speaker feature vector and a first auxiliary feature vector from at least one frame of the registration speech data. Extracting the 2-speaker feature vector and the second auxiliary feature vector may be included.
한편, 본 발명의 일 실시예에 따른 기법에서 풀링(pooling) 과정은 서로 다른 길이의 음성으로부터 얻어진 프레임 단위의 특징 벡터들로부터 하나의 고정된 차원을 가진 특징 벡터로 추출하는 과정이며, 이 과정에서 프레임 단위의 특징 벡터로부터 화자인식에 유효한 정보를 얼마나 잘 집계하는지가 성능에 직접적으로 연결된다. Meanwhile, in the technique according to an embodiment of the present invention, the pooling process is a process of extracting a feature vector having one fixed dimension from frame-unit feature vectors obtained from speeches of different lengths. How well information effective for speaker recognition is aggregated from feature vectors in units of frames is directly related to performance.
하지만 기존의 풀링 과정들은 대체로 단순 산술 평균이나 가중치 산술 평균을 이용해 프레임 단계 특징 벡터들을 평균화하기 때문에 이 과정에서 프레임 단계 특징 벡터가 갖고 있던 정보가 많이 손실될 수 있다. However, since existing pooling processes generally average frame-level feature vectors using simple arithmetic mean or weighted arithmetic mean, much information of frame-step feature vectors may be lost in this process.
또한, 추출한 풀링 과정을 통해 얻어진 임베딩이라 불리는 고정된 차원의 벡터는 화자 인식 결과를 도출하기 위해서는 코사인유사도나 별도의 머신러닝 기법(e.g, Linear Discriminant Analysis, Probabilistic Linear Discriminant Analysis)들을 활용한 스코어링(scoring) 시스템이 필요하다. In addition, the fixed-dimensional vectors, called embeddings obtained through the extracted pooling process, are scored using cosine similarity or separate machine learning techniques (e.g., Linear Discriminant Analysis, Probabilistic Linear Discriminant Analysis) to derive speaker recognition results. ) system is required.
이에 본 발명에서는 보조 특징벡터와 교차 주의 기법을 활용하여, 프레임 단계 특징 벡터들을 이용해 짧은 발화 정보를 고려하여 더 정확한 검증 점수를 계산할 수 있으며, 별도의 scoring 시스템 학습이 필요 없는 종단형 화자 인식 시스템을 제안한다.Therefore, in the present invention, by using auxiliary feature vectors and cross-attention techniques, a vertical speaker recognition system that can calculate more accurate verification scores by considering short speech information using frame-level feature vectors and does not require separate scoring system learning Suggest.
한편, 본 발명에서는 어떤 프레임의 유사도에 더 집중해야하는지 판단하고 프레임들 중 보조 특징 벡터의 유사도가 높은 부분에 더 집중하여 비교가 이루어지도록 하여 보다 효과적으로 음성 분석이 이루어질 수 있다.On the other hand, in the present invention, voice analysis can be performed more effectively by determining which frames should be more focused on the similarity and by focusing more on a portion of the frames having a high similarity of auxiliary feature vectors for comparison.
도 3은 본 실시예에 따른 화자 유사도 판단 장치의 블록도이다.3 is a block diagram of an apparatus for determining speaker similarity according to the present embodiment.
화자 유사도 판단 장치(400)는 음성 데이터 수신부(410), 프레임 단계 화자 특징 정보 추출부(420), 프레임 단계 보조 특징 추출부(430), 음성 유사도 계산부(440), 교차 주의 집중도 추출부(450), 화자 유사도 계산부(460), 메모리(470) 및 프로세서(480)를 포함할 수 있다.The speaker
각각의 부들은 하드웨어 또는 소프트웨어 모듈로서 구현될 수 있으며, 상술된 단계들을 수행하도록 프로그래밍 될 수 있다. 한편, 프레임 단계 화자 특징 추출부와 프레임 단계 보조 특징 추출부는 동일한 구조를 가질 수 있다.Each unit may be implemented as a hardware or software module and may be programmed to perform the steps described above. Meanwhile, the frame-level speaker feature extraction unit and the frame-level auxiliary feature extraction unit may have the same structure.
도 4는 본 실시예에 따른 화자 인식 시스템 전체 구성을 예시적으로 도시한 개략도이다.4 is a schematic diagram exemplarily showing the overall configuration of a speaker recognition system according to the present embodiment.
검정 화살표는 테스트 음성 데이터(A)의 전달 과정을 표시하고, 흰색 화살표는 등록 음성 데이터(B)의 전달 과정을 표시할 수 있다. A black arrow may indicate a transfer process of the test voice data (A), and a white arrow may indicate a transfer process of the registration voice data (B).
도 5는 본 실시예에 따른 화자 인식 시스템 중 교차 주의 집중도 추출부를 예시적으로 도시한 개략도로서, 도 4에서 표시된 교차 주의 집중도 추출부를 보다 상세하게 설명하기 위한 도면이다.FIG. 5 is a schematic diagram exemplarily illustrating a cross attention extraction unit in the speaker recognition system according to the present embodiment, and is a diagram for explaining the cross attention extraction unit shown in FIG. 4 in more detail.
도 5에 따르면, 테스트 종학 특징 벡터와 등록 종합 특징 벡터는 집중도 추출부를 통과하여 시간별 음성 집중도 벡터로 출력되고, 교차 주의 집중도 추출부는 이들 벡터들과 미리 계산된 보조 특징 유사도 행렬에 기초하여 등록 음성 교차 집중도와 테스트 음성 교차 집중도를 출력할 수 있다.According to FIG. 5, the test subject feature vector and the registration comprehensive feature vector are output as hourly speech concentration vectors after passing through the concentration extraction unit, and the cross attention extraction unit crosses the registration speech based on these vectors and a pre-calculated auxiliary feature similarity matrix. Concentration and test voice cross-concentration can be output.
다시 도4를 참조하면, 화자 유사도 계산부는 화자 특징 유사도 행렬과 등록 음성 교차 집중도 및 테스트 음성 교차 집중도에 기초하여 화자의 유사도를 계산할 수 있다.Referring back to FIG. 4 , the speaker similarity calculation unit may calculate the similarity of the speakers based on the speaker feature similarity matrix, the cross-concentration of the registered voice, and the cross-concentration of the test voice.
상술된 과정을 거쳐 최종 출력되는 값은 동일 화자일 확률로서 화자 유사도가 클수록 테스트 음성 데이터의 사용자와 등록 음성 데이터의 화자가 동일인물일 가능성이 커지고, 화자 유사도가 작을수록 테스트 음성 데이터의 사용자와 등록 음성 데이터의 화자가 동일인물일 가능성이 작다고 판단될 수 있다.The value finally output through the above process is the probability that the speaker is the same person. The higher the speaker similarity, the higher the possibility that the user of the test voice data and the speaker of the registered voice data are the same person. It may be determined that the speaker of the voice data is less likely to be the same person.
전술한 본 발명의 일 실시 예에 따른 화자 유사도 판단 방법은 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.The above-described method for determining speaker similarity according to an embodiment of the present invention can be implemented as computer readable code on a medium on which a program is recorded. The computer-readable medium includes all types of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable media include Hard Disk Drive (HDD), Solid State Disk (SSD), Silicon Disk Drive (SDD), ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, etc. there is
이상 설명된 본 발명의 실시 예에 대한 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the embodiments of the present invention described above is for illustrative purposes, and those skilled in the art can easily modify them into other specific forms without changing the technical spirit or essential features of the present invention. you will understand that Therefore, the embodiments described above should be understood as illustrative in all respects and not limiting. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and equivalent concepts thereof should be construed as being included in the scope of the present invention.
100:
사용자
200:
입력 인터페이스
300:
네트워크
400:
화자 유사도 판단 장치100: user
200: input interface
300: network
400: speaker similarity determination device
Claims (13)
화자 정보 및 테스트 음성 데이터를 수신하는 단계;
상기 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하는 단계;
상기 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 추출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 단계;
상기 제1 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하는 단계;
상기 제1 화자 특징 벡터 및 상기 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 상기 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하는 단계;
상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하는 단계; 및
상기 화자 특징 유사도 행렬 및 상기 교차 집중도에 기초하여 상기 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 단계를 포함하는,
화자 유사도 판단 방법.
A method for determining speaker similarity performed by a processor of a speaker similarity determination device, the method comprising:
receiving speaker information and test voice data;
searching for registered voice data of a previously registered speaker according to the speaker information;
extracting a first speaker feature vector and a first auxiliary feature vector from the test speech data, and extracting a second speaker feature vector and a second auxiliary feature vector from the registered speech data;
deriving a speaker feature similarity matrix based on the first speaker feature vector and the second speaker feature vector;
generating a first synthetic feature vector based on the first speaker feature vector and the first auxiliary feature vector, and generating a second synthetic feature vector based on the second speaker feature vector and the second speaker feature vector; ;
calculating cross concentration using the first comprehensive feature vector and the second comprehensive feature vector; and
Calculating a similarity between the test voice and the speaker's voice based on the speaker feature similarity matrix and the cross concentration.
How to judge speaker similarity.
상기 교차 집중도를 계산하는 단계는,
상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터에 기초하여 상기 테스트 음성 데이터에 대한 제1 시간별 음성 집중도 벡터 및 상기 등록 음성 데이터에 대한 제2 시간별 음성 집중도 벡터를 생성하는 단계;
상기 제1 보조 특징 벡터와 상기 제2 보조 특징 벡터에 기초하여 보조 특징 유사도 행렬을 도출하는 단계; 및
상기 보조 특징 유사도 행렬, 상기 제1 시간별 음성 집중도 벡터 및 상기 제2 시간별 음성 집중도 벡터에 기초하여 교차 집중도를 계산하는 단계를 포함하는,
화자 유사도 판단 방법.
According to claim 1,
The step of calculating the cross concentration,
generating a first voice concentration vector for each time of the test speech data and a second voice concentration vector for each time of the registered voice data based on the first comprehensive feature vector and the second comprehensive feature vector;
deriving an auxiliary feature similarity matrix based on the first auxiliary feature vector and the second auxiliary feature vector; and
Calculating a cross concentration based on the auxiliary feature similarity matrix, the first voice concentration vector for each time, and the second voice concentration vector for each time,
How to judge speaker similarity.
상기 음성 집중도 벡터를 생성하는 단계는 하기 식1에 따라 신경망 모델을 통하여 수행되며,
식1:
여기서, 는 시간별 음성 집중도 벡터이고 W1 및 W2는 상기 신경망 모델의 파라미터이고, 는 활성화 함수이며, 는 종합 특징 벡터인,
화자 유사도 판단 방법.
According to claim 2,
The step of generating the voice concentration vector is performed through a neural network model according to Equation 1 below,
Equation 1:
here, Is a voice concentration vector by time, W 1 and W 2 are parameters of the neural network model, is the activation function, is the overall feature vector,
How to judge speaker similarity.
상기 교차 집중도를 계산하는 단계는,
상기 제1 시간별 음성 집중도 벡터에 대한 제1 교차 집중도 및 상기 제2 시간별 음성 집중도 벡터에 대한 제2 교차 집중도를 계산하는 단계를 포함하고,
상기 제1 교차 집중도는 하기 식2에 따라 계산되고, 상기 제2 교차 집중도는 하기 식3에 따라 계산되며,
식2:
식3:
여기서, RC는 상기 보조 특징 유사도 행렬이고, 는 상기 제1 시간별 음성 집중도 벡터이고, 는 상기 제2 시간별 음성 집중도 벡터인,
화자 유사도 판단 방법.
According to claim 3,
The step of calculating the cross concentration,
Calculating a first cross-concentration degree for the first voice intensity vector over time and a second cross-concentration degree for the second voice intensity vector over time;
The first cross-concentration is calculated according to Equation 2 below, and the second cross-concentration is calculated according to Equation 3 below,
Equation 2:
Equation 3:
Here, R C is the auxiliary feature similarity matrix, Is the voice concentration vector for each first time, Is the second voice concentration vector for each time,
How to judge speaker similarity.
상기 화자의 음성의 유사도를 산출하는 단계는 하기 식4에 따라 수행되며,
식4:
여기서, s는 유사도이고, Rh는 상기 화자 특징 유사도 행렬이고, s의 크기가 클수록 유사도가 높음을 의미하는,
화자 유사도 판단 방법.
According to claim 4,
The step of calculating the similarity of the speaker's voice is performed according to Equation 4 below,
Equation 4:
Here, s is the similarity, R h is the speaker feature similarity matrix, and the larger the size of s, the higher the similarity.
How to judge speaker similarity.
상기 등록 음성 데이터를 검색하는 단계 이후 및 상기 추출하는 단계 이전에,
상기 등록 음성 데이터 및 상기 테스트 음성 데이터 각각에서 적어도 하나의 프레임을 선택하는 단계를 더 포함하고,
상기 추출하는 단계는,
상기 테스트 음성 데이터의 적어도 하나의 프레임로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터의 적어도 하나의 프레임으로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 단계를 포함하는,
화자 유사도 판단 방법.
According to claim 1,
After the step of retrieving the registered voice data and before the step of extracting,
selecting at least one frame from each of the registration voice data and the test voice data;
The extraction step is
Deriving a first speaker feature vector and a first auxiliary feature vector from at least one frame of the test speech data, and extracting a second speaker feature vector and a second auxiliary feature vector from at least one frame of the registered speech data. including,
How to judge speaker similarity.
A computer readable recording medium storing a computer program comprising one or more instructions configured to execute a method according to any one of claims 1 to 6.
명령어 및 신경망 모델을 저장하는 메모리; 및
상기 메모리와 전기적으로 연결된 적어도 하나의 프로세서를 포함하고,
상기 프로세서는,
화자 정보 및 테스트 음성 데이터를 수신하는 동작,
상기 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하는 동작,
상기 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 추출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 동작,
상기 제1 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하는 동작,
상기 제1 화자 특징 벡터 및 상기 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 상기 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하는 동작,
상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하는 동작, 및
상기 화자 특징 유사도 행렬 및 상기 교차 집중도에 기초하여 상기 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 동작을 수행하도록 구성되는,
화자 유사도 판단 장치.
As a device for determining speaker similarity,
memory for storing instructions and neural network models; and
at least one processor electrically connected to the memory;
the processor,
receiving speaker information and test voice data;
Searching for registered voice data of a previously registered speaker according to the speaker information;
extracting a first speaker feature vector and a first auxiliary feature vector from the test speech data, and extracting a second speaker feature vector and a second auxiliary feature vector from the registered speech data;
Deriving a speaker feature similarity matrix based on the first speaker feature vector and the second speaker feature vector;
An operation of generating a first synthetic feature vector based on the first speaker feature vector and the first auxiliary feature vector, and generating a second synthetic feature vector based on the second speaker feature vector and the second speaker feature vector. ,
Calculating cross concentration using the first comprehensive feature vector and the second comprehensive feature vector; and
And configured to perform an operation of calculating a similarity between the test voice and the speaker's voice based on the speaker feature similarity matrix and the cross concentration.
Speaker similarity judgment device.
상기 교차 집중도를 계산하는 동작은,
상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터에 기초하여 상기 테스트 음성 데이터에 대한 제1 시간별 음성 집중도 벡터 및 상기 등록 음성 데이터에 대한 제2 시간별 음성 집중도 벡터를 생성하는 동작,
상기 제1 보조 특징 벡터와 상기 제2 보조 특징 벡터에 기초하여 보조 특징 유사도 행렬을 도출하는 동작, 및
상기 보조 특징 유사도 행렬, 상기 제1 시간별 음성 집중도 벡터 및 상기 제2 시간별 음성 집중도 벡터에 기초하여 교차 집중도를 계산하는 동작을 포함하는,
화자 유사도 판단 장치.
According to claim 8,
The operation of calculating the cross concentration,
generating a first voice concentration vector for each time of the test speech data and a second voice concentration vector for each time of the registered voice data based on the first comprehensive feature vector and the second comprehensive feature vector;
Deriving an auxiliary feature similarity matrix based on the first auxiliary feature vector and the second auxiliary feature vector; and
Calculating a cross concentration based on the auxiliary feature similarity matrix, the first voice concentration vector for each time, and the second voice concentration vector for each time,
Speaker similarity judgment device.
상기 음성 집중도 벡터를 생성하는 동작은 하기 식1에 따라 신경망 모델을 통하여 수행되며,
식1:
여기서, 는 시간별 음성 집중도 벡터이고 W1 및 W2는 상기 신경망 모델의 파라미터이고, 는 활성화 함수이며, 는 종합 특징 벡터인,
화자 유사도 판단 장치.
According to claim 9,
The operation of generating the voice concentration vector is performed through a neural network model according to Equation 1 below,
Equation 1:
here, Is a voice concentration vector by time, W 1 and W 2 are parameters of the neural network model, is the activation function, is the overall feature vector,
Speaker similarity judgment device.
상기 교차 집중도를 계산하는 동작은,
상기 제1 시간별 음성 집중도 벡터에 대한 제1 교차 집중도 및 상기 제2 시간별 음성 집중도 벡터에 대한 제2 교차 집중도를 계산하는 동작을 포함하고,
상기 제1 교차 집중도는 하기 식2에 따라 계산되고, 상기 제2 교차 집중도는 하기 식3에 따라 계산되며,
식2:
식3:
여기서, RC는 상기 보조 특징 유사도 행렬이고, 는 상기 제1 시간별 음성 집중도 벡터이고, 는 상기 제2 시간별 음성 집중도 벡터인,
화자 유사도 판단 장치.
According to claim 10,
The operation of calculating the cross concentration,
Calculating a first cross-concentration for the first voice concentration vector for each time and a second cross-concentration for the second voice concentration vector for each time;
The first cross-concentration is calculated according to Equation 2 below, and the second cross-concentration is calculated according to Equation 3 below,
Equation 2:
Equation 3:
Here, R C is the auxiliary feature similarity matrix, Is the voice concentration vector for each first time, Is the second voice concentration vector for each time,
Speaker similarity judgment device.
상기 화자의 음성의 유사도를 산출하는 동작은 하기 식4에 따라 수행되며,
식4:
여기서, s는 유사도이고, Rh는 상기 화자 특징 유사도 행렬이고, s의 크기가 클수록 유사도가 높음을 의미하는,
화자 유사도 판단 장치.
According to claim 11,
The operation of calculating the similarity of the speaker's voice is performed according to Equation 4 below,
Equation 4:
Here, s is the similarity, R h is the speaker feature similarity matrix, and the larger the size of s, the higher the similarity.
Speaker similarity judgment device.
상기 프로세서는,
상기 등록 음성 데이터를 검색하는 동작 이후 및 상기 추출하는 동작 이전에,
상기 등록 음성 데이터 및 상기 테스트 음성 데이터 각각에서 적어도 하나의 프레임을 선택하는 동작을 더 수행하도록 구성되고,
상기 추출하는 동작은,
상기 테스트 음성 데이터의 적어도 하나의 프레임로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터의 적어도 하나의 프레임으로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 동작을 포함하는,
화자 유사도 판단 방법.According to claim 8,
the processor,
After the operation of searching for the registered voice data and before the operation of extracting,
configured to further perform an operation of selecting at least one frame from each of the registration voice data and the test voice data;
The extraction operation is
Deriving a first speaker feature vector and a first auxiliary feature vector from at least one frame of the test speech data, and extracting a second speaker feature vector and a second auxiliary feature vector from at least one frame of the registered speech data. including,
How to judge speaker similarity.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/KR2021/020384 WO2023128035A1 (en) | 2021-12-31 | 2021-12-31 | Method and apparatus for determining speaker similarity |
| KR1020210194701A KR102655367B1 (en) | 2021-12-31 | 2021-12-31 | Method and apparatus for determining speaker similarity |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020210194701A KR102655367B1 (en) | 2021-12-31 | 2021-12-31 | Method and apparatus for determining speaker similarity |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20230103667A true KR20230103667A (en) | 2023-07-07 |
| KR102655367B1 KR102655367B1 (en) | 2024-04-04 |
Family
ID=86999346
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020210194701A Active KR102655367B1 (en) | 2021-12-31 | 2021-12-31 | Method and apparatus for determining speaker similarity |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR102655367B1 (en) |
| WO (1) | WO2023128035A1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119832916A (en) * | 2024-12-12 | 2025-04-15 | 中电信人工智能科技(北京)有限公司 | Speaker recognition method, device, equipment and storage medium |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200119377A (en) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | Method and apparatus for implementing neural network for identifying speaker |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102596430B1 (en) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | Method and apparatus for speech recognition based on speaker recognition |
| KR102002903B1 (en) * | 2017-07-26 | 2019-07-23 | 네이버 주식회사 | Method for certifying speaker and system for recognizing speech |
-
2021
- 2021-12-31 WO PCT/KR2021/020384 patent/WO2023128035A1/en not_active Ceased
- 2021-12-31 KR KR1020210194701A patent/KR102655367B1/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200119377A (en) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | Method and apparatus for implementing neural network for identifying speaker |
Non-Patent Citations (2)
| Title |
|---|
| Chung, Joon Son, et al., In defence of metric learning for speaker recognition., arXiv preprint arXiv:2003.11982, 2020* * |
| Hou, Ruibing, et al., Cross attention network for few-shot classification., Advances in neural information processing systems 32, 2019* * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2023128035A1 (en) | 2023-07-06 |
| KR102655367B1 (en) | 2024-04-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109473106B (en) | Voiceprint sample collection method, voiceprint sample collection device, voiceprint sample collection computer equipment and storage medium | |
| US10957339B2 (en) | Speaker recognition method and apparatus, computer device and computer-readable medium | |
| WO2021128741A1 (en) | Voice emotion fluctuation analysis method and apparatus, and computer device and storage medium | |
| CN109378002B (en) | Voiceprint verification method, voiceprint verification device, computer equipment and storage medium | |
| WO2021139425A1 (en) | Voice activity detection method, apparatus and device, and storage medium | |
| US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
| CN110556126A (en) | Voice recognition method and device and computer equipment | |
| CN110689881A (en) | Speech recognition method, apparatus, computer equipment and storage medium | |
| US10909991B2 (en) | System for text-dependent speaker recognition and method thereof | |
| JP6996627B2 (en) | Information processing equipment, control methods, and programs | |
| JP7592636B2 (en) | Speech processing method, speech processing device, and human-computer interaction system | |
| CN112632248A (en) | Question answering method, device, computer equipment and storage medium | |
| WO2017162053A1 (en) | Identity authentication method and device | |
| CN111243603A (en) | Voiceprint recognition method, system, mobile terminal and storage medium | |
| CN109920435A (en) | Voiceprint recognition method and voiceprint recognition device | |
| CN113299295B (en) | Training method and device for voiceprint coding network | |
| JP4717872B2 (en) | Speaker information acquisition system and method using voice feature information of speaker | |
| CN106710588B (en) | Speech data sentence recognition method, device and system | |
| KR102655367B1 (en) | Method and apparatus for determining speaker similarity | |
| CN111063359A (en) | Telephone return visit validity judging method, device, computer equipment and medium | |
| CN114783415B (en) | Voiceprint extraction method, identity recognition method and related equipment | |
| CN111199742A (en) | Identity verification method and device and computing equipment | |
| CN115984927A (en) | A living body detection method, device, electronic equipment and storage medium | |
| CN115100573A (en) | A video recognition method, device, storage medium and device | |
| CN115376516A (en) | Voiceprint recognition method, device and equipment based on twin voiceprint pairs and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20211231 |
|
| PA0201 | Request for examination | ||
| PG1501 | Laying open of application | ||
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20230728 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240119 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240402 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20240402 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration |