KR102399535B1 - 음성 인식을 위한 학습 방법 및 장치 - Google Patents
음성 인식을 위한 학습 방법 및 장치 Download PDFInfo
- Publication number
- KR102399535B1 KR102399535B1 KR1020170036909A KR20170036909A KR102399535B1 KR 102399535 B1 KR102399535 B1 KR 102399535B1 KR 1020170036909 A KR1020170036909 A KR 1020170036909A KR 20170036909 A KR20170036909 A KR 20170036909A KR 102399535 B1 KR102399535 B1 KR 102399535B1
- Authority
- KR
- South Korea
- Prior art keywords
- empirical
- iteration
- reproduction
- sample
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
도 2는 일실시예에 따른 학습 방법을 설명하기 위한 개념도이다.
도 3은 일실시예에 따른 현재 반복의 학습 과정을 설명하기 위한 순서도이다.
도 4a는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 4b는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 4c는 일실시예에 경험 재현 세트를 설명하기 위한 도면이다.
도 5는 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 경험 재현 세트를 설명하기 위한 도면이다.
도 7은 일실시예에 따른 학습 장치의 구성의 예시도이다.
Claims (32)
- 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하는 단계;
상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하는 단계; 및
상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계
를 포함하고,
상기 판단하는 단계는
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 에러 임계 값 이하인지 여부를 판단하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 판단하는 단계는
상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수인지 여부를 판단하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 판단하는 단계는
상기 학습을 위한 반복들 중 상기 현재 반복에 대응하는 반복 횟수가 미리 정의된 수의 배수 및 미리 정의된 제2 수의 합보다 작은지 여부를 판단하는 단계
를 포함하는,
학습 방법.
- 삭제
- 제1항에 있어서,
상기 판단하는 단계는
상기 현재 반복이 배치(batch) 기법을 이용하는지 여부를 판단하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트로부터 어느 하나의 샘플을 무작위로(randomly) 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 트레이닝 세트로부터 어느 하나의 제1 샘플을 무작위로 선택하는 단계; 및
상기 무작위로 선택된 제1 샘플과 유사도가 가장 높은 제2 샘플을 상기 경험 재현 세트로부터 선택하는 단계
를 포함하는,
학습 방법.
- 제7항에 있어서,
상기 유사도는 음향 샘플의 트라이폰(triphone)의 분포에 기초하여 정의되는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 어느 하나의 샘플을 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트로부터 무작위로 복수의 샘플들을 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트 및 상기 트레이닝 세트로부터 미리 정의된 비율로 복수의 샘플들을 무작위로 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 트레이닝 세트로부터 복수의 제1 샘플들을 무작위로 선택하는 단계; 및
상기 경험 재현 세트로부터 상기 무작위로 선택된 복수의 제1 샘플들과 유사도가 가장 높은 복수의 제2 샘플들을 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 선택하는 단계는
상기 현재 반복이 상기 경험 재현 반복에 의해 수행되고, 상기 경험 재현 반복이 배치 기법을 이용하는 경우, 상기 경험 재현 세트에 포함된 샘플들의 품질들에 기초하여 상기 경험 재현 세트로부터 복수의 샘플들을 선택하는 단계
를 포함하는,
학습 방법.
- 제1항에 있어서,
상기 학습 결과 및 상기 선택된 샘플에 기초하여, 상기 경험 재현 세트를 갱신(update)할지 여부를 판단하는 단계
를 더 포함하는
학습 방법.
- 제14항에 있어서,
상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
상기 경험 재현 세트에 포함된 샘플들의 분포에서 상기 선택된 샘플의 적어도 하나의 확률;
상기 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력;
상기 현재 반복에 대응하는 트레이닝 에러(training error)의 감소; 및
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 상기 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이
중 적어도 하나에 기초하여 상기 선택된 샘플의 적어도 하나의 품질을 계산하는 단계
를 포함하는,
학습 방법.
- 제15항에 있어서,
상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
상기 계산된 품질을 상기 경험 재현 세트에 포함된 상기 샘플들의 품질들과 비교하는 단계
를 더 포함하는,
학습 방법.
- 제16항에 있어서,
상기 비교 결과에 기초하여, 상기 계산된 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 상기 선택된 샘플로 대체하는 단계
를 더 포함하는,
학습 방법.
- 제15항에 있어서,
상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계는
상기 계산된 품질을 임계 값과 비교하는 단계
를 더 포함하는,
학습 방법.
- 제18항에 있어서,
상기 비교 결과에 기초하여, 상기 선택된 샘플을 상기 경험 재현 세트에 추가하는 단계
를 더 포함하는,
학습 방법.
- 제18항에 있어서,
상기 품질이 상기 차이에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 작아지는,
학습 방법.
- 제18항에 있어서,
상기 품질이 상기 출력에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 커지는,
학습 방법.
- 제1항에 있어서,
상기 경험 재현 세트는
미리 정의된 환경에서 녹음된 음향 샘플들 및 트라이폰의 분포가 미리 정의된 기준으로 균등하게 분포된 음향 샘플들 중 적어도 하나를 포함하는,
학습 방법.
- 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 단계;
상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하는 단계; 및
상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 단계
를 포함하고,
상기 판단하는 단계는
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 에러 임계 값 이하인지 여부를 판단하는 단계
를 포함하는
학습 방법.
- 제23항에 있어서,
상기 판단하는 단계는
상기 경험 재현 세트에 포함된 샘플들의 분포에서 상기 선택된 샘플의 적어도 하나의 확률;
상기 선택된 샘플에 기초하여 학습된 뉴럴 네트워크로부터 획득된 적어도 하나의 출력;
상기 현재 반복에 대응하는 트레이닝 에러(training error)의 감소; 및
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러의 감소와 상기 현재 반복에 대응하는 트레이닝 에러의 감소 사이의 차이
중 적어도 하나에 기초하여 상기 선택된 샘플의 적어도 하나의 품질을 계산하는 단계
를 포함하는,
학습 방법.
- 제24항에 있어서,
상기 판단하는 단계는
상기 계산된 품질을 상기 경험 재현 세트에 포함된 상기 샘플들의 품질들과 비교하는 단계를 더 포함하고,
상기 갱신하는 단계는
상기 비교 결과에 기초하여, 상기 계산된 품질보다 낮은 품질에 대응하는 적어도 하나의 샘플을 상기 선택된 샘플로 대체하는 단계를 더 포함하는,
학습 방법.
- 제24항에 있어서,
상기 판단하는 단계는
상기 계산된 품질을 임계 값과 비교하는 단계를 더 포함하고,
상기 갱신하는 단계는
상기 비교 결과에 기초하여, 상기 선택된 샘플을 상기 경험 재현 세트에 추가하는 단계를 더 포함하는,
학습 방법.
- 제26항에 있어서,
상기 품질이 상기 차이에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 작아지는,
학습 방법.
- 제26항에 있어서,
상기 품질이 상기 출력에 기초하여 계산된 경우, 상기 현재 반복에 대응하는 반복 횟수가 커질수록 상기 임계 값은 커지는,
학습 방법.
- 제23항에 있어서,
상기 학습시키는 단계는
상기 현재 반복이 상기 경험 재현 세트를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하는 단계
를 포함하는,
학습 방법.
- 하드웨어와 결합되어 제1항 내 지제3항 및 제5항 내지 제29항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
- 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)이 경험 재현 세트(experience relay set)를 이용하는 경험 재현 반복(experience replay iteration)에 의해 수행될지 여부를 판단하고,
상기 판단 결과에 기초하여, 상기 경험 재현 세트 및 트레이닝 세트 중 적어도 하나로부터 적어도 하나의 샘플을 선택하고,
상기 선택된 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키는 프로세서
를 포함하고,
상기 프로세서는
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 에러 임계 값 이하인지 여부를 판단하는
학습 장치.
- 뉴럴 네트워크의 학습을 위한 현재 반복(current iteration)에 있어서, 경험 재현 세트(experience relay set) 및 트레이닝 세트 중 적어도 하나로부터 선택된 적어도 하나의 샘플에 기초하여 상기 뉴럴 네트워크를 학습시키고,
상기 학습 결과 및 상기 선택된 샘플에 기초하여 상기 경험 재현 세트를 갱신할지 여부를 판단하고,
상기 판단 결과에 기초하여 상기 경험 재현 세트를 갱신하는 프로세서
를 포함하고,
상기 프로세서는
상기 현재 반복의 이전 반복에 대응하는 트레이닝 에러(training error)의 감소가 에러 임계 값 이하인지 여부를 판단하는
학습 장치.
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170036909A KR102399535B1 (ko) | 2017-03-23 | 2017-03-23 | 음성 인식을 위한 학습 방법 및 장치 |
| US15/678,390 US10540958B2 (en) | 2017-03-23 | 2017-08-16 | Neural network training method and apparatus using experience replay sets for recognition |
| CN201711064668.2A CN108630197B (zh) | 2017-03-23 | 2017-11-02 | 用于语音识别的训练方法和设备 |
| EP17200655.3A EP3379531B1 (en) | 2017-03-23 | 2017-11-08 | Training method and apparatus for speech recognition |
| JP2017245279A JP7055630B2 (ja) | 2017-03-23 | 2017-12-21 | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170036909A KR102399535B1 (ko) | 2017-03-23 | 2017-03-23 | 음성 인식을 위한 학습 방법 및 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20180107940A KR20180107940A (ko) | 2018-10-04 |
| KR102399535B1 true KR102399535B1 (ko) | 2022-05-19 |
Family
ID=60301805
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170036909A Active KR102399535B1 (ko) | 2017-03-23 | 2017-03-23 | 음성 인식을 위한 학습 방법 및 장치 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10540958B2 (ko) |
| EP (1) | EP3379531B1 (ko) |
| JP (1) | JP7055630B2 (ko) |
| KR (1) | KR102399535B1 (ko) |
| CN (1) | CN108630197B (ko) |
Families Citing this family (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108305619B (zh) * | 2017-03-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 语音数据集训练方法和装置 |
| CN112673421B (zh) * | 2018-11-28 | 2024-07-16 | 谷歌有限责任公司 | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 |
| EP3918472B1 (en) * | 2019-01-28 | 2024-03-27 | INTEL Corporation | Techniques to detect fusible operators with machine learning |
| CN110033089B (zh) * | 2019-04-17 | 2021-03-26 | 山东大学 | 基于分布式估计算法的手写体数字图像识别深度神经网络参数优化方法及系统 |
| CN109979257B (zh) * | 2019-04-27 | 2021-01-08 | 深圳市数字星河科技有限公司 | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 |
| US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
| CN110556100B (zh) * | 2019-09-10 | 2021-09-17 | 思必驰科技股份有限公司 | 端到端语音识别模型的训练方法及系统 |
| CN111291657B (zh) * | 2020-01-21 | 2022-09-16 | 同济大学 | 一种基于难例挖掘的人群计数模型训练方法及应用 |
| CN111951789B (zh) * | 2020-08-14 | 2021-08-17 | 北京达佳互联信息技术有限公司 | 语音识别模型的训练、语音识别方法、装置、设备及介质 |
| CN111933121B (zh) * | 2020-08-31 | 2024-03-12 | 广州市百果园信息技术有限公司 | 一种声学模型训练方法及装置 |
| CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
| CN113344056B (zh) * | 2021-05-31 | 2022-11-22 | 北京邮电大学 | 一种人员移动性预测模型的训练方法及装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150242747A1 (en) * | 2014-02-26 | 2015-08-27 | Nancy Packes, Inc. | Real estate evaluating platform methods, apparatuses, and media |
Family Cites Families (37)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0895939A (ja) * | 1994-09-28 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | 時系列データの学習方法及び時系列データの学習装置 |
| US7058617B1 (en) * | 1996-05-06 | 2006-06-06 | Pavilion Technologies, Inc. | Method and apparatus for training a system model with gain constraints |
| JP3827037B2 (ja) * | 1997-05-23 | 2006-09-27 | ソニー株式会社 | 学習方法および装置、ロボット、並びに記録媒体 |
| EP1065601A1 (en) * | 1999-07-02 | 2001-01-03 | BRITISH TELECOMMUNICATIONS public limited company | Training process |
| IES20020063A2 (en) * | 2001-01-31 | 2002-08-07 | Predictions Dynamics Ltd | Neutral network training |
| US7194320B2 (en) * | 2003-06-05 | 2007-03-20 | Neuco, Inc. | Method for implementing indirect controller |
| US7469209B2 (en) * | 2003-08-14 | 2008-12-23 | Dilithium Networks Pty Ltd. | Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications |
| US7295700B2 (en) | 2003-10-24 | 2007-11-13 | Adobe Systems Incorporated | Object extraction based on color and visual texture |
| US7245250B1 (en) * | 2005-08-16 | 2007-07-17 | Itt Manufacturing Enterprises, Inc. | Synthetic aperture radar image compression |
| US8510242B2 (en) * | 2007-08-31 | 2013-08-13 | Saudi Arabian Oil Company | Artificial neural network models for determining relative permeability of hydrocarbon reservoirs |
| CN101334998A (zh) * | 2008-08-07 | 2008-12-31 | 上海交通大学 | 基于异类模型区分性融合的汉语语音识别系统 |
| WO2013003772A2 (en) | 2011-06-30 | 2013-01-03 | Google Inc. | Speech recognition using variable-length context |
| US20130090926A1 (en) | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
| DK2639749T3 (en) | 2012-03-15 | 2017-02-27 | Cortical Io Gmbh | Methods, apparatus and products for semantic processing of text |
| US9202464B1 (en) | 2012-10-18 | 2015-12-01 | Google Inc. | Curriculum learning for speech recognition |
| US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
| US9679258B2 (en) * | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
| US9730643B2 (en) * | 2013-10-17 | 2017-08-15 | Siemens Healthcare Gmbh | Method and system for anatomical object detection using marginal space deep neural networks |
| US10127927B2 (en) | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
| BR112017003893A8 (pt) * | 2014-09-12 | 2017-12-26 | Microsoft Corp | Rede dnn aluno aprendiz via distribuição de saída |
| CN105636197B (zh) * | 2014-11-06 | 2019-04-26 | 株式会社理光 | 距离估计方法和装置、以及节点定位方法和设备 |
| KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
| US10445641B2 (en) * | 2015-02-06 | 2019-10-15 | Deepmind Technologies Limited | Distributed training of reinforcement learning systems |
| WO2016179413A1 (en) * | 2015-05-05 | 2016-11-10 | Retalilmenot, Inc. | Scalable complex event processing with probabilistic machine learning models to predict subsequent geolocations |
| US9734436B2 (en) * | 2015-06-05 | 2017-08-15 | At&T Intellectual Property I, L.P. | Hash codes for images |
| CA2993551C (en) * | 2015-07-24 | 2022-10-11 | Google Llc | Continuous control with deep reinforcement learning |
| WO2017044842A1 (en) * | 2015-09-11 | 2017-03-16 | Google Inc. | Training reinforcement learning neural networks |
| US9792531B2 (en) * | 2015-09-16 | 2017-10-17 | Siemens Healthcare Gmbh | Intelligent multi-scale medical image landmark detection |
| KR20170036909A (ko) | 2015-09-24 | 2017-04-04 | 푸시맨 주식회사 | 푸시 메시지 발송 장치 |
| US10650310B2 (en) * | 2015-11-12 | 2020-05-12 | Deepmind Technologies Limited | Training neural networks using a prioritized experience memory |
| JP6679898B2 (ja) * | 2015-11-24 | 2020-04-15 | 富士通株式会社 | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム |
| US11042798B2 (en) * | 2016-02-04 | 2021-06-22 | Adobe Inc. | Regularized iterative collaborative feature learning from web and user behavior data |
| US20170263147A1 (en) * | 2016-03-08 | 2017-09-14 | Your Trainer Inc. | Systems and methods of dynamically creating a personalized workout video |
| CN105955921B (zh) * | 2016-04-18 | 2019-03-26 | 苏州大学 | 基于自动发现抽象动作的机器人分层强化学习初始化方法 |
| EP3445539A4 (en) * | 2016-04-27 | 2020-02-19 | Neurala Inc. | Methods and apparatus for pruning experience memories for deep neural network-based q-learning |
| US10204097B2 (en) * | 2016-08-16 | 2019-02-12 | Microsoft Technology Licensing, Llc | Efficient dialogue policy learning |
| US10671908B2 (en) * | 2016-11-23 | 2020-06-02 | Microsoft Technology Licensing, Llc | Differential recurrent neural network |
-
2017
- 2017-03-23 KR KR1020170036909A patent/KR102399535B1/ko active Active
- 2017-08-16 US US15/678,390 patent/US10540958B2/en active Active
- 2017-11-02 CN CN201711064668.2A patent/CN108630197B/zh active Active
- 2017-11-08 EP EP17200655.3A patent/EP3379531B1/en active Active
- 2017-12-21 JP JP2017245279A patent/JP7055630B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150242747A1 (en) * | 2014-02-26 | 2015-08-27 | Nancy Packes, Inc. | Real estate evaluating platform methods, apparatuses, and media |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3379531B1 (en) | 2025-03-05 |
| US20180277098A1 (en) | 2018-09-27 |
| JP7055630B2 (ja) | 2022-04-18 |
| EP3379531A1 (en) | 2018-09-26 |
| US10540958B2 (en) | 2020-01-21 |
| JP2018160234A (ja) | 2018-10-11 |
| KR20180107940A (ko) | 2018-10-04 |
| CN108630197A (zh) | 2018-10-09 |
| CN108630197B (zh) | 2023-10-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102399535B1 (ko) | 음성 인식을 위한 학습 방법 및 장치 | |
| US11996088B2 (en) | Setting latency constraints for acoustic models | |
| US11664020B2 (en) | Speech recognition method and apparatus | |
| EP3966807B1 (en) | On-device custom wake word detection | |
| US20200020323A1 (en) | Implementing a classification model for recognition processing | |
| EP3966813B1 (en) | Online verification of custom wake word | |
| KR102550932B1 (ko) | 음성 인식 모델의 개인화 방법 및 장치 | |
| KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
| US10032463B1 (en) | Speech processing with learned representation of user interaction history | |
| US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
| US9653093B1 (en) | Generative modeling of speech using neural networks | |
| KR102676221B1 (ko) | 음성 인식 방법 및 장치 | |
| CN109754789B (zh) | 语音音素的识别方法及装置 | |
| WO2016181951A1 (ja) | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 | |
| KR20230156425A (ko) | 자체 정렬을 통한 스트리밍 asr 모델 지연 감소 | |
| KR102292921B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
| US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
| US11443748B2 (en) | Metric learning of speaker diarization | |
| JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
| KR20250026904A (ko) | 확산 확률 모델에서 생성한 잠재 피쳐를 활용한 음성 인식 방법 및 시스템 | |
| JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
| KR102793069B1 (ko) | 음성 합성 방법 및 장치 | |
| JP6712540B2 (ja) | モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム | |
| JP6903613B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
| KR20250112103A (ko) | 문장 수준의 일반화된 엔트로피 최소화를 통한 음성 인식 모델에 대한 테스트타임 적응 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170323 |
|
| PG1501 | Laying open of application | ||
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200320 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20170323 Comment text: Patent Application |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210722 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220222 |
|
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220513 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20220516 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20250409 Start annual number: 4 End annual number: 4 |