JP6993604B2 - 学習データ生成装置、学習データ生成方法およびプログラム - Google Patents
学習データ生成装置、学習データ生成方法およびプログラム Download PDFInfo
- Publication number
- JP6993604B2 JP6993604B2 JP2020537089A JP2020537089A JP6993604B2 JP 6993604 B2 JP6993604 B2 JP 6993604B2 JP 2020537089 A JP2020537089 A JP 2020537089A JP 2020537089 A JP2020537089 A JP 2020537089A JP 6993604 B2 JP6993604 B2 JP 6993604B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- utterances
- learning data
- estimation
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Description
参考文献1:秋田 祐哉、河原 達也、「講演に対する読点の複数アノテーションに基づく自動挿入」、情報処理学会論文誌、1882-7765,No.54、Vol.2、2013年
11 振り分け部
20 発話種別推定装置
21 応対シーン推定モデル記憶部
22 応対シーン推定部
23 振り分け定義記憶部
24 発話種別推定振り分け部
25 発話種別推定単位抽出ルール記憶部
26 発話種別推定単位抽出部
27 発話種別推定モデル記憶部
28 発話種別推定部
Claims (7)
- 複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置であって、
複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分け部を備え、
前記振り分け部は、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。 - 請求項1に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話を、前記学習データを生成する対象として抽出することを特徴とする学習データ生成装置。 - 請求項1または2に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話に類似する発話を含まない応対シーンの発話に対して、該発話が前記特定の種別の発話ではないことを示す教師データを付与した学習データを生成することを特徴とする学習データ生成装置。 - 請求項1から3のいずれか一項に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーン、前記特定の種別の発話と類似する発話を含む応対シーンおよび前記特定の種別の発話と類似する発話を含まない応対シーンを予め規定した定義を保持しており、該定義に基づき、前記振り分けを行うことを特徴とする学習データ生成装置。 - 請求項1から3のいずれか一項に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話と、他の応対シーンの発話との類似度を算出し、前記特定の種別の発話を含む応対シーンの発話と類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。 - 複数の話者による対話における発話が、特定の種別の発話に該当するか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置における学習データ生成方法であって、
複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含み、
前記振り分けステップでは、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成方法。 - コンピュータを請求項1から5のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018152889 | 2018-08-15 | ||
| JP2018152889 | 2018-08-15 | ||
| PCT/JP2019/031929 WO2020036188A1 (ja) | 2018-08-15 | 2019-08-14 | 学習データ生成装置、学習データ生成方法およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2020036188A1 JPWO2020036188A1 (ja) | 2021-08-10 |
| JP6993604B2 true JP6993604B2 (ja) | 2022-01-13 |
Family
ID=69524724
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020537089A Active JP6993604B2 (ja) | 2018-08-15 | 2019-08-14 | 学習データ生成装置、学習データ生成方法およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11955111B2 (ja) |
| JP (1) | JP6993604B2 (ja) |
| WO (1) | WO2020036188A1 (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7478075B2 (ja) * | 2020-10-20 | 2024-05-02 | 株式会社日立製作所 | 生成装置および生成方法 |
| CN112700794B (zh) * | 2021-03-23 | 2021-06-22 | 北京达佳互联信息技术有限公司 | 一种音频场景分类方法、装置、电子设备和存储介质 |
| US12475881B2 (en) * | 2021-08-25 | 2025-11-18 | Hyperconnect LLC | Method of generating conversation information using examplar-based generation model and apparatus for the same |
| JP2023076017A (ja) * | 2021-11-22 | 2023-06-01 | 株式会社RevComm | プログラム、情報処理システム及び情報処理方法 |
| CN114356860B (zh) * | 2022-01-06 | 2024-06-21 | 支付宝(杭州)信息技术有限公司 | 对话生成方法及装置 |
| US12027153B2 (en) | 2022-01-21 | 2024-07-02 | International Business Machines Corporation | Data sorting for generating RNN-T models |
| CN115033671A (zh) * | 2022-06-13 | 2022-09-09 | 联想(北京)有限公司 | 一种信息处理方法、装置和可读存储介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005164836A (ja) | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
| US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
| US10963819B1 (en) * | 2017-09-27 | 2021-03-30 | Amazon Technologies, Inc. | Goal-oriented dialog systems and methods |
| US10515155B2 (en) * | 2018-02-09 | 2019-12-24 | Digital Genius Limited | Conversational agent |
-
2019
- 2019-08-14 JP JP2020537089A patent/JP6993604B2/ja active Active
- 2019-08-14 WO PCT/JP2019/031929 patent/WO2020036188A1/ja not_active Ceased
- 2019-08-14 US US17/268,469 patent/US11955111B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005164836A (ja) | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20210183369A1 (en) | 2021-06-17 |
| US11955111B2 (en) | 2024-04-09 |
| JPWO2020036188A1 (ja) | 2021-08-10 |
| WO2020036188A1 (ja) | 2020-02-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6993604B2 (ja) | 学習データ生成装置、学習データ生成方法およびプログラム | |
| US11562736B2 (en) | Speech recognition method, electronic device, and computer storage medium | |
| KR102754124B1 (ko) | 숫자 시퀀스에 대한 종단 간 자동 음성 인식 | |
| US11113335B2 (en) | Dialogue system and computer program therefor | |
| US7792671B2 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
| JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
| JP7007617B2 (ja) | 話し終わり判定装置、話し終わり判定方法およびプログラム | |
| CN112331206A (zh) | 语音识别方法及设备 | |
| CN112825249A (zh) | 语音处理方法和设备 | |
| JP2010256498A (ja) | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム | |
| CN112951211A (zh) | 一种语音唤醒方法及装置 | |
| JP2017097062A (ja) | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム | |
| JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
| CN101057274B (zh) | 用于从可预先确定的词汇表中识别口头输入的方法 | |
| JP2014232145A (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
| JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
| WO2020036190A1 (ja) | 要点抽出装置、要点抽出方法、及びプログラム | |
| JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
| JP4537755B2 (ja) | 音声対話システム | |
| JP2018097045A (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
| JP2019021206A (ja) | 学習装置、プログラムパラメータ、学習方法およびモデル | |
| JP2000122690A (ja) | パターン認識方法およびパターン認識装置 | |
| EP4578007A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text representations | |
| CN117334201A (zh) | 一种声音识别方法、装置、设备以及介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201124 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6993604 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |