[go: up one dir, main page]

JP6993604B2 - 学習データ生成装置、学習データ生成方法およびプログラム - Google Patents

学習データ生成装置、学習データ生成方法およびプログラム Download PDF

Info

Publication number
JP6993604B2
JP6993604B2 JP2020537089A JP2020537089A JP6993604B2 JP 6993604 B2 JP6993604 B2 JP 6993604B2 JP 2020537089 A JP2020537089 A JP 2020537089A JP 2020537089 A JP2020537089 A JP 2020537089A JP 6993604 B2 JP6993604 B2 JP 6993604B2
Authority
JP
Japan
Prior art keywords
utterance
utterances
learning data
estimation
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537089A
Other languages
English (en)
Other versions
JPWO2020036188A1 (ja
Inventor
節夫 山田
喜昭 野田
隆明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020036188A1 publication Critical patent/JPWO2020036188A1/ja
Application granted granted Critical
Publication of JP6993604B2 publication Critical patent/JP6993604B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Description

本発明は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置、学習データ生成方法およびプログラムに関する。
例えば、コンタクトセンタにおける顧客と応対担当者との対話から、応対履歴を作成し、管理することが望まれている。このような応対履歴を作成するためには、対話における発話から要点を抽出することが重要であり、発話から要点を抽出するためには、発話の種別(以下、「発話種別」と称する)を推定することが重要である。
発話種別を推定する方法としては、発話が特定の種別の発話であるか否かを推定する推定モデルを用いる方法がある。このような推定モデルは、発話に対して、その発話が特定の種別の発話であるか否かを示す教師データを付与した学習データを用意し、その学習データを用いた機械学習により作成することができる(非特許文献1,2参照)。
例えば、対話の主題に関する主題発話の推定モデルを作成する場合、発話に対して、その発話が主題発話であるか否か示す教師データを付与した学習データを用意し、その学習データを用いた機械学習により、主題発話の推定モデルを作成することができる。
R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874. 坪井祐太、他2名、「深層学習による自然言語処理」、講談社、2017年5月24日、p.32-36
従来、上述したような教師データの付与は人手により行われるのが一般的であった。例えば、主題発話の推定モデルを作成する場合、対話における発話に対して、その発話が主題発話であるか否かを示す教師データが作業者により付与されていた。
例えば、コンタクトセンタにおける顧客と応対担当者との対話においては、類似する発話であっても、各発話が行われた対話内での場面(以下、「応対シーン」と称する)によって発話種別が異なることがある。従来のように人手により教師データが付与される場合、作業者が前後の発話内容などを考慮して、類似する発話に対して、異なる教師データを付与することがある。例えば、ある発話に対しては、主題発話であることを示す教師データが付与され、その発話に類似する別の発話に対しては、主題発話ではないことを示す教師データが付与されることがある。類似する発話に対して、異なる教師データが付与された学習データを用いて推定モデルを作成すると、推定精度が低下してしまうという問題がある。
上記のような問題点に鑑みてなされた本発明の目的は、対話における発話の種別の推定精度の向上を図ることができる学習データ生成装置、学習データ生成方法およびプログラムを提供することにある。
上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置であって、複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分け部を備え、前記振り分け部は、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外する。
また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、特定の種別の発話に該当するか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置における学習データ生成方法であって、複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含み、前記振り分けステップでは、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外する。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習データ生成装置として機能させる。
本発明に係る学習データ生成装置、学習データ生成方法およびプログラムによれば、対話における発話の種別の推定精度の向上を図ることができる。
本発明の一実施形態に係る学習データ生成装置の構成例を示す図である。 図1に示す振り分け部が保持する、発話種別ごとの学習対象の定義の一例を示す図である。 従来の学習データの生成について説明するための図である。 図1に示す学習データ生成装置による学習データの生成について説明するための図である。 推定モデルにより発話種別を推定する発話種別推定装置の構成例を示す図である。 図5に示す振り分け定義記憶部が記憶する振り分け定義の一例を示す図である。 図5に示す発話種別推定部が保持する、応対シーンごとの、推定対象とする発話種別の定義の一例を示す図である。 図5に示す発話種別推定部による発話種別の推定について説明するための図である。 従来の発話種別の推定例を示す図である。 図5に示す発話種別推定装置による発話種別の推定例を示す図である。
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
図1は、本発明の一実施形態に係る学習データ生成装置10の構成例を示す図である。本実施形態に係る学習データ生成装置10は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するためのものである。
図1に示す学習データ生成装置10は、振り分け部11を備える。
振り分け部11は、応対シーンを示す情報が付与された、発話の音声認識の結果(テキスト化された発話)が入力される。発話の応対シーンとは、複数の話者による対話における、その発話が行われた場面である。例えば、コンタクトセンタにおける顧客と応対担当者との対話を例とすると、応対シーンとしては、最初の挨拶などが行われる「オープニング」、顧客の問い合わせ内容を把握する「問い合わせ把握」、顧客が契約者本人であることおよび契約内容を確認する「契約確認」、問い合わせ内容に対する顧客への回答および対応を行う「対応」、および、最後の挨拶などが行われる「クロージング」など種々の場面がある。応対シーンを示す情報は、例えば、作業者により付与される。
音声認識では、無音区間が所定時間以上継続すると、前回の音声認識の処理単位の最後の発話後、その無音区間の前までの発話が1つの処理単位として音声認識が行われ、その処理単位で音声認識結果(以下、「音声認識の結果の単位」と称する)が出力される。応対シーンを示す情報は、例えば、その音声認識の結果の単位ごとに付与される。
また、音声認識の結果の単位の中に、話者が伝えたい内容を話し終えた話し終わりが存在することがある。上述したように、音声認識では、無音区間が所定時間以上継続することにより、処理単位が確定される。ここで、例えば、話者がある内容について話し終えた後、間をおかずに、別の内容について話し始めた場合、上述したある内容についての話し終わりを含む処理単位で音声認識が行われ、その結果、音声認識の結果の単位の中に話し終わりの発話が含まれることになる。そこで、音声認識の結果の単位の中から話し終わりの発話を検出し、前回の話し終わりの発話から、検出した話し終わりの発話までの話し終わり単位に対して、応対シーンを示す情報が付与されてもよい。
音声認識の結果の単位の中での話し終わりの発話の検出は、例えば、発話が音声認識によりテキスト化された文字列を句読点で分割した分割文字列に対応する発話が話し終わりの発話であるか否かを判定する判定モデルを用いて行うことができる。このような判定モデルは、発話がテキスト化された文字列を句読点で分割した分割文字列に対応する発話および連続する分割文字列を発話順に並べた文字列に対応する発話に対して、その発話が話し終わりの発話であるか否かを示す教師データが付与された学習データを用いた機械学習により作成することができる。
音声認識における句読点の付与の方法としては、例えば、上述した処理単位を確定するために設定される無音区間よりも短い所定時間だけ無音区間が継続すると、その無音区間に対応する位置に句読点を付与するという方法がある。句点が付与されるか、読点が付与されるかは、例えば、前後の文脈などから適宜、選択される。例えば、参考文献1には、音声認識結果への句読点の自動挿入方法が記載されている。具体的には、参考文献1には、単語(出現形)、品詞、分節境界、直後の分節への係り受け情報、およびポーズなどの特徴に基づき、句読点を挿入する方法が記載されている。なお、ある話者の話し終わり後、別の話者が、句読点の付与が決定される無音区間の経過前に話し始めた場合、先の話者の発話の音声認識結果の末尾には、句読点が付与されない場合がある。音声認識結果の末尾には必ず、句読点が付与されるようにすることも可能である。
参考文献1:秋田 祐哉、河原 達也、「講演に対する読点の複数アノテーションに基づく自動挿入」、情報処理学会論文誌、1882-7765,No.54、Vol.2、2013年
また、複数の話者それぞれの発話が異なるチャネルとして区別して、音声認識が行われる。そこで、話者交代が起こったか否かにより、話し終わりであるか否かを判定することができる。例えば、顧客と応対担当者との対話においては、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その話者交代の直前の発話は、話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、前回の話者交代の発話以降、今回の話者交代の直前の発話までを話し終わり単位とし、その話し終わり単位で応対シーンを示す情報が付与されてもよい。
振り分け部11は、発話に付与された応対シーンを示す情報に基づき、その発話を、学習データを生成する対象とするか否かの振り分けを行う。ここで、振り分け部11は、特定の種別の発話(推定対象の発話種別の発話)に類似する発話を含む(含む可能性のある)応対シーンの発話を、学習データを生成する対象から除外する。特定の種別の発話に類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外することで、類似する発話に、異なる教師データが付与された学習データが生成されることが無くなる。その結果、その学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。
また、振り分け部11は、特定の種別の発話を含む(含む可能性のある)応対シーンの発話を、学習データを生成する対象として抽出してもよい。抽出された発話に対して、例えば、作業者により、正例であるか(特定の種別の発話である)、負例であるか(特定の種別の発話ではない)を示す教師データが付与され、学習データが生成される。生成された学習データは記憶され、特定の種別の発話の推定モデルの作成に用いられる。
また、振り分け部11は、特定の種別の発話に類似する発話を含まない応対シーンの発話に対して、その発話が特定の種別の発話ではないことを示す教師データを付与した学習データを生成してもよい。こうすることで、発話に対して、その発話が特定の種別の発話ではない、すなわち、負例の教師データが付与された学習データを自動的に生成することができる。また、振り分け部11は、特定の種別の発話に類似する発話を含まない応対シーンの発話を、学習データを生成する対象から除外してもよい。特定の種別の発話に類似する発話を含まない応対シーンの発話を、負例として利用するか、学習対象外とするかは、例えば、正例数と負例数との割合が同じとなるように調整するなど、学習時に予め定められた設定とすることができる。
振り分け部11は、上述した処理を、推定対象の発話種別(発話種別1~発話種別m)ごとに行う。こうすることで、発話種別ごとに推定モデルを作成するための学習データが生成され、記憶される。
次に、振り分け部11による、応対シーンに応じた振り分けについて、より詳細に説明する。以下では、コンタクトセンタにおける顧客と応対担当者との対話を例とする。また、以下では、応対シーンとして、顧客の問い合わせ内容を把握する「問い合わせ把握」、顧客が契約者本人であることおよび契約内容を確認する「契約確認」、顧客の問い合わせ内容に対する顧客への回答および対応を行う「対応」を例として説明する。また、以下では、推定対象の発話種別として、対話の主題に関する発話である主題発話、顧客の用件を示す用件発話、顧客の用件を確認する用件確認発話、顧客の契約内容を確認する契約確認発話、契約内容の確認に対して応答する契約応答発話、および、顧客の用件への対応に関する対応発話を例として説明する。
振り分け部11は、発話種別ごとの学習対象の定義を保持しており、その定義に基づき、振り分けを行う。図2は、振り分け部11が保持する、発話種別ごとの学習対象の定義の一例を示す図である。
図2に示すように、振り分け部11は、推定対象の発話種別ごとに、推定対象の発話種別の発話を含む応対シーン、推定対象の発話種別の発話と類似する発話を含む(含む可能性のある)応対シーン、および、推定対象の発話種別の発話と類似する発話を含まない応対シーンを規定した定義を保持している。振り分け部11は、この定義に基づき、各応対シーンの発話を、学習データを生成する対象とするか否かの振り分けを行う。
例えば、推定対象の発話種別が主題発話である場合、振り分け部11は、応対シーン「問い合わせ把握」は主題発話を含む応対シーンとして定義されているので、応対シーン「問い合わせ把握」の発話を、学習データを生成する対象として抽出する。抽出された発話それぞれに対して、例えば、作業者により、主題発話であるか、主題発話ではないかを示す教師データが付与され、学習データが生成される。また、振り分け部11は、応対シーン「対応」は、主題発話と類似する発話を含む応対シーンとして定義されているので、応対シーン「対応」の発話を、学習データを生成する対象から除外する。また、振り分け部11は、応対シーン「契約確認」は、主題発話と類似する発話を含まない応対シーンとして定義されているので、応対シーン「契約確認」の発話に対して、主題発話ではないことを示す教師データを付与して学習データを生成する。なお、振り分け部11は、応対シーン「契約確認」の発話を、学習データの生成の対象から除外してもよい。
上述したような、発話種別ごとの学習対象の定義は、例えば、予め作業者により定義され、振り分け部11に保持される。
また、振り分け部11は、推定対象の発話種別の発話を含む応対シーンの発話と、他の応対シーンの発話との類似度を算出し、推定対象の発話種別の発話を含む応対シーンの発話と類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外してもよい。例えば、振り分け部11は、推定対象の発話種別が主題発話である場合、主題発話を含む応対シーンとして定義された応対シーン「問い合わせ把握」の発話と、他の応対シーンの発話との類似度を算出し、例えば、類似度が所定値以上の発話を含む応対シーンの発話を、学習データを生成する対象から除外してもよい。
次に、本実施形態に係る学習データ生成装置10による学習データ生成方法について、主題発話の推定モデルを作成するための学習データを生成する例を用いて説明する。まず、従来のように、対話における発話に対して、作業者により、教師データが付与される場合を例として説明する。
以下では、図3に示すように、顧客と応対担当者との対話において、発話#11~発話#22が行われたものとする。図3では、発話#11,#13,#14,#16,#18,#21は顧客の発話であり、発話#12,#15,#17,#19,#20,#22は応対担当者の発話であることを示している。また、各吹き出しは、音声認識の結果の単位を示す。
図3に示す顧客と応対担当者との対話は、顧客が契約している自動車保険に関するものである。より具体的には、発話#11~発話#16では、自動車保険の契約内容の変更という顧客の問い合わせ内容の把握が行われ、発話#17~発話#19では、顧客の契約に関する確認が行われ、発話#20~発話#22では、顧客の問い合わせ(自動車保険の契約内容の変更)に対する対応が行われている。ここで、発話#11と発話#21とで、類似する発話(「自動車保険の変更をお願いします」)が行われたとする。
作業者により各発話に対して教師データが付与される場合、作業者は、各発話の内容および前後の文脈などに基づき、各発話が主題発話に該当するか否かを判断して、教師データを付与する。図3の例では、発話#11および発話#12は、「自動車保険の契約内容の変更」という、顧客と応対担当者との対話における主題に関するものである。したがって、発話#11および発話#12に対しては、主題発話である、すなわち、正例であることを示す教師データが付与される。また、発話#13~発話#22は、問い合わせ内容の確認、契約内容の確認、および、問い合わせに対する対応などのための発話である。したがって、発話#13~発話#22に対しては、主題発話ではない、すなわち、負例であることを示す教師データが付与される。
ここで、人手による教師データの付与の場合、上述したように、各発話の内容および前後の文脈などに基づき、発話種別が判断される。そのため、類似する発話である発話#11と発話#21とで異なる教師データが付与された学習データが生成されることがある。このような学習データを用いて推定モデルを作成すると、推定精度が低下してしまう。
次に、本実施形態に係る学習データ生成装置10における学習データ生成方法について、図4を参照して説明する。なお、図4においては、振り分け部11は、図2に示す定義に従い、振り分けを行うものとする。また、図4においては、図3と同じように、顧客と応対担当者との発話#11~発話#22が行われたものとする。
上述したように、発話#11~発話#16では、自動車保険の契約内容の変更という顧客の問い合わせ内容の把握が行われ、発話#17~発話#19では、顧客の契約に関する確認が行われ、発話#20~発話#22では、顧客の問い合わせ(自動車保険の契約内容の変更)に対する対応が行われている。したがって、発話#11~発話#16の応対シーンは「問い合わせ把握」であり、発話#17~発話#19の応対シーンは「契約確認」であり、発話#20~発話#22の応対シーンは「対応」である。振り分け部11には、応対シーンを示す情報が付与された発話#11~発話#22が入力される。
本実施形態に係る学習データ生成方法は、振り分け部11が、対話における発話に付与された応対シーンを示す情報に基づき、発話を、学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含む。具体的には、振り分け部11は、図2に示すように、主題発話を含む応対シーンとして「問い合わせ把握」が定義されているので、応対シーン「問い合わせ把握」の発話#11~発話#16を、学習データを生成する対象として抽出する。抽出された発話#11~発話#16に対して、例えば、作業者により、主題発話であるか否かの教師データが付与される。上述したように、発話#11および発話#12は、「自動車保険の契約内容の変更」という、顧客と応対担当者との対話における主題に関するものである。したがって、発話#11および発話#12に対しては、主題発話である、すなわち、正例であることを示す教師データが付与された学習データが生成される。また、発話#13~発話#16に対しては、主題発話ではない、すなわち、負例であることを示す教師データが付与された学習データが生成される。
また、振り分け部11は、図2に示すように、主題発話と類似する発話を含まない応対シーンとして「契約確認」が定義されているので、応対シーン「契約確認」の発話#17~発話#19の発話に対して、主題発話ではない、すなわち、負例であることを示す教師データを付与した学習データを生成する。
また、振り分け部11は、図2に示すように、主題発話と類似する発話を含む応対シーンとして「対応」が定義されているので、応対シーン「対応」の発話#20~発話#22を、学習データを生成する対象から除外する。このように、推定対象の発話種別の発話と類似する発話を含む(含む可能性のある)応対シーンの発話を、学習データを生成する対象から除外することで、主題発話である発話#11に類似する発話#21は、学習データを生成する対象から除外される。そのため、類似する発話に対して異なる教師データが付与された学習データが生成されることが無くなり、学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。また、振り分け部11は、図2の定義に基づいて予め学習した振り分け推定モデルによって、発話と発話の応対シーン、発話種別の入力に対して、定義に該当する発話種別の教師データ(正例・負例)として学習データを生成してもよい。
次に、図5を参照して、学習データ生成装置10により生成された学習データを用いて作成された推定モデルにより発話種別を推定する発話種別推定装置20について説明する。図5は、発話種別推定装置20の構成例を示す図である。
図5に示す発話種別推定装置20は、応対シーン推定モデル記憶部21と、応対シーン推定部22と、振り分け定義記憶部23と、発話種別推定振り分け部24と、発話種別推定位抽出ルール記憶部25と、発話種別推定単位抽出部26と、発話種別推定モデル記憶部27と、発話種別推定部28とを備える。
応対シーン推定モデル記憶部21は、発話と応対シーンとの対応を学習することによって生成された応対シーン推定モデルを記憶する。学習には、例えば、サポートベクターマシン(SVM)やディープニューラルネット(DNN)などを用いることができる。
応対シーン推定部22は、複数の話者による対話における発話の音声認識の結果が入力される。応対シーン推定部22には、例えば、上述した音声認識の結果の単位が入力される。また、音声認識の結果に対して、話し終わり判定が行われる場合には、応対シーン推定部22には、話し終わり単位の発話が入力されてもよい。応対シーン推定部22は、応対シーン推定モデル記憶部21に記憶されている応対シーン推定モデルを用いて、音声認識の結果に対応する発話の応対シーンを推定する。応対シーン推定部22は、発話と、その発話の応対シーンとを発話種別推定振り分け部24に出力する。
振り分け定義記憶部23は、発話の応対シーンに基づき、その発話を、推定モデルを用いた発話種別の推定対象とするか否かの振り分けを行うための振り分け定義を記憶する。
図6は、振り分け定義記憶部23が記憶する振り分け定義の一例を示す図である。
振り分け定義記憶部23は、図6に示すように、発話種別と、推定対象応対シーンと、推定対象外応対シーンとを対応付けた振り分け定義を記憶する。推定対象応対シーンとは、学習データにおいて正例または負例として利用する応対シーンである。推定対象外応対シーンとは、学習データにおいて負例として利用する、または、学習対象外とする応対シーンである。
図6に示した例では、振分け定義において、例えば、発話種別である「主題発話」と、推定対象応対シーンである「問い合わせ把握」と、推定対象外応対シーンである「対応」、「契約確認」、「オープニング」、及び「クロージング」とが対応している。振分け定義は、例えば、学習時に利用した学習対象の定義に基づいて生成される。振分け定義において、学習対象の定義のうち、学習データにおいて正例又は負例が含まれる応対シーンは推定対象応対シーンとされる。振分け定義において、学習対象の定義のうち、学習データに負例のみ含まれる応対シーンは推定対象応対外シーンとされる。例えば、発話は発話種別が「主題発話」であるか否かを推定する場合、応対シーンが「問い合わせ把握」である発話は、学習データに正例又は負例を含むので推定対象であり、応対シーンが「契約確認」、「対応」、「オープニング」、又は「クロージング」である発話は、学習データに負例のみを含むので、推定対象ではない。
図5を再び参照すると、発話種別推定振り分け部24は、応対シーン推定部22から出力された発話の応対シーンに基づき、振り分け定義記憶部23に記憶されている振り分け定義を用いて、その発話を、後述する推定モデルを用いた発話種別の推定の対象とするか否かを推定する。具体的には、発話種別推定振り分け部24は、発話の応対シーンが推定対象応対シーンである場合には、その発話を発話種別の推定の対象とし、発話種別推定単位抽出部26に出力する。また、発話種別推定振り分け部24は、発話の応対シーンが推定対象外応対シーンである場合には、その発話を発話種別の推定の対象から除外する。この場合、発話種別推定振り分け部24は、その発話は推定対象の発話種別の発話ではないという推定結果を出力する。
発話種別推定単位抽出ルール記憶部25は、テキスト化された発話から発話種別を推定する単位を抽出するためのルールを記憶する。発話種別推定単位抽出ルール記憶部25は、例えば、句点または発話における最後の文字が出現するまでを1つの単位として発話を抽出するというルールを記憶する。
発話種別推定単位抽出部26は、発話種別推定振り分け部24から出力された、発話種別の推定の対象である発話から、発話種別推定単位抽出ルール記憶部25に記憶されているルールに基づき、発話種別を推定する単位の発話を抽出する。具体的には、発話種別推定単位抽出部26は、発話種別推定振り分け部24から出力された、テキスト化された発話を、例えば、句点または音声認識結果の単位における最後の文字が出現するまでを1つの単位として発話を抽出するというルールに基づき発話を抽出する。発話種別推定単位抽出部26は、抽出した発話種別の推定の単位の発話を発話種別推定部28に出力する。
発話種別推定モデル記憶部27は、学習データ生成装置10により生成された学習データを用いて作成された、発話種別ごとの推定モデルを記憶する。発話種別推定モデル記憶部27は、例えば、発話の発話種別が主題発話であるか否かを推定する主題発話推定モデル、発話の発話種別が用件発話であるか否かを推定する用件発話推定モデル、発話の発話種別が用件確認発話であるか否かを推定する用件確認発話推定モデル、発話の発話種別が契約確認発話であるか否かを推定する契約確認発話推定モデル、および、発話の発話種別が契約応答発話であるか否かを推定する契約応答発話推定モデルなどを記憶する。
発話種別推定部28は、発話種別推定単位抽出部26から出力された発話種別の推定の単位に対応する発話が、推定対象の発話種別の発話であるか否かを、発話種別推定モデル記憶部27に記憶されている推定対象の発話種別の推定モデルを用いて推定し、推定結果を出力する。例えば、推定対象の発話種別が主題発話である場合、発話種別推定部28は、発話種別推定単位抽出部26から出力された発話種別の推定の単位に対応する発話が、主題発話であるか否かを、発話種別推定モデル記憶部27に記憶されている主題発話推定モデルを用いて推定する。
また、発話種別推定部28は、応対シーン推定部22により推定された応対シーンに応じて、発話種別推定単位抽出部18から出力された発話種別の推定の単位に対応する発話の発話種別を推定してもよい。具体的には、発話種別推定部28は、応対シーンごとに、発話種別推定モデル記憶部27に記憶されている各推定モデルを用いて、発話種別を推定してもよい。
例えば、発話種別推定部28は、図7に示すように、応対シーンごとに、その応対シーンの発話を推定対象とする発話種別の定義を記憶している。そして、発話種別推定部28は、応対シーン推定部22により推定された発話の応対シーンに基づき、その発話が、応対シーンに対応する発話種別の発話に該当するか否かを推定してもよい。例えば、発話種別推定部28は、発話の応対シーンが「問い合わせ把握」である場合、図7に示す定義に基づき、図8に示すように、主題発話推定モデル、用件発話推定モデルおよび用件確認発話推定モデルを用いて、発話種別推定単位抽出部26から出力された発話種別の推定の単位に対応する発話の発話種別を推定する。具体的には、発話種別推定部28は、主題発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が主題発話であるか否かを推定する。また、発話種別推定部28は、用件発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が用件発話であるか否かを推定する。また、発話種別推定部28は、用件確認発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が用件確認発話であるか否かを推定する。
また、発話種別推定部28は、発話の応対シーンが「契約確認」である場合、図7に示す定義に基づき、図8に示すように、契約確認発話推定モデルおよび契約応答発話推定デルを用いて、発話種別推定単位抽出部26から出力された発話種別の推定の単位に対応する発話の発話種別を推定する。具体的には、発話種別推定部28は、契約確認発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が契約確認発話であるか否かを推定する。また、発話種別推定部28は、契約応答発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が契約応答発話であるか否かを推定する。
また、発話種別推定部28は、発話の応対シーンが「対応」である場合、図7に示す定義に基づき、図8に示すように、その発話の発話種別の推定を行わない。
応対シーンを推定せず、全ての発話に対して発話種別の推定を行う場合、推定結果に誤りが生じる場合がある。このような場合について、図9を参照して説明する。図9では、図3と同様に、顧客と応対担当者との発話#11~#22が行われたとする。また、図9では、主題発話の推定例として説明する。
応対シーンを推定せずに発話種別の推定を行う場合、発話#11~#22それぞれに対して、主題発話であるか否かの推定が行われる。上述したように、発話#11および発話#12は、主題発話である。したがって、図9に示すように、発話#11および発話#12は、主題発話であると推定されたとする。ここで、発話#11と発話#21とは類似している。発話#21は、顧客の問い合わせに対する対応の際の発話であり、主題発話ではない。しかしながら、発話#21は、主題発話である発話#11と類似しているため、主題発話であると誤推定されてしまうことがある。
一方、図5に示す発話種別推定置20においては、図10に示すように、発話#11~#22それぞれに対して、応対シーンの推定が行われる。そして、主題発話の推定対象応対シーンは「問い合わせ把握」であるため(図6参照)、応対シーン「問い合わせ把握」の発話#11~#16については、主題発話推定モデルを用いて、主題発話であるか否かの推定が行われる。ここで、本実施形態においては、類似する発話に異なる教師データが付与されないように学習データが生成されているので、主題発話推定モデルにより、高精度に、発話#11~#16が主題発話であるか否かを推定することができる。また、応対シーン「問い合わせ把握」以外の応対シーン(「契約確認」および「対応」)の発話については、主題発話推定モデルを用いた推定を行うことなく、主題発話ではないと推定される。したがって、応対シーン「対応」に含まれる発話#21は主題発話ではないと正しく推定される。
このように本実施形態においては、学習データ生成装置10は、複数の話者による対話における発話に付与された、その発話の応対シーンに基づき、発話を、学習データを生成する対象とするか否かの振り分けを行う振り分け部11を備える。振り分け部11は、特定の種別の発話に類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外する。
こうすることで、特定の種別の発話と、その特定の種別の発話に類似する発話とに対して、異なる教師データが付与された学習データが生成されることが無くなる。そのため、学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。
以上、学習データ生成装置10について説明したが、学習データ生成装置10として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、学習データ生成装置10の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMおよびDVD-ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10 学習データ生成装置
11 振り分け部
20 発話種別推定装置
21 応対シーン推定モデル記憶部
22 応対シーン推定部
23 振り分け定義記憶部
24 発話種別推定振り分け部
25 発話種別推定単位抽出ルール記憶部
26 発話種別推定単位抽出部
27 発話種別推定モデル記憶部
28 発話種別推定部

Claims (7)

  1. 複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置であって、
    複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分け部を備え、
    前記振り分け部は、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。
  2. 請求項1に記載の学習データ生成装置において、
    前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話を、前記学習データを生成する対象として抽出することを特徴とする学習データ生成装置。
  3. 請求項1または2に記載の学習データ生成装置において、
    前記振り分け部は、前記特定の種別の発話に類似する発話を含まない応対シーンの発話に対して、該発話が前記特定の種別の発話ではないことを示す教師データを付与した学習データを生成することを特徴とする学習データ生成装置。
  4. 請求項1から3のいずれか一項に記載の学習データ生成装置において、
    前記振り分け部は、前記特定の種別の発話を含む応対シーン、前記特定の種別の発話と類似する発話を含む応対シーンおよび前記特定の種別の発話と類似する発話を含まない応対シーンを予め規定した定義を保持しており、該定義に基づき、前記振り分けを行うことを特徴とする学習データ生成装置。
  5. 請求項1から3のいずれか一項に記載の学習データ生成装置において、
    前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話と、他の応対シーンの発話との類似度を算出し、前記特定の種別の発話を含む応対シーンの発話と類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。
  6. 複数の話者による対話における発話が、特定の種別の発話に該当するか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置における学習データ生成方法であって、
    複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含み、
    前記振り分けステップでは、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成方法。
  7. コンピュータを請求項1から5のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。
JP2020537089A 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム Active JP6993604B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018152889 2018-08-15
JP2018152889 2018-08-15
PCT/JP2019/031929 WO2020036188A1 (ja) 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020036188A1 JPWO2020036188A1 (ja) 2021-08-10
JP6993604B2 true JP6993604B2 (ja) 2022-01-13

Family

ID=69524724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537089A Active JP6993604B2 (ja) 2018-08-15 2019-08-14 学習データ生成装置、学習データ生成方法およびプログラム

Country Status (3)

Country Link
US (1) US11955111B2 (ja)
JP (1) JP6993604B2 (ja)
WO (1) WO2020036188A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7478075B2 (ja) * 2020-10-20 2024-05-02 株式会社日立製作所 生成装置および生成方法
CN112700794B (zh) * 2021-03-23 2021-06-22 北京达佳互联信息技术有限公司 一种音频场景分类方法、装置、电子设备和存储介质
US12475881B2 (en) * 2021-08-25 2025-11-18 Hyperconnect LLC Method of generating conversation information using examplar-based generation model and apparatus for the same
JP2023076017A (ja) * 2021-11-22 2023-06-01 株式会社RevComm プログラム、情報処理システム及び情報処理方法
CN114356860B (zh) * 2022-01-06 2024-06-21 支付宝(杭州)信息技术有限公司 对话生成方法及装置
US12027153B2 (en) 2022-01-21 2024-07-02 International Business Machines Corporation Data sorting for generating RNN-T models
CN115033671A (zh) * 2022-06-13 2022-09-09 联想(北京)有限公司 一种信息处理方法、装置和可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164836A (ja) 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US10963819B1 (en) * 2017-09-27 2021-03-30 Amazon Technologies, Inc. Goal-oriented dialog systems and methods
US10515155B2 (en) * 2018-02-09 2019-12-24 Digital Genius Limited Conversational agent

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164836A (ja) 2003-12-01 2005-06-23 Advanced Telecommunication Research Institute International ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
US20210183369A1 (en) 2021-06-17
US11955111B2 (en) 2024-04-09
JPWO2020036188A1 (ja) 2021-08-10
WO2020036188A1 (ja) 2020-02-20

Similar Documents

Publication Publication Date Title
JP6993604B2 (ja) 学習データ生成装置、学習データ生成方法およびプログラム
US11562736B2 (en) Speech recognition method, electronic device, and computer storage medium
KR102754124B1 (ko) 숫자 시퀀스에 대한 종단 간 자동 음성 인식
US11113335B2 (en) Dialogue system and computer program therefor
US7792671B2 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP7007617B2 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
CN112331206A (zh) 语音识别方法及设备
CN112825249A (zh) 语音处理方法和设备
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
CN112951211A (zh) 一种语音唤醒方法及装置
JP2017097062A (ja) 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
CN101057274B (zh) 用于从可预先确定的词汇表中识别口头输入的方法
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
WO2020036190A1 (ja) 要点抽出装置、要点抽出方法、及びプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP4537755B2 (ja) 音声対話システム
JP2018097045A (ja) 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
JP2019021206A (ja) 学習装置、プログラムパラメータ、学習方法およびモデル
JP2000122690A (ja) パターン認識方法およびパターン認識装置
EP4578007A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations
CN117334201A (zh) 一种声音识别方法、装置、设备以及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R150 Certificate of patent or registration of utility model

Ref document number: 6993604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350