JP6993604B2

JP6993604B2 - 学習データ生成装置、学習データ生成方法およびプログラム

Info

Publication number: JP6993604B2
Application number: JP2020537089A
Authority: JP
Inventors: 節夫山田; 喜昭野田; 隆明長谷川
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2018-08-15
Filing date: 2019-08-14
Publication date: 2022-01-13
Anticipated expiration: 2039-08-14
Also published as: US20210183369A1; US11955111B2; JPWO2020036188A1; WO2020036188A1

Description

本発明は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置、学習データ生成方法およびプログラムに関する。

例えば、コンタクトセンタにおける顧客と応対担当者との対話から、応対履歴を作成し、管理することが望まれている。このような応対履歴を作成するためには、対話における発話から要点を抽出することが重要であり、発話から要点を抽出するためには、発話の種別（以下、「発話種別」と称する）を推定することが重要である。

発話種別を推定する方法としては、発話が特定の種別の発話であるか否かを推定する推定モデルを用いる方法がある。このような推定モデルは、発話に対して、その発話が特定の種別の発話であるか否かを示す教師データを付与した学習データを用意し、その学習データを用いた機械学習により作成することができる（非特許文献１，２参照）。

例えば、対話の主題に関する主題発話の推定モデルを作成する場合、発話に対して、その発話が主題発話であるか否か示す教師データを付与した学習データを用意し、その学習データを用いた機械学習により、主題発話の推定モデルを作成することができる。

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874. 坪井祐太、他２名、「深層学習による自然言語処理」、講談社、2017年5月24日、p.32-36

従来、上述したような教師データの付与は人手により行われるのが一般的であった。例えば、主題発話の推定モデルを作成する場合、対話における発話に対して、その発話が主題発話であるか否かを示す教師データが作業者により付与されていた。

例えば、コンタクトセンタにおける顧客と応対担当者との対話においては、類似する発話であっても、各発話が行われた対話内での場面（以下、「応対シーン」と称する）によって発話種別が異なることがある。従来のように人手により教師データが付与される場合、作業者が前後の発話内容などを考慮して、類似する発話に対して、異なる教師データを付与することがある。例えば、ある発話に対しては、主題発話であることを示す教師データが付与され、その発話に類似する別の発話に対しては、主題発話ではないことを示す教師データが付与されることがある。類似する発話に対して、異なる教師データが付与された学習データを用いて推定モデルを作成すると、推定精度が低下してしまうという問題がある。

上記のような問題点に鑑みてなされた本発明の目的は、対話における発話の種別の推定精度の向上を図ることができる学習データ生成装置、学習データ生成方法およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る学習データ生成装置は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置であって、複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分け部を備え、前記振り分け部は、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外する。

また、上記課題を解決するため、本発明に係る学習データ生成方法は、複数の話者による対話における発話が、特定の種別の発話に該当するか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置における学習データ生成方法であって、複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含み、前記振り分けステップでは、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外する。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習データ生成装置として機能させる。

本発明に係る学習データ生成装置、学習データ生成方法およびプログラムによれば、対話における発話の種別の推定精度の向上を図ることができる。

本発明の一実施形態に係る学習データ生成装置の構成例を示す図である。図１に示す振り分け部が保持する、発話種別ごとの学習対象の定義の一例を示す図である。従来の学習データの生成について説明するための図である。図１に示す学習データ生成装置による学習データの生成について説明するための図である。推定モデルにより発話種別を推定する発話種別推定装置の構成例を示す図である。図５に示す振り分け定義記憶部が記憶する振り分け定義の一例を示す図である。図５に示す発話種別推定部が保持する、応対シーンごとの、推定対象とする発話種別の定義の一例を示す図である。図５に示す発話種別推定部による発話種別の推定について説明するための図である。従来の発話種別の推定例を示す図である。図５に示す発話種別推定装置による発話種別の推定例を示す図である。

以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。

図１は、本発明の一実施形態に係る学習データ生成装置１０の構成例を示す図である。本実施形態に係る学習データ生成装置１０は、複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するためのものである。

図１に示す学習データ生成装置１０は、振り分け部１１を備える。

振り分け部１１は、応対シーンを示す情報が付与された、発話の音声認識の結果（テキスト化された発話）が入力される。発話の応対シーンとは、複数の話者による対話における、その発話が行われた場面である。例えば、コンタクトセンタにおける顧客と応対担当者との対話を例とすると、応対シーンとしては、最初の挨拶などが行われる「オープニング」、顧客の問い合わせ内容を把握する「問い合わせ把握」、顧客が契約者本人であることおよび契約内容を確認する「契約確認」、問い合わせ内容に対する顧客への回答および対応を行う「対応」、および、最後の挨拶などが行われる「クロージング」など種々の場面がある。応対シーンを示す情報は、例えば、作業者により付与される。

音声認識では、無音区間が所定時間以上継続すると、前回の音声認識の処理単位の最後の発話後、その無音区間の前までの発話が１つの処理単位として音声認識が行われ、その処理単位で音声認識結果（以下、「音声認識の結果の単位」と称する）が出力される。応対シーンを示す情報は、例えば、その音声認識の結果の単位ごとに付与される。

また、音声認識の結果の単位の中に、話者が伝えたい内容を話し終えた話し終わりが存在することがある。上述したように、音声認識では、無音区間が所定時間以上継続することにより、処理単位が確定される。ここで、例えば、話者がある内容について話し終えた後、間をおかずに、別の内容について話し始めた場合、上述したある内容についての話し終わりを含む処理単位で音声認識が行われ、その結果、音声認識の結果の単位の中に話し終わりの発話が含まれることになる。そこで、音声認識の結果の単位の中から話し終わりの発話を検出し、前回の話し終わりの発話から、検出した話し終わりの発話までの話し終わり単位に対して、応対シーンを示す情報が付与されてもよい。

音声認識の結果の単位の中での話し終わりの発話の検出は、例えば、発話が音声認識によりテキスト化された文字列を句読点で分割した分割文字列に対応する発話が話し終わりの発話であるか否かを判定する判定モデルを用いて行うことができる。このような判定モデルは、発話がテキスト化された文字列を句読点で分割した分割文字列に対応する発話および連続する分割文字列を発話順に並べた文字列に対応する発話に対して、その発話が話し終わりの発話であるか否かを示す教師データが付与された学習データを用いた機械学習により作成することができる。

音声認識における句読点の付与の方法としては、例えば、上述した処理単位を確定するために設定される無音区間よりも短い所定時間だけ無音区間が継続すると、その無音区間に対応する位置に句読点を付与するという方法がある。句点が付与されるか、読点が付与されるかは、例えば、前後の文脈などから適宜、選択される。例えば、参考文献１には、音声認識結果への句読点の自動挿入方法が記載されている。具体的には、参考文献１には、単語（出現形）、品詞、分節境界、直後の分節への係り受け情報、およびポーズなどの特徴に基づき、句読点を挿入する方法が記載されている。なお、ある話者の話し終わり後、別の話者が、句読点の付与が決定される無音区間の経過前に話し始めた場合、先の話者の発話の音声認識結果の末尾には、句読点が付与されない場合がある。音声認識結果の末尾には必ず、句読点が付与されるようにすることも可能である。
参考文献１：秋田祐哉、河原達也、「講演に対する読点の複数アノテーションに基づく自動挿入」、情報処理学会論文誌、１８８２－７７６５，Ｎｏ．５４、Ｖｏｌ.２、２０１３年

また、複数の話者それぞれの発話が異なるチャネルとして区別して、音声認識が行われる。そこで、話者交代が起こったか否かにより、話し終わりであるか否かを判定することができる。例えば、顧客と応対担当者との対話においては、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その話者交代の直前の発話は、話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、前回の話者交代の発話以降、今回の話者交代の直前の発話までを話し終わり単位とし、その話し終わり単位で応対シーンを示す情報が付与されてもよい。

振り分け部１１は、発話に付与された応対シーンを示す情報に基づき、その発話を、学習データを生成する対象とするか否かの振り分けを行う。ここで、振り分け部１１は、特定の種別の発話（推定対象の発話種別の発話）に類似する発話を含む（含む可能性のある）応対シーンの発話を、学習データを生成する対象から除外する。特定の種別の発話に類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外することで、類似する発話に、異なる教師データが付与された学習データが生成されることが無くなる。その結果、その学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。

また、振り分け部１１は、特定の種別の発話を含む（含む可能性のある）応対シーンの発話を、学習データを生成する対象として抽出してもよい。抽出された発話に対して、例えば、作業者により、正例であるか（特定の種別の発話である）、負例であるか（特定の種別の発話ではない）を示す教師データが付与され、学習データが生成される。生成された学習データは記憶され、特定の種別の発話の推定モデルの作成に用いられる。

また、振り分け部１１は、特定の種別の発話に類似する発話を含まない応対シーンの発話に対して、その発話が特定の種別の発話ではないことを示す教師データを付与した学習データを生成してもよい。こうすることで、発話に対して、その発話が特定の種別の発話ではない、すなわち、負例の教師データが付与された学習データを自動的に生成することができる。また、振り分け部１１は、特定の種別の発話に類似する発話を含まない応対シーンの発話を、学習データを生成する対象から除外してもよい。特定の種別の発話に類似する発話を含まない応対シーンの発話を、負例として利用するか、学習対象外とするかは、例えば、正例数と負例数との割合が同じとなるように調整するなど、学習時に予め定められた設定とすることができる。

振り分け部１１は、上述した処理を、推定対象の発話種別（発話種別１～発話種別ｍ）ごとに行う。こうすることで、発話種別ごとに推定モデルを作成するための学習データが生成され、記憶される。

次に、振り分け部１１による、応対シーンに応じた振り分けについて、より詳細に説明する。以下では、コンタクトセンタにおける顧客と応対担当者との対話を例とする。また、以下では、応対シーンとして、顧客の問い合わせ内容を把握する「問い合わせ把握」、顧客が契約者本人であることおよび契約内容を確認する「契約確認」、顧客の問い合わせ内容に対する顧客への回答および対応を行う「対応」を例として説明する。また、以下では、推定対象の発話種別として、対話の主題に関する発話である主題発話、顧客の用件を示す用件発話、顧客の用件を確認する用件確認発話、顧客の契約内容を確認する契約確認発話、契約内容の確認に対して応答する契約応答発話、および、顧客の用件への対応に関する対応発話を例として説明する。

振り分け部１１は、発話種別ごとの学習対象の定義を保持しており、その定義に基づき、振り分けを行う。図２は、振り分け部１１が保持する、発話種別ごとの学習対象の定義の一例を示す図である。

図２に示すように、振り分け部１１は、推定対象の発話種別ごとに、推定対象の発話種別の発話を含む応対シーン、推定対象の発話種別の発話と類似する発話を含む（含む可能性のある）応対シーン、および、推定対象の発話種別の発話と類似する発話を含まない応対シーンを規定した定義を保持している。振り分け部１１は、この定義に基づき、各応対シーンの発話を、学習データを生成する対象とするか否かの振り分けを行う。

例えば、推定対象の発話種別が主題発話である場合、振り分け部１１は、応対シーン「問い合わせ把握」は主題発話を含む応対シーンとして定義されているので、応対シーン「問い合わせ把握」の発話を、学習データを生成する対象として抽出する。抽出された発話それぞれに対して、例えば、作業者により、主題発話であるか、主題発話ではないかを示す教師データが付与され、学習データが生成される。また、振り分け部１１は、応対シーン「対応」は、主題発話と類似する発話を含む応対シーンとして定義されているので、応対シーン「対応」の発話を、学習データを生成する対象から除外する。また、振り分け部１１は、応対シーン「契約確認」は、主題発話と類似する発話を含まない応対シーンとして定義されているので、応対シーン「契約確認」の発話に対して、主題発話ではないことを示す教師データを付与して学習データを生成する。なお、振り分け部１１は、応対シーン「契約確認」の発話を、学習データの生成の対象から除外してもよい。

上述したような、発話種別ごとの学習対象の定義は、例えば、予め作業者により定義され、振り分け部１１に保持される。

また、振り分け部１１は、推定対象の発話種別の発話を含む応対シーンの発話と、他の応対シーンの発話との類似度を算出し、推定対象の発話種別の発話を含む応対シーンの発話と類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外してもよい。例えば、振り分け部１１は、推定対象の発話種別が主題発話である場合、主題発話を含む応対シーンとして定義された応対シーン「問い合わせ把握」の発話と、他の応対シーンの発話との類似度を算出し、例えば、類似度が所定値以上の発話を含む応対シーンの発話を、学習データを生成する対象から除外してもよい。

次に、本実施形態に係る学習データ生成装置１０による学習データ生成方法について、主題発話の推定モデルを作成するための学習データを生成する例を用いて説明する。まず、従来のように、対話における発話に対して、作業者により、教師データが付与される場合を例として説明する。

以下では、図３に示すように、顧客と応対担当者との対話において、発話＃１１～発話＃２２が行われたものとする。図３では、発話＃１１，＃１３，＃１４，＃１６，＃１８，＃２１は顧客の発話であり、発話＃１２，＃１５，＃１７，＃１９，＃２０，＃２２は応対担当者の発話であることを示している。また、各吹き出しは、音声認識の結果の単位を示す。

図３に示す顧客と応対担当者との対話は、顧客が契約している自動車保険に関するものである。より具体的には、発話＃１１～発話＃１６では、自動車保険の契約内容の変更という顧客の問い合わせ内容の把握が行われ、発話＃１７～発話＃１９では、顧客の契約に関する確認が行われ、発話＃２０～発話＃２２では、顧客の問い合わせ（自動車保険の契約内容の変更）に対する対応が行われている。ここで、発話＃１１と発話＃２１とで、類似する発話（「自動車保険の変更をお願いします」）が行われたとする。

作業者により各発話に対して教師データが付与される場合、作業者は、各発話の内容および前後の文脈などに基づき、各発話が主題発話に該当するか否かを判断して、教師データを付与する。図３の例では、発話＃１１および発話＃１２は、「自動車保険の契約内容の変更」という、顧客と応対担当者との対話における主題に関するものである。したがって、発話＃１１および発話＃１２に対しては、主題発話である、すなわち、正例であることを示す教師データが付与される。また、発話＃１３～発話＃２２は、問い合わせ内容の確認、契約内容の確認、および、問い合わせに対する対応などのための発話である。したがって、発話＃１３～発話＃２２に対しては、主題発話ではない、すなわち、負例であることを示す教師データが付与される。

ここで、人手による教師データの付与の場合、上述したように、各発話の内容および前後の文脈などに基づき、発話種別が判断される。そのため、類似する発話である発話＃１１と発話＃２１とで異なる教師データが付与された学習データが生成されることがある。このような学習データを用いて推定モデルを作成すると、推定精度が低下してしまう。

次に、本実施形態に係る学習データ生成装置１０における学習データ生成方法について、図４を参照して説明する。なお、図４においては、振り分け部１１は、図２に示す定義に従い、振り分けを行うものとする。また、図４においては、図３と同じように、顧客と応対担当者との発話＃１１～発話＃２２が行われたものとする。

上述したように、発話＃１１～発話＃１６では、自動車保険の契約内容の変更という顧客の問い合わせ内容の把握が行われ、発話＃１７～発話＃１９では、顧客の契約に関する確認が行われ、発話＃２０～発話＃２２では、顧客の問い合わせ（自動車保険の契約内容の変更）に対する対応が行われている。したがって、発話＃１１～発話＃１６の応対シーンは「問い合わせ把握」であり、発話＃１７～発話＃１９の応対シーンは「契約確認」であり、発話＃２０～発話＃２２の応対シーンは「対応」である。振り分け部１１には、応対シーンを示す情報が付与された発話＃１１～発話＃２２が入力される。

本実施形態に係る学習データ生成方法は、振り分け部１１が、対話における発話に付与された応対シーンを示す情報に基づき、発話を、学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含む。具体的には、振り分け部１１は、図２に示すように、主題発話を含む応対シーンとして「問い合わせ把握」が定義されているので、応対シーン「問い合わせ把握」の発話＃１１～発話＃１６を、学習データを生成する対象として抽出する。抽出された発話＃１１～発話＃１６に対して、例えば、作業者により、主題発話であるか否かの教師データが付与される。上述したように、発話＃１１および発話＃１２は、「自動車保険の契約内容の変更」という、顧客と応対担当者との対話における主題に関するものである。したがって、発話＃１１および発話＃１２に対しては、主題発話である、すなわち、正例であることを示す教師データが付与された学習データが生成される。また、発話＃１３～発話＃１６に対しては、主題発話ではない、すなわち、負例であることを示す教師データが付与された学習データが生成される。

また、振り分け部１１は、図２に示すように、主題発話と類似する発話を含まない応対シーンとして「契約確認」が定義されているので、応対シーン「契約確認」の発話＃１７～発話＃１９の発話に対して、主題発話ではない、すなわち、負例であることを示す教師データを付与した学習データを生成する。

また、振り分け部１１は、図２に示すように、主題発話と類似する発話を含む応対シーンとして「対応」が定義されているので、応対シーン「対応」の発話＃２０～発話＃２２を、学習データを生成する対象から除外する。このように、推定対象の発話種別の発話と類似する発話を含む（含む可能性のある）応対シーンの発話を、学習データを生成する対象から除外することで、主題発話である発話＃１１に類似する発話＃２１は、学習データを生成する対象から除外される。そのため、類似する発話に対して異なる教師データが付与された学習データが生成されることが無くなり、学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。また、振り分け部１１は、図２の定義に基づいて予め学習した振り分け推定モデルによって、発話と発話の応対シーン、発話種別の入力に対して、定義に該当する発話種別の教師データ（正例・負例）として学習データを生成してもよい。

次に、図５を参照して、学習データ生成装置１０により生成された学習データを用いて作成された推定モデルにより発話種別を推定する発話種別推定装置２０について説明する。図５は、発話種別推定装置２０の構成例を示す図である。

図５に示す発話種別推定装置２０は、応対シーン推定モデル記憶部２１と、応対シーン推定部２２と、振り分け定義記憶部２３と、発話種別推定振り分け部２４と、発話種別推定位抽出ルール記憶部２５と、発話種別推定単位抽出部２６と、発話種別推定モデル記憶部２７と、発話種別推定部２８とを備える。

応対シーン推定モデル記憶部２１は、発話と応対シーンとの対応を学習することによって生成された応対シーン推定モデルを記憶する。学習には、例えば、サポートベクターマシン（ＳＶＭ）やディープニューラルネット（ＤＮＮ）などを用いることができる。

応対シーン推定部２２は、複数の話者による対話における発話の音声認識の結果が入力される。応対シーン推定部２２には、例えば、上述した音声認識の結果の単位が入力される。また、音声認識の結果に対して、話し終わり判定が行われる場合には、応対シーン推定部２２には、話し終わり単位の発話が入力されてもよい。応対シーン推定部２２は、応対シーン推定モデル記憶部２１に記憶されている応対シーン推定モデルを用いて、音声認識の結果に対応する発話の応対シーンを推定する。応対シーン推定部２２は、発話と、その発話の応対シーンとを発話種別推定振り分け部２４に出力する。

振り分け定義記憶部２３は、発話の応対シーンに基づき、その発話を、推定モデルを用いた発話種別の推定対象とするか否かの振り分けを行うための振り分け定義を記憶する。

図６は、振り分け定義記憶部２３が記憶する振り分け定義の一例を示す図である。

振り分け定義記憶部２３は、図６に示すように、発話種別と、推定対象応対シーンと、推定対象外応対シーンとを対応付けた振り分け定義を記憶する。推定対象応対シーンとは、学習データにおいて正例または負例として利用する応対シーンである。推定対象外応対シーンとは、学習データにおいて負例として利用する、または、学習対象外とする応対シーンである。

図６に示した例では、振分け定義において、例えば、発話種別である「主題発話」と、推定対象応対シーンである「問い合わせ把握」と、推定対象外応対シーンである「対応」、「契約確認」、「オープニング」、及び「クロージング」とが対応している。振分け定義は、例えば、学習時に利用した学習対象の定義に基づいて生成される。振分け定義において、学習対象の定義のうち、学習データにおいて正例又は負例が含まれる応対シーンは推定対象応対シーンとされる。振分け定義において、学習対象の定義のうち、学習データに負例のみ含まれる応対シーンは推定対象応対外シーンとされる。例えば、発話は発話種別が「主題発話」であるか否かを推定する場合、応対シーンが「問い合わせ把握」である発話は、学習データに正例又は負例を含むので推定対象であり、応対シーンが「契約確認」、「対応」、「オープニング」、又は「クロージング」である発話は、学習データに負例のみを含むので、推定対象ではない。

図５を再び参照すると、発話種別推定振り分け部２４は、応対シーン推定部２２から出力された発話の応対シーンに基づき、振り分け定義記憶部２３に記憶されている振り分け定義を用いて、その発話を、後述する推定モデルを用いた発話種別の推定の対象とするか否かを推定する。具体的には、発話種別推定振り分け部２４は、発話の応対シーンが推定対象応対シーンである場合には、その発話を発話種別の推定の対象とし、発話種別推定単位抽出部２６に出力する。また、発話種別推定振り分け部２４は、発話の応対シーンが推定対象外応対シーンである場合には、その発話を発話種別の推定の対象から除外する。この場合、発話種別推定振り分け部２４は、その発話は推定対象の発話種別の発話ではないという推定結果を出力する。

発話種別推定単位抽出ルール記憶部２５は、テキスト化された発話から発話種別を推定する単位を抽出するためのルールを記憶する。発話種別推定単位抽出ルール記憶部２５は、例えば、句点または発話における最後の文字が出現するまでを１つの単位として発話を抽出するというルールを記憶する。

発話種別推定単位抽出部２６は、発話種別推定振り分け部２４から出力された、発話種別の推定の対象である発話から、発話種別推定単位抽出ルール記憶部２５に記憶されているルールに基づき、発話種別を推定する単位の発話を抽出する。具体的には、発話種別推定単位抽出部２６は、発話種別推定振り分け部２４から出力された、テキスト化された発話を、例えば、句点または音声認識結果の単位における最後の文字が出現するまでを１つの単位として発話を抽出するというルールに基づき発話を抽出する。発話種別推定単位抽出部２６は、抽出した発話種別の推定の単位の発話を発話種別推定部２８に出力する。

発話種別推定モデル記憶部２７は、学習データ生成装置１０により生成された学習データを用いて作成された、発話種別ごとの推定モデルを記憶する。発話種別推定モデル記憶部２７は、例えば、発話の発話種別が主題発話であるか否かを推定する主題発話推定モデル、発話の発話種別が用件発話であるか否かを推定する用件発話推定モデル、発話の発話種別が用件確認発話であるか否かを推定する用件確認発話推定モデル、発話の発話種別が契約確認発話であるか否かを推定する契約確認発話推定モデル、および、発話の発話種別が契約応答発話であるか否かを推定する契約応答発話推定モデルなどを記憶する。

発話種別推定部２８は、発話種別推定単位抽出部２６から出力された発話種別の推定の単位に対応する発話が、推定対象の発話種別の発話であるか否かを、発話種別推定モデル記憶部２７に記憶されている推定対象の発話種別の推定モデルを用いて推定し、推定結果を出力する。例えば、推定対象の発話種別が主題発話である場合、発話種別推定部２８は、発話種別推定単位抽出部２６から出力された発話種別の推定の単位に対応する発話が、主題発話であるか否かを、発話種別推定モデル記憶部２７に記憶されている主題発話推定モデルを用いて推定する。

また、発話種別推定部２８は、応対シーン推定部２２により推定された応対シーンに応じて、発話種別推定単位抽出部１８から出力された発話種別の推定の単位に対応する発話の発話種別を推定してもよい。具体的には、発話種別推定部２８は、応対シーンごとに、発話種別推定モデル記憶部２７に記憶されている各推定モデルを用いて、発話種別を推定してもよい。

例えば、発話種別推定部２８は、図７に示すように、応対シーンごとに、その応対シーンの発話を推定対象とする発話種別の定義を記憶している。そして、発話種別推定部２８は、応対シーン推定部２２により推定された発話の応対シーンに基づき、その発話が、応対シーンに対応する発話種別の発話に該当するか否かを推定してもよい。例えば、発話種別推定部２８は、発話の応対シーンが「問い合わせ把握」である場合、図７に示す定義に基づき、図８に示すように、主題発話推定モデル、用件発話推定モデルおよび用件確認発話推定モデルを用いて、発話種別推定単位抽出部２６から出力された発話種別の推定の単位に対応する発話の発話種別を推定する。具体的には、発話種別推定部２８は、主題発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が主題発話であるか否かを推定する。また、発話種別推定部２８は、用件発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が用件発話であるか否かを推定する。また、発話種別推定部２８は、用件確認発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が用件確認発話であるか否かを推定する。

また、発話種別推定部２８は、発話の応対シーンが「契約確認」である場合、図７に示す定義に基づき、図８に示すように、契約確認発話推定モデルおよび契約応答発話推定デルを用いて、発話種別推定単位抽出部２６から出力された発話種別の推定の単位に対応する発話の発話種別を推定する。具体的には、発話種別推定部２８は、契約確認発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が契約確認発話であるか否かを推定する。また、発話種別推定部２８は、契約応答発話推定モデルを用いて、発話種別の推定の単位に対応する発話の発話種別が契約応答発話であるか否かを推定する。

また、発話種別推定部２８は、発話の応対シーンが「対応」である場合、図７に示す定義に基づき、図８に示すように、その発話の発話種別の推定を行わない。

応対シーンを推定せず、全ての発話に対して発話種別の推定を行う場合、推定結果に誤りが生じる場合がある。このような場合について、図９を参照して説明する。図９では、図３と同様に、顧客と応対担当者との発話＃１１～＃２２が行われたとする。また、図９では、主題発話の推定例として説明する。

応対シーンを推定せずに発話種別の推定を行う場合、発話＃１１～＃２２それぞれに対して、主題発話であるか否かの推定が行われる。上述したように、発話＃１１および発話＃１２は、主題発話である。したがって、図９に示すように、発話＃１１および発話＃１２は、主題発話であると推定されたとする。ここで、発話＃１１と発話＃２１とは類似している。発話＃２１は、顧客の問い合わせに対する対応の際の発話であり、主題発話ではない。しかしながら、発話＃２１は、主題発話である発話＃１１と類似しているため、主題発話であると誤推定されてしまうことがある。

一方、図５に示す発話種別推定置２０においては、図１０に示すように、発話＃１１～＃２２それぞれに対して、応対シーンの推定が行われる。そして、主題発話の推定対象応対シーンは「問い合わせ把握」であるため（図６参照）、応対シーン「問い合わせ把握」の発話＃１１～＃１６については、主題発話推定モデルを用いて、主題発話であるか否かの推定が行われる。ここで、本実施形態においては、類似する発話に異なる教師データが付与されないように学習データが生成されているので、主題発話推定モデルにより、高精度に、発話＃１１～＃１６が主題発話であるか否かを推定することができる。また、応対シーン「問い合わせ把握」以外の応対シーン（「契約確認」および「対応」）の発話については、主題発話推定モデルを用いた推定を行うことなく、主題発話ではないと推定される。したがって、応対シーン「対応」に含まれる発話＃２１は主題発話ではないと正しく推定される。

このように本実施形態においては、学習データ生成装置１０は、複数の話者による対話における発話に付与された、その発話の応対シーンに基づき、発話を、学習データを生成する対象とするか否かの振り分けを行う振り分け部１１を備える。振り分け部１１は、特定の種別の発話に類似する発話を含む応対シーンの発話を、学習データを生成する対象から除外する。

こうすることで、特定の種別の発話と、その特定の種別の発話に類似する発話とに対して、異なる教師データが付与された学習データが生成されることが無くなる。そのため、学習データを用いて作成される推定モデルの推定精度の向上を図ることができる。

以上、学習データ生成装置１０について説明したが、学習データ生成装置１０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、学習データ生成装置１０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０学習データ生成装置
１１振り分け部
２０発話種別推定装置
２１応対シーン推定モデル記憶部
２２応対シーン推定部
２３振り分け定義記憶部
２４発話種別推定振り分け部
２５発話種別推定単位抽出ルール記憶部
２６発話種別推定単位抽出部
２７発話種別推定モデル記憶部
２８発話種別推定部

Claims

複数の話者による対話における発話が、特定の種別の発話であるか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置であって、
複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分け部を備え、
前記振り分け部は、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。
請求項１に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話を、前記学習データを生成する対象として抽出することを特徴とする学習データ生成装置。
請求項１または２に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話に類似する発話を含まない応対シーンの発話に対して、該発話が前記特定の種別の発話ではないことを示す教師データを付与した学習データを生成することを特徴とする学習データ生成装置。
請求項１から３のいずれか一項に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーン、前記特定の種別の発話と類似する発話を含む応対シーンおよび前記特定の種別の発話と類似する発話を含まない応対シーンを予め規定した定義を保持しており、該定義に基づき、前記振り分けを行うことを特徴とする学習データ生成装置。
請求項１から３のいずれか一項に記載の学習データ生成装置において、
前記振り分け部は、前記特定の種別の発話を含む応対シーンの発話と、他の応対シーンの発話との類似度を算出し、前記特定の種別の発話を含む応対シーンの発話と類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成装置。
複数の話者による対話における発話が、特定の種別の発話に該当するか否かを推定する推定モデルの作成に用いられる学習データを生成するための学習データ生成装置における学習データ生成方法であって、
複数の話者による対話における発話に付与された、前記対話における前記発話が行われた場面である応対シーンを示す情報に基づき、前記発話を、前記学習データを生成する対象とするか否かの振り分けを行う振り分けステップを含み、
前記振り分けステップでは、前記特定の種別の発話に類似する発話を含む応対シーンの発話を、前記学習データを生成する対象から除外することを特徴とする学習データ生成方法。
コンピュータを請求項１から５のいずれか一項に記載の学習データ生成装置として機能させるためのプログラム。