JP2024119383A

JP2024119383A - 対話理解装置、および対話理解方法

Info

Publication number: JP2024119383A
Application number: JP2023026245A
Authority: JP
Inventors: ランディゴメス; Gomez Randy; エリックニコルズ; Nichols Eric
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2024-09-03
Also published as: US20240282297A1

Abstract

【課題】対話システムへの入力を破損する可能性のある異常を検出することができる対話理解装置、および対話理解方法を提供することを目的とする。
【解決手段】対話理解装置は、音声信号を収音する収音部と、文脈処理部と、人間との対話を行う対話システムと、を備え、文脈理解部は、収音部から得た情報を処理する層を複数層備え、複数の各層において、収音された音声信号に対しての所定の処理が成功しない場合のフォールバック処理部を層毎に備え、フォールバック処理部が行うフォールバック処理に応じた対応を行った後、次の層の処理に進み、文脈理解部での処理が完了した音声信号を前記対話システムに入力する。
【選択図】図１

Description

本発明は、対話理解装置、および対話理解方法に関する。

近年、音声による指示や、利用者と音声によるコミュニケーションを行うロボットや装置が開発されている。音声コマンド処理システムのダイアログシステムは、ロボットとコミュニケーションをとる際に非常に有効である。これにより、ロボットはコマンドを理解し、そのコマンドを適宜実行することができるようになる。このような対話システムは、音声認識結果から得たテキストデータを用いている。また、対話システムでは、例えば、想定される対話について複数のシナリオを有し、このようなシナリオに基づいて、対話を行っている（例えば参考文献１参照）。

特開２０１９－８４５９８号公報

しかしながら、従来技術では、会話におけるシナリオから外れていたり、発言者の発話内容が想定されてる構造になっていない場合など、対話システムがうまく機能しない場合がある。例えば、仮説が破損していたり、相手の会話スタイルが対話入力の構造に合っていない場合、対話システムはうまく機能しなかった。

本発明は、上記の問題点に鑑みてなされたものであって、対話システムへの入力を破損する可能性のある異常を検出することができる対話理解装置、および対話理解方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る対話理解装置は、音声信号を収音する収音部と、文脈処理部と、人間との対話を行う対話システムと、を備え、前記文脈処理部は、前記収音部から得た情報を処理する層を複数備え、前記複数の各層において、収音された音声信号に対しての所定の処理が成功しない場合のフォールバック処理部を前記層毎に備え、前記フォールバック処理部が行うフォールバック処理に応じた対応を行った後、次の層の処理に進み、前記文脈処理部での処理が完了した音声信号を前記対話システムに入力する、対話理解装置である。

（２）（１）の対話理解装置において、前記文脈処理部は、収音された音声信号に対しての所定の処理を行うことで、音声信号をテキスト化し、前記テキスト化したフレーズから固有名詞であるエンティティを検出し、前記テキスト化されたフレーズを、言語モデルを用いて理解して発言者の発話意図を推定するようにしてもよい。

（３）（１）または（２）の対話理解装置において、前記複数層は３層であり、
第１の層は、ウェイクアップワードの検出を行うオーディオトリガー部と、音源の位置特定と音源分離処理を行うサウンド部を備え、第２の層は、前記第１の層が処理した結果の音声信号に対して、音声からテキストへ変換するＡＳＲ部と、オーディオストリームの話者識別のための話者ダイアラゼーション処理を行う話者識別部と、文脈依存の入力に対応するＳｐｅｅｃｈｔｏＴｅｘｔモデルの適応を行うモデル適応部と、自部が備える言語モデルを参照して認識された言語が何語であるか検出する言語検出部を備え、第３の層は、前記第２の層でテキスト化された文の種類を分類する文章処理部と、前記テキスト化された文中のエンティティタイプの検出を行う文章判別部を備えるようにしてもよい。

（４）（３）の対話理解装置において、前記第１の層に対する第１のフォールバック処理部は、ウェイクアップワードが検出されるまで、音声入力を無視し、前記第２の層に対する第２のフォールバック処理部は、前記第２の層で音声認識処理ができない場合に入力された音声信号をノイズとして無視し、前記第２の層で発言者の交代を検出した場合に予め定められている所定の反応を行い、前記第２の層で前記発言者の発話している言語がサポートされている場合に動的に言語を切り替え、前記発言者がサポートされていない言語で話している場合に話し手に通知し、前記第３の層に対する第３のフォールバック処理部は、想定内の質問を受けた場合に具体的なリアクションを挿入し、想定外の質問を受けた場合に具体的なリアクションを挿入し、前記発言者の文に必要なエンティティが検出されなかった場合にフォローアップの質問をするようにしてもよい。

（５）（３）の対話理解装置において、発言者の画像を撮影する撮影部を備え、前記第３の層は、前記撮影された画像を用いて、前記音源の方位と追跡された人物の位置のマッチングを行い、前記発言者の口の動きのトラッキングを行、前記対話システムと前記発言者の会話を確認するための視線方向推定処理を行う空間視覚部を備え、前記第１の層に対する第１のフォールバック処理部は、前記発言者の音源方向と撮像された画像から検出される人物とが空間的に一致しない場合に前記音声をノイズとして無視し、前記撮影された画像から前記発言者の口の動きが検出されなかった場合に前記音声をノイズとして無視し、前記発言者が他の人を見ていたり前記対話システムを見ていない場合に前記音声をノイズとして無視するようにしてもよい。

（６）（１）から（５）のうちのいずれか１つの対話理解装置において、前記文脈処理部の学習時、前記文脈処理部には、１回目に前記対話システムからシステム情報が入力され、２回目でデータ構造と他の要求に基づいて異なるレベルの理解や文脈を構築するようにしてもよい。

（７）上記目的を達成するため、本発明の一態様に係る対話理解方法は、収音部と文脈処理部と対話システムを備える対話理解装置における対話理解方法であって、前記文脈処理部が、前記収音部から得た情報を処理する層を複数備え、前記複数の各層において収音された音声信号に対しての所定の処理が成功しない場合のフォールバック処理部を前記層毎に備え、収音部が、音声信号を収音し、対話システムが、人間との対話を行い、前記文脈処理部が、前記フォールバック処理部が行うフォールバック処理に応じた対応を行った後、次の層の処理に進め、前記文脈処理部が、処理が完了した音声信号を前記対話システムに入力する、対話理解方法である。

（１）～（７）によれば、対話システムへの入力を破損する可能性のある異常を検出することができる。

実施形態における処理の概略を示す図である。実施形態に係る文脈処理部の構成例と処理手順例の概要を示す図である。図２の各部の構成例と処理例を示す図である。図２の各フォールバック部の構成例と処理例を示す図である。対話システムと人との対話の第１の例を示す図である。対話システムと人との対話の第２の例を示す図である。対話システムと人との対話の第３の例を示す図である。実施形態に係る第１レベルの処理例を示す図である。実施形態に係る第２レベルの処理例を示す図である。実施形態に係る第３レベルの処理例を示す図である。実施形態に係る第１レベルにおけるフォールバック処理例を示す図である。実施形態に係る第２レベルにおけるフォールバック処理例を示す図である。実施形態に係る第３レベルにおけるフォールバック処理例を示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

（処理の概略）
まず、本実施形態における処理の概略を説明する。
図１は、本実施形態における処理の概略を示す図である。図１のように、ロボット１は、例えば、文脈処理部２と、対話システム３と、撮影部４と、収音部５と、言語モデル６を備える。

ロボット１は、対話理解装置の一例であり、例えばコミュニケーションロボットである。

言語モデル６は、言語（例えば、日本語、英語、フランス語、ドイツ語、中国語等）毎に単語列に対する確率分布であるモデルを備える。

文脈処理部２（Contextual Processing Module）には、撮影部４が撮影した画像と、収音部５が収音した音声信号が入力される。また、文脈処理部２には、対話システム３から情報が２回入力される１回目は、システム情報が対話システム３から文脈処理部２にロードされる。２回目は、データ構造と他の要求に基づいて、文脈処理部２が異なるレベルの理解や文脈を構築する。なお、文脈処理部２は、この２回の処理によって自部学習を行う。また、この学習処理はオフラインで行われる。これらの処理以外はオンラインで行われる。
なお、システム情報とは、システムの能力のことであり、例えば、どのようなコマンドやタスクがサポートされているかなどの情報である。データ構造とは、情報をどのように解析し保存するかということで、システムが情報を受け入れまたは拒否し、適切に反応できるようにするためのフォーマットである。その他の要件とは、システムに自由に追加して、受け入れまたは拒否や反応に用いることが出来る要素である。例えば、新しいソースを追加する場合、その新しいソースに関連する新しい要件を自由に作成することができる。

文脈処理部２は、撮影部４が撮影した画像と、収音部５が収音した音声信号に対して所定の処理を行って発話内容を理解し、処理した結果に基づいて作成した音声データを対話システム３に出力する。文脈処理部２は、様々なモダリティを異なるレベルで見ることによって、これを活用し、よりロバストでインタラクティブな補正を行い、ダイアログシステムにより対話システム３への最適な入力を生成する。また、文脈処理部２は、フォール（fall）チェックを行い、フォールの場合にフォールバック（fallback）で処理を行う、なお、各処理については、後述する。

撮影部４は、例えばＲＧＢ（赤緑青）カメラである。なお、撮影部４は、深度情報Ｄを得られるＲＧＢＤカメラであってもよい。なお、撮影された画像には、撮影された時間情報（タイムスタンプ）情報が付加されている。

収音部５は、例えば、Ｍ（Ｍは２以上の整数）個のマイクロホンで構成されるマイクロホンアレイである。なお、収音された音声信号には、収音された時間情報（タイムスタンプ）情報が付加されている。

対話システム３は、例えば、スピーカー、画像表示部等を備える。対話システム３は、文脈処理部２が出力する情報に基づいて、発言者と対話を行う。
なお、図１に示した構成は一例であり概略であり、構成はこれに限らない。

（文脈処理部の構成例と処理手順例）
次に、文脈処理部２の構成例と処理手順例を、図２～図４を参照して説明する。図２は、本実施形態に係る文脈処理部の構成例と処理手順例の概要を示す図である。図３は、図２の処理部の構成例と処理例を示す図である。図４は、図２の各フォールバック部（フォールバック処理部）の構成例と処理例を示す図である。

図２～図４に示すように、文脈処理部２は、３段階（Ｌｅｖｅｌ１～３）の処理を行う。文脈処理部２は、レベル毎にフォールチェックを行い、フォールと判別されない場合に次にレベルの処理に進め、フォールと判別された場合に各レベルのフォールバック処理を行う。

Ｉ．第１処理部（第１の層）
レベル１である第１処理部２１には、集音された音声信号と撮影された画像が入力される。第１処理部２１は、オーディオトリガー部２１１と、サウンド部２１２と、空間視覚部２１３を備える。第１処理部２１は、各部のチェック結果がフォールではないと判別された場合、第１処理部２１の各部が検出や抽出した情報を関連付けた情報を第２処理部２２へ出力する。また、第１処理部２１は、各部の検出や抽出でエラーとなった場合、その情報を第１フォールバック部２４に出力する。なお、図１のように、第１処理部２１と第１フォールバック部２４は対であり、協調して処理を行う。

オーディオトリガー部２１１は、ウェイクアップワードや短い音声入力のための特定の音声トリガーの検出を行う。なお、ウェイクアップワードは、予め定められた単語またはフレーズであり、例えば「Ｈｅｙｒｏｂｏｔ！」である。または、ウェイクアップワードは、例えば、所定の音量かつ所定時間以上の音声信号であってもよい。

サウンド部２１２は、音源の位置特定と分離処理を行う。

空間視覚部２１３は、３つのモジュールを備える。第１モジュール２１３１は、音源の方位と追跡された人物の位置のマッチングを行う。第２モジュール２１３２は、発言者の口の動きのトラッキングを行う。第３モジュール２１３３は、ロボット１と発言者の会話を確認するための視線方向推定処理を行う。

ＩＩ．第２処理部（第２の層）
レベル２である第２処理部２２には、第１処理部２１から検出や抽出されて関連付けられた情報が入力される。第２処理部２２は、ＡＳＲ部２２１と、話者識別部２２２と、モデル適応部２２３と、言語検出部２２４を備える。第２処理部２２は、各部のチェック結果がフォールではないと判別された場合、第２処理部で検出や抽出された情報を関連付けた情報を第３処理部２３へ出力する。また、第２処理部２２は、各部の検出や抽出でエラーとなった場合、その情報を第２フォールバック部２５に出力する。なお、図１のように、第２処理部２２と第２フォールバック部２５は対であり、協調して処理を行う。

ＡＳＲ部２２１は、第１処理部２１が処理した結果の音声信号に対して、音声からテキストへ変換する。

話者識別部２２２は、オーディオストリームの話者識別のための話者ダイアラゼーション処理を行う。なお、話者ダイアラゼーション処理とは、発言者や発言者の人数が未知の音声信号に対して、「いつ誰が話したか」を推定する処理である。
モデル適応部２２３は、文脈依存の入力に対応するＳｐｅｅｃｈｔｏＴｅｘｔモデル（音声からテキストへの変換）の適応を行う。

言語検出部２２４は、例えば、テキスト化されたテキストの構文解析を行い、さらに言語モデル６を参照して認識された言語が何語であるか検出する。

ＩＩＩ．第３処理部（第３の層）
レベル３である第３処理部２３には、第２処理部２２から検出や抽出された情報が関連付けられた情報が入力される。第３処理部２３は、文章処理部２３１と、文章判別部２３２を備える。第３処理部２３は、各部のチェック結果がフォールではないと判別された場合、第３処理部２３で検出や抽出した情報を関連付けた情報を対話システム３へ出力する。また、第３処理部２３は、各部の検出や抽出でエラーとなった場合、その情報を第３フォールバック部２６に出力する。なお、図１のように、第３処理部２３と第３フォールバック部２６は対であり、協調して処理を行う。

文章処理部２３１は、テキスト化された文の種類を分類する。

文章判別部２３２は、文中のエンティティ（Entity）タイプの検出を行う。なお、エンティティとは、既知の固有名詞等である。

ＩＶ．第１フォールバック処理部
第１処理部２１によってフォールと判別された場合、第１レベルである第１フォールバック部２４には、第１処理部２１から、第１処理部２１の各部で検出や抽出の際にエラーとなったことを示す情報が入力される。第１フォールバック部２４は、オーディオトリガー部２４１と、空間と視覚部２４２を備える。

オーディオトリガー部２４１は、ウェイクアップワードが検出されるまで、音声入力を無視する。

空間と視覚部２４２は、３つのモジュールを備える。第１モジュール２４２１は、発言者の音源方向と撮像された画像から検出される人物とが空間的に一致しない場合、音声をノイズとして無視する。第２モジュール２４２２は、人の口の動きが検出されなかった場合、音声をノイズとして無視する。第３モジュール２４２３は、発言者が他の人を見ていたり、ロボット１を見ていない場合、音声をノイズとして無視する。

第２処理部２２によってフォールと判別された場合、第２レベルである第２フォールバック部２５には、第２処理部２２から、第２処理部２２の各部で検出や抽出の際にエラーとなったことを示す情報が入力される。第２フォールバック部２５は、ＡＳＲ部２５１と、話者識別部２５２と、言語検出部２５３を備える。

ＡＳＲ部２５１は、音声認識処理ができない場合、入力された音声信号をノイズとして無視する。

話者識別部２５２は、発言者の交代を検出した場合、特定の反応をする。なお、特定の反応とは、予め定められた処理であり、例えば交代した発言者に挨拶する等である。

言語検出部２５３は、２つのモジュールを備える。第１モジュール２５３１は、発言者の発話している言語がサポートされている場合、動的に言語を切り替える。第２モジュール２５３２は、発言者がサポートされていない言語で話している場合、話し手に通知する。

第３処理部２３によってフォールと判別された場合、第３レベルである第３フォールバック部２６には、第３処理部２３から、第３処理部２３の各部で検出や抽出の際にエラーとなったことを示す情報が入力される。第３フォールバック部２６は、文章処理部２６１と、文章判別部２６２を備える。

文章処理部２６１は、想定内の質問を受けた場合、具体的なリアクションを挿入する。または、文章処理部２６１は、想定外の質問を受けた場合、具体的なリアクションを挿入する。

文章判別部２６２は、発言者の文に必要なエンティティが検出されなかった場合、フォローアップの質問をする。なお、フォローアップの質問とは、必要なエンティティを引き出すための質問であり、例えば含まれている文中にある動詞に基づく「何をどうしたの？」等の質問である。

（対話システムと人との対話例）
次に、対話システムと人との対話例と、対話時の処理例を図５～図７を用いて説明する。
図５は、対話システムと人との対話の第１の例を示す図である。なお、図５～図７の対話例は、ウェイクアップワード検出後の対話例である。
まず、対話システム３は、「Ｄｏｙｏｕｈａｖｅａｐｅｔ？」と発する。この発話の意図（Ｉｎｔｅｎｔ）は、「質問」、「ｈａｓ」、および「ｐｅｔ」である（ｇ１０１）。
文脈処理部２が発言者の発話を音声認識してテキスト化した結果は、「Ｙｅｓ，Ｉｈａｖｅａｐｅｔｄｒａｇｏｎ」であったとする。この発話において、文脈処理部２は、「ｄｒａｇｏｎ」が「ｐｅｔ」の種類でありＥｎｔｉｔｙであると理解する。そして、文脈処理部２は、この発話の意図を、「返答」、「ｈａｓ」、「ｐｅｔ」、「ｙｓ」であると理解する（ｇ１０２）。
対話システム３は、文脈処理部２の出力に基づいて、「Ｄｒａｇｏｎａｇｏｏｄｐｅｔ！Ｗｈａｔ’ｓｔｈｅｉｒｎａｍｅ？」という音声信号を発する。この発話の意図は、「質問」、「ｐｅｔ」および「ｎａｍｅ」である（ｇ１０３）。

図６は、対話システムと人との対話の第２の例を示す図である。
まず、対話システム３は、「Ｗｈａｔｃｏｕｎｔｒｙａｒｅｙｏｕｆｒｏｍ？」と発する。この発話の意図は、「質問」、「ｃｏｕｎｔｒｙ」、および「ｏｒｉｇｉｎ」である（ｇ１１１）。
文脈処理部２が発言者の発話を音声認識してテキスト化した結果は、「ＩａｍｆｒｏｍｔｈｅＵｎｉｔｅｄｏｆＡｍｅｒｉｃａ」であったとする。この発話において、文脈処理部２は、「ｔｈｅＵｎｉｔｅｄｏｆＡｍｅｒｉｃａ」が「ｃｏｕｎｔｒｙ」の種類でありＥｎｔｉｔｙであると理解する。そして、文脈処理部２は、この発話の意図を、「返答」、「ｃｏｕｎｔｒｙ」、「ｏｒｉｇｉｎ」であると理解する（ｇ１１２）。
対話システム３は、文脈処理部２の出力に基づいて、「Ｉｗａｎｔｔｏｖｉｓｉｔ！Ｄｏｙｏｕｓｔｉｌｌｌｉｖｅｔｈｅｒｅ？」という音声信号を発する。この発話の意図は、「質問」、「ｃｏｕｎｔｒｙ」、「ｏｒｉｇｉｎ」、および「ｒｅｓｉｄｅ」である（ｇ１１３）。

図７は、対話システムと人との対話の第３の例を示す図である。
まず、対話システム３は、「Ｌｅｔ’ｓｃｈａｎｇｅｔｏｐｉｃｓａｎｄｄｉｓｃｕｓｓｗｅａｔｈｅｒ？」と発する。この発話の意図は、「質問」、「ｔｏｐｉｃｓ」、および「ｗｅａｔｈｅｒ」である（ｇ１２１）。
文脈処理部２発言者の発話を音声認識してテキスト化した結果は、「Ｎｏ，Ｉｗａｎｔｔｏｔａｌｋａｂｏｕｔｈｏｂｂｉｅｓｌｎｓｔｅａｄ」であったとする。この発話において、文脈処理部２は、「ｈｏｂｂｉｅｓ」が「ｔｏｐｉｃｓ」でありＥｎｔｉｔｙであると理解する。そして、文脈処理部２は、この発話の意図を、「変更」、「ｔｏｐｉｃｓ」、「ｈｏｂｂｉｅｓ」であると理解する（ｇ１２２）。
対話システム３は、文脈処理部２の出力に基づいて、「ＯＫ！Ｗｈａｔｉｓｙｏｕｒｆａｖｏｒｉｔｅｈｏｂｂｙ？」という音声信号を発する。この発話の意図は、「質問」、「ｆａｖｏｒｉｔｅ」、および「ｈｏｂｂｙ」である（ｇ１２３）。
なお、図５～７に示した対話例、理解結果例は一例であり、これに限らない。

（第１レベルの処理）
次に、第１レベルの処理について、図８を参照して更に説明する。図８は、本実施形態に係る第１レベルの処理例を示す図である。なお、以下の処理例では、発言者が１人の例で説明するが、発言者は複数であってもよい。その場合、発言者が途中で入れ替わったことを検出して処理を行う。

（ステップＳ１０１）収音部５は、発言者の音声信号を収音する。

（ステップＳ１０２）文脈処理部２の第１処理部２１は、収音された音声信号をアナログ信号からデジタル信号に変換して、変換したデジタル信号から周知の手法で音響特徴量を抽出する。音響特徴量は、例えば、メルスペクトルとＭＦＣＣ（メル周波数ケプストラム係数）である。

（ステップＳ１０３）第１処理部２１のオーディオトリガー部２１１は、音声信号と音響特徴量を用いて音声認識処理（構文解析は行わなくてもよい）を行って、音声をテキスト化してテキストからウェイクアップワードの有無を検出する。

（ステップＳ１０４）第１処理部２１のサウンド部２１２は、音声信号と音響特徴量に対して、例えばビームフォーミング法等を用いて音源定位処理と音源分離処理を行う。

（ステップＳ１０５）撮影部４は、発言者を撮影する。

（ステップＳ１０６）第１処理部２１は、撮影された画像をアナログ信号からデジタル信号に変換して、変換したデジタル信号から周知の手法で画像特徴量を抽出する。画像特徴量は、例えば、局所画像特徴量、顔や身体の輪郭情報等を含む。

（ステップＳ１０７）第１処理部２１の空間視覚部２１３は、抽出した画像特徴量に対して、自部または外部に登録されている人毎の特徴量のデータベースを参照して、登録されているデータの中にある人物であれば名前を抽出し、登録されていない人物であれば登録無しと判断する。

（ステップＳ１０８）第１処理部２１の空間視覚部２１３は、画像特徴量に基づいて、周知の手法によって発言者の視線を抽出する。なお、第１処理部２１は、視線の動きを追跡するようにしてもよい。

（ステップＳ１０９）第１処理部２１の空間視覚部２１３は、画像特徴量に基づいて、周知の手法によって発言者の口の動きを追跡する。

（ステップＳ１１０）第１処理部２１は、ステップＳ１０３、Ｓ１０４、Ｓ１０７、Ｓ１０８、Ｓ１０９で検出や抽出されたウェイクアップワード、音源定位結果（含む音響信号）、視線に関する情報および口に関する情報を関連付ける。

（ステップＳ１１１）第１処理部２１は、関連付けた情報に基づいて、発言者が対話のための発話を行ったか否かを判別する。

（ステップＳ１１２）第１処理部２１は、発言者が対話のための発話を行ったと判別した場合、第２レベルの処理に進める。なお、第１処理部２１は、第１レベルで検出や抽出された情報を関連付けた情報を第２レベルの第２処理部２２に出力する。

（ステップＳ１１３）第１処理部２１は、発言者が対話のための発話を行っていないと判別した場合、第１レベルのフォールバック処理に進める。

なお、上述した処理順番や処理内容は一例であり、これに限らない。例えば、音響信号に対する処理と画像に対する処理は、逆であってもよく、または同時に行ってもよい。

（第２レベルの処理）
次に、第２レベルの処理について、図９を参照して更に説明する。図９は、本実施形態に係る第２レベルの処理例を示す図である。なお、以下の処理例では、発言者が１人の例で説明するが、発言者は複数であってもよい。その場合、発言者が途中で入れ替わったことを検出して処理を行う。

（ステップＳ２０１）文脈処理部２の第２処理部２２は、ウェイクアップワード、音源定位結果（含む音響信号）、視線に関する情報および口に関する情報が関連付けられた情報を第１処理部２１から取得する。

（ステップＳ２０２）第２処理部２２のＡＳＲ部２２１は、第１処理部２１から取得した音源定位結果（含む音響信号）に対して、音源分離処理、音響認識処理を行って、認識した音声信号をテキストに変換する。なお、第２処理部２２は、雑音抑圧処理、発話区間の検出を行ってもよい。

（ステップＳ２０３）第２処理部２２の話者識別部２２２は、話者ダイアラゼーション処理を行う。

（ステップＳ２０４）第２処理部２２の言語検出部２２４は、テキスト化されたテキストの構文解析を行い、さらに言語モデル６を参照して認識された言語が何語であるか検出する。

（ステップＳ２０５）第２処理部２２は、ステップＳ２０２、Ｓ２０３、およびＳ２０４で検出や抽出された発言者の発話履歴（ＵＳＥＲＨＩＳＴＯＲＹ）と、発話（ＵＴＴＥＲＡＮＣＥＳ）と、言語情報（ＬＡＮＧＵＡＧＥ）と、メタデータ（ＭＥＴＡＤＡＴＡ）とを関連付ける。なお、発話履歴とは、発言者とロボット１との発話の履歴であり、過去に対話した発話の履歴も含んでいてもよい。また、メタデータとは、発言者の視線情報、発言者の口の動き、収音された音声信号に含まれている他の発言者の音声信号、撮影された画像に含まれている他の発言者の画像等を含む情報である。

（ステップＳ２０６）第２処理部２２は、抽出した発話を監視する。第２処理部２２は、例えば、発話が検出できなくなった場合や、発話に使用されている言語が切り替わった場合などを監視する。

（ステップＳ２０７）第２処理部２２は、監視の結果、トラブル（フォール）が検出されなかったと判別された場合、第３レベルに処理を進める。なお、第２処理部２２は、検出や抽出された発言者の発話履歴（ＵＳＥＲＨＩＳＴＯＲＹ）と、発話（ＵＴＴＥＲＡＮＣＥＳ）と、言語情報（ＬＡＮＧＵＡＧＥ）と、メタデータ（ＭＥＴＡＤＡＴＡ）とを関連付けた情報を、第３処理部２３へ出力する。

（ステップＳ２０８）第２処理部２２は、監視の結果、トラブル（フォール）が検出されたと判別された場合、第２レベルのフォールバック処理に処理を進める。第２レベルのフォールバック処理では、第２フォールバック部２５が、言語が変わったことや発話ではなくノイズであることを決定し、決定した結果を第２処理部２２へ返す。

なお、上述した処理順番や処理内容は一例であり、これに限らない。例えば、ステップＳ２０２～Ｓ２０４の処理順は入れ替わってもよく、同時に行ってもよい。

（第３レベルの処理）
次に、第３レベルの処理について、図１０を参照して更に説明する。図１０は、本実施形態に係る第３レベルの処理例を示す図である。なお、以下の処理例では、発言者が１人の例で説明するが、発言者は複数であってもよい。その場合、発言者が途中で入れ替わったことを検出して処理を行う。

（ステップＳ３０１）文脈処理部２の第３処理部２３は、検出や抽出された発言者の発話履歴と、発話と、言語情報と、メタデータとを関連付けた情報を第２処理部２２から取得する。

（ステップＳ３０２）第３処理部２３の文章処理部２３１は、テキスト化された文の種類を分類する。これにより、文章処理部２３１は、発話の意図（ＩＮＴＥＴ）を推定する。

（ステップＳ３０３）第３処理部２３の文章判別部２３２は、文中のエンティティ（Entity）タイプの検出を行う。

（ステップＳ３０４）第３処理部２３は、第１レベル～第３レベルで検出や抽出、判断した結果に基づいて、取得した発言者の発話を理解する。

（ステップＳ３０５）第３処理部２３は、抽出や検出された発話（ＵＴＴＥＲＡＮＣＥＳ）と、（ＩＮＴＥＮＴＳ）と、固有名詞情報（ＥＮＴＩＴＩＮＥＳ）と、対話履歴（ＣＯＮＶ．ＨＩＳＴＯＲＹ）を関連付ける。

（ステップＳ３０６）第３処理部２３は、例えば、対話システム３が発した発話に対応した発話が得られているか否か、すなわち対話が成り立っているか否かを判別する。

（ステップＳ３０７）第３処理部２３は、対話が成り立っている場合、対話を継続する。

（ステップＳ３０８）第３処理部２３は、対話が成り立っていない場合、第３レベルの第３フォールバック処理に処理を進める。第３フォールバック部２６は、例えば、対話システム３が発した発話が、発言者の対話したい意図と異なっている場合に、発言者の意図に合ったテーマの発話に変え、または予期していなかった返答の場合に聞き返す等の処理を行うように指示する。

（第１レベルの文章解析処理時のフォールバック処理例）
次に、第１レベルにおけるフォールバック処理例を説明する。図１１は、本実施形態に係る第１レベルにおけるフォールバック処理例を示す図である。図１１に示す例では、「フォールバック番号」、「フォールバックの説明（以下、「説明」という）」、「システムプロンプト、具体的なアクション、その他の詳細（以下、「対応」という）」を示している。

Ｉ．第１のフォールバック
説明；ウェイクアップワードが検出されるまで、音声入力を無視するフォールバックである。
対応；システムが予め設定されたウェイクアップワード以外のすべての音声入力を無視するものとする。

ＩＩ．第２のフォールバック
説明；人物との空間的な一致が確認できない場合、音声をノイズとして無視する。
対応；人間が存在する方向から音が発せられたことが確認できない場合、システムはすべての音声入力をノイズとして無視すること。また、人物は、専用の骨格追跡深度カメラなどを用いて追跡すること。

ＩＩＩ．第３のフォールバック
説明；口の動きが検出されない場合、音声をノイズとして無視する。
対応；システムは、ある人物の顔が見え、口の動きが検出されない場合、その人物からの音声入力をすべてバックグラウンドノイズとして無視する。この手法により、人物の背後から来る背景雑音に強いシステムを実現する。

ＩＶ．第４のフォールバック
説明；話し手が他の誰かを見ていたり、ロボット（対話システム３）を見ていない場合、音声をノイズとして無視すること。
対応；話し手が他の人（例えば部屋の中の他の人）と話していることが空間的に確認できる場合、システムは特定の人からの音声入力をすべて無視するものとする。

（第２レベルの文章解析処理時のフォールバック処理例）
次に、第２レベルにおけるフォールバック処理例を説明する。図１２は、本実施形態に係る第２レベルにおけるフォールバック処理例を示す図である。

Ｉ．第１のフォールバック
説明；テキストが生成されない音声入力はノイズとして無視する。
対応；システムは、有効なテキストを生成できない音声入力をすべてノイズとして無視しなければならない。

ＩＩ．第２のフォールバック
説明；発言者の変更を検出した場合の具体的な反応。
対応；発言者が変わった場合、システムはそれを検出したことを認識しなければならない。
例えば、新しい話し手に「顔」を合わせたり、生成された返答に「あなたの意見も聞けてうれしいです」などと付け加えたりすることができる。

ＩＩＩ．第３のフォールバック
説明；言語が切り替わった場合、かつ切り替わった言語がサポートされている場合、動的に言語を切り替える。
対応；デフォルトのフォールバックに頼るのではなく、発言者が音声入力の間に言語を切り替えた場合に、システムが対応できるようにする必要がある。このような場合、前の言語のフレーズで確認する。例えば、「ああ、今スペイン語に切り替えたのでしょうか？もちろん、そうしますよ」等の発話を行った後、対話を継続する。

ＩＶ．第４のフォールバック
説明；言語が切り替わった場合、かつ切り替わった言語がサポートされていない言語である場合、発言者に通知する。
対応；発言者がサポートされていない言語を使用している場合は、システムがそれを検知し、サポートされている言語への切り替えを提案することができる必要がある。

（第３レベルの文章解析処理時のフォールバック処理例）
次に、第３レベルにおけるフォールバック処理例を説明する。図１３は、本実施形態に係る第２レベルにおけるフォールバック処理例を示す図である。

Ｉ．第１のフォールバック
説明；期待されたが質問を受けた場合、具体的なリアクションを挿入する。または、想定外の質問等を受けた場合、具体的なリアクションを挿入する。
対応；例えば、システムが発言者の発言を期待したが、代わりに質問を受け取った場合、システムは発言者が質問に答えるように誘導する。

ＩＩ．第２のフォールバック
説明；発言者が発話した音声をテキスト化した文から必要なエンティティが検出されなかった場合は、フォローアップの質問をする。
対応；システムの意図がエンティティタイプの値を理解することであり、その値が会話を続けるために必要である場合は、システムはフォローアップの質問を行い、不足しているエンティティを抽出することを試みる。

なお、文脈処理部２は、図１１～図１３に示した各フォールバックの対応を全て行うのではなく、フォールの内容に応じて必要な対応を行う。また、図１１～１３に示した説明と対応は一例であり、これに限らない。

また、上述した例では、撮影部４が撮影した画像を用いる例を説明したが、文脈処理部２は画像を用いなくてもよい。この場合、文脈処理部２は、発言者の視線検出や口の動きの検出、これらの検出に伴うフォールバック処理を行わなくてもよい。
また、上述した例では、文脈処理部２は、３つのレベル（３つの層）を用いて処理を行う例を説明したが、レベル（層）は２つ以上であればよく、４つ以上であってもよい。

（従来技術との比較）
音声コマンド処理システムのダイアログシステムは、人間がロボットとコミュニケーションをとる際に非常に有効である。これにより、ロボットは、コマンドを理解し、そのコマンドを適宜実行することができるようになる。しかしながら、従来の対話システムは、ＡＳＲ（音声認識）からの仮説という入力の質に大きく左右される。例えば、仮説が破損していたり、相手の会話スタイルが対話入力の構造に合っていない場合、対話システムはうまく機能しなかった。

このため、従来のスマートスピーカーや携帯端末等に用いられている音声コマンドによるコミュニケーションでは、いずれのシステムも、音声キャプチャーの品質とＡＳＲのテキスト化の精度に関するフィードバックを提供していない。また、従来技術では、音声の品質が低い場合や、音声の転写結果が満足のいくものでない場合のフォールバック戦略も用意されていない。

このようなアプローチは、コマンドのような短い単一発話の音声入力では、再試行のコストが低く、音声アシスタントの典型的なユースケースであるため、正当化されることがある。しかし、人間と装置（スマートスピーカー、携帯端末、ロボット等）の対話では、短いコマンドを処理するだけでなく、長い会話を維持することが必要である。

これに対して本実施形態では、対話システム３への入力前に、ＡＳＲからの仮説の質を向上させるために、仮説を前処理し、文脈フィルタリングの対話的かつ反復的な実行を行うようにした。このアプローチは、破損した仮説やユーザの会話スタイルの問題を解決し、これらを修正することで、対話システムが良好なパフォーマンスを発揮するために最適化された入力を保証することができる。

また、本実施形態では、マルチレベルフォールバックのアプローチを用いた。これにより、本実施形態によれば、エンドユーザーにとって普遍的により良い経験を提供することができる。また、本実施形態によれば、発言者がロボット１の理解度についてより多くの情報を得ることができ、従来技術の装置にはない機械知能の感覚を生み出すのに役立っている。

なお、第１レベル～第３レベル（例えば図２参照）おける理解度とは、対話システムへの入力が正しいかどうかを確認するための、異なるレベルの文脈チェックとサニティチェックのことである。これは、対話システムのデータ構造を入力として取り込み、誤った入力やフリースタイルの入力を修正するために、異なるレベルの文脈チェック、反復的かつ対話的なクエリを作成する等の処理を文脈処理部２が行う。

本実施形態では、発言者の発話の理解を、３つの段階で行い。かつ各段階でフォールバック処理を行うようにした。
本実施形態では、オーディオビジュアルモダリティを利用することで、対話システムへの入力を破損する可能性のある異常を検出することができる。また、本実施形態によれば、３つのレベルのフォールバックにより、各モダリティを利用して、対話システムへの入力仮説を修正することが保証される。

また、本実施形態では、３つの理解レベル仮説を前処理し、対話システムに入力する前にＡＳＲ２１１からの仮説の質を向上させるために、文脈フィルタリングを対話的かつ反復的に実行するようにした。このアプローチでは、破損した仮説やユーザの会話スタイルの問題を解決し、これらを修正することで、対話システムが良好に動作するように最適化された入力を保証しようとするものである。

また、本実施形態では、フォールバック機構のマルチモーダルアプローチを行うようにした。これにより、対話システムへのより信頼性の高い入力を保証するフォールバック実行のマルチモーダルレイヤーにつながるサブシステムの組み合わせ方法を提供できる。

なお、本発明における文脈処理部２、対話システム３の機能の一部または全てを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより文脈処理部２、対話システム３が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１…ロボット、２…文脈処理部、３…対話システム、４…撮影部、５…収音部、６…言語モデル、２１…第１処理部、２２…第２処理部、２３…第３処理部、２４…第１フォールバック部、２５…第２フォールバック部、２６…第３フォールバック部、２１１…オーディオトリガー部、２１２…サウンド部、２１３…空間視覚部、２２１…ＡＳＲ部、２２２…話者識別部、２２３…モデル適応部、２２４…言語検出部、２３１…文章処理部、２３２…文章判別部、２４１…オーディオトリガー部、２４２…空間と視覚部、２５１…ＡＳＲ部、２５２…話者識別部、２５３…言語検出部、２６１…文章処理部、２６２…文章判別部

Claims

音声信号を収音する収音部と、
文脈処理部と、
人間との対話を行う対話システムと、を備え、
前記文脈処理部は、前記収音部から得た情報を処理する層を複数備え、
前記複数の各層において、収音された音声信号に対しての所定の処理が成功しない場合のフォールバック処理部を前記層毎に備え、
前記フォールバック処理部が行うフォールバック処理に応じた対応を行った後、次の層の処理に進み、
前記文脈処理部での処理が完了した音声信号を前記対話システムに入力する、
対話理解装置。
前記文脈処理部は、収音された音声信号に対しての所定の処理を行うことで、音声信号をテキスト化し、前記テキスト化したフレーズから固有名詞であるエンティティを検出し、前記テキスト化されたフレーズを、言語モデルを用いて理解して発言者の発話意図を推定する、
請求項１に記載の対話理解装置。
前記複数層は３層であり、
第１の層は、ウェイクアップワードの検出を行うオーディオトリガー部と、音源の位置特定と音源分離処理を行うサウンド部を備え、
第２の層は、前記第１の層が処理した結果の音声信号に対して、音声からテキストへ変換するＡＳＲ部と、オーディオストリームの話者識別のための話者ダイアラゼーション処理を行う話者識別部と、文脈依存の入力に対応するＳｐｅｅｃｈｔｏＴｅｘｔモデルの適応を行うモデル適応部と、自部が備える言語モデルを参照して認識された言語が何語であるか検出する言語検出部を備え、
第３の層は、前記第２の層でテキスト化された文の種類を分類する文章処理部と、前記テキスト化された文中のエンティティタイプの検出を行う文章判別部を備える、
請求項１または請求項２に記載の対話理解装置。
前記第１の層に対する第１のフォールバック処理部は、ウェイクアップワードが検出されるまで、音声入力を無視し、
前記第２の層に対する第２のフォールバック処理部は、前記第２の層で音声認識処理ができない場合に入力された音声信号をノイズとして無視し、前記第２の層で発言者の交代を検出した場合に予め定められている所定の反応を行い、前記第２の層で前記発言者の発話している言語がサポートされている場合に動的に言語を切り替え、前記発言者がサポートされていない言語で話している場合に話し手に通知し、
前記第３の層に対する第３のフォールバック処理部は、想定内の質問を受けた場合に具体的なリアクションを挿入し、想定外の質問を受けた場合に具体的なリアクションを挿入し、前記発言者の文に必要なエンティティが検出されなかった場合にフォローアップの質問をする、
請求項３に記載の対話理解装置。
発言者の画像を撮影する撮影部を備え、
前記第３の層は、前記撮影された画像を用いて、前記音源の方位と追跡された人物の位置のマッチングを行い、前記発言者の口の動きのトラッキングを行、前記対話システムと前記発言者の会話を確認するための視線方向推定処理を行う空間視覚部を備え、
前記第１の層に対する第１のフォールバック処理部は、前記発言者の音源方向と撮像された画像から検出される人物とが空間的に一致しない場合に前記音声をノイズとして無視し、前記撮影された画像から前記発言者の口の動きが検出されなかった場合に前記音声をノイズとして無視し、前記発言者が他の人を見ていたり前記対話システムを見ていない場合に前記音声をノイズとして無視する、
請求項３に記載の対話理解装置。
前記文脈処理部の学習時、前記文脈処理部には、１回目に前記対話システムからシステム情報が入力され、２回目でデータ構造と他の要求に基づいて異なるレベルの理解や文脈を構築する、
請求項１または請求項２に記載の対話理解装置。
収音部と文脈処理部と対話システムを備える対話理解装置における対話理解方法であって、
前記文脈処理部が、前記収音部から得た情報を処理する層を複数備え、前記複数の各層において収音された音声信号に対しての所定の処理が成功しない場合のフォールバック処理部を前記層毎に備え、
収音部が、音声信号を収音し、
対話システムが、人間との対話を行い、
前記文脈処理部が、前記フォールバック処理部が行うフォールバック処理に応じた対応を行った後、次の層の処理に進め、
前記文脈処理部が、処理が完了した音声信号を前記対話システムに入力する、
対話理解方法。