WO2018088210A1

WO2018088210A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2018088210A1
Application number: PCT/JP2017/038468
Authority: WO
Inventors: 芳宏真鍋; 成志見山; 隆一難波
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-11-08
Filing date: 2017-10-25
Publication date: 2018-05-17
Anticipated expiration: 2019-05-08

Abstract

本技術は、より自然な音声通話を行うことができるようにする情報処理装置および方法、並びにプログラムに関する。情報処理装置は、音声通話の通話相手側の音場情報を受信する通信部と、音場情報に基づいて、通話相手側の音場に関する情報を提示させる制御部とを備える。本技術は通話システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本技術は情報処理装置および方法、並びにプログラムに関し、特に、より自然な音声通話を行うことができるようにした情報処理装置および方法、並びにプログラムに関する。

　従来、テレビ電話の際に等身大表示を行うことで、あたかも相手が近くに存在しているかのような臨場感で通話を実現するテレプレゼンスデバイスが知られている。

　また、音声通話に関する技術として、マイクロホンやスピーカと利用者との距離に応じて出力音声の音量や音質を制御し、適切な音場を生成する技術が提案されている（例えば、特許文献１参照）。

国際公開第０１／９９４６９号

　しかしながら、上述した技術では、発話側のユーザは自身の発した音声が相手側においてどの程度の大きさで聞こえているかを知ることができないので、どうしても声が大きくなってしまい、自然な会話、すなわち自然な音声通話を行うことができなかった。

　本技術は、このような状況に鑑みてなされたものであり、より自然な音声通話を行うことができるようにするものである。

　本技術の第１の側面の情報処理装置は、音声通話の通話相手側の音場情報を受信する通信部と、前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部とを備える。

　前記制御部には、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させることができる。

　前記音場情報を、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報とすることができる。

　前記通信部には、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信させ、前記制御部には、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させることができる。

　前記制御部には、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させることができる。

　前記制御部には、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させることができる。

　情報処理装置には、話者の発話音声を収音する音声入力部をさらに設け、前記通信部には、前記収音により得られた音声信号を前記通話相手側に送信させることができる。

　本技術の第１の側面の情報処理方法およびプログラムは、音声通話の通話相手側の音場情報を受信し、前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させるステップを含む。

　本技術の第１の側面においては、音声通話の通話相手側の音場情報が受信され、前記音場情報に基づいて、前記通話相手側の音場に関する情報が提示される。

　本技術の第２の側面の情報処理装置は、音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、前記音場情報を前記話者側に送信する通信部とを備える。

　前記音場情報を、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報とすることができる。

　前記音場情報生成部には、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成させることができる。

　前記音場情報生成部には、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成させることができる。

　前記音場情報生成部には、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成させることができる。

　前記通信部には、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信させることができる。

　前記通信部には、前記話者の発話音声の音声信号を受信させ、前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに設けることができる。

　本技術の第２の側面の情報処理方法またはプログラムは、音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、前記音場情報を前記話者側に送信するステップを含む。

　本技術の第２の側面においては、音声通話の聴者側の音場情報が、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成され、前記音場情報が前記話者側に送信される。

　本技術の第３の側面の情報処理装置は、音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部とを備える。

　本技術の第３の側面においては、音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報が受信され、前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像が表示される。

　本技術の第４の側面の情報処理装置は、音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部とを備える。

　本技術の第４の側面においては、音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報が、前記話者の発話音声に関する情報に基づいて生成され、前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報が前記話者側に送信される。

　本技術の第１の側面乃至第４の側面によれば、より自然な音声通話を行うことができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

通話システムの構成例を示す図である。音場に関する情報の提示例を示す図である。音声送信処理を説明するフローチャートである。音声受信処理を説明するフローチャートである。通話システムの構成例を示す図である。聴取空間画像の表示例を示す図である。聴取空間画像の表示例を示す図である。音声送信処理を説明するフローチャートである。音声受信処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、音声通話を行う際に、話者側において聴者側の音場に関する情報を提示することで、より自然な音声通話を行うことができるようにするものである。

　例えば、空間的に離れた位置にいるユーザ同士で、テレプレゼンスデバイス等を利用して音声通話を行う場合、話者側では通話相手である聴者側において自身の声がどの程度の大きさで聞こえているかを把握することができない。そのため、話者が発する声が大きくなってしまい、自然な音声通話を行うことが困難である。

　これは、実際に対面で対話を行うときに各ユーザが得ている、相手に聞こえている環境音の種類や大きさといった情報と、自身が発した声が相手にどの程度の大きさで聞こえているかといった情報が音声通話を行う際には得ることができないからであると考えられる。

　例えば実際の対面での会話では話者と聴者は同じ環境で対話を行い、環境音や話者自身の声の聞こえ方は話者と聴者とでほぼ同じとなるので、話者は環境音の種類や大きさ、話者自身の声の大きさといった情報を得ることができる。

　そのため、実際の対面での会話では環境音の種類や大きさ、相手との距離、自分の声の大きさなどに基づいて、これまでの経験から自分の声が相手に対してどの程度の大きさで聞こえているかを推定することができる。

　本技術では、空間的に離れた位置にいるユーザ同士では得ることができない、聴者側の環境音に関する情報や、話者の音声が通話相手である聴者にどの程度の大きさで聞こえるかといった情報を補完することで、より自然な音声通話を行うことができるようにした。すなわち、より自然な会話ができる環境を提供することができるようにした。

　具体的には、例えば本技術では映像と音声の通信、または音声のみでの通信でユーザ同士の通話を行う際に、話者側に聴者側の音場に関する情報が視覚的に提示されるようにした。特に、例えば音場に関する情報として、空間上の聴者の位置における、話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報が提示されるようにした。

　これにより、話者は自分の声がどの程度相手に届いているかを視覚的に把握することができるので、必要以上に大きな声を出してしまうことなく自然な会話を行うことができる。

　音場に関する情報の提示にあたっては、聴者側のデバイスが発する音の音量等の物理的な情報だけでなく、聴者側の環境状況も加味して、話者の音声を聞き取れる度合い（以下、聴取度合いとも称する）を音場に関する情報として提示してもよい。

　例えば、音声通話の聴者側において環境音や騒音が大きいときには、話者の音声が聴者側では聞き取りにくくなっている。そこで、聴者側の環境音や騒音の大きさ等の環境状況も考慮して聴取度合いを求め、得られた聴取度合いを音場に関する情報として提示することで、さらに自然な音声通話を行うことができるようになる。

　さらに、音場に関する情報の提示にあたっては聴者の身体的能力、特に聴者の聴力に応じて表示を変更するようにしてもよい。

　例えば聴者の聴力が弱く耳が遠い場合、聴者は健常者と比べて話者の発話音声を聞き取りにくくなっている。そこで、聴者の身体的能力も考慮して音場に関する情報の提示を行うことで、さらに自然な音声通話を行うことができるようになる。

〈通話システムの構成例〉
　次に、本技術を適用した具体的な実施の形態について説明する。

　図１は、本技術を適用した通話システムの一実施の形態の構成例を示す図である。

　図１に示す通話システムは、話者側デバイス１１および聴者側デバイス１２を有しており、これらの話者側デバイス１１と聴者側デバイス１２とは、有線または無線のネットワーク１３を介して相互に接続されている。

　話者側デバイス１１と聴者側デバイス１２とは、ネットワーク１３を介して通信し、映像および音声の両方を利用した双方向の音声通話を実現する。

　なお、話者側デバイス１１側と聴者側デバイス１２側とでは双方で発話と、発話の聴取とが行われるが、ここでは説明を簡単にするため、話者側デバイス１１側でのみ発話が行われ、その発話の聴取が聴者側デバイス１２側で行われるものとして説明を続ける。すなわち、ここでは話者側デバイス１１から聴者側デバイス１２への一方向の通話が行われるものとする。

　したがって、より詳細には、話者側デバイス１１にも聴者側デバイス１２が有する構成が設けられており、聴者側デバイス１２にも話者側デバイス１１が有する構成が設けられているが、それらの構成の図示は省略されている。

　また、ここでは映像と音声の両方を利用した通話を行う場合を例として説明するが、必ずしも通話相手の映像を表示させる必要はなく、音声のみの通話であってもよい。さらに、ここでは映像と音声の両方を利用した通話を行う例について説明するが、通話相手の映像の通信に関しては本技術の本質には影響しないため、その説明は適宜省略する。

　話者側デバイス１１は、聴者側デバイス１２側のユーザを通話相手として、音声通話の発話を行う話者となるユーザによって操作される情報処理装置である。この話者側デバイス１１は、話者がいる空間に配置されている。

　話者側デバイス１１は音声入力部２１、音声信号送信部２２、通信部２３、音場情報受信部２４、および音場情報提示部２５を有している。

　また、聴者側デバイス１２は、話者である話者側デバイス１１側のユーザを通話相手として、その話者の音声を聴取する聴者となるユーザによって操作される情報処理装置である。この聴者側デバイス１２は、聴者がいる空間に配置されている。

　聴者側デバイス１２は通信部３１、音声信号受信部３２、音声出力部３３、音響特性情報記録部３４、環境音分布情報取得部３５、聴者位置測定部３６、聴者情報取得部３７、個人識別情報記録部３８、聴者識別部３９、個人能力情報記録部４０、音場情報生成部４１、および音場情報送信部４２を有している。

　話者側デバイス１１の音声入力部２１は、例えばマイクロホンなどからなり、話者の発話音声を収音して、その結果得られた発話音声の音声信号を音声信号送信部２２に供給する。音声信号送信部２２は、音声入力部２１から供給された音声信号に対して、例えば符号化などの所定の処理を施して通信部２３に供給し、音声信号の送信を制御する。

　通信部２３は、音声信号送信部２２から供給された音声信号を、ネットワーク１３を介して聴者側、つまり聴者側デバイス１２に送信するとともに、聴者側デバイス１２から送信されてきた音場情報および聴者位置情報を受信し、音場情報受信部２４に供給する。

　音場情報は、聴者側デバイス１２が設置された聴者側の音場に関する情報である。ここでは、音場情報は、聴者がいる空間の各位置における、再生された話者の発話音声を聞き取れる度合い、つまり聞き取りやすさの度合いである聴取度合いを示す情報であるとする。

　この聴取度合いは、その値が大きいほど発話音声を大きな音量で聞き取ることができることを示している。但し、例えば聴取度合いが大きすぎる場合には、発話音声が聴者に対して大きすぎ、聴取度合いが小さすぎる場合には、発話音声が聴者に対して小さすぎ、聴取度合いが中程度である場合に発話音声が聴者に聞き取りやすい大きさであるとする。

　また、聴者位置情報は、聴者側デバイス１２が設置された聴者側の空間における聴者の位置を示す情報である。以下では、聴者側の空間を聴取空間とも称することとする。

　音場情報受信部２４は、音場情報および聴者位置情報の受信を制御するとともに、音場情報提示部２５での音場に関する情報の視覚的な提示を制御する。

　例えば、音場情報受信部２４は、通信部２３から供給された音場情報および聴者位置情報に対して復号等の処理を行う。

　また、音場情報受信部２４は、音場情報および聴者位置情報に基づいて音場情報提示部２５を制御し、聴取空間上の聴者の位置における、再生された話者の発話音声の聴取度合いを視覚的に把握可能な情報を、聴者側の音場に関する情報として提示させる。この場合、音場情報受信部２４は、聴者側の音場に関する情報の提示を制御する制御部として機能する。

　なお、より詳細には、音場情報受信部２４は通信部２３から聴者の映像の映像信号の供給も受け、供給された映像信号に基づいて音場情報提示部２５での聴者の映像の表示も制御する。このような聴者の映像の映像信号は、通信部２３が、ネットワーク１３を介して聴者側デバイス１２から受信したものである。

　音場情報提示部２５は、例えば液晶表示デバイスなどからなり、音場情報受信部２４の制御に従って音場に関する情報を表示することで、音場に関する情報を視覚的に提示する。

　聴者側デバイス１２の通信部３１は、ネットワーク１３を介して話者側、つまり話者側デバイス１１から送信されてきた発話音声の音声信号を受信して音声信号受信部３２に供給する。また、通信部３１は、音場情報送信部４２から供給された音場情報および聴者位置情報を、ネットワーク１３を介して話者側デバイス１１に送信する。

　音声信号受信部３２は、通信部３１から供給された音声信号に対して復号などの処理を施して音声出力部３３に供給し、音声出力部３３に発話音声を出力させる。すなわち、音声信号受信部３２は、発話音声の音声信号の受信を制御するとともに、受信した音声信号に基づく発話音声の再生を制御する。

　音声出力部３３は、例えばスピーカなどの音声出力機器からなり、音声信号受信部３２から供給された音声信号に基づいて、話者の発話音声を再生する。また、音声出力部３３は、音声信号に基づく発話音声の再生時の音量や発話音声の周波数特性など、出力（再生）された発話音声に関する情報を出力音声情報として音場情報生成部４１に供給する。

　なお、以下では、聴取空間における音声出力部３３の配置位置は予め定められた固定位置であるものとする。

　音響特性情報記録部３４は、聴者側デバイス１２が設置された部屋などである聴取空間の音響特性を示す音響特性情報を記録しており、記録している音響特性情報を音場情報生成部４１に供給する。

　例えば音響特性情報は、聴取空間の各位置において音声出力部３３から出力された音がどの程度減衰されて伝搬するかを示す情報、すなわち例えば音声出力部３３から出力された音声の聴取空間の各位置における減衰率を示す情報とされる。

　このような音響特性情報として、例えば聴者側デバイス１２、つまり音声出力部３３を聴取空間に設置した際に、その聴取空間の音響特性を測定して得られたものが用いられる。

　環境音分布情報取得部３５は、例えば複数のマイクロホンが並べられたマイクアレイを有しており、聴取空間における環境ノイズの種類（種別）や大きさ、環境ノイズの周波数などの分布状態を計測（取得）する。

　すなわち、環境音分布情報取得部３５は、例えば発話音声の出力が行われていないタイミングで聴取空間内の環境音を収音し、その結果得られた環境音信号に基づいて聴取空間における環境音、つまり環境ノイズに関する情報である環境音分布情報を生成する。

　ここで、環境音分布情報には、例えば人の声や風の音などの環境音の種別を示す情報、環境音を構成する周波数成分、つまり環境音の周波数帯域を示す情報、聴取空間の各位置における環境音の大きさ（音圧）を示す情報などが含まれている。その他、環境音分布情報には、聴取空間における環境音の音源位置などの情報が含まれるようにしてもよい。

　環境音分布情報取得部３５は、このようにして得られた環境音分布情報を音場情報生成部４１に供給する。

　聴者位置測定部３６は、例えばカメラや測距デバイスなどを有しており、聴取空間内における聴者の位置を測定等することで、聴取空間上における聴者の位置を示す聴者位置情報を生成し、音場情報生成部４１に供給する。

　例えば聴者位置測定部３６は、１または複数のカメラにより撮影された聴取空間の画像である撮影画像に対して画像認識等の解析処理を行うことで、撮影画像から聴者を検出するとともに、その検出結果に基づいて聴取空間における聴者の位置を特定し、聴者位置情報を生成する。

　また、例えば聴者位置測定部３６は、距離センサなどの測距デバイスにより、聴取空間における聴者位置測定部３６、すなわち聴者側デバイス１２から聴者までの距離を測定し、その測定結果に基づいて聴取空間における聴者の位置を示す聴者位置情報を生成する。

　なお、聴者位置測定部３６が聴者等により入力された聴者位置を示す情報に基づいて、聴者位置情報を生成するようにしてもよい。

　聴者情報取得部３７は、例えばカメラやマイクロホンなどを有しており、聴取空間内の聴者個人（ユーザ）を特定するための聴者情報を取得して聴者識別部３９に供給する。

　例えば聴者情報取得部３７は、カメラにより撮影された聴取空間内の聴者の顔画像を聴者情報として取得したり、マイクロホンにより収音された聴取空間内の聴者の音声から得られる声紋情報を聴者情報として取得したりする。

　個人識別情報記録部３８は、予め登録された１または複数の各ユーザについて、ユーザの顔画像や声紋情報などユーザ個人を特定可能な情報、すなわちユーザを一意に識別することが可能な情報を個人識別情報として記録している。個人識別情報記録部３８は、記録している個人識別情報を聴者識別部３９に供給する。

　聴者識別部３９は、聴者情報取得部３７から供給された聴者情報と、個人識別情報記録部３８から供給された個人識別情報とを比較することで、聴取空間内の聴者が予め登録された１または複数のユーザのうちのどのユーザであるかを特定し、その特定結果を音場情報生成部４１に供給する。すなわち、聴者識別部３９では、顔画像を用いた顔認識や声紋情報を用いた声紋認識により、聴者の特定が行われる。

　個人能力情報記録部４０は、予め登録された１または複数の各ユーザについて、ユーザの聴力や年齢、母語など、ユーザの身体的な能力を示す情報を含む、ユーザに固有の能力に関する情報を個人能力情報として記録しており、必要に応じて記録している個人能力情報を音場情報生成部４１に供給する。

　音場情報生成部４１は、音声出力部３３から供給された出力音声情報と、音響特性情報記録部３４から供給された音響特性情報とに基づいて、音声出力部３３により出力（再生）された発話音声が聴取空間内をどのように伝搬するかを示す音声分布情報を生成する。

　例えば音声分布情報は、環境音のない状態で音声出力部３３により発話音声を出力した場合における、聴取空間の各位置における発話音声の音圧等、すなわち発話音声の大きさを示す情報である。したがって、音声分布情報は、聴取空間における発話音声の音圧分布を示す情報であるということができる。

　なお、例えば音響特性情報が周波数帯域ごとに用意されている場合には、その周波数帯域ごとの音響特性情報と、出力音声情報に含まれる周波数特性とが用いられて周波数帯域ごとに音声分布情報が生成されるようにしてもよい。

　また、音場情報生成部４１は、音声分布情報と、環境音分布情報取得部３５から供給された環境音分布情報とに基づいて、聴取空間の各位置における発話音声の聴取度合いを示す音場情報を生成する。

　例えば聴取空間の所定の位置を注目位置とすると、音声分布情報により示される注目位置における発話音声の大きさ（音圧）が大きいほど、また環境音分布情報により示される注目位置における環境音の大きさが小さいほど、その注目位置における聴取度合いは大きくなる。

　また、例えば環境音分布情報により示される環境音の周波数帯域と、出力音声情報により示される発話音声の周波数帯域とで重なる帯域の幅が広いほど、つまり環境音と発話音声との共通する周波数帯域が広いほど、聴取空間全体で聴取度合いは小さくなる。

　さらに、例えば環境音分布情報により示される環境音の種別が人の声である場合など、環境音が特定の種別の音である場合には、聴取空間全体で聴取度合いが小さくなるようにされる。これは、例えば環境音が人の声である場合には、発話音声が聞き取りにくくなってしまうからである。

　音場情報生成部４１は、聴者識別部３９から供給された聴者の特定結果に基づいて、その特定結果により示されるユーザ（聴者）の個人能力情報を個人能力情報記録部４０から読み出すとともに、読み出した個人能力情報に基づいて音場情報を適宜修正（補正）する。

　例えば音場情報生成部４１は、個人能力情報により示される聴者の聴力が健常者の一般的な聴力よりも弱い場合、音場情報により示される聴取空間の全位置の聴取度合いをより小さい値に補正することで、音場情報を補正する。

　その他、例えば発話音声の言語を予め入力しておくようにし、発話音声の言語が聴者の母語と異なる場合に、音場情報により示される聴取空間の全位置の聴取度合いがより小さい値に補正されるようにしてもよい。

　以上のことから、音場情報生成部４１では出力音声情報、音響特性情報、環境音分布情報、および個人能力情報に基づいて音場情報が生成されるということができる。なお、音場情報の生成にあたっては出力音声情報、音響特性情報、環境音分布情報、および個人能力情報が全て用いられてもよいが、これらのうちの少なくとも出力音声情報が用いられるようにすればよい。また、ここでは音場情報は、聴取空間の各位置における聴取度合いを示す情報である場合について説明するが、聴取空間上の聴者の位置における聴取度合いを示す情報が音場情報とされてもよい。つまり、音場情報には、少なくとも聴者の位置における聴取度合いを示す情報が含まれていればよい。

　音場情報生成部４１は、生成した音場情報と、聴者位置測定部３６から供給された聴者位置情報とを音場情報送信部４２に供給する。

　音場情報送信部４２は、音場情報生成部４１から供給された音場情報および聴者位置情報に対して、例えば符号化などの所定の処理を施して通信部３１に供給し、音場情報および聴者位置情報の送信を制御する。

〈音場に関する情報の提示例〉
　ここで、話者側デバイス１１の音場情報提示部２５による音場に関する情報の提示例について説明する。

　例えば音場に関する情報の提示時には、図２に示すように通話時の聴者の映像とともに、音場情報と、聴者位置とが画像情報として音場情報提示部２５に表示される。なお、図２において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図２に示す例では話者側デバイス１１における図中、下側には聴取空間の音声、すなわち通話相手の音声を再生するためのスピーカＳＰ１１－１およびスピーカＳＰ１１－２が設けられており、それらのスピーカの図中、上側に音場情報提示部２５の表示画面が設けられている。

　そして、音場情報提示部２５の表示画面には、聴取空間の様子、つまり聴取空間の映像が表示されている。この例では、聴取空間としての部屋と、その部屋内にいる聴者であるユーザＵ１１とが聴取空間の映像として表示されている。

　また、音場情報提示部２５の表示画面の図中、右下の領域、すなわち領域Ｒ１１には、聴者側の音場に関する情報として、聴取空間である部屋の見取り図ＲＭ１１が表示されており、図２中、右側には領域Ｒ１１の部分を拡大表示した図が示されている。

　見取り図ＲＭ１１により示される聴取空間である部屋内の図中、左下には聴者側デバイス１２が配置されており、聴取空間である部屋内の図中、上側には部屋内に配置された机ＯＢ１１やタンスＯＢ１２、ベッドＯＢ１３などのオブジェクトが配置されている。

　また、見取り図ＲＭ１１では、聴取空間である部屋内の図中、右下にドアＯＢ１４が配置されており、聴取空間内の聴者の位置を表す聴者位置マークＭＫ１１も表示されている。この聴者位置マークＭＫ１１により示される聴取空間内の位置は、聴者位置情報により示される位置となっている。換言すれば、聴者位置情報として聴者位置マークＭＫ１１が表示されている。

　このように聴者位置マークＭＫ１１とともに、聴取空間内のオブジェクトである机ＯＢ１１乃至ドアＯＢ１４も見取り図ＲＭ１１に表示させることで、話者は聴取空間における聴者や配置物（オブジェクト）の位置関係、つまり距離感を的確に把握することができる。

　また、聴取空間の見取り図ＲＭ１１には、音場情報が重畳されて表示されている。

　すなわち、この例では聴取空間の見取り図ＲＭ１１に重畳されて、音場情報により示される互いに聴取度合いの異なる領域ＬＲ１１－１乃至領域ＬＲ１１－５が表示されている。なお、以下、領域ＬＲ１１－１乃至領域ＬＲ１１－５を特に区別する必要のない場合、単に領域ＬＲ１１とも称することとする。

　ここで、互いに聴取度合いの異なる５つの領域ＬＲ１１のぞれぞれは、互いに異なる表示形式で表示されている。例えば図２の例では、各領域ＬＲ１１は、音場情報により示される、それらの領域ＬＲ１１における聴取度合いに対して予め定められた色で表示されており、話者は領域ＬＲ１１の色を見ることで、その領域ＬＲ１１における聴取度合いを視覚的に、瞬時に把握することができる。

　具体的には、一例として、例えば聴者に対して大きすぎる音量（大きさ）で発話音声が聞こえる聴取度合いの領域ＬＲ１１は赤色で表示され、聴者に対して少し大きめの音量で発話音声が聞こえる聴取度合いの領域ＬＲ１１は黄色で表示される。

　また、例えば聴者に対して適切な音量（大きさ）で発話音声が聞こえる聴取度合いの領域ＬＲ１１は緑色で表示され、聴者に対して少し小さめの音量で発話音声が聞こえる聴取度合いの領域ＬＲ１１は水色で表示される。

　さらに、例えば聴者に対して小さすぎる音量で発話音声が聞こえる聴取度合いの領域ＬＲ１１は薄い水色で表示され、聴者に対して殆ど発話音声が聞こえない聴取度合いの領域ＬＲ１１は無色で表示される。

　この例では、例えば聴取空間の見取り図ＲＭ１１における聴者側デバイス１２を含む領域ＬＲ１１－１は赤色で表示されており、その領域ＬＲ１１－１の外側の領域ＬＲ１１－２は黄色で表示されている。また、領域ＬＲ１１－２の外側の領域ＬＲ１１－３は緑色で表示されており、領域ＬＲ１１－３の外側の領域ＬＲ１１－４は水色で表示されており、領域ＬＲ１１－４の外側の領域ＬＲ１１－５は薄い水色で表示されており、それ以外の領域は無色で表示されている。

　このように、聴取空間の各領域を音場情報の聴取度合いの値に応じた色で表示することで、話者に対して、話者の声の大きさが適切であるかを視覚的に伝達することができる。

　例えば、この例では聴者位置マークＭＫ１１により示される聴者の位置では、その位置を含む領域ＬＲ１１－３が緑色で表示されているので、聴取空間の見取り図ＲＭ１１を見ている話者は、自分が適切な大きさの声で会話を行っていることを知ることができる。

　以上のように聴取空間の見取り図ＲＭ１１は、聴取空間の各領域ＬＲ１１が、それらの各領域ＬＲ１１における再生された話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに、聴者位置マークＭＫ１１が表示される聴取空間の画像となっている。なお、聴取空間上に複数の聴者がいるときには、それらの聴者ごとに聴者位置マークが表示されるようにすればよい。

　音場情報と聴者位置情報とに基づいて、聴取空間の見取り図ＲＭ１１を表示することで、話者は自身の声の大きさを適切に調整することができ、その結果、より自然な音声通話を行うことができる。

　その他、例えば聴取空間に複数の聴者（ユーザ）がいる場合には、それらのユーザごとに話者側デバイス１１が聴者位置情報を受信し、実際の聴取空間の映像において話者の発話音声が十分な大きさで聞こえているユーザのみ表示されるようにしてもよい。

　この場合、話者の発話音声が十分な大きさで聞こえていないユーザは、例えば聴取空間の映像上では表示されないようにされたり、グレー表示されたり、ぼかし加工が施されて表示されたりするようになされる。各ユーザに発話音声が十分な大きさで聞こえているか否かは、それらのユーザの聴者位置情報と音場情報とから特定が可能である。

　なお、以上においては音場情報により示される、聴取空間の各位置の聴取度合いに応じた表示形式で、それらの位置に対応する聴取空間の見取り図の各領域や実際の聴取空間の各領域を表示することで音場に関する情報を表示する例について説明した。

　しかし、これに限らず音場に関する情報の提示方法は、聴取空間において話者の発話音声がどの程度の大きさで伝搬しているかを話者に対して視覚的に提示することができれば、どのような方法であってもよい。

　例えば音場情報受信部２４が音場情報と聴者位置情報とに基づいて、話者の発話音声が聴者に適切な大きさで聞こえているかなど、聴者に対して話者の発話音声がどのような大きさで聞こえているかを示す情報のみを視覚的に提示するようにしてもよい。つまり、聴者位置における発話音声を聞き取れる度合いを視覚的に提示してもよい。

　この場合、例えば音場情報提示部２５としてのLED（Light Emitting Diode）を用いて音場に関する情報を提示すればよい。

　すなわち、例えば音場情報と聴者位置情報とから、話者の声が小さくて聴者が話者の発話を聞き取れていない状態であると推定される場合には、音場情報受信部２４は音場情報提示部２５としてのLEDを黄色で点灯させる。換言すれば、音場情報受信部２４は、聴者位置における聴取度合いが所定の閾値以下である場合には、音場情報提示部２５としてのLEDから黄色の光を出力させる。

　また、例えば音場情報と聴者位置情報とから、適切な大きさで聴者が話者の発話を聞き取れている状態であると推定される場合には、音場情報受信部２４は音場情報提示部２５としてのLEDを緑色で点灯させる。さらに例えば音場情報と聴者位置情報とから、聴者が話者の発話を聞き取れているが、発話音声の音量が大きすぎる状態であると推定される場合には、音場情報受信部２４は音場情報提示部２５としてのLEDを赤色で点灯させる。

　このように、聴者位置での聴取度合いに応じた色の光をLEDから出力することでも、聴者に対して話者の発話音声がどのような大きさで聞こえているかを、話者に対して視覚的に提示することができる。

　なお、ここでは聴者位置での聴取度合いに応じた色の光を提示する例、つまり聴者位置での聴取度合いに応じた色でLEDを点灯する例について説明したが、その他、例えば聴者位置での聴取度合いに応じた点滅パターンでLEDを点灯するようにしてもよい。すなわち、聴者位置での聴取度合いに応じた点滅パターンの光を提示してもよい。

　また、例えば音場情報提示部２５の表示画面に、聴者位置における聴取度合いに応じたマークや文字などの情報を聴取空間の音場に関する情報として表示することで、話者の発話音声がどのような大きさで聴者に聞こえているかを、話者に対して視覚的に提示してもよい。

　さらに、例えば図２に示したように音場情報提示部２５の表示画面に聴取空間の映像を表示する場合には、その映像に対して話者の発話音声が適切な大きさで聞こえる領域を把握することができるような表示を行うようにすることもできる。すなわち、聴取空間の映像において発話音声が適切な大きさで聞き取れる領域とそうでない領域とが分かるように、音場情報受信部２４が音場情報に基づいて聴取空間の映像を加工してもよい。

　具体的には、例えば表示画面に表示された聴取空間の映像において、発話音声が適切な大きさで聞き取れる領域以外の領域、つまり発話音声の音量が適切でない領域をグレーアウト（グレー表示）させたり、ぼかし加工を施して表示させたりするようにしてもよい。このようにすることで、聴取空間の映像を見ている話者は、どの程度の大きさの声で発話をすればよいかを感覚的にかつ視覚的に把握することができる。なお、発話音声が適切な大きさで聞き取れる領域とは、例えば音場情報により示される聴取度合いの値が所定範囲内の値となる領域である。

　このように実際の聴取空間の各領域が、それらの領域における聴取度合いに応じた表示形式で表示される聴取空間の映像を、聴者側の音場に関する情報として提示してもよい。

　以上のように、少なくとも音場情報に基づいて聴取空間における発話音声の伝搬状況を示す情報、つまり聴取空間の音場に関する情報を話者に対して視覚的に提示することで、話者は自分の声が聴者に対して適切な音量で聞こえているかを確認することができる。これにより、話者は無駄に大きな声で発話する必要もなく、より自然な音声通話を行うことができる。

　さらに、ここでは聴取空間の音場に関する情報を視覚的に提示する例について説明するが、その他、音場に関する情報を音によって聴覚的に提示するようにしてもよいし、振動等により提示するようにしてもよい。

　例えば、音場に関する情報を聴覚的に提示する場合、音場情報提示部２５はスピーカなどを有するように構成される。そして、音場情報受信部２４は、音場情報および聴者位置情報に基づいて音場情報提示部２５を制御し、必要に応じて聴者位置における聴取度合いに応じた鳴動パターンの音を音場情報提示部２５から出力させる。

　具体的には、例えば聴者位置における聴取度合いの値が所定範囲内の値であり、話者の声が適切な大きさで聴者に聞こえている場合には、音場情報受信部２４は特に音場情報提示部２５から音を出力させない。なお、話者の声が適切な大きさで聴者に聞こえている場合、例えば、あたかも聴者側の部屋で反響して音が返ってきているかのように、音場情報受信部２４が僅かに遅延させた話者の音声を音場情報提示部２５から出力させるなどしてもよい。

　これに対して、例えば聴者位置における聴取度合いの値が所定の値以下であり、話者の声が小さい場合には、音場情報受信部２４は特定のパターンのビープ音を音場情報提示部２５から出力させる。同様に、例えば話者の声が大きすぎる場合には、話者の声が小さい場合とは異なるパターンのビープ音が出力される。

〈音声送信処理の説明〉
　次に、図１に示した通話システムの動作について説明する。

　まず、図３のフローチャートを参照して、話者側デバイス１１により行われる音声送信処理について説明する。

　ステップＳ１１において、音声入力部２１は話者により発せられた発話音声を収音し、その結果得られた音声信号を音声信号送信部２２に供給する。また、音声信号送信部２２は、音声入力部２１から供給された音声信号に対して符号化などの所定の処理を施して、得られた音声信号を通信部２３に供給する。

　ステップＳ１２において、通信部２３は、音声信号送信部２２から供給された音声信号を聴者側デバイス１２に送信する。

　すると、聴者側デバイス１２では、受信された音声信号に基づいて発話音声が再生されるとともに、音場情報および聴者位置情報が生成されて話者側デバイス１１への送信が行われる。

　ステップＳ１３において、通信部２３は、聴者側デバイス１２から送信されてきた音場情報および聴者位置情報を受信して音場情報受信部２４に供給する。

　ステップＳ１４において、音場情報受信部２４は、通信部２３から供給された音場情報および聴者位置情報に基づいて音場情報提示部２５を制御し、聴取空間の音場に関する情報を提示させる。

　例えば音場情報受信部２４は、聴者側デバイス１２との通信によって聴者側デバイス１２から受信した聴取空間の映像を音場情報提示部２５に供給して表示させるとともに、適宜、復号等された音場情報および聴者位置情報に基づいて、音場情報提示部２５に聴取空間の見取り図を表示させる。

　ここで、聴取空間の見取り図には、音場情報により示される聴取空間における聴取度合いの分布が表示される。つまり、聴取空間の見取り図では、聴取空間における同じ聴取度合いの領域が、聴取度合いに対して定められた色等の表示形式で表示される。また、聴取空間の見取り図には、聴者位置情報により示される聴者位置に聴者位置マークも表示される。これにより、例えば図２に示したような見取り図が聴取空間の映像に重畳して表示される。

　なお、聴取空間の音場に関する情報は、聴取空間の見取り図に限らず、他のどのようなものとされてもよい。例えば上述したように、LEDを利用して聴者位置における発話音声の聴取度合いを提示してもよいし、聴取空間の映像において発話音声が適切な大きさで聞き取れる領域とそうでない領域とが分かるように、音場情報に基づいて聴取空間の映像を加工して提示してもよい。

　ステップＳ１５において、話者側デバイス１１は処理を終了するか否かを判定する。例えば、話者により話者側デバイス１１が操作され、通話の終了が指示された場合に処理を終了すると判定される。

　ステップＳ１５において処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１５において処理を終了すると判定された場合、音声送信処理は終了する。

　以上のようにして話者側デバイス１１は、話者の発話音声を収音して音声信号を聴者側デバイス１２に送信するとともに、聴者側デバイス１２から送信されてきた音場情報および聴者位置情報を受信して、聴取空間の音場に関する情報を表示する。これにより、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができ、話者はより自然な音声通話を行うことができる。

〈音声受信処理の説明〉
　次に、図４のフローチャートを参照して、図３の音声送信処理が行われるときに聴者側デバイス１２により行われる音声受信処理について説明する。

　ステップＳ４１において、通信部３１は、話者側デバイス１１から送信されてきた発話音声の音声信号を受信して音声信号受信部３２に供給する。ステップＳ４１では、図３のステップＳ１２の処理で送信された音声信号が受信される。

　また、音声信号受信部３２は、通信部３１から供給された音声信号に対して復号などの処理を施して音声出力部３３に供給する。

　ステップＳ４２において、音声出力部３３は、音声信号受信部３２から供給された音声信号に基づいて、話者の発話音声を再生する。

　また、音声出力部３３は、発話音声の再生時の音量や発話音声の周波数特性などの情報を含む出力音声情報を生成し、音場情報生成部４１に供給する。

　ステップＳ４３において、環境音分布情報取得部３５は、例えばマイクアレイにより環境音を収音して環境音の大きさや音源の方向、周波数特性を測定することで、聴取空間における環境音の種類（種別）や大きさ、周波数などの分布状態を示す環境音分布情報を取得する。環境音分布情報取得部３５は、このようにして得られた環境音分布情報を音場情報生成部４１に供給する。

　ステップＳ４４において、聴者位置測定部３６は、例えばカメラや測距デバイスなどにより聴取空間内における聴者の位置を測定することで聴者位置情報を生成し、音場情報生成部４１に供給する。

　ステップＳ４５において、音場情報生成部４１は、音声出力部３３から供給された出力音声情報と、音響特性情報記録部３４に記録されている音響特性情報とに基づいて、音声分布情報を生成する。

　ステップＳ４６において、音場情報生成部４１は音声分布情報と、環境音分布情報取得部３５から供給された環境音分布情報とに基づいて音場情報を生成する。

　ステップＳ４７において、聴者情報取得部３７は、例えばカメラにより顔画像を取得したり、マイクロホンにより聴者音声を取得して声紋情報を得たりすることで聴者情報を取得し、聴者識別部３９に供給する。

　ステップＳ４８において、聴者識別部３９は、聴者情報取得部３７から供給された聴者情報と、個人識別情報記録部３８から読み出した個人識別情報とに基づいて、聴者を特定し、その特定結果を音場情報生成部４１に供給する。

　例えば聴者識別部３９は、聴者情報や個人識別情報としての顔画像を用いた顔認識や、聴者情報や個人識別情報としての声紋情報を用いた声紋認識により聴者を特定する。

　ステップＳ４９において、音場情報生成部４１は、聴者識別部３９から供給された聴者の特定結果に基づいて、特定された聴者の個人能力情報を個人能力情報記録部４０から読み出す。

　ステップＳ５０において、音場情報生成部４１は、ステップＳ４９の処理で読み出された個人能力情報に基づいて、ステップＳ４６の処理で得られた音場情報を補正し、最終的な音場情報とする。

　また、音場情報生成部４１は、このようにして得られた音場情報と、聴者位置測定部３６から供給された聴者位置情報とを音場情報送信部４２に供給する。音場情報送信部４２は、音場情報生成部４１から供給された音場情報および聴者位置情報に対して、例えば符号化などの所定の処理を施し、その結果得られた音場情報および聴者位置情報を通信部３１に供給する。

　ステップＳ５１において、通信部３１は音場情報送信部４２から供給された音場情報および聴者位置情報を、ネットワーク１３を介して話者側デバイス１１に送信する。ステップＳ５１で送信された音場情報および聴者位置情報は、図３のステップＳ１３において話者側デバイス１１で受信される。

　ステップＳ５２において、聴者側デバイス１２は処理を終了するか否かを判定する。例えば、聴者により聴者側デバイス１２が操作され、通話の終了が指示された場合に処理を終了すると判定される。

　ステップＳ５２において処理を終了しないと判定された場合、処理はステップＳ４１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ５２において処理を終了すると判定された場合、音声受信処理は終了する。

　以上のようにして聴者側デバイス１２は、話者側デバイス１１から音声信号を受信して発話音声を再生するとともに、発話音声の出力音声情報等に基づいて音場情報を生成し、音場情報および聴者位置情報を話者側デバイス１１に送信する。これにより、話者側デバイス１１において、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができるので、話者はより自然な音声通話を行うことができる。

　なお、以上においては聴者側デバイス１２が話者側デバイス１１に対して音場情報および聴者位置情報を送信する例について説明した。しかし、例えば聴者側デバイス１２において音場情報と聴者位置情報に基づいて、聴者位置における発話音声の聴取度合いを特定し、その特定結果を音場に関する情報として話者側デバイス１１に送信してもよい。

〈第２の実施の形態〉
〈通話システムの構成例〉
　また、話者側デバイス１１において聴者側の聴取空間の映像が表示される場合、音場情報により示される聴取度合いに応じた大きさで聴者を表す映像を表示するようにしてもよい。すなわち、聴取空間を表す画像上において聴取度合いに応じた距離の位置に聴者を表す映像（画像）を表示するようにしてもよい。

　そのような場合、通話システムは、例えば図５に示すように構成される。なお、図５において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図５に示す通話システムは、話者側デバイス１１および聴者側デバイス１２を有しているが、話者側デバイス１１および聴者側デバイス１２の構成が図１における場合と異なっている。

　すなわち、この例では話者側デバイス１１は、音声入力部２１、音声信号送信部２２、通信部２３、音場情報受信部２４、形状情報受信部８１、表示制御部８２、および表示部８３を有している。図５に示す話者側デバイス１１の構成は、音場情報提示部２５に代えて形状情報受信部８１乃至表示部８３が設けられている点で図１の話者側デバイス１１の構成と異なり、その他の点では図１の話者側デバイス１１と同じ構成となっている。

　また、図５に示す聴者側デバイス１２は通信部３１、音声信号受信部３２、音声出力部３３、音響特性情報記録部３４、環境音分布情報取得部３５、聴者位置測定部３６、聴者情報取得部３７、個人識別情報記録部３８、聴者識別部３９、個人能力情報記録部４０、音場情報生成部４１、音場情報送信部４２、形状情報取得部１０１、および形状情報送信部１０２を有している。

　図５に示す聴者側デバイス１２の構成は、新たに形状情報取得部１０１および形状情報送信部１０２が設けられた点で図１の聴者側デバイス１２の構成と異なり、その他の点では図１の聴者側デバイス１２と同じ構成となっている。

　図５に示す例では、話者側デバイス１１の通信部２３は、音場情報、聴者位置情報、および形状情報を聴者側デバイス１２から受信する。また、音場情報受信部２４は、通信部２３から供給された音場情報および聴者位置情報を表示制御部８２に供給する。

　形状情報受信部８１は形状情報の受信を制御する。すなわち、形状情報受信部８１は、通信部２３から供給された形状情報に対して復号などの処理を施して表示制御部８２に供給する。

　ここで、形状情報は聴者側デバイス１２側の聴取空間内にいる聴者を表示するために用いられる、聴者の３次元形状に関する情報である。

　表示制御部８２は、音場情報受信部２４から供給された音場情報および聴者位置情報と、形状情報受信部８１から供給された形状情報とに基づいて表示部８３を制御し、表示部８３に聴者位置における聴取度合いに応じた大きさで聴者を表す映像（画像）を表示させる。

　表示部８３は、例えば液晶表示デバイスなどからなり、表示制御部８２の制御に従って画像を表示させる。

　また、形状情報取得部１０１は、例えば互いに異なる位置に配置された複数のカメラなどからなり、聴取空間における聴者について形状情報を取得して形状情報送信部１０２に供給する。形状情報送信部１０２は、形状情報取得部１０１から供給された形状情報に対して符号化などの所定の処理を施して通信部３１に供給し、形状情報の送信を制御する。

〈聴取度合いに応じた聴者映像の表示について〉
　ここで、聴取度合いに応じた聴者の映像の表示について説明する。

　形状情報取得部１０１では、形状情報として、例えば聴者の３次元モデルデータが取得される。

　この場合、形状情報取得部１０１は、互いに異なる位置に配置されたカメラによって聴取空間上の聴者を被写体とする画像（以下、計測画像とも称する）を撮影する。これにより、聴者を被写体とする複数の互いに異なる視点の計測画像が得られる。なお、計測画像は静止画像であってもよいし、動画像であってもよい。

　形状情報取得部１０１は、このようにして得られた計測画像に基づいて、被写体である聴者の各部位の位置を算出する。すなわち、形状情報取得部１０１は、聴者の体の表面上の多数の点（部位）について、それらの点の３次元空間上の位置を示す座標を求める。

　さらに形状情報取得部１０１は、聴者の体の表面上の各点の位置を示す座標に基づいて、聴者の表面を構成するポリゴンを生成し、得られたポリゴンの表面に対して、計測画像から得られる聴者の体の表面の色情報を付加して３次元モデルデータを生成する。

　このようにして得られた３次元モデルデータは聴者のカラーの画像（映像）、より詳細には聴者のカラーのモデルを表示するためのデータであり、この３次元モデルデータを用いれば空間上の任意の位置および方向から見た聴者のモデルを表示させることができる。

　表示制御部８２では、形状情報としての３次元モデルデータと、音場情報と、聴者位置情報とに基づいて聴者を表す映像（画像）の表示が行われる。

　具体的には、例えば表示制御部８２は、音場情報と聴者位置情報に基づいて、聴者位置情報により示される聴取空間内の聴者の位置における聴取度合いを特定するとともに、特定された聴取度合いに対して予め定められた距離を表示距離とする。

　そして、表示制御部８２は表示距離により定まる聴取空間上の位置を表示位置として、その表示位置に聴者のモデルが表示される聴取空間の画像を聴取空間画像として生成し、表示部８３に供給する。

　例えば聴取空間画像は、予め用意された聴取空間の画像である背景画像に対して、その背景画像上の聴取空間における表示位置に、３次元モデルデータから得られる聴者のモデルの画像を合成することで得られる画像などとされる。換言すれば、聴取空間画像は、聴取空間を表す画像上の表示位置に、聴者を表す画像が合成されて表示される画像とされる。

　なお、背景画像は実際に聴取空間を撮影して得られた画像に限らず、見取り図や模式図などの聴取空間を表す画像であればどのようなものであってもよい。また、通話時等に聴者側デバイス１２において撮影されたリアルタイムの聴取空間の画像が背景画像として用いられてもよい。

　さらに表示距離は、例えば背景画像を撮影する際の視点位置などの聴取空間上における所定位置から、表示される聴者のモデルの位置、つまり表示位置までの距離であり、聴者位置情報により示される位置における聴取度合いが大きいほど表示距離は短くされる。

　また、聴取空間画像上の聴者のモデルは、聴取空間における表示位置に表示されるが、このとき聴者のモデルの大きさは表示距離に応じた大きさで、かつ表示位置に応じた向きで表示される。

　すなわち、聴取空間上の表示位置に聴者がいるものとし、その聴者を背景画像を撮影する際の視点位置などの聴取空間上における所定位置から見たときと同じ見え方をする聴者のモデルの画像が背景画像に合成されて聴取空間画像とされる。換言すれば、３次元モデルデータから得られる、表示位置と所定位置とから定まる向きで、かつ表示距離だけ離れた位置から見たときの聴者のモデルの画像が用いられて聴取空間画像が生成される。

　以上のようにして聴取空間画像を生成することで、例えば表示部８３には図６や図７に示す聴取空間画像が表示される。なお、図６および図７において互いに対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図６に示される例では、聴者位置情報により示される位置における聴取度合いが大きすぎるため、聴取空間画像では聴取空間における近い位置に聴者のモデルＵ２１が表示されている。

　この場合、話者は聴者のモデルＵ２１が近すぎる位置に表示されているため、無意識に話者から聴者までの距離に応じて発話時の声を小さくするようになる。つまり、話者側デバイス１１は、話者に対して聴取度合いに応じた距離感で聴者のモデルＵ２１を提示することにより、無意識に話者の声を小さくさせ、適切な大きさの声で発話を行うようにさせることができる。

　これに対して、図７に示される例では、聴者位置情報により示される位置における聴取度合いが小さすぎるため、聴取空間画像では聴取空間における遠い位置に聴者のモデルＵ２１が表示されている。

　この場合、話者は聴者のモデルＵ２１が遠すぎる位置に表示されているため、無意識に話者から聴者までの距離に応じて発話時の声を大きくするようになる。つまり、話者側デバイス１１は、話者に対して聴取度合いに応じた距離感で聴者のモデルＵ２１を提示することにより、無意識に話者の声を大きくさせ、聴者が聞き取りやすい適切な大きさの声で発話を行うようにさせることができる。

〈音声送信処理の説明〉
　次に、図５に示した通話システムの動作について説明する。

　まず、図８のフローチャートを参照して、話者側デバイス１１により行われる音声送信処理について説明する。なお、ステップＳ８１およびステップＳ８２の処理は図３のステップＳ１１およびステップＳ１２の処理と同様であるので、その説明は省略する。

　ステップＳ８３において、通信部２３は、聴者側デバイス１２から送信されてきた音場情報、聴者位置情報、および形状情報を受信する。

　通信部２３は、受信した音場情報および聴者位置情報を音場情報受信部２４に供給するとともに、受信した形状情報を形状情報受信部８１に供給する。

　また、音場情報受信部２４は、通信部２３から供給された音場情報および聴者位置情報に対して復号等の処理を施して表示制御部８２に供給し、形状情報受信部８１は、通信部２３から供給された形状情報に対して復号等の処理を施して表示制御部８２に供給する。

　ステップＳ８４において、表示制御部８２は、音場情報受信部２４から供給された音場情報および聴者位置情報と、形状情報受信部８１から供給された形状情報とに基づいて、聴取度合いに応じた距離の位置に聴者を表す映像（画像）を表示させる。

　すなわち、表示制御部８２は、音場情報、聴者位置情報、および形状情報に基づいて聴取空間画像を生成するとともに、その聴取空間画像を表示部８３に供給し、表示させる。これにより、例えば図６や図７に示した聴取空間画像が表示部８３に表示される。

　ステップＳ８５において、話者側デバイス１１は処理を終了するか否かを判定する。例えば、話者により話者側デバイス１１が操作され、通話の終了が指示された場合に処理を終了すると判定される。

　ステップＳ８５において処理を終了しないと判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ８５において処理を終了すると判定された場合、音声送信処理は終了する。

　以上のようにして話者側デバイス１１は、話者の発話音声を収音して音声信号を聴者側デバイス１２に送信するとともに、聴者側デバイス１２から送信されてきた音場情報、聴者位置情報、および形状情報を受信して、背景画像に聴者を表す画像が合成された聴取空間画像を表示する。これにより、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができ、話者はより自然な音声通話を行うことができる。

〈音声受信処理の説明〉
　続いて、図９のフローチャートを参照して、図８の音声送信処理が行われるときに聴者側デバイス１２により行われる音声受信処理について説明する。なお、ステップＳ１１１乃至ステップＳ１２０の処理は、図４のステップＳ４１乃至ステップＳ５０の処理と同様であるので、その説明は省略する。

　ステップＳ１２１において、形状情報取得部１０１は、聴取空間にいる聴者の形状情報を取得する。

　例えば形状情報取得部１０１は、互いに異なる視点のカメラにより撮影された計測画像に基づいて３次元モデルデータを生成し、得られた３次元モデルデータを形状情報とする。

　形状情報取得部１０１は、得られた形状情報を形状情報送信部１０２に供給する。また、形状情報送信部１０２は、形状情報取得部１０１から供給された形状情報に対して符号化等の処理を施して通信部３１に供給し、形状情報の送信を制御する。

　ステップＳ１２２において、通信部３１は音場情報送信部４２から供給された音場情報および聴者位置情報と、形状情報送信部１０２から供給された形状情報とを、ネットワーク１３を介して話者側デバイス１１に送信する。ステップＳ１２２で送信された音場情報、聴者位置情報、および形状情報は、図８のステップＳ８３において話者側デバイス１１で受信される。

　ステップＳ１２３において、聴者側デバイス１２は処理を終了するか否かを判定する。例えば、聴者により聴者側デバイス１２が操作され、通話の終了が指示された場合に処理を終了すると判定される。

　ステップＳ１２３において処理を終了しないと判定された場合、処理はステップＳ１１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１２３において処理を終了すると判定された場合、音声受信処理は終了する。

　以上のようにして聴者側デバイス１２は、話者側デバイス１１から音声信号を受信して発話音声を再生するとともに、形状情報を取得し、音場情報、聴者位置情報、および形状情報を話者側デバイス１１に送信する。これにより、話者側デバイス１１において、話者に対して話者の声がどのような大きさで聴者に聞こえているかを提示することができるので、話者はより自然な音声通話を行うことができる。

　なお、以上においては形状情報が３次元モデルデータである場合を例として説明したが、その他、形状情報は聴者を被写体として撮影された聴者の画像（映像）そのものであってもよいし、聴者を表すアバタ等の画像であってもよい。

　また、聴取空間を表す画像上において表示距離の位置に聴者を表す画像が表示される聴取空間画像に限らず、聴者位置における聴取度合いに応じた大きさで聴者を表す画像が表示されればよい。例えば表示部８３の表示画面に、聴者位置における聴取度合いに応じた大きさでアバタ等の聴者を表す画像を表示させてもよい。このとき、聴者を表す画像が表示される位置は、聴者位置における聴取度合いに応じた距離の位置である必要はない。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　音声通話の通話相手側の音場情報を受信する通信部と、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部と
　を備える情報処理装置。
（２）
　前記制御部は、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させる
　（１）に記載の情報処理装置。
（３）
　前記音場情報は、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
　（２）に記載の情報処理装置。
（４）
　前記通信部は、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信し、
　前記制御部は、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させる
　（３）に記載の情報処理装置。
（５）
　前記制御部は、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させる
　（２）乃至（４）の何れか一項に記載の情報処理装置。
（６）
　前記制御部は、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させる
　（２）乃至（４）の何れか一項に記載の情報処理装置。
（７）
　話者の発話音声を収音する音声入力部をさらに備え、
　前記通信部は、前記収音により得られた音声信号を前記通話相手側に送信する
　（１）乃至（６）の何れか一項に記載の情報処理装置。
（８）
　音声通話の通話相手側の音場情報を受信し、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
　ステップを含む情報処理方法。
（９）
　音声通話の通話相手側の音場情報を受信し、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
　ステップを含む処理をコンピュータに実行させるプログラム。
（１０）
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
　前記音場情報を前記話者側に送信する通信部と
　を備える情報処理装置。
（１１）
　前記音場情報は、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
　（１０）に記載の情報処理装置。
（１２）
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成する
　（１０）または（１１）に記載の情報処理装置。
（１３）
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成する
　（１０）乃至（１２）の何れか一項に記載の情報処理装置。
（１４）
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成する
　（１０）乃至（１３）の何れか一項に記載の情報処理装置。
（１５）
　前記通信部は、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信する
　（１０）乃至（１４）の何れか一項に記載の情報処理装置。
（１６）
　前記通信部は、前記話者の発話音声の音声信号を受信し、
　前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに備える
　（１０）乃至（１５）の何れか一項に記載の情報処理装置。
（１７）
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
　前記音場情報を前記話者側に送信する
　ステップを含む情報処理方法。
（１８）
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
　前記音場情報を前記話者側に送信する
　ステップを含む処理をコンピュータに実行させるプログラム。
（１９）
　音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、
　前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部と
　を備える情報処理装置。
（２０）
　音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
　前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部と
　を備える情報処理装置。

　１１　話者側デバイス，　１２　聴者側デバイス，　２１　音声入力部，　２３　通信部，　２４　音場情報受信部，　２５　音場情報提示部，　３１　通信部，　３３　音声出力部，　３５　環境音分布情報取得部，　３６　聴者位置測定部，　３７　聴者情報取得部，　３９　聴者識別部，　４１　音場情報生成部，　８２　表示制御部，　８３　表示部，　１０１　形状情報取得部

Claims

　音声通話の通話相手側の音場情報を受信する通信部と、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる制御部と
　を備える情報処理装置。
　前記制御部は、前記音場に関する情報として、聴取空間上の前記通話相手の位置における話者の発話音声を聞き取れる度合いを視覚的に把握可能な情報を提示させる
　請求項１に記載の情報処理装置。
　前記音場情報は、前記聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
　請求項２に記載の情報処理装置。
　前記通信部は、前記聴取空間における前記通話相手の位置を示す聴者位置情報をさらに受信し、
　前記制御部は、前記音場情報および前記聴者位置情報に基づいて、前記音場に関する情報を提示させる
　請求項３に記載の情報処理装置。
　前記制御部は、前記聴取空間の各領域が、それらの各前記領域における前記話者の発話音声を聞き取れる度合いに応じた表示形式で表示されるとともに前記通話相手の位置を表すマークが表示される画像を前記音場に関する情報として表示させる
　請求項２に記載の情報処理装置。
　前記制御部は、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた色の光、点滅パターンの光、文字、またはマークを前記音場に関する情報として提示させる
　請求項２に記載の情報処理装置。
　話者の発話音声を収音する音声入力部をさらに備え、
　前記通信部は、前記収音により得られた音声信号を前記通話相手側に送信する
　請求項１に記載の情報処理装置。
　音声通話の通話相手側の音場情報を受信し、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
　ステップを含む情報処理方法。
　音声通話の通話相手側の音場情報を受信し、
　前記音場情報に基づいて、前記通話相手側の音場に関する情報を提示させる
　ステップを含む処理をコンピュータに実行させるプログラム。
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
　前記音場情報を前記話者側に送信する通信部と
　を備える情報処理装置。
　前記音場情報は、前記聴者がいる聴取空間における前記話者の発話音声を聞き取れる度合いを示す情報である
　請求項１０に記載の情報処理装置。
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間の音響特性を示す音響特性情報に基づいて前記音場情報を生成する
　請求項１０に記載の情報処理装置。
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者がいる聴取空間における環境音に関する環境音情報に基づいて前記音場情報を生成する
　請求項１０に記載の情報処理装置。
　前記音場情報生成部は、前記発話音声に関する情報、および前記聴者に固有の能力に関する個人能力情報に基づいて前記音場情報を生成する
　請求項１０に記載の情報処理装置。
　前記通信部は、前記音場情報、および聴取空間における前記聴者の位置を示す聴者位置情報を前記話者側に送信する
　請求項１０に記載の情報処理装置。
　前記通信部は、前記話者の発話音声の音声信号を受信し、
　前記音声信号に基づいて前記話者の発話音声を再生する音声出力部をさらに備える
　請求項１０に記載の情報処理装置。
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
　前記音場情報を前記話者側に送信する
　ステップを含む情報処理方法。
　音声通話の聴者側の音場情報を、前記聴者の通話相手である話者の発話音声に関する情報に基づいて生成し、
　前記音場情報を前記話者側に送信する
　ステップを含む処理をコンピュータに実行させるプログラム。
　音声通話の通話相手がいる聴取空間における話者の発話音声を聞き取れる度合いを示す音場情報、前記聴取空間における前記通話相手の位置を示す聴者位置情報、および前記通話相手の形状に関する形状情報を受信する通信部と、
　前記音場情報、前記聴者位置情報、および前記形状情報に基づいて、前記聴取空間を表す画像上において、前記通話相手の位置における前記話者の発話音声を聞き取れる度合いに応じた距離の位置に、前記通話相手を表す画像を表示させる表示制御部と
　を備える情報処理装置。
　音声通話の聴者がいる聴取空間における、前記聴者の通話相手である話者の発話音声を聞き取れる度合いを示す音場情報を、前記話者の発話音声に関する情報に基づいて生成する音場情報生成部と、
　前記音場情報、前記聴取空間における前記聴者の位置を示す聴者位置情報、および前記聴者の形状に関する形状情報を前記話者側に送信する通信部と
　を備える情報処理装置。