JP7753747B2

JP7753747B2 - コミュニケーションサーバー及びコミュニケーションシステム

Info

Publication number: JP7753747B2
Application number: JP2021153741A
Authority: JP
Inventors: 幸司立石
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2025-10-15
Anticipated expiration: 2041-09-22
Also published as: US20230087553A1; JP2023045371A

Description

本発明は、コミュニケーションサーバー及びコミュニケーションシステムに関する。

コミュニケーションシステムは、ネットワークを介して、複数の端末装置の間で、換言すれば複数のユーザーの間で、コミュニケーションを図るためのシステムである。コミュニケーションシステムの代表例として、オンライン会議システムがあげられる。オンライン会議システムでは、コミュニケーションサーバーとしてのオンライン会議サーバーが映像及び音声の配信を行っている。

特許文献１には、混合音声信号の中から特定の話者の音声成分を抽出する技術が開示されている。特許文献２には、声紋を用いて個人認証を行う技術が開示されている。特許文献１、２には、コミュニケーションシステムにおいて音声データを中継するための技術は開示されていない。

特開２０２１－３９２１９号公報特開２００２－３０４３７９号公報

コミュニケーションシステムにおいては、コミュニケーションサーバーを介して端末装置間で音声データが授受される。音声データの中に、当該コミュニティシステムを利用している参加者の音声成分の他に、本来送るべきではない不要な成分（例えば、非参加者の音声成分）が含まれてしまうことがある。そのような不要な成分が他の参加者へ送られることを防止又は軽減することが望まれる。

本発明の目的は、コミュニケーションサーバーでの音声データの中継に際して、音声データに含まれる不要な成分が配信されてしまうことを防止又は軽減することにある。

請求項１に係るコミュニケーションサーバーは、音声データを処理するプロセッサであって、複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含み、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プロセッサは、前記音声フィルタ列の中から、第１端末装置からの入力音声データを与える音声フィルタを選択し、前記入力音声データを、選択された音声フィルタに与え、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送る、ことを特徴とする。

請求項２に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、複数のユーザーに対応する前記複数の音声フィルタを管理するための複数のフィルタ管理情報を有するフィルタ管理テーブルを含み、前記プロセッサは、前記フィルタ管理テーブルを参照することにより、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、ことを特徴とする。

請求項３に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第１端末装置及び前記第２端末装置を含む端末装置群と前記音声フィルタ列の入力側との間で入力切換制御を実行し、前記音声フィルタ列の出力側と前記端末装置群との間で出力切換制御を実行する、ことを特徴とする。

請求項４に係るコミュニケーションサーバーは、請求項３記載のコミュニケーションサーバーにおいて、前記入力切換制御には、音声フィルタバイパス制御が含まれる、ことを特徴とする。

請求項５に係るコミュニケーションサーバーは、請求項３記載のコミュニケーションサーバーにおいて、前記出力切換制御には、前記音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して前記出力音声データを生成する制御が含まれる、ことを特徴とする。

請求項６に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記入力音声データに対応する識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、ことを特徴とする。

請求項７に係るコミュニケーションサーバーは、請求項６記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記入力音声データに含まれる第１音声成分及び第２音声成分に対応する第１識別子及び第２識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える第１音声フィルタ及び第２音声フィルタを選択する、ことを特徴とする。

請求項８に係るコミュニケーションサーバーは、請求項７記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第１音声フィルタから出力された前記第１音声成分を含む第１出力音声データを前記第２端末装置へ送り、前記第２音声フィルタから出力された前記第２音声成分を含む第２出力音声データを第３端末装置へ送る、ことを特徴とする。

請求項９に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第１端末装置において録音モードが選択された場合に前記出力音声データを前記第１端末装置に送る、ことを特徴とする。

請求項１０に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、前記プロセッサは、標本音声データに基づいて前記音声フィルタを生成又は修正する、ことを特徴とする。

請求項１１に係るコミュニケーションサーバーは、請求項１０記載のコミュニケーションサーバーにおいて、前記プロセッサは、修正モード実行条件が満たされた場合に修正モードを実行し、前記修正モードの実行過程において取得された音声データを前記標本音声データとして用いる、ことを特徴とする。

請求項１２に係るコミュニケーションサーバーは、音声データを処理するプロセッサであって、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出する音声フィルタとして機能するプロセッサを含み、前記プロセッサは、第１端末装置からの入力音声データを前記音声フィルタに与え、前記音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送り、更に、前記プロセッサは、前記入力音声データに含まれるキーワードデータを検出し、前記キーワードデータが検出された場合に、前記入力音声データを標本音声データとして用いて前記音声フィルタを修正する、ことを特徴とする。

請求項１３に係るコミュニケーションサーバーは、請求項１０記載のコミュニケーションサーバーにおいて、前記音声フィルタは、機械学習後のフィルタモデルを有し、前記音声フィルタの修正には、前記フィルタモデルの再学習が含まれる、ことを特徴とする。

請求項１４に係るコミュニケーションサーバーは、請求項１記載のコミュニケーションサーバーにおいて、当該コミュニケーションサーバーはオンライン会議サーバーであり、前記音声フィルタは複数のオンライン会議で共用される、ことを特徴とする。

請求項１５に係るコミュニケーションシステムは、音声データを処理するプロセッサであって複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含むコミュニケーションサーバーと、ネットワークを介して前記コミュニケーションサーバーに対して接続される第１端末装置及び第２端末装置と、を含み、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プロセッサは、前記音声フィルタ列の中から、前記第１端末装置からの入力音声データを与える音声フィルタを選択し、前記入力音声データを、選択された音声フィルタに与え、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第２端末装置へ送る、ことを特徴とする。

請求項１６に係るプログラムは、情報処理装置において実行され当該情報処理装置をコミュニケーションサーバーとして機能させるプログラムであって、前記情報処理装置は、複数の音声フィルタからなる音声フィルタ列として機能し、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プログラムは、前記音声フィルタ列の中から、第１端末装置からの入力音声データを与える音声フィルタを選択する機能と、前記入力音声データを、選択された音声フィルタに与える機能と、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送る機能と、を含むことを特徴とする。

請求項１に係るコミュニケーションサーバーによれば、音声データに含まれる不要な成分の配信が防止又は軽減される。

請求項２に係るコミュニケーションサーバーによれば、管理テーブルの参照により入力音声データがそれに適合する音声フィルタに与えられる。

請求項３に係るコミュニケーションサーバーによれば、状況やニーズに適合した入力切換制御及び出力切換制御を行える。

請求項４に係るコミュニケーションサーバーによれば、音声フィルタごとにそれを機能させるか否かを制御し得る。

請求項５に係るコミュニケーションサーバーによれば、所望の音声成分を有する出力音声データを生成し得る。

請求項６に係るコミュニケーションサーバーによれば、音声フィルタの選択が適正化される。

請求項７に係るコミュニケーションサーバーによれば、入力音声データに含まれる複数の音声成分が個別的に抽出される。

請求項８に係るコミュニケーションサーバーによれば、個別的に抽出された複数の音声成分が複数の端末装置へ個別的に配信される。

請求項９に係るコミュニケーションサーバーによれば、音声フィルタ通過後の音声成分を録音対象にし得る。

請求項１０に係るコミュニケーションサーバーによれば、音声フィルタの生成又は修正に当たって実際の音声データが利用される。

請求項１１に係るコミュニケーションサーバーによれば、音声フィルタの修正に当たって、修正モードの実行過程で取得された音声データが利用される。

請求項１２に係るコミュニケーションサーバーによれば、キーワードデータの検出を契機として音声ファイルが修正される。

請求項１３に係るコミュニケーションサーバーによれば、フィルタモデルの再学習により音声フィルタが修正される。

請求項１４に係るコミュニケーションサーバーによれば、オンライン会議において、音声データに含まれる不要な成分の配信が防止又は軽減される。

請求項１５に係るコミュニケーションシステムによれば、オンラインコミュニケーションにおいて、音声データに含まれる不要な成分の配信が防止又は軽減される。

請求項１６に係るプログラムによれば、音声データに含まれる不要な成分の配信が防止又は軽減される。

実施形態に係るオンライン会議システムを示すブロック図である。音声配信部の構成例を示すブロック図である。オンライン会議管理テーブルの一例を示す図である。フィルタ管理テーブルの一例を示す図である。修正モード実行条件を説明するための図である。フィルタ生成の第１例を説明するための図である。フィルタ生成の第２例を説明するための図である。応用例を示す図である。オンライン会議サーバーの第１動作例を示すフローチャートである。オンライン会議サーバーの第２動作例を示すフローチャートである。他の実施形態に係る通話システムを示すブロック図である。

以下、本発明の好適な実施形態を図面に基づいて説明する。

（１）実施形態の概要
実施形態に係るコミュニケーションサーバーは、音声データを処理するプロセッサを含む。プロセッサは、特定人の音声成分を抽出する音声フィルタとして機能する。プロセッサは、第１端末装置からの入力音声データを音声フィルタに与え、音声フィルタから出力された音声成分を含む出力音声データを第１端末装置とは異なる第２端末装置へ送る。

音声フィルタにおいて、特定人の音声成分以外の成分（特定人以外の音声成分、音声以外の音成分等）が抑圧又は除外される。音声フィルタを通過した音声成分を含む出力音声データが第２端末装置に送られる。そのような一連の処理により、不要な成分の配信が防止又は軽減される。

音声フィルタの例として、機械学習済みのモデルを備えたフィルタ、音声特徴量（声紋特徴量を含む）を用いて音声成分を抽出するフィルタ、等があげられる。コミュニケーションサーバーの概念には、オンライン会議サーバーや通話サーバー等の音声中継装置が含まれる。

実施形態において、プロセッサは、複数の音声フィルタからなる音声フィルタ列として機能する。また、プロセッサは、音声フィルタ列の中から入力音声データを与える音声フィルタを選択する。音声フィルタを事前に生成しておくことにより、コミュニケーション開始の都度、音声フィルタを生成する必要がなくなる。音声フィルタ列の全部又は一部が複数のコミュニケーションにおいて共用されてもよい。

実施形態において、プロセッサは、第１端末装置及び第２端末装置を含む端末装置群と音声フィルタ列の入力側との間で入力切換制御を実行する。また、プロセッサは、音声フィルタ列の出力側と端末装置群との間で出力切換制御を実行する。入力切換制御及び出力切換制御により、個々の音声成分が適切な音声フィルタに与えられ、また、フィルタリング後の個々の音声成分が適切な端末装置へ配信される。

実施形態において、入力切換制御には、音声フィルタバイパス制御が含まれる。また、出力切換制御には、音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して出力音声データを生成する制御が含まれる。このように、入力切換制御には、フィルタ列の入力側での経路選択が含まれ得る。出力切換制御には、フィルタ列の出力側での経路選択及び成分合成が含まれ得る。

実施形態において、プロセッサは、入力音声データに対応する識別子に従って、音声フィルタ列の中から入力音声データを与える音声フィルタを選択する。識別子の概念には、参加者識別子、音声識別子、端末装置識別子等が含まれ得る。

実施形態において、プロセッサは、入力音声データに含まれる第１音声成分及び第２音声成分に対応する第１識別子及び第２識別子に従って、音声フィルタ列の中から入力音声データを与える第１音声フィルタ及び第２音声フィルタを選択する。このように、同じ入力音声データが複数の音声フィルタへ並列的に与えられてもよい。

実施形態において、プロセッサは、第１音声フィルタから出力された第１音声成分を含む第１出力音声データを第２端末装置へ送る。プロセッサは、第２音声フィルタから出力された２音声成分を含む第２出力音声データを第３端末装置へ送る。複数の音声フィルタを用いて分離された複数の音声成分が複数の端末装置へ配信される。

実施形態において、プロセッサは、第１端末装置において録音モードが選択された場合に出力音声データを第１端末装置に送る。これにより、第１端末装置において、フィルタリングされた音声成分を含めて録音を行える。

実施形態において、プロセッサは、標本音声データに基づいて音声フィルタを生成又は修正する。標本音声データは、見本としての音声データであり、本人から取得された音声データである。プロセッサは、修正モード実行条件が満たされた場合に修正モードを実行する。また、プロセッサは、修正モードの実行過程において取得された音声データを標本音声データとして用いる。人の声は経時的に変化し、また体調等によっても変化する。修正モードの実行により、音声フィルタにおけるフィルタリング品質の維持又は向上を図れる。

実施形態において、プロセッサは、音声データに含まれるキーワードデータを検出する。その場合、修正モード実行条件が満たされた場合は、キーワードデータが検出された場合である。キーワードとして、例えば、コミュニケーション開始時に使用される１又は複数の用語が事前に登録されてもよい。

実施形態において、音声フィルタは、機械学習後のフィルタモデルを有する。音声フィルタの修正には、フィルタモデルの再学習が含まれる。再学習に時間を要する場合、コミュニケーション開始前に音声フィルタの修正を実行してもよい。

実施形態において、当該コミュニケーションサーバーはオンライン会議サーバーである。音声フィルタは複数のオンライン会議で共用される。あるユーザーが複数のオンライン会議に参加する場合、それらの間で同じ音声フィルタを用いれば、リソースを有効活用できる。

実施形態に係るコミュニケーションシステムは、音声データを処理するプロセッサを含むコミュニケーションサーバーと、ネットワークを介してコミュニケーションサーバーに対して接続される第１端末装置及び第２端末装置と、により構成される。プロセッサは、特定人の音声成分を抽出する音声フィルタとして機能する。プロセッサは、第１端末装置からの入力音声データを音声フィルタに与える。プロセッサは、音声フィルタから出力された音声成分を含む出力音声データを第２端末装置へ送る。

プロセッサにおいて実行されるプログラムが、ネットワーク又は可搬型記憶媒体を介して、情報処理装置へインストールされる。そのプログラムは非一時的記憶媒体に記憶される。情報処理装置の概念には、コンピュータ等の各種の情報処理デバイスが含まれる。

（２）実施形態の詳細
図１には、実施形態に係るオンライン会議システムの構成例が示されている。オンライン会議システムは、コミュニケーションシステムの一態様である。

オンライン会議システムは、図示されるように、ネットワーク１８に接続された、オンライン会議サーバー１０及び複数の端末装置１２，１４，１６により構成される。ネットワーク１８は、例えば、インターネットである。ネットワーク１８が社内ネットワーク等のＬＡＮ（Local Area Network）であってもよく、あるいは、ネットワーク１８にＬＡＮが含まれてもよい。オンライン会議は、ＷＥＢ会議、リモート会議とも言われる。

図示の構成例は、オンライン会議に参加者Ａ、参加者Ｂ及び参加者Ｃが参加することを前提とするものである。参加者Ａにより端末装置１２が使用され、参加者Ｂにより端末装置１４が使用され、参加者Ｃにより端末装置１６が使用される。参加者Ａ，Ｂ，Ｃは、それぞれ、オンライン会議システムのユーザーである。

オンライン会議サーバー１０は、コンピュータ等の情報処理装置により構成され、画像及び音声の中継装置として機能する。具体的には、オンライン会議サーバー１０は、プログラムを実行するプロセッサ２０及び各種のデータを記憶する記憶部２２を有している。プロセッサ２０は、複数の機能を発揮する。それらの機能が図１において複数のブロックにより表現されている。プロセッサ２０は例えばＣＰＵにより構成され、記憶部２２は半導体メモリ、ハードディスク等により構成される。

画像配信部２４は、端末装置１２，１４，１６から送られてきた複数の画像を端末装置１２，１４，１６に配信するものである。各端末装置１２，１４，１６において、そこに表示される会議画像の構成が変更される。

音声配信部２６は、端末装置１２，１４，１６から送られてきた複数の音声データを受領し、それらの音声データを端末装置１２，１４，１６に配信するものである。例えば、端末装置１２から送られてきた音声データが他の端末装置１４，１６に配信される。音声データの配信に当たっては、必要に応じて、複数の音声データが合成される。

音声配信部２６は、登録処理部２８及びフィルタ列３０を有する。登録処理部２８は登録処理を実行するものであり、その登録処理にはフィルタ生成及びフィルタ修正が含まれる。すなわち、登録処理部２８は、フィルタ生成部及びフィルタ修正部として機能する。

フィルタ生成部は、オンライン会議に先立ってオンライン会議への参加が予定されている又はその可能性のある特定人（ユーザー、参加予定者又は音声登録対象者とも言い得る。）から得た標本音声データに基づいて、同人の音声成分を抽出し且つ他の成分を除外又は抑圧する音声フィルタ（以下、単にフィルタという。）を生成するものである。除外又は抑圧される他の成分として、特定人以外の音声成分、及び、動物のなき声、機械音、楽器音等の非音声成分があげられる。それらの成分は配信不要な成分とも言い得る。

複数の音声登録対象者から取得された複数の標本音声データに基づいて複数のフィルタが生成される。それらの複数のフィルタによりフィルタ列３０が構成される。フィルタ列３０はフィルタバンク又はフィルタセットとも言い得る。オンライン会議に先立って端末装置１２，１４，１６からオンライン会議サーバーへ標本音声データが送信されてもよいし、オンライン会議の冒頭における音声データが標本音声データとして利用されもよい。

フィルタ修正部は、修正モード実行条件が満たされた場合に、新たに取得される標本音声データに基づいてフィルタを修正するものである。経時的な音声変化や体調による音声変化に対応するためにフィルタの修正が実行される。フィルタの修正については後に詳述する。

フィルタ列３０を構成する各フィルタとしては、機械学習済みモデルを有するフィルタ、音声特徴量に基づくフィルタ、等があげられる。例えば、ＣＮＮ（Convolutional neural network）等を用いて特定人の音声成分を抽出するフィルタを生成し得る。特許文献１に開示された技術を用いてフィルタを生成してもよい。声紋から得られる音声特徴量に基づいて特定人の音声成分の存否を自動的に判定しこれにより当該音声成分のみを通過させるフィルタが用いられてもよい。

記憶部２２には、オンライン会議管理テーブル３２及びフィルタ管理テーブル３４が格納される。オンライン会議管理テーブル３２上において個々のオンライン会議が管理される。フィルタ管理テーブル３４上において個々のユーザーと個々のフィルタとの対応関係が管理される。

端末装置１２，１４，１６は互いに同じ構成を有し、ここでは端末装置１２の構成について説明する。端末装置１２は情報処理装置としてのコンピュータにより構成される。端末装置が携帯型の情報処理デバイスにより構成されてもよい。端末装置１２は、本体３６、入力器３８、表示器４０、スピーカ４２、マイク４４等を有する。本体３６は、プログラムを実行するプロセッサを有する。入力器３８は、キーボード、ポインティングデバイス等により構成される。表示器４０は液晶表示器等により構成される。オンライン会議に際しては、スピーカ４２及びマイク４４が使用される。オンライン会議の録音時には、配信される画像データ及び音声データが図示されていないメモリ上に格納される。

実施形態に係るオンライン会議サーバー１０は、フィルタ列３０を備えており、フィルタリングされた音声データを端末装置１２，１４，１６に配信する機能を備えている。例えば、符号４６で示すように、端末装置１２から、参加者Ａの音声成分を含む音声データがプロセッサ２０へ与えられる。プロセッサ２０は、その音声データを参加者Ａに対応するフィルタに与える。そのフィルタにおいて参加者Ａの音声成分が抽出され、つまり参加者Ａの音声成分以外の不要な成分が除去又は抑制される。符号４８で示すように、そのフィルタから出力された参加者Ａの音声成分を含む音声データが端末装置１４，１６に送信される。端末装置１２からの音声データに参加者Ａ以外の者の音声成分が含まれていても、その音声成分は音声配信部２６の作用により除外又は抑圧される。よって、端末装置１４，１６に対して高品位の音声データが配信される。

なお、オンライン会議サーバー１０が複数の情報処理装置により構成されてもよい。その場合、登録処理部２８及びフィルタ列３０を含む音声データ処理部分が、それ以外の構成から、別体化されてもよい。

図２には、音声配信部２６の構成例が模式的に示されている。フィルタ列３０は、複数のユーザーに対応した複数のフィルタ３０－１～３０－ｎにより構成される。フィルタ列３０の入力側（具体的には、端末装置群とフィルタ列３０の間）には、入力切換制御部５０が設けられており、フィルタ列３０の出力側（具体的には、フィルタ列３０と端末装置群との間）には、出力切換制御部５２が設けられている。入力切換制御部５０は、複数の音声データをそれらに適合する複数のフィルタに与えるための経路設定又は経路選択を行うものである。出力切換制御部５２は、複数のフィルタから出力された複数の音声成分に基づいて、典型的にはそれらを合成することにより、複数の端末装置に配信する複数の音声データを生成するものである。

例えば、符号５４，５６，５８は、３つのフィルタ３０－１，３０－２，３０－３の入力ラインを模式的に示している。それらの入力ライン５４，５６，５８を用いて３つの端末装置１２，１４，１６から送られてきた音声データＳＡ１，ＳＢ１，ＳＣ１がフィルタ３０－１，３０－２，３０－３に与えられる。上記のように、入力切換制御部５０が、個々の音声データをどのフィルタに与えるのかを決定する。フィルタ３０－１では参加者Ａの音声成分Ｓａ１が抽出され、フィルタ３０－２では参加者Ｂの音声成分Ｓｂ１が抽出され、フィルタ３０－３では参加者Ｃの音声成分Ｓｃ１が抽出される。

符号６０，６２，６４は、３つの端末装置１２，１４，１６に向けられた３つの出力ラインを模式的に示している。出力ライン６０を流れる合成後の音声データＳＡ２は、音声成分Ｓｂ１，Ｓｃ１を有する。出力ライン６２を流れる合成後の音声データＳＢ２は、音声成分Ｓａ１，Ｓｃ１を有する。出力ライン６４を流れる合成後の音声データＳＢ２は、音声成分Ｓａ１，Ｓｂ１を有する。各音声データＳＡ２，ＳＢ２，ＳＢ３の生成に当たって、出力切換制御部５２が複数の音声成分を合成する。図２において出力切換制御部５２内の複数の黒点が複数の結線（合成用の接続）を模式的に示している。

入力切換制御部５０は、個々のフィルタ３０－１～３０－ｎに音声データを与えることなく、音声データをバイパスさせる機能を有している。すなわち、入力切換制御には、フィルタバイパス制御が含まれる。バイパスが選択された場合、音声データのフィルタリングは実行されない。符号５４ａ、５６ａ、５８ａは、フィルタ３０－１，３０－２，３０－３を迂回する経路を示している。フィルタリングが必要でない音声データを入力切換制御部５０に与えずに別途処理する方式が採用されてもよい。

出力切換制御部５２は、録音用の音声データを生成する機能を有している。例えば、出力ライン６６は、録音用の出力ラインである。そこには音声データＳＲが流される。音声データＳＲには、音声成分Ｓａ１，Ｓｂ１，Ｓｃ１が含まれる。すなわち、音声データＳＲには端末装置１２を使用している参加者Ａの音声成分Ｓａ１が含まれ、その音声データＳＲが端末装置１２へ戻される。端末装置１２において、音声データＳＲが記録される。音声データＳＲは、必要に応じて、他の端末装置１４，１６にも配信される。

登録処理部２８は、既に説明したように、また、符号６８で示すように、生成部及び修正部として機能する。生成部により、フィルタ３０－１～３０－ｎが生成される。修正部により、生成されたフィルタ３０－１～３０－ｎが修正される。例えば、フィルタ３０－１～３０－ｎの修正に当たって、機械学習済みモデルに対する再学習が実施されてもよいし、音声特徴量の再抽出が実施されてもよい。

個々の音声データに対しては識別子が付加又は対応付けられている。識別子は、ユーザー識別子であるが、それが音声識別子又は端末装置識別子であってもよい。入力切換制御部５０は、音声データに対応する識別子を参照し、その識別子に基づいて音声データを与える特定のフィルタを選択する。その際にはフィルタ管理テーブルが参照される。

図３には、オンライン会議管理テーブルの一例が示されている。オンライン会議管理テーブル３２上において、複数のオンライン会議に対応した複数のオンライン会議情報７０が管理されている。各オンライン会議情報７０は、会議ＩＤ７２、主催者ＩＤ７４、主催者用フィルタオンオフ情報７６、参加者ＩＤ（ユーザーＩＤ）７８、参加者用フィルタオンオフ情報８０、開始時間８２、終了時間８４等の情報を有している。

入力切換制御部は、主催者用フィルタオンオフ情報７６に基づいて、主催者の音声データに対してフィルタを適用するか否かを判定し、参加者用フィルタオンオフ情報８０に基づいて、参加者の音声データに対してフィルタを適用するか否かを判定する。オンライン会議ごとにフィルタ適用の有無が一括して管理されてもよい。

図４には、フィルタ管理テーブルの一例が示されている。フィルタ管理テーブル３４は、複数のユーザーに対応した複数のフィルタ管理情報８６により構成される。各フィルタ管理情報８６は、ユーザーＩＤ８８、フィルタＩＤ９０、修正モード実行条件９２、最終修正時９４等の情報を有している。

入力切換制御部は、フィルタ管理テーブル３４を参照することにより、音声データとフィルタの対応関係を特定する。実際には、上記のように、音声データに対応するユーザーＩＤ（識別子）に基づいて、当該音声データを与えるフィルタを特定する。修正モード実行条件９２が満たされた場合、修正モードの実行が開始される。複数の修正モード実行条件の中から所望の修正モード実行条件を選択し得る。最終修正時９４は、フィルタが最後に修正された時期を示すものである。

図５には、幾つかの修正モード実行条件が整理されている。条件タイプ１で特定されるように、オンライン会議の開始の都度、そのオンライン会議で使用する予定の１又は複数のフィルタが修正つまり更新されてもよい。例えば、オンライン会議の冒頭、オンラインサーバーが各参加者に対して音声データの入力を求めるようにしてもよい。

条件タイプ２で特定されるように、オンライン会議の開始後、事前登録されたキーワードが検知された時点で修正モードの実行が自動的に開始されてもよい。例えば、キーワードとして「よろしくおねがいします」、「はじめます」等のワードが登録されてもよい。この構成を採用する場合には、オンラインサーバーが備える音声認識モジュールを機能させればよい。

条件タイプ３で特定されるように、最終修正時から所定時間が経過している場合に修正モードが自動的に開始されてもよい。条件タイプ４で特定されるように、主催者が修正モードの実行をリクエストしてもよい。条件タイプ５で特定されるように、フィルタ処理後の音声データの品質が低下した場合に、具体的にはエラー率が所定レベルを超えた場合に、修正モードが自動的に実行されてもよい。その場合には、オンライン会議サーバーが有する品質評価モジュールを機能させればよい。

図６には、フィルタ生成の第１例が示されている。符号６８Ａは、生成部及び修正部を示している。学習器９８において標本音声データ１０２の機械学習を行わせることにより、機械学習済みのモデルを生成し、そのモデルがフィルタ１００の実体として利用される。音声データ１０４に、本人の音声成分Ｓａ及びそれ以外の成分Ｓｘ，Ｓｙが含まれている場合、フィルタ１００により、音声成分Ｓａが抽出される。フィルタ修正に際しては、音声データ１０４を標本音声データ１０６として利用し、モデルを再学習させてもよい。

図７には、フィルタ生成の第２例が示されている。符号６８Ｂは、生成部及び修正部を示している。特徴量抽出器１０８に対して標本音声データ１０２を与えることにより音声特徴量が抽出される。その音声特徴量がフィルタ１１０に与えられる。フィルタ１１０においては、入力された音声データ１０４が有する音声特徴量と特徴量抽出器１０８から与えられた音声特徴量とが相互に比較される。具体的には、フィルタ１１０は、２つの音声特徴量の間で距離（ノルム）を演算し、距離が一定値以内である場合に音声成分を通過させ、距離が一定値を超える場合に音声成分を遮断する。音声データ１０４に、本人の音声成分Ｓａ及びそれ以外の成分Ｓｘ，Ｓｙが含まれている場合、フィルタ１１０により、音声成分Ｓａが抽出される。フィルタ修正に際しては、音声データ１０４を標本音声データ１０６として利用し、音声特徴量が修正又は再抽出されてもよい。

図８には、実施形態に係る構成の応用例が示されている。同じ端末装置から複数の参加者Ａ１，Ａ２の音声成分Ｓａ１，Ｓａ２を含む音声データがオンライン会議サーバーの音声配信部に送られている。参加者Ａ１，Ａ２を特定するための識別子ＳＩＤ－Ａ１，ＳＩＤ－Ｂ１が音声データに対応付けられている。

音声配信部においては、識別子ＳＩＤ－Ａ１、ＳＩＤ－Ｂ１に基づいて２つのフィルタ１１２，１１４が選択され、それらに対して共通の音声データが並列的に与えられる。フィルタ１１２は、音声成分Ｓａ１を抽出するフィルタであり、フィルタ１１４は、音声成分Ｓａ２を抽出するフィルタである。図示の構成例では、参加者Ｂ，Ｃに対して音声成分Ｓａ１を含む音声データが配信され、参加者Ｄに対して音声成分Ｓａ２を含む音声データが配信されている。

例えば、参加者Ａ１が日本語で音声を発する講演者であり、参加者Ａ２が英語で音声を発する同時通訳者である場合、図８に示すスキームを利用すれば、日本語音声データを参加者Ｂ，Ｃへ配信し、同時に、英語音声データを参加者Ｄに配信することが可能となる。符号１１５で示されるように、参加者Ｂが日本語の音声データに代えて又はそれと共に英語の音声データを聞くことも可能である。

例えば、会議室内にいる参加者Ａ１及び参加者Ａ２の発言が同一の端末装置により検出されている場合、図８に示すスキームを利用すれば、参加者Ａ１の音声データを参加者Ｂ，Ｃに配信し、同時に、参加者Ａ２の音声データを参加者Ｄに配信することも可能である。これにより、例えば、参加者Ｄのみに対して特定の情報を伝え得る。

図９には、実施形態に係るオンラインサーバーの第１動作例がフローチャートとして示されている。Ｓ１０においては、オンライン会議に先立って、初期設定が行われる。初期設定には、フィルタ列の動作設定が含まれる。その際には入力切換制御部及び出力切換制御部が機能する。Ｓ１２では、オンライン会議が開始され、フィルタ列も動作を開始する。フィルタリングされた音声データが各端末装置へ配信される。Ｓ１４において会議終了が判断されるまで上記処理が継続的に実行される。

図１０には、実施形態に係るオンラインサーバーの第２動作例がフローチャートとして示されている。なお、図１０において、図９に示した工程と同様の工程には同一の工程番号を付しその説明を省略する。

Ｓ１１では、修正モードを実行するか否かが判断される。修正モードを実行しない場合、Ｓ１２Ａにおいて音声配信が開始され、同時にフィルタ列が動作を開始する。Ｓ１１において、修正モードの実行が判断された場合、Ｓ１２Ｂにおいて、修正モードが実行され、各参加者に対応するフィルタが個別的に修正される。その後、音声配信が開始され、並行してフィルタ列が動作を開始する。

図１１には、コミュニケーションシステムの他の例が示されている。図示されたコミュニケーションシステムは、通話システムであり、それは通話サーバー１１６及び複数の端末装置１１８，１２０，１２２からなる。通話サーバー１１６は、音声データの中継を行うものである。通話サーバー１１６は、フィルタ列１２４を備えている。そのフィルタ列１２４は、図３に示した構成と同様の構成を備えている。すなわち、必要に応じて、音声データに対するフィルタリングが実施され、フィルタリング後の音声データが端末装置１１８，１２０，１２２へ配信される。この通話システムによれば、参加者本人の音声成分以外の成分が他の端末装置へ配信されてしまうことを防止できる。

上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU：Central Processing Unit、等）や、専用のプロセッサ（例えばGPU：Graphics Processing Unit、ASIC：Application Specific Integrated Circuit、FPGA：Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。また上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

１０オンライン会議サーバー、１２，１４，１６端末装置、２６音声配信部、２８登録処理部、３０フィルタ列、３２オンライン会議管理テーブル、３４フィルタ管理テーブル、５０入力切換制御部、５２出力切換制御部。

Claims

音声データを処理するプロセッサであって、複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含み、
前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
前記プロセッサは、
前記音声フィルタ列の中から、第１端末装置からの入力音声データを与える音声フィルタを選択し、
前記入力音声データを、選択された音声フィルタに与え、
前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送る、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
複数のユーザーに対応する前記複数の音声フィルタを管理するための複数のフィルタ管理情報を有するフィルタ管理テーブルを含み、
前記プロセッサは、
前記フィルタ管理テーブルを参照することにより、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
前記第１端末装置及び前記第２端末装置を含む端末装置群と前記音声フィルタ列の入力側との間で入力切換制御を実行し、
前記音声フィルタ列の出力側と前記端末装置群との間で出力切換制御を実行する、
ことを特徴とするコミュニケーションサーバー。
請求項３記載のコミュニケーションサーバーにおいて、
前記入力切換制御には、音声フィルタバイパス制御が含まれる、
ことを特徴とするコミュニケーションサーバー。
請求項３記載のコミュニケーションサーバーにおいて、
前記出力切換制御には、前記音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して前記出力音声データを生成する制御が含まれる、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
前記入力音声データに対応する識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、
ことを特徴とするコミュニケーションサーバー。
請求項６記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
前記入力音声データに含まれる第１音声成分及び第２音声成分に対応する第１識別子及び第２識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える第１音声フィルタ及び第２音声フィルタを選択する、
ことを特徴とするコミュニケーションサーバー。
請求項７記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
前記第１音声フィルタから出力された前記第１音声成分を含む第１出力音声データを前記第２端末装置へ送り、
前記第２音声フィルタから出力された前記第２音声成分を含む第２出力音声データを第３端末装置へ送る、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
前記第１端末装置において録音モードが選択された場合に前記出力音声データを前記第１端末装置に送る、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
標本音声データに基づいて前記音声フィルタを生成又は修正する、
ことを特徴とするコミュニケーションサーバー。
請求項１０記載のコミュニケーションサーバーにおいて、
前記プロセッサは、
修正モード実行条件が満たされた場合に修正モードを実行し、
前記修正モードの実行過程において取得された音声データを前記標本音声データとして用いる、
ことを特徴とするコミュニケーションサーバー。
音声データを処理するプロセッサであって、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出する音声フィルタとして機能するプロセッサを含み、
前記プロセッサは、
第１端末装置からの入力音声データを前記音声フィルタに与え、
前記音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送り、
更に、前記プロセッサは、
前記入力音声データに含まれるキーワードデータを検出し、
前記キーワードデータが検出された場合に、前記入力音声データを標本音声データとして用いて前記音声フィルタを修正する、
ことを特徴とするコミュニケーションサーバー。
請求項１０記載のコミュニケーションサーバーにおいて、
前記音声フィルタは、機械学習後のフィルタモデルを有し、
前記音声フィルタの修正には、前記フィルタモデルの再学習が含まれる、
ことを特徴とするコミュニケーションサーバー。
請求項１記載のコミュニケーションサーバーにおいて、
当該コミュニケーションサーバーはオンライン会議サーバーであり、
前記音声フィルタは複数のオンライン会議で共用される、
ことを特徴とするコミュニケーションサーバー。
音声データを処理するプロセッサであって複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含むコミュニケーションサーバーと、
ネットワークを介して前記コミュニケーションサーバーに対して接続される第１端末装置及び第２端末装置と、
を含み、
前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
前記プロセッサは、
前記音声フィルタ列の中から、前記第１端末装置からの入力音声データを与える音声フィルタを選択し、
前記入力音声データを、選択された音声フィルタに与え、
前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第２端末装置へ送る、
ことを特徴とするコミュニケーションシステム。
情報処理装置において実行され当該情報処理装置をコミュニケーションサーバーとして機能させるプログラムであって、
前記情報処理装置は、複数の音声フィルタからなる音声フィルタ列として機能し、
前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
前記プログラムは、
前記音声フィルタ列の中から、第１端末装置からの入力音声データを与える音声フィルタを選択する機能と、
前記入力音声データを、選択された音声フィルタに与える機能と、
前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第１端末装置とは異なる第２端末装置へ送る機能と、
を含むことを特徴とするプログラム。