[go: up one dir, main page]

JP7753747B2 - コミュニケーションサーバー及びコミュニケーションシステム - Google Patents

コミュニケーションサーバー及びコミュニケーションシステム

Info

Publication number
JP7753747B2
JP7753747B2 JP2021153741A JP2021153741A JP7753747B2 JP 7753747 B2 JP7753747 B2 JP 7753747B2 JP 2021153741 A JP2021153741 A JP 2021153741A JP 2021153741 A JP2021153741 A JP 2021153741A JP 7753747 B2 JP7753747 B2 JP 7753747B2
Authority
JP
Japan
Prior art keywords
voice
filter
audio
communication server
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021153741A
Other languages
English (en)
Other versions
JP2023045371A (ja
Inventor
幸司 立石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2021153741A priority Critical patent/JP7753747B2/ja
Priority to US17/711,515 priority patent/US20230087553A1/en
Publication of JP2023045371A publication Critical patent/JP2023045371A/ja
Application granted granted Critical
Publication of JP7753747B2 publication Critical patent/JP7753747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、コミュニケーションサーバー及びコミュニケーションシステムに関する。
コミュニケーションシステムは、ネットワークを介して、複数の端末装置の間で、換言すれば複数のユーザーの間で、コミュニケーションを図るためのシステムである。コミュニケーションシステムの代表例として、オンライン会議システムがあげられる。オンライン会議システムでは、コミュニケーションサーバーとしてのオンライン会議サーバーが映像及び音声の配信を行っている。
特許文献1には、混合音声信号の中から特定の話者の音声成分を抽出する技術が開示されている。特許文献2には、声紋を用いて個人認証を行う技術が開示されている。特許文献1、2には、コミュニケーションシステムにおいて音声データを中継するための技術は開示されていない。
特開2021- 39219号公報 特開2002-304379号公報
コミュニケーションシステムにおいては、コミュニケーションサーバーを介して端末装置間で音声データが授受される。音声データの中に、当該コミュニティシステムを利用している参加者の音声成分の他に、本来送るべきではない不要な成分(例えば、非参加者の音声成分)が含まれてしまうことがある。そのような不要な成分が他の参加者へ送られることを防止又は軽減することが望まれる。
本発明の目的は、コミュニケーションサーバーでの音声データの中継に際して、音声データに含まれる不要な成分が配信されてしまうことを防止又は軽減することにある。
請求項1に係るコミュニケーションサーバーは、音声データを処理するプロセッサであって、複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含み、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プロセッサは、前記音声フィルタ列の中から、第1端末装置からの入力音声データを与える音声フィルタを選択し、前記入力音声データを、選択された音声フィルタに与え、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送る、ことを特徴とする。
請求項2に係るコミュニケーションサーバーは、請求項1記載のコミュニケーションサーバーにおいて、複数のユーザーに対応する前記複数の音声フィルタを管理するための複数のフィルタ管理情報を有するフィルタ管理テーブルを含み、前記プロセッサは、前記フィルタ管理テーブルを参照することにより、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、ことを特徴とする。
請求項3に係るコミュニケーションサーバーは、請求項記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第1端末装置及び前記第2端末装置を含む端末装置群と前記音声フィルタ列の入力側との間で入力切換制御を実行し、前記音声フィルタ列の出力側と前記端末装置群との間で出力切換制御を実行する、ことを特徴とする。
請求項4に係るコミュニケーションサーバーは、請求項3記載のコミュニケーションサーバーにおいて、前記入力切換制御には、音声フィルタバイパス制御が含まれる、ことを特徴とする。
請求項5に係るコミュニケーションサーバーは、請求項3記載のコミュニケーションサーバーにおいて、前記出力切換制御には、前記音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して前記出力音声データを生成する制御が含まれる、ことを特徴とする。
請求項6に係るコミュニケーションサーバーは、請求項記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記入力音声データに対応する識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、ことを特徴とする。
請求項7に係るコミュニケーションサーバーは、請求項6記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記入力音声データに含まれる第1音声成分及び第2音声成分に対応する第1識別子及び第2識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える第1音声フィルタ及び第2音声フィルタを選択する、ことを特徴とする。
請求項8に係るコミュニケーションサーバーは、請求項7記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第1音声フィルタから出力された前記第1音声成分を含む第1出力音声データを前記第2端末装置へ送り、前記第2音声フィルタから出力された前記第2音声成分を含む第2出力音声データを第3端末装置へ送る、ことを特徴とする。
請求項9に係るコミュニケーションサーバーは、請求項1記載のコミュニケーションサーバーにおいて、前記プロセッサは、前記第1端末装置において録音モードが選択された場合に前記出力音声データを前記第1端末装置に送る、ことを特徴とする。
請求項10に係るコミュニケーションサーバーは、請求項1記載のコミュニケーションサーバーにおいて、前記プロセッサは、標本音声データに基づいて前記音声フィルタを生成又は修正する、ことを特徴とする。
請求項11に係るコミュニケーションサーバーは、請求項10記載のコミュニケーションサーバーにおいて、前記プロセッサは、修正モード実行条件が満たされた場合に修正モードを実行し、前記修正モードの実行過程において取得された音声データを前記標本音声データとして用いる、ことを特徴とする。
請求項12に係るコミュニケーションサーバーは、音声データを処理するプロセッサであって、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出する音声フィルタとして機能するプロセッサを含み、前記プロセッサは、第1端末装置からの入力音声データを前記音声フィルタに与え、前記音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送り、更に、前記プロセッサは、前記入力音声データに含まれるキーワードデータを検出し、前記キーワードデータが検出された場合に、前記入力音声データを標本音声データとして用いて前記音声フィルタを修正する、ことを特徴とする。
請求項13に係るコミュニケーションサーバーは、請求項10記載のコミュニケーションサーバーにおいて、前記音声フィルタは、機械学習後のフィルタモデルを有し、前記音声フィルタの修正には、前記フィルタモデルの再学習が含まれる、ことを特徴とする。
請求項14に係るコミュニケーションサーバーは、請求項1記載のコミュニケーションサーバーにおいて、当該コミュニケーションサーバーはオンライン会議サーバーであり、前記音声フィルタは複数のオンライン会議で共用される、ことを特徴とする。
請求項15に係るコミュニケーションシステムは、音声データを処理するプロセッサであって複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含むコミュニケーションサーバーと、ネットワークを介して前記コミュニケーションサーバーに対して接続される第1端末装置及び第2端末装置と、を含み、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プロセッサは、前記音声フィルタ列の中から、前記第1端末装置からの入力音声データを与える音声フィルタを選択し、前記入力音声データを、選択された音声フィルタに与え、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第2端末装置へ送る、ことを特徴とする。
請求項16に係るプログラムは、情報処理装置において実行され当該情報処理装置をコミュニケーションサーバーとして機能させるプログラムであって、前記情報処理装置は、複数の音声フィルタからなる音声フィルタ列として機能し、前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、前記プログラムは、前記音声フィルタ列の中から、第1端末装置からの入力音声データを与える音声フィルタを選択する機能と、前記入力音声データを、選択された音声フィルタに与える機能と、前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送る機能と、を含むことを特徴とする。
請求項1に係るコミュニケーションサーバーによれば、音声データに含まれる不要な成分の配信が防止又は軽減される。
請求項2に係るコミュニケーションサーバーによれば、管理テーブルの参照により入力音声データそれに適合する音声フィルタに与えられる。
請求項3に係るコミュニケーションサーバーによれば、状況やニーズに適合した入力切換制御及び出力切換制御を行える。
請求項4に係るコミュニケーションサーバーによれば、音声フィルタごとにそれを機能させるか否かを制御し得る。
請求項5に係るコミュニケーションサーバーによれば、所望の音声成分を有する出力音声データを生成し得る。
請求項6に係るコミュニケーションサーバーによれば、音声フィルタの選択が適正化される。
請求項7に係るコミュニケーションサーバーによれば、入力音声データに含まれる複数の音声成分が個別的に抽出される。
請求項8に係るコミュニケーションサーバーによれば、個別的に抽出された複数の音声成分が複数の端末装置へ個別的に配信される。
請求項9に係るコミュニケーションサーバーによれば、音声フィルタ通過後の音声成分を録音対象にし得る。
請求項10に係るコミュニケーションサーバーによれば、音声フィルタの生成又は修正に当たって実際の音声データが利用される。
請求項11に係るコミュニケーションサーバーによれば、音声フィルタの修正に当たって、修正モードの実行過程で取得された音声データが利用される。
請求項12に係るコミュニケーションサーバーによれば、キーワードデータの検出を契機として音声ファイルが修正される。
請求項13に係るコミュニケーションサーバーによれば、フィルタモデルの再学習により音声フィルタが修正される。
請求項14に係るコミュニケーションサーバーによれば、オンライン会議において、音声データに含まれる不要な成分の配信が防止又は軽減される。
請求項15に係るコミュニケーションシステムによれば、オンラインコミュニケーションにおいて、音声データに含まれる不要な成分の配信が防止又は軽減される。
請求項16に係るプログラムによれば、音声データに含まれる不要な成分の配信が防止又は軽減される。
実施形態に係るオンライン会議システムを示すブロック図である。 音声配信部の構成例を示すブロック図である。 オンライン会議管理テーブルの一例を示す図である。 フィルタ管理テーブルの一例を示す図である。 修正モード実行条件を説明するための図である。 フィルタ生成の第1例を説明するための図である。 フィルタ生成の第2例を説明するための図である。 応用例を示す図である。 オンライン会議サーバーの第1動作例を示すフローチャートである。 オンライン会議サーバーの第2動作例を示すフローチャートである。 他の実施形態に係る通話システムを示すブロック図である。
以下、本発明の好適な実施形態を図面に基づいて説明する。
(1)実施形態の概要
実施形態に係るコミュニケーションサーバーは、音声データを処理するプロセッサを含む。プロセッサは、特定人の音声成分を抽出する音声フィルタとして機能する。プロセッサは、第1端末装置からの入力音声データを音声フィルタに与え、音声フィルタから出力された音声成分を含む出力音声データを第1端末装置とは異なる第2端末装置へ送る。
音声フィルタにおいて、特定人の音声成分以外の成分(特定人以外の音声成分、音声以外の音成分等)が抑圧又は除外される。音声フィルタを通過した音声成分を含む出力音声データが第2端末装置に送られる。そのような一連の処理により、不要な成分の配信が防止又は軽減される。
音声フィルタの例として、機械学習済みのモデルを備えたフィルタ、音声特徴量(声紋特徴量を含む)を用いて音声成分を抽出するフィルタ、等があげられる。コミュニケーションサーバーの概念には、オンライン会議サーバーや通話サーバー等の音声中継装置が含まれる。
実施形態において、プロセッサは、複数の音声フィルタからなる音声フィルタ列として機能する。また、プロセッサは、音声フィルタ列の中から入力音声データを与える音声フィルタを選択する。音声フィルタを事前に生成しておくことにより、コミュニケーション開始の都度、音声フィルタを生成する必要がなくなる。音声フィルタ列の全部又は一部が複数のコミュニケーションにおいて共用されてもよい。
実施形態において、プロセッサは、第1端末装置及び第2端末装置を含む端末装置群と音声フィルタ列の入力側との間で入力切換制御を実行する。また、プロセッサは、音声フィルタ列の出力側と端末装置群との間で出力切換制御を実行する。入力切換制御及び出力切換制御により、個々の音声成分が適切な音声フィルタに与えられ、また、フィルタリング後の個々の音声成分が適切な端末装置へ配信される。
実施形態において、入力切換制御には、音声フィルタバイパス制御が含まれる。また、出力切換制御には、音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して出力音声データを生成する制御が含まれる。このように、入力切換制御には、フィルタ列の入力側での経路選択が含まれ得る。出力切換制御には、フィルタ列の出力側での経路選択及び成分合成が含まれ得る。
実施形態において、プロセッサは、入力音声データに対応する識別子に従って、音声フィルタ列の中から入力音声データを与える音声フィルタを選択する。識別子の概念には、参加者識別子、音声識別子、端末装置識別子等が含まれ得る。
実施形態において、プロセッサは、入力音声データに含まれる第1音声成分及び第2音声成分に対応する第1識別子及び第2識別子に従って、音声フィルタ列の中から入力音声データを与える第1音声フィルタ及び第2音声フィルタを選択する。このように、同じ入力音声データが複数の音声フィルタへ並列的に与えられてもよい。
実施形態において、プロセッサは、第1音声フィルタから出力された第1音声成分を含む第1出力音声データを第2端末装置へ送る。プロセッサは、第2音声フィルタから出力された2音声成分を含む第2出力音声データを第3端末装置へ送る。複数の音声フィルタを用いて分離された複数の音声成分が複数の端末装置へ配信される。
実施形態において、プロセッサは、第1端末装置において録音モードが選択された場合に出力音声データを第1端末装置に送る。これにより、第1端末装置において、フィルタリングされた音声成分を含めて録音を行える。
実施形態において、プロセッサは、標本音声データに基づいて音声フィルタを生成又は修正する。標本音声データは、見本としての音声データであり、本人から取得された音声データである。プロセッサは、修正モード実行条件が満たされた場合に修正モードを実行する。また、プロセッサは、修正モードの実行過程において取得された音声データを標本音声データとして用いる。人の声は経時的に変化し、また体調等によっても変化する。修正モードの実行により、音声フィルタにおけるフィルタリング品質の維持又は向上を図れる。
実施形態において、プロセッサは、音声データに含まれるキーワードデータを検出する。その場合、修正モード実行条件が満たされた場合は、キーワードデータが検出された場合である。キーワードとして、例えば、コミュニケーション開始時に使用される1又は複数の用語が事前に登録されてもよい。
実施形態において、音声フィルタは、機械学習後のフィルタモデルを有する。音声フィルタの修正には、フィルタモデルの再学習が含まれる。再学習に時間を要する場合、コミュニケーション開始前に音声フィルタの修正を実行してもよい。
実施形態において、当該コミュニケーションサーバーはオンライン会議サーバーである。音声フィルタは複数のオンライン会議で共用される。あるユーザーが複数のオンライン会議に参加する場合、それらの間で同じ音声フィルタを用いれば、リソースを有効活用できる。
実施形態に係るコミュニケーションシステムは、音声データを処理するプロセッサを含むコミュニケーションサーバーと、ネットワークを介してコミュニケーションサーバーに対して接続される第1端末装置及び第2端末装置と、により構成される。プロセッサは、特定人の音声成分を抽出する音声フィルタとして機能する。プロセッサは、第1端末装置からの入力音声データを音声フィルタに与える。プロセッサは、音声フィルタから出力された音声成分を含む出力音声データを第2端末装置へ送る。
プロセッサにおいて実行されるプログラムが、ネットワーク又は可搬型記憶媒体を介して、情報処理装置へインストールされる。そのプログラムは非一時的記憶媒体に記憶される。情報処理装置の概念には、コンピュータ等の各種の情報処理デバイスが含まれる。
(2)実施形態の詳細
図1には、実施形態に係るオンライン会議システムの構成例が示されている。オンライン会議システムは、コミュニケーションシステムの一態様である。
オンライン会議システムは、図示されるように、ネットワーク18に接続された、オンライン会議サーバー10及び複数の端末装置12,14,16により構成される。ネットワーク18は、例えば、インターネットである。ネットワーク18が社内ネットワーク等のLAN(Local Area Network)であってもよく、あるいは、ネットワーク18にLANが含まれてもよい。オンライン会議は、WEB会議、リモート会議とも言われる。
図示の構成例は、オンライン会議に参加者A、参加者B及び参加者Cが参加することを前提とするものである。参加者Aにより端末装置12が使用され、参加者Bにより端末装置14が使用され、参加者Cにより端末装置16が使用される。参加者A,B,Cは、それぞれ、オンライン会議システムのユーザーである。
オンライン会議サーバー10は、コンピュータ等の情報処理装置により構成され、画像及び音声の中継装置として機能する。具体的には、オンライン会議サーバー10は、プログラムを実行するプロセッサ20及び各種のデータを記憶する記憶部22を有している。プロセッサ20は、複数の機能を発揮する。それらの機能が図1において複数のブロックにより表現されている。プロセッサ20は例えばCPUにより構成され、記憶部22は半導体メモリ、ハードディスク等により構成される。
画像配信部24は、端末装置12,14,16から送られてきた複数の画像を端末装置12,14,16に配信するものである。各端末装置12,14,16において、そこに表示される会議画像の構成が変更される。
音声配信部26は、端末装置12,14,16から送られてきた複数の音声データを受領し、それらの音声データを端末装置12,14,16に配信するものである。例えば、端末装置12から送られてきた音声データが他の端末装置14,16に配信される。音声データの配信に当たっては、必要に応じて、複数の音声データが合成される。
音声配信部26は、登録処理部28及びフィルタ列30を有する。登録処理部28は登録処理を実行するものであり、その登録処理にはフィルタ生成及びフィルタ修正が含まれる。すなわち、登録処理部28は、フィルタ生成部及びフィルタ修正部として機能する。
フィルタ生成部は、オンライン会議に先立ってオンライン会議への参加が予定されている又はその可能性のある特定人(ユーザー、参加予定者又は音声登録対象者とも言い得る。)から得た標本音声データに基づいて、同人の音声成分を抽出し且つ他の成分を除外又は抑圧する音声フィルタ(以下、単にフィルタという。)を生成するものである。除外又は抑圧される他の成分として、特定人以外の音声成分、及び、動物のなき声、機械音、楽器音等の非音声成分があげられる。それらの成分は配信不要な成分とも言い得る。
複数の音声登録対象者から取得された複数の標本音声データに基づいて複数のフィルタが生成される。それらの複数のフィルタによりフィルタ列30が構成される。フィルタ列30はフィルタバンク又はフィルタセットとも言い得る。オンライン会議に先立って端末装置12,14,16からオンライン会議サーバーへ標本音声データが送信されてもよいし、オンライン会議の冒頭における音声データが標本音声データとして利用されもよい。
フィルタ修正部は、修正モード実行条件が満たされた場合に、新たに取得される標本音声データに基づいてフィルタを修正するものである。経時的な音声変化や体調による音声変化に対応するためにフィルタの修正が実行される。フィルタの修正については後に詳述する。
フィルタ列30を構成する各フィルタとしては、機械学習済みモデルを有するフィルタ、音声特徴量に基づくフィルタ、等があげられる。例えば、CNN(Convolutional neural network)等を用いて特定人の音声成分を抽出するフィルタを生成し得る。特許文献1に開示された技術を用いてフィルタを生成してもよい。声紋から得られる音声特徴量に基づいて特定人の音声成分の存否を自動的に判定しこれにより当該音声成分のみを通過させるフィルタが用いられてもよい。
記憶部22には、オンライン会議管理テーブル32及びフィルタ管理テーブル34が格納される。オンライン会議管理テーブル32上において個々のオンライン会議が管理される。フィルタ管理テーブル34上において個々のユーザーと個々のフィルタとの対応関係が管理される。
端末装置12,14,16は互いに同じ構成を有し、ここでは端末装置12の構成について説明する。端末装置12は情報処理装置としてのコンピュータにより構成される。端末装置が携帯型の情報処理デバイスにより構成されてもよい。端末装置12は、本体36、入力器38、表示器40、スピーカ42、マイク44等を有する。本体36は、プログラムを実行するプロセッサを有する。入力器38は、キーボード、ポインティングデバイス等により構成される。表示器40は液晶表示器等により構成される。オンライン会議に際しては、スピーカ42及びマイク44が使用される。オンライン会議の録音時には、配信される画像データ及び音声データが図示されていないメモリ上に格納される。
実施形態に係るオンライン会議サーバー10は、フィルタ列30を備えており、フィルタリングされた音声データを端末装置12,14,16に配信する機能を備えている。例えば、符号46で示すように、端末装置12から、参加者Aの音声成分を含む音声データがプロセッサ20へ与えられる。プロセッサ20は、その音声データを参加者Aに対応するフィルタに与える。そのフィルタにおいて参加者Aの音声成分が抽出され、つまり参加者Aの音声成分以外の不要な成分が除去又は抑制される。符号48で示すように、そのフィルタから出力された参加者Aの音声成分を含む音声データが端末装置14,16に送信される。端末装置12からの音声データに参加者A以外の者の音声成分が含まれていても、その音声成分は音声配信部26の作用により除外又は抑圧される。よって、端末装置14,16に対して高品位の音声データが配信される。
なお、オンライン会議サーバー10が複数の情報処理装置により構成されてもよい。その場合、登録処理部28及びフィルタ列30を含む音声データ処理部分が、それ以外の構成から、別体化されてもよい。
図2には、音声配信部26の構成例が模式的に示されている。フィルタ列30は、複数のユーザーに対応した複数のフィルタ30-1~30-nにより構成される。フィルタ列30の入力側(具体的には、端末装置群とフィルタ列30の間)には、入力切換制御部50が設けられており、フィルタ列30の出力側(具体的には、フィルタ列30と端末装置群との間)には、出力切換制御部52が設けられている。入力切換制御部50は、複数の音声データをそれらに適合する複数のフィルタに与えるための経路設定又は経路選択を行うものである。出力切換制御部52は、複数のフィルタから出力された複数の音声成分に基づいて、典型的にはそれらを合成することにより、複数の端末装置に配信する複数の音声データを生成するものである。
例えば、符号54,56,58は、3つのフィルタ30-1,30-2,30-3の入力ラインを模式的に示している。それらの入力ライン54,56,58を用いて3つの端末装置12,14,16から送られてきた音声データSA1,SB1,SC1がフィルタ30-1,30-2,30-3に与えられる。上記のように、入力切換制御部50が、個々の音声データをどのフィルタに与えるのかを決定する。フィルタ30-1では参加者Aの音声成分Sa1が抽出され、フィルタ30-2では参加者Bの音声成分Sb1が抽出され、フィルタ30-3では参加者Cの音声成分Sc1が抽出される。
符号60,62,64は、3つの端末装置12,14,16に向けられた3つの出力ラインを模式的に示している。出力ライン60を流れる合成後の音声データSA2は、音声成分Sb1,Sc1を有する。出力ライン62を流れる合成後の音声データSB2は、音声成分Sa1,Sc1を有する。出力ライン64を流れる合成後の音声データSB2は、音声成分Sa1,Sb1を有する。各音声データSA2,SB2,SB3の生成に当たって、出力切換制御部52が複数の音声成分を合成する。図2において出力切換制御部52内の複数の黒点が複数の結線(合成用の接続)を模式的に示している。
入力切換制御部50は、個々のフィルタ30-1~30-nに音声データを与えることなく、音声データをバイパスさせる機能を有している。すなわち、入力切換制御には、フィルタバイパス制御が含まれる。バイパスが選択された場合、音声データのフィルタリングは実行されない。符号54a、56a、58aは、フィルタ30-1,30-2,30-3を迂回する経路を示している。フィルタリングが必要でない音声データを入力切換制御部50に与えずに別途処理する方式が採用されてもよい。
出力切換制御部52は、録音用の音声データを生成する機能を有している。例えば、出力ライン66は、録音用の出力ラインである。そこには音声データSRが流される。音声データSRには、音声成分Sa1,Sb1,Sc1が含まれる。すなわち、音声データSRには端末装置12を使用している参加者Aの音声成分Sa1が含まれ、その音声データSRが端末装置12へ戻される。端末装置12において、音声データSRが記録される。音声データSRは、必要に応じて、他の端末装置14,16にも配信される。
登録処理部28は、既に説明したように、また、符号68で示すように、生成部及び修正部として機能する。生成部により、フィルタ30-1~30-nが生成される。修正部により、生成されたフィルタ30-1~30-nが修正される。例えば、フィルタ30-1~30-nの修正に当たって、機械学習済みモデルに対する再学習が実施されてもよいし、音声特徴量の再抽出が実施されてもよい。
個々の音声データに対しては識別子が付加又は対応付けられている。識別子は、ユーザー識別子であるが、それが音声識別子又は端末装置識別子であってもよい。入力切換制御部50は、音声データに対応する識別子を参照し、その識別子に基づいて音声データを与える特定のフィルタを選択する。その際にはフィルタ管理テーブルが参照される。
図3には、オンライン会議管理テーブルの一例が示されている。オンライン会議管理テーブル32上において、複数のオンライン会議に対応した複数のオンライン会議情報70が管理されている。各オンライン会議情報70は、会議ID72、主催者ID74、主催者用フィルタオンオフ情報76、参加者ID(ユーザーID)78、参加者用フィルタオンオフ情報80、開始時間82、終了時間84等の情報を有している。
入力切換制御部は、主催者用フィルタオンオフ情報76に基づいて、主催者の音声データに対してフィルタを適用するか否かを判定し、参加者用フィルタオンオフ情報80に基づいて、参加者の音声データに対してフィルタを適用するか否かを判定する。オンライン会議ごとにフィルタ適用の有無が一括して管理されてもよい。
図4には、フィルタ管理テーブルの一例が示されている。フィルタ管理テーブル34は、複数のユーザーに対応した複数のフィルタ管理情報86により構成される。各フィルタ管理情報86は、ユーザーID88、フィルタID90、修正モード実行条件92、最終修正時94等の情報を有している。
入力切換制御部は、フィルタ管理テーブル34を参照することにより、音声データとフィルタの対応関係を特定する。実際には、上記のように、音声データに対応するユーザーID(識別子)に基づいて、当該音声データを与えるフィルタを特定する。修正モード実行条件92が満たされた場合、修正モードの実行が開始される。複数の修正モード実行条件の中から所望の修正モード実行条件を選択し得る。最終修正時94は、フィルタが最後に修正された時期を示すものである。
図5には、幾つかの修正モード実行条件が整理されている。条件タイプ1で特定されるように、オンライン会議の開始の都度、そのオンライン会議で使用する予定の1又は複数のフィルタが修正つまり更新されてもよい。例えば、オンライン会議の冒頭、オンラインサーバーが各参加者に対して音声データの入力を求めるようにしてもよい。
条件タイプ2で特定されるように、オンライン会議の開始後、事前登録されたキーワードが検知された時点で修正モードの実行が自動的に開始されてもよい。例えば、キーワードとして「よろしくおねがいします」、「はじめます」等のワードが登録されてもよい。この構成を採用する場合には、オンラインサーバーが備える音声認識モジュールを機能させればよい。
条件タイプ3で特定されるように、最終修正時から所定時間が経過している場合に修正モードが自動的に開始されてもよい。条件タイプ4で特定されるように、主催者が修正モードの実行をリクエストしてもよい。条件タイプ5で特定されるように、フィルタ処理後の音声データの品質が低下した場合に、具体的にはエラー率が所定レベルを超えた場合に、修正モードが自動的に実行されてもよい。その場合には、オンライン会議サーバーが有する品質評価モジュールを機能させればよい。
図6には、フィルタ生成の第1例が示されている。符号68Aは、生成部及び修正部を示している。学習器98において標本音声データ102の機械学習を行わせることにより、機械学習済みのモデルを生成し、そのモデルがフィルタ100の実体として利用される。音声データ104に、本人の音声成分Sa及びそれ以外の成分Sx,Syが含まれている場合、フィルタ100により、音声成分Saが抽出される。フィルタ修正に際しては、音声データ104を標本音声データ106として利用し、モデルを再学習させてもよい。
図7には、フィルタ生成の第2例が示されている。符号68Bは、生成部及び修正部を示している。特徴量抽出器108に対して標本音声データ102を与えることにより音声特徴量が抽出される。その音声特徴量がフィルタ110に与えられる。フィルタ110においては、入力された音声データ104が有する音声特徴量と特徴量抽出器108から与えられた音声特徴量とが相互に比較される。具体的には、フィルタ110は、2つの音声特徴量の間で距離(ノルム)を演算し、距離が一定値以内である場合に音声成分を通過させ、距離が一定値を超える場合に音声成分を遮断する。音声データ104に、本人の音声成分Sa及びそれ以外の成分Sx,Syが含まれている場合、フィルタ110により、音声成分Saが抽出される。フィルタ修正に際しては、音声データ104を標本音声データ106として利用し、音声特徴量が修正又は再抽出されてもよい。
図8には、実施形態に係る構成の応用例が示されている。同じ端末装置から複数の参加者A1,A2の音声成分Sa1,Sa2を含む音声データがオンライン会議サーバーの音声配信部に送られている。参加者A1,A2を特定するための識別子SID-A1,SID-B1が音声データに対応付けられている。
音声配信部においては、識別子SID-A1、SID-B1に基づいて2つのフィルタ112,114が選択され、それらに対して共通の音声データが並列的に与えられる。フィルタ112は、音声成分Sa1を抽出するフィルタであり、フィルタ114は、音声成分Sa2を抽出するフィルタである。図示の構成例では、参加者B,Cに対して音声成分Sa1を含む音声データが配信され、参加者Dに対して音声成分Sa2を含む音声データが配信されている。
例えば、参加者A1が日本語で音声を発する講演者であり、参加者A2が英語で音声を発する同時通訳者である場合、図8に示すスキームを利用すれば、日本語音声データを参加者B,Cへ配信し、同時に、英語音声データを参加者Dに配信することが可能となる。符号115で示されるように、参加者Bが日本語の音声データに代えて又はそれと共に英語の音声データを聞くことも可能である。
例えば、会議室内にいる参加者A1及び参加者A2の発言が同一の端末装置により検出されている場合、図8に示すスキームを利用すれば、参加者A1の音声データを参加者B,Cに配信し、同時に、参加者A2の音声データを参加者Dに配信することも可能である。これにより、例えば、参加者Dのみに対して特定の情報を伝え得る。
図9には、実施形態に係るオンラインサーバーの第1動作例がフローチャートとして示されている。S10においては、オンライン会議に先立って、初期設定が行われる。初期設定には、フィルタ列の動作設定が含まれる。その際には入力切換制御部及び出力切換制御部が機能する。S12では、オンライン会議が開始され、フィルタ列も動作を開始する。フィルタリングされた音声データが各端末装置へ配信される。S14において会議終了が判断されるまで上記処理が継続的に実行される。
図10には、実施形態に係るオンラインサーバーの第2動作例がフローチャートとして示されている。なお、図10において、図9に示した工程と同様の工程には同一の工程番号を付しその説明を省略する。
S11では、修正モードを実行するか否かが判断される。修正モードを実行しない場合、S12Aにおいて音声配信が開始され、同時にフィルタ列が動作を開始する。S11において、修正モードの実行が判断された場合、S12Bにおいて、修正モードが実行され、各参加者に対応するフィルタが個別的に修正される。その後、音声配信が開始され、並行してフィルタ列が動作を開始する。
11には、コミュニケーションシステムの他の例が示されている。図示されたコミュニケーションシステムは、通話システムであり、それは通話サーバー116及び複数の端末装置118,120,122からなる。通話サーバー116は、音声データの中継を行うものである。通話サーバー116は、フィルタ列124を備えている。そのフィルタ列124は、図3に示した構成と同様の構成を備えている。すなわち、必要に応じて、音声データに対するフィルタリングが実施され、フィルタリング後の音声データが端末装置118,120,122へ配信される。この通話システムによれば、参加者本人の音声成分以外の成分が他の端末装置へ配信されてしまうことを防止できる。
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 オンライン会議サーバー、12,14,16 端末装置、26 音声配信部、28 登録処理部、30 フィルタ列、32 オンライン会議管理テーブル、34 フィルタ管理テーブル、50 入力切換制御部、52 出力切換制御部。

Claims (16)

  1. 音声データを処理するプロセッサであって、複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含み、
    前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
    前記プロセッサは
    前記音声フィルタ列の中から、第1端末装置からの入力音声データを与える音声フィルタを選択し、
    前記入力音声データを、選択された音声フィルタに与え、
    前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送る、
    ことを特徴とするコミュニケーションサーバー。
  2. 請求項1記載のコミュニケーションサーバーにおいて、
    複数のユーザーに対応する前記複数の音声フィルタを管理するための複数のフィルタ管理情報を有するフィルタ管理テーブルを含み、
    前記プロセッサは、
    前記フィルタ管理テーブルを参照することにより、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、
    ことを特徴とするコミュニケーションサーバー。
  3. 請求項記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    前記第1端末装置及び前記第2端末装置を含む端末装置群と前記音声フィルタ列の入力側との間で入力切換制御を実行し、
    前記音声フィルタ列の出力側と前記端末装置群との間で出力切換制御を実行する、
    ことを特徴とするコミュニケーションサーバー。
  4. 請求項3記載のコミュニケーションサーバーにおいて、
    前記入力切換制御には、音声フィルタバイパス制御が含まれる、
    ことを特徴とするコミュニケーションサーバー。
  5. 請求項3記載のコミュニケーションサーバーにおいて、
    前記出力切換制御には、前記音声フィルタ列の中の複数の音声フィルタから出力された複数の音声成分を合成して前記出力音声データを生成する制御が含まれる、
    ことを特徴とするコミュニケーションサーバー。
  6. 請求項記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    前記入力音声データに対応する識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える前記音声フィルタを選択する、
    ことを特徴とするコミュニケーションサーバー。
  7. 請求項6記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    前記入力音声データに含まれる第1音声成分及び第2音声成分に対応する第1識別子及び第2識別子に従って、前記音声フィルタ列の中から前記入力音声データを与える第1音声フィルタ及び第2音声フィルタを選択する、
    ことを特徴とするコミュニケーションサーバー。
  8. 請求項7記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    前記第1音声フィルタから出力された前記第1音声成分を含む第1出力音声データを前記第2端末装置へ送り、
    前記第2音声フィルタから出力された前記第2音声成分を含む第2出力音声データを第3端末装置へ送る、
    ことを特徴とするコミュニケーションサーバー。
  9. 請求項1記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    前記第1端末装置において録音モードが選択された場合に前記出力音声データを前記第1端末装置に送る、
    ことを特徴とするコミュニケーションサーバー。
  10. 請求項1記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    標本音声データに基づいて前記音声フィルタを生成又は修正する、
    ことを特徴とするコミュニケーションサーバー。
  11. 請求項10記載のコミュニケーションサーバーにおいて、
    前記プロセッサは、
    修正モード実行条件が満たされた場合に修正モードを実行し、
    前記修正モードの実行過程において取得された音声データを前記標本音声データとして用いる、
    ことを特徴とするコミュニケーションサーバー。
  12. 音声データを処理するプロセッサであって、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出する音声フィルタとして機能するプロセッサを含み、
    前記プロセッサは、
    第1端末装置からの入力音声データを前記音声フィルタに与え、
    前記音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送り、
    更に、前記プロセッサは、
    前記入力音声データに含まれるキーワードデータを検出し、
    記キーワードデータが検出された場合に、前記入力音声データを標本音声データとして用いて前記音声フィルタを修正する、
    ことを特徴とするコミュニケーションサーバー。
  13. 請求項10記載のコミュニケーションサーバーにおいて、
    前記音声フィルタは、機械学習後のフィルタモデルを有し、
    前記音声フィルタの修正には、前記フィルタモデルの再学習が含まれる、
    ことを特徴とするコミュニケーションサーバー。
  14. 請求項1記載のコミュニケーションサーバーにおいて、
    当該コミュニケーションサーバーはオンライン会議サーバーであり、
    前記音声フィルタは複数のオンライン会議で共用される、
    ことを特徴とするコミュニケーションサーバー。
  15. 音声データを処理するプロセッサであって複数の音声フィルタからなる音声フィルタ列として機能するプロセッサを含むコミュニケーションサーバーと、
    ネットワークを介して前記コミュニケーションサーバーに対して接続される第1端末装置及び第2端末装置と、
    を含み、
    前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
    前記プロセッサは、
    前記音声フィルタ列の中から、前記第1端末装置からの入力音声データを与える音声フィルタを選択し、
    前記入力音声データを、選択された音声フィルタに与え、
    前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第2端末装置へ送る、
    ことを特徴とするコミュニケーションシステム。
  16. 情報処理装置において実行され当該情報処理装置をコミュニケーションサーバーとして機能させるプログラムであって、
    前記情報処理装置は、複数の音声フィルタからなる音声フィルタ列として機能し、
    前記複数の音声フィルタは、それぞれ、特定人の音声成分以外の成分を抑圧又は除外して前記特定人の音声成分を抽出するものであり、
    前記プログラムは、
    前記音声フィルタ列の中から、第1端末装置からの入力音声データを与える音声フィルタを選択する機能と、
    前記入力音声データを、選択された音声フィルタに与える機能と、
    前記選択された音声フィルタから出力された音声成分を含む出力音声データを前記第1端末装置とは異なる第2端末装置へ送る機能と、
    を含むことを特徴とするプログラム。
JP2021153741A 2021-09-22 2021-09-22 コミュニケーションサーバー及びコミュニケーションシステム Active JP7753747B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021153741A JP7753747B2 (ja) 2021-09-22 2021-09-22 コミュニケーションサーバー及びコミュニケーションシステム
US17/711,515 US20230087553A1 (en) 2021-09-22 2022-04-01 Communication server, communication system, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021153741A JP7753747B2 (ja) 2021-09-22 2021-09-22 コミュニケーションサーバー及びコミュニケーションシステム

Publications (2)

Publication Number Publication Date
JP2023045371A JP2023045371A (ja) 2023-04-03
JP7753747B2 true JP7753747B2 (ja) 2025-10-15

Family

ID=85573311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021153741A Active JP7753747B2 (ja) 2021-09-22 2021-09-22 コミュニケーションサーバー及びコミュニケーションシステム

Country Status (2)

Country Link
US (1) US20230087553A1 (ja)
JP (1) JP7753747B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119339708B (zh) * 2024-12-24 2025-03-14 四川参盘供应链科技有限公司 一种基于ai语音交互的下单方法
JP7742969B1 (ja) * 2025-05-01 2025-09-22 株式会社サイバーエージェント 音声取得装置及び音声取得方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001339799A (ja) 2000-05-29 2001-12-07 Alpine Electronics Inc 仮想会議装置
JP2006203548A (ja) 2005-01-20 2006-08-03 Yamaha Corp 複数話者の音声信号を処理する音声信号処理装置およびプログラム
US20080255842A1 (en) 2005-11-17 2008-10-16 Shaul Simhi Personalized Voice Activity Detection
WO2020039571A1 (ja) 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
US20210124929A1 (en) 2019-10-23 2021-04-29 Lg Electronics Inc. Device and method for auto audio and video focusing

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209181B2 (en) * 2006-02-14 2012-06-26 Microsoft Corporation Personal audio-video recorder for live meetings
JP4305509B2 (ja) * 2006-12-26 2009-07-29 ヤマハ株式会社 音声処理装置およびプログラム
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US8994781B2 (en) * 2013-03-01 2015-03-31 Citrix Systems, Inc. Controlling an electronic conference based on detection of intended versus unintended sound
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
US9177567B2 (en) * 2013-10-17 2015-11-03 Globalfoundries Inc. Selective voice transmission during telephone calls
US20150149173A1 (en) * 2013-11-26 2015-05-28 Microsoft Corporation Controlling Voice Composition in a Conference
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US11200884B1 (en) * 2018-11-06 2021-12-14 Amazon Technologies, Inc. Voice profile updating

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001339799A (ja) 2000-05-29 2001-12-07 Alpine Electronics Inc 仮想会議装置
JP2006203548A (ja) 2005-01-20 2006-08-03 Yamaha Corp 複数話者の音声信号を処理する音声信号処理装置およびプログラム
US20080255842A1 (en) 2005-11-17 2008-10-16 Shaul Simhi Personalized Voice Activity Detection
WO2020039571A1 (ja) 2018-08-24 2020-02-27 三菱電機株式会社 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
US20210124929A1 (en) 2019-10-23 2021-04-29 Lg Electronics Inc. Device and method for auto audio and video focusing

Also Published As

Publication number Publication date
US20230087553A1 (en) 2023-03-23
JP2023045371A (ja) 2023-04-03

Similar Documents

Publication Publication Date Title
US8791977B2 (en) Method and system for presenting metadata during a videoconference
JP7753747B2 (ja) コミュニケーションサーバー及びコミュニケーションシステム
JP7229821B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6618992B2 (ja) 発言提示装置、発言提示方法およびプログラム
US20060229873A1 (en) Methods and apparatus for adapting output speech in accordance with context of communication
US20240055015A1 (en) Learning method for generating lip sync image based on machine learning and lip sync image generation device for performing same
US10971168B2 (en) Dynamic communication session filtering
US20230231973A1 (en) Streaming data processing for hybrid online meetings
US20230245646A1 (en) Time distributions of participants across topic segments in a communication session
CN103026697B (zh) 业务服务器装置和业务提供方法
CN112004050A (zh) 一种去身份标识的远程会议处理方法、装置、智能终端
WO2011027475A1 (ja) テレビ会議装置
CN111897931A (zh) 对话设置方法和装置、服务器、计算机可读存储介质
US12432081B2 (en) Digital assistant for detecting off-topic users in network-based group communication sessions
Juvela et al. Audio codec augmentation for robust collaborative watermarking of speech synthesis
KR20210055235A (ko) 생성적 적대 신경망 기반 수어 영상 생성 시스템
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
KR20200145776A (ko) 음성보정 합성방법, 장치 및 프로그램
EP3905631B1 (en) Systems and methods for speaker anonymization
CN111415397B (zh) 一种人脸重构、直播方法、装置、设备及存储介质
CN114125494A (zh) 内容审核辅助处理方法、装置及电子设备
WO2022024371A1 (ja) Web会議システムおよびWeb会議プログラム
JP7325865B1 (ja) ウェブ会議システムを用いた画面合成方法
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法
JP7409628B2 (ja) 結婚式における音楽選曲のための自動選曲システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250915

R150 Certificate of patent or registration of utility model

Ref document number: 7753747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150