WO2023276234A1

WO2023276234A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023276234A1
Application number: PCT/JP2022/005001
Authority: WO
Inventors: 直也高橋
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-06-29
Filing date: 2022-02-09
Publication date: 2023-01-05
Anticipated expiration: 2023-12-29
Also published as: CN117561570A; JPWO2023276234A1; US20240135945A1; EP4365891A4; EP4365891A1

Abstract

例えば、効果的な声質変換処理を行う。　混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う声質変換部を有する情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　自身の発話（歌唱を含む）の声質を他社の声質に変換する声質変換技術に関する提案がなされている。声質とは、話者により生成された人間の音声であって、かつ複数個の音声単位（例えば音素）にわたって聴者により知覚された音声の属性のことをいい、より具体的には、音高と音色が同じの発話であっても聴者により違うと近くされる要素をいう。下記特許文献１には、一般的な発話音声を、発話内容を保ったまま別の話者の声質に変換する声質変換技術が記載されている。

特開２０１８－００５０４８号公報

　この分野では、適切な声質変換処理が行われることが望まれる。

　本開示は、適切な声質変換処理が行われる情報処理装置、情報処理方法およびプログラムを提供することを目的の一つとする。

　本開示は、例えば、
　混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う声質変換部を有する
　情報処理装置である。

　本開示は、例えば、
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法である。

　本開示は、例えば、
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法をコンピュータに実行させるプログラムである。

図１は、一実施形態の概要を説明するための図である。図２は、一実施形態に係るスマートホンの構成例を示すブロック図である。図３は、一実施形態に係る声質変換部の構成例を示すブロック図である。図４は、一実施形態に係る声質変換部で行われる学習の例を説明するための図である。図５は、一実施形態に係るスマートホンの動作を説明する際に参照される図である。図６は、一実施形態で行われる声質変換処理に付随して行われる処理の一例を説明するための図である。図７は、一実施形態で行われる声質変換処理に付随して行われる処理の他の例を説明するための図である。図８は、変形例を説明するための図である。図９は、変形例を説明するための図である。

　以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜本開示の背景＞
＜一実施形態＞
＜変形例＞
　以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

＜本開示の背景＞
　始めに、本開示の理解を容易とするために、本開示の背景について説明する。近年カラオケにおいて、あらかじめ作成されたＭＩＤＩ(Musical Instrument Digital Interface)音源や録音音源を伴奏として用いるのではなく、ボーカル音声入りの原音源をボーカル信号と伴奏信号とに音源分離し、分離された伴奏信号を用いることが増えている。

　このような音源分離技術の進化により、伴奏音源作成のコスト削減や、原曲そのままのサウンドでカラオケを楽しめるといったメリットが得られる。一方で、カラオケにおいては残響、歌声のピッチを変化させて加えるコーラス、声質を不特定な声質に変えるボイスチェンジャーなどのエフェクトが一般的に使われているが、特定の人物の歌声に変化させることは未だに困難である。そのため、例えば、「自分の声を少しだけ原曲のアーティストの声に近づける」といった、声質を特定の歌手の声質に滑らかに変換することが困難である。

　上述した特許文献１に記載の技術のように、一般的な発話音声を、発話内容を保ったまま別の話者の声質に変換する声質変換技術は提案されているが、一般に歌声は普通の発話に比べ音高や声質、様々な音楽的表現方法（ビブラートなど）のバリエーションが多く、歌声の変換は難しい。そのため、現状ではロボット風・アニメ風に変換、性別変換などの不特定な声質への変換や、あらかじめ十分な量のクリーンな音声が得られる特定話者の声質変換しか行なえず、あらかじめ十分な量のクリーン音声が得られない話者への変換が困難である。十分な量のクリーン音声が得るのには一般的に多くの時間やコストがかかり、例えば有名歌手の声に声質変換を行うことは実質的に非常に困難である。

　また、カラオケ用途においてはリアルタイムで声質変換を行うことが必要で、未来情報が用いることが出来ないため、高品質な変換はさらに困難である。加えて、音源分離により分離された音源は音源分離時に発生するノイズを含みうるため、そのような分離音声を参照して変換された音声はノイズを多く含みやすく、さらに高品質な変換は困難である。以上の点を踏まえつつ、本開示の一実施形態について以下、詳細に説明する。

＜一実施形態＞
［一実施形態の概要］
　始めに図１を参照しつつ、一実施形態の概要について説明する。図１に示す混合音源に対して、音源分離処理ＰＡが行われる。混合音源は、ＣＤ(Compact Disc)等の記録媒体やネットワークを介した配信によって提供され得る。混合音源には、例えば、アーティストのボーカル信号（第１のボーカル信号の一例であり、以下、ボーカル信号ＶＳＡとも適宜、称する）が含まれる。また、混合音源には、ボーカル信号ＶＳＡ以外の信号（楽器音等であり、以下、伴奏信号とも適宜、称する）が含まれる。

　一方、カラオケのユーザーの歌唱音声がマイクロホン等によって収音される。ユーザーの歌唱音声（第２のボーカル信号の一例）をボーカル信号ＶＳＢとも適宜、称する。

　ボーカル信号ＶＳＡおよびボーカル信号ＶＳＢに対して、声質変換処理ＰＢが行われる。声質変換処理ＰＢでは、ボーカル信号ＶＳＡおよびボーカル信号ＶＳＢの何れか一方のボーカル信号を他方のボーカル信号に近づける（似せる）処理が行われる。この際、所定の制御信号に応じて、何れか一方のボーカル信号を他方のボーカル信号に近づける変化量を設定することができる。例えば、カラオケのユーザーのボーカル信号ＶＳＢを、アーティストのボーカル信号ＶＳＡに近づける声質変換処理が行われる。そして、声質変換処理が行われたボーカル信号ＶＳＢと伴奏信号とを加算する加算処理ＰＣが行われ、加算処理ＰＣが行われた信号に対して再生処理ＰＤが行われる。これにより、アーティストのボーカル信号に近づける声質変換処理がなされたユーザーの歌声が再生される。

［情報処理装置の構成例］
（全体の構成例）
　図２は、一実施形態に係る情報処理装置の構成例を示すブロック図である。本実施形態に係る情報処理装置としては、例えば、スマートホン（スマートホン１００）が挙げられる。スマートホン１００を用いて、ユーザーは、声質変換が可能なカラオケを手軽に行うことができる。なお、本実施形態では、カラオケ、即ち、歌唱を例にして説明するが、本開示は歌唱に限らず、会話等の発話に対する声質変換処理に対しても適用可能である。また、本開示に係る情報処理装置は、スマートホンに限らず、スマートウォッチ等の携帯型の電子機器や、パーソナルコンピュータや据え置き型のカラオケ装置等に対しても適用可能である。

　スマートホン１００は、例えば、制御部１０１、音源分離部１０２、声質変換部１０３、マイクロホン１０４、および、スピーカー１０５を有している。

　制御部１０１は、スマートホン１００全体を統括的に制御する。制御部１０１は、例えば、ＣＰＵ（Central Processing Unit）に構成されており、プログラムが格納されるＲＯＭ（Read Only Memory）やワークメモリとして使用されるＲＡＭ（Random Access Memory）等を有している（なお、これらのメモリの図示は省略している。）。

　制御部１０１は、機能ブロックとして話者特徴量推定部１０１Ａを有している。話者特徴量推定部１０１Ａは、歌唱の進行に伴い時間的に変化しない特徴に対応する特徴量、具体的には、話者に関する特徴量（以下、話者特徴量と適宜、称する）を推定する。

　また、制御部１０１は、機能ブロックとして特徴量混合部１０１Ｂを有している。特徴量混合部１０１Ｂは、例えば、２以上の話者特徴量を適宜な重みで混合する。

　音源分離部１０２は、入力される混合音信号をボーカル信号と伴奏信号とに分離する（音源分離処理）。音源分離されたボーカル信号が声質変換部１０３に供給される。また、音源分離された伴奏信号がスピーカー１０５に供給される。

　声質変換部１０３は、マイクロホン１０４により収音されたユーザーの歌声に対応するボーカル信号の声質を、音源分離部１０２により音源分離されたボーカル信号に近づけるように声質変換処理を行う。なお、声質変換部１０３で行われる処理の詳細については後述する。なお、本実施形態における声質とは、話者特徴量の他に、音高、音量等の特徴量を含む。

　マイクロホン１０４は、例えば、スマートホン１００のユーザーの歌唱や発話（本例では歌唱）を収音する。収音された歌唱に対応するボーカル信号が、声質変換部１０３に供給される。

　音源分離部１０２から供給される伴奏信号と、声質変換部１０３から出力されるボーカル信号とが、不図示の加算部により加算される。加算された信号がスピーカー１０５から再生される。

　なお、スマートホン１００が、図２に図示した構成以外の構成（例えば、タッチパネルとして構成されるディスプレイやボタン）を有していてもよい。

（声質変換部の構成例）
　図３は、声質変換部１０３の構成例を示すブロック図である。声質変換部１０３は、エンコーダ１０３Ａ、特徴量混合部１０３Ｂ、および、デコーダ１０３Ｃを有している。エンコーダ１０３Ａは、所定の学習により得られる学習モデルを用いて、ボーカル信号から特徴量を抽出する。エンコーダ１０３Ａにより抽出される特徴量は、例えば、歌唱の進行に伴って時間的に変化する特徴量であり、具体的には、音高情報、音量情報、発話（歌詞）情報の少なくとも一つを含む。

　特徴量混合部１０３Ｂは、エンコーダ１０３Ａにより抽出された特徴量を混合する。特徴量混合部１０３Ｂにより混合された特徴量がデコーダ１０３Ｃに供給される。

　デコーダ１０３Ｃは、特徴量混合部１０３Ｂから供給される特徴量および話者特徴量に基づいて、ボーカル信号を生成する。

（声質変換部で行われる学習について）
　次に、図４を参照しつつ、声質変換部１０３で行われる学習方法の一例について説明する。なお、図４では、声質変換部１０３における特徴量混合部１０３Ｂ、および、特徴量混合部１０１Ｂに関する図示は省略している。

　学習時、声質変換部１０３は、複数歌手のボーカル信号（通常発話を含んでもよい）を用いて学習される。ボーカル信号は、複数歌手が同内容を歌うパラレルデータであってもよいし、パラレルデータでなくてもよい。本例では、より現実的かつ学習が困難な非パラレルデータとして扱う。図４に示すように、複数歌手のボーカル信号は、適宜なデータベース１１０に記憶されている。

　所定のボーカル信号は、入力歌声データｘとして、上述した話者特徴量推定部１０１Ａ及びエンコーダ１０３Ａに入力される。話者特徴量推定部１０１Ａは、入力歌声データｘから話者特徴量を推定する。また、エンコーダ１０３Ａは、入力歌声データｘから、特徴量の一例として、例えば、音高情報、音量情報、発話内容（歌詞）を抽出する。これらの特徴量は、例えば、多次元のベクトルで表されるエンベディングベクトル（埋め込みベクトル）により規定される。エンベディングベクトルで規定された各特徴量を、それぞれ、
話者エンベディング

音高エンベディング

音量エンベディング

コンテンツエンベディング

と適宜、称する。

　デコーダ１０３Ｃは、これらの特徴量を入力とし、音声を構築する処理を行う。学習時には、デコーダ１０３Ｃの出力が入力歌声データｘを再構築するように、デコーダ１０３Ｃは学習を行う。例えば、図４に示す損失関数算出部１１５により算出される入力歌声データｘとデコーダ１０３Ｃの出力との間の損失関数を最小化するように、デコーダ１０３Ｃは学習を行う。

　各エンベディングが対応する特徴のみを反映し、他の特徴の情報を持たないように話者特徴量推定部１０１Ａやエンコーダ１０ＡＣを学習することで、推論時に一部のエンベディングを他のものに置き換えることで、対応する特徴のみを変換することができる。例えば、
話者エンベディング

のみを他者のものに置き換えることで、音高、音量、発話内容を保ったまま声質（音高等を含まない狭義の声質）を変換することができる。このように、特徴を分離するようなエンベディングベクトルを得る方法として特定の特徴のみを反映した特徴量からエンベディングを得る方法や、データ（所定のボーカル信号）から特定の特徴のみを抽出するエンコーダを学習する方法がある。

　前者として基音抽出機により基音ｆ０を抽出し、
音高エンベディング

を得る、
平均パワーｐから音量エンベディング

を得る、
話者ラベルｎから話者エンベディング

を得る、
音声認識から得られる特徴量

(Automatic Speech Recognition）からコンテンツエンベディング

を得るなどの方法がある。

　後者の方法（データから特定の特徴のみを抽出するエンコーダを学習する方法）として敵対的学習や量子化による情報損失による手法が考えられる。例えば、
音高エンベディング

音量エンベディング

話者エンベディング

のそれぞれについては、敵対的学習により得られる。また、正確なラベルの取得が困難なコンテンツエンベディング

についてデータから学習することで得られる。

　具体例として、コンテンツエンベディング

を抽出するエンコーダ１０３Ａで行われる学習の例について説明する。始めに敵対的学習による手法を用いた具体例について説明する。

　入力歌声データｘから、
コンテンツエンベディング

を抽出するエンコーダ

は、
コンテンツエンベディング

から他の特徴量

を推定するクリティック

を用いた損失関数

を入力の再構成についての損失関数

に加えることで学習できる。

　具体的には、下記の式を用いて学習が行われる。

　但し、上記式における

はエンコーダ１０３Ａ及びデコーダ１０３Ｃの学習のための損失関数を示す。
また、

はクリティック

のための損失関数であり、

は重みパラメータである。

のそれぞれは、エンコーダ１０３Ａ及びデコーダ１０３Ｃのパラメータであり、

はクリティック

のパラメータである。

　次に、量子化による情報損失による手法の具体例について説明する。
　入力歌声データｘからコンテンツエンベディング

を抽出するエンコーダ

の出力をベクトル量子化し、情報を圧縮することで、デコーダに与えられている他の情報

に含まれない情報のみをコンテンツエンベディング

に保持するように誘導することができる。

　学習は以下の損失関数の最小化によって行うことができる。

　但し、ｓｇ（）はニューラルネットワークの勾配情報を以下の層に伝えないようにする勾配停止演算子、Ｖ（）はベクトル量子化演算である。
　再構成についての損失関数

についてはデコーダやエンコーダの種類により色々な形が考えられる。例えば、variational autoencoder (VAE)やベクトル量子化VAEの場合は変分下界（ELBO）

を用いることができ、Generative adversarial networkの場合は入力と出力の事情誤差と敵対的損失

の重み付き和（下記の式）として表すことができる。

　以上説明した学習は、話者特徴量推定部で推定された話者情報を変えずに行われる。一度、学習された後は、話者情報が変化しても構わない。また、学習時には、未来情報を使用してもよい。

　上記では、声質を決定する話者エンベディングは話者ラベルｎを用いて

と求める方法について説明した。しかしながら、この方法では変換先の歌手があらかじめ学習データになくてはならず、任意の歌手（未知の話者）に対して声質変換を行うことができない。そこで、音声信号から話者エンベディングを求める方法を説明する。例えば、以下の２つの方法が考えらえる。

　第１の方法は、所定の話者（例えば、変換先の歌手の歌声データと似た特徴の歌声データの話者）のボーカル信号に基づいて当該話者の話者情報を推定する話者エンベディング推定を行う方法である。話者ラベルｎを用いて学習した話者エンベディング

を話者ｎの歌唱音

から推定する話者特徴量推定部Ｆ（）を学習する。Ｆはニューラルネットワークなどで構成することができ、話者エンベディングとの距離を最小化するように学習される。距離としてはＬｐノルム

を利用することができる。

　第２の方法は、所定のボーカル信号に基づいて当該話者の話者情報を推定する歌手識別モデル学習を行う方法である。
　歌唱音

から話者エンベディング

を抽出する話者特徴量推定部Ｇ（）を声質変換部１０３の学習に先立って学習する。Ｇは歌手ラベルの付いた複数歌手の歌唱音データを用いて以下の目的関数Ｌを最小化することで学習できる。

　但し、Ｋ（ｘ，ｙ）はｘとｙのコサイン距離、

は歌手ｎによる異なる歌唱音声、

は歌手（ｍ≠ｎ）による歌唱音声である。
この様にして学習されたＧを用いて話者エンベディング

を以下のように求め、声質変換部１０３の学習に用いる。

　上記何れの方法においても、正確な話者エンベディングを得るためには話者特徴量推定部Ｇ（）に入力される入力音声は十分に長いことが好ましい。これは短い音声からでは十分に歌手の特徴を抽出できないためである。一方で、あまりにも長い入力は必要メモリが膨大になるというデメリットがある。そこでＧ（）に再帰構造を持つニューラルネットワーク（recurrent neural network）を用いたり、複数の短時間セグメントを用いて求めた話者エンベディングの平均などを用いたりすることができる。

［動作例］
　以上のようにして学習された声質変換部１０３により声質変換が行われる。図５を参照しつつ、スマートホン１００で行われる声質変換の処理について説明する。

　図５において、ボーカル信号ＶＳＢは、カラオケユーザーの歌声データである。また、ボーカル信号ＶＳＡは、カラオケユーザーが声質を近づけたい歌手の歌声データであり、音源分離されたボーカル信号である。

　ボーカル信号ＶＳＡ及びボーカル信号ＶＳＢのそれぞれが声質変換部１０３に入力される。エンコーダ１０３Ａは、ボーカル信号ＶＳＡ及びボーカル信号ＶＳＢから音高、音量等の特徴量を抽出する。

　特徴量混合部１０３Ｂには、例えば、置き換える特徴量を指定する制御信号が入力される。例えば、ボーカル信号ＶＳＢから抽出された音高情報を、ボーカル信号ＶＳＡから抽出された音高情報にする制御信号が入力されている場合には、特徴量混合部１０１Ｂは、ボーカル信号ＶＳＢから抽出された音高情報をボーカル信号ＶＳＡから抽出された音高情報に置き換える。特徴量混合部１０１Ｂにより混合された特徴量がデコーダ１０３Ｃに入力される。

　ボーカル信号ＶＳＡ及びボーカル信号ＶＳＢは、話者特徴量推定部１０１Ａに入力される。話者特徴量推定部１０１Ａは、各ボーカル信号から話者情報を推定する。推定された話者情報が特徴量混合部１０１Ｂに供給される。

　特徴量混合部１０１Ｂには、話者特徴量を置き換えるか否か、置き換える場合にはどの程度の重みで置き換えるかを示す制御信号が入力される。制御信号に応じて、特徴量混合部１０１Ｂは、話者特徴量を適宜、置き換える。例えば、ボーカル信号ＶＳＢから得られた話者特徴量をボーカル信号ＶＳＡから得られた話者特徴量に置き換えた場合には、話者特徴量で規定される声質（狭義の声質）が、カラオケユーザーの声質からボーカル信号ＶＳＡに対応する歌手の声質に置き換わる。特徴量混合部１０１Ｂにより混合された話者特徴量がデコーダ１０３Ｃに供給される。

　デコーダ１０３Ｃは、特徴量混合部１０１Ｂから供給される特徴量および特徴量混合部１０１Ｂから供給される話者特徴量に基づいて、歌声データを生成する。生成された歌声データがスピーカー１０５から再生される。これにより、カラオケユーザーの声質の一部がプロ等の歌手の声質の一部に置き換わった歌声が再生される。

［声質変換処理に付随して行われる処理］
　次に、声質変換処理に付随して行われる処理について説明する。始めに、滑らかな声質変換を実現する処理について説明する。カラオケなどの用途で自分の歌声を、原曲の歌手の歌声に変えて楽しみたいという要求がある。これは、推論時（声質変換処理の実行時）に歌手Ａ（自分）の歌声を他の歌手（原曲歌手）の声質に変更するため、例えば、歌手Ａの話者エンベディング

を歌手Ｂの話者エンベディング

に置き換えることで実現できる。

　しかしながら、カラオケなどの用途では自分の歌声を完全に歌手Ｂの声質に変えるのではなく、少しだけ歌手Ｂに似せたいといった要求がある。これを実現するために、歌手Ａの話者エンベディング

を歌手Ｂの話者エンベディング

に滑らかに変化させる内挿関数

を用いる。αは変化量を決定するスカラー変数であり、ユーザーが決定することもできる。内挿関数は線形補間や、球面線形補間を用いることができる。

　なお、

だけでなく、

も同様に線形補間や球面線形補間を用いて内挿できる。例えば、カラオケユーザーの音程

を元音源歌手の音程

に近づけたい場合、

の様に線形補間することができる。

　次に、リアルタイム化処理について説明する。一般的な多くの歌声変換のアルゴリズムは過去と未来の情報を用いるバッチ処理で行われている。一方、カラオケなどで利用する場合、リアルタイムでの変換が必要となる。この際に未来情報が使えないため、高品質な変換を行うことが困難であった。

　そこで本実施形態では、カラオケでの声質変換では多くの場合、原音源中の歌唱とユーザーの歌唱とは同内容の発話（歌詞）であるパラレルデータの関係に着目し、その特徴を利用してリアルタイム処理でも高品質な変換を可能にする。以下、係る変換を実現する処理の具体例について説明する。

　まず、声質変換部１０３が有するエンコーダ１０３Ａ及びデコーダ１０３Ｃを、全て未来情報を利用しない関数にする。これは、エンコーダ１０３Ａやデコーダ１０３Ｃがリカーレントニューラルネットワーク（ＲＮＮ）や畳み込みニューラルネットワーク（ＣＮＮ）で構成されている場合にこれらを、未来情報を利用しない単方向のＲＮＮやCausal convolutionを利用して構成することで実現できる。

　これにより、リアルタイムでの処理が可能となるものの、特に話者エンベディングの正確な推定には十分に長い入力に基づいて求める必要があるため、歌い始めてしばらくの時間は十分な長さの入力が得られず、高品質な変換は難しい。そこで、カラオケでの声質変換では推論時にパラレルデータの関係を利用し、話者エンベディングの推定に短時間の入力のみを利用することを考える。ここで短時間とは１つまたは少数の音素が含まれるような歌唱音声の持続時間で、例えば、数１００ミリ秒から数秒程度である。一般に異なる話者の同音素間での声質変換は比較的容易であり、高品質に変換が行える。そこで話者エンベディングを音素依存にすることで短時間の情報でも高品質な変換を可能にする。しかしながら、学習時にはパラレルデータがない状況を仮定しているため、話者エンベディングは時不変であるとの制約のもとでモデルを学習する必要がある。すなわち、単純に話者エンベディングを短時間情報から求めるようにすること、換言すれば、音素依存の話者エンベディングの学習はできない。

　そこで、一旦、時不変の話者エンベディングでエンコーダ１０３Ａ及びデコーダ１０３Ｃを学習し、それらのモデルのパラメータを凍結した上でそれらのモデルを使い、事変の話者エンベディングを推定する話者特徴量推定機

を学習する。従って、本処理を行う際の話者エンベディングは事変の特徴量として取り扱われる。

の学習のための目的関数は

と表すことができる。
　ここで、エンコーダ１０３Ａやデコーダ１０３Ｃのパラメータは固定されていることに注意されたい。

の受容野は上記短時間に限られており、上記目的関数を最小化することで求められる。

　このように学習された話者特徴量推定部Ｆは

で指定された発話内容（音素）依存で話者エンベディングを求める推定機となっており、短時間情報のみ基づいてリアルタイムに高品質な変換を可能とする。

　一方で、ある程度長時間歌唱が持続し、十分に長い入力音声から話者エンベディングを求められる時は、図４等を参照して説明した学習を行った話者特徴量推定部Ｆを用いた方時間的安定性が高いことがある。

　そこで、図６に示すように、例えば、話者特徴量推定部１０１Ａが、所定時間以上の長時間情報を用いる話者特徴量推定部（以下、大域的特徴量推定部１２１Ａと適宜、称する）、所定時間より短い短時間情報を用いる話者特徴量推定部（以下、局所的（音素）特徴量推定部１２１Ｂと適宜、称する）、及び、特徴量結合部１２１Ｃを有する構成とする。そして、大域的特徴量推定部１２１Ａ及び局所的特徴量推定部１２１Ｂを両方用いて話者特徴量を求めるようにすることができる。両推定部から求められた話者特徴量は特徴量結合部１２１Ｃによって結合され、最終的な話者エンベディングを求めることに利用される。結合は重み付き線形結合や球面上線形結合などが利用でき、結合重みパラメータは持続時間や入力信号などから求めることができる。例えば話者エンベディング

は以下のように求めることができる。

　但し、Ｔは変換を始めてからの入力長である。αはＴのみに依存して以下のように求めることもできる。

　またはα（ｘ）の様に入力ｘからニューラルネットワークを用いて求めることもできるし、Ｔ、ｘどちらの情報を用いて求めることも可能である。

　次に、歌い間違えに対応する処理について説明する。上述したリアルタイム化の処理は推論時に原曲に含まれる歌唱内容と、ユーザーの歌唱内容が一致するという前提（パラレルデータの仮定）がある。一方で、ユーザーは歌い間違いなどする場合があり、必ずしもこの前提は成り立たない。大きく異なる音素間で上記の短時間入力のみを用いる方法で話者エンベディングを求める場合、大きく変換の品質が劣化する場合がある。

　そこで、本処理を行う場合は、図７に示すように、声質変換部１０３に類似度計算部１０３Ｄを設ける。類似度計算部１０３Ｄは、目的歌手と元歌手のコンテンツエンベディング

の類似度を計算する。類似度計算部１０３Ｄによる計算結果が話者特徴量推定部１０１Ａに供給される。

　話者特徴量推定部１０１Ａは、類似度に応じて話者特徴量推定の際の大域的特徴量と局所的特徴量の結合係数（各話者特徴量推定部により推定された話者に関する特徴量のそれぞれに対する重み付け）や他の特徴量混合の重みを変更する。具体的には類似度が低い場合、発話内容が異なるため、短時間情報に基づく話者特徴量に対する結合の重みを小さくしてその依存度を下げる。換言すれば、主として、大域的特徴量推定部１２１Ａの処理結果を用いる。また、その他の特徴量混合において、元話者の特徴量に対する重みを大きくすることで過度に変換を行うことを抑制し、大きな音質の劣化を抑制する。

　次に、分離音源に対するロバスト化について説明する。歌声変換の学習のためのデータは一般にノイズのないクリーンであるものが好ましい。一方で、本開示では目的話者の歌声音声は音源分離された音声であり、この分離に伴うノイズが含まれている。そのためノイズにより各エンベディングの推定精度が悪化し、変換音声の音質もノイズを含んだものになりやすい。これを防ぐために音源分離ノイズに対して頑健なシステムを構築する方法について説明する。

　音源分離ノイズに対しての頑健性は音源分離された音声と、元のクリーンな音声とで抽出されるエンベディングベクトルが同一になるようにエンコーダ、デコーダ、話者特徴量推定部の学習中に拘束をかけることで実現できる。具体的にはクリーンな音声信号をｘ、伴奏信号をｂ、音源分離機をｈ（）とすると、正則化項

を学習の目的関数に加える。
ここでＥはエンコーダ、又は特徴量抽出器である。再構築に関する損失関数

に関する計算はクリーン音声のみを用いることでデコーダ１０３Ｃの出力をクリーンに保ったまま、分離音声からの特徴量抽出結果がクリーン音声に対するそれと一致するようにエンコーダ１０３Ａを学習することが可能となる。

　以上説明した声質変換処理に付随して行われる処理は、全て行われることが好ましいが、一部の処理が行われてもよいし、必ずしも行われなくてもよい。

＜変形例＞
　以上、本開示の一実施形態について説明したが、本開示は、上述した実施形態に限定されることはなく、本開示の趣旨を逸脱しない範囲で種々の変形が可能である。

　一実施形態で説明した処理の全てがスマートホン１００で行われる必要はない。一部の処理がスマートホン１００とは別の装置、例えば、サーバによって行われてもよい。例えば、図８に示すように、音源分離処理及び話者特徴量推定処理がサーバによって行われ、声質変換処理及び再生処理がスマートホンで行われるようにしてもよい。また、図９に示すように、音源分離処理がサーバによって行われ、声質変換処理、再生処理及び話者特徴量推定処理がスマートホンで行われてもよい。サーバ及びスマートホンの間では、処理結果がネットワークを介して送受信される。

　また、本開示は、装置、方法、プログラム、システム等、任意の形態により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。

　本開示は、以下の構成も採ることができる。
（１）
　混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う声質変換部を有する
　情報処理装置。
（２）
　前記音源分離により前記混合音信号から第１のボーカル信号が分離され、
　前記声質変換部に対して、収音された第２のボーカル信号が入力され、
　前記声質変換部は、前記第１のボーカル信号および前記第２のボーカル信号の何れか一方を他方のボーカル信号に近づける
　（１）に記載の情報処理装置。
（３）
　何れか一方を他方のボーカル信号に近づける変化量が設定可能とされる
　（２）に記載の情報処理装置。
（４）
　さらに、話者に関する特徴量を推定する話者特徴量推定部を有し、
　前記声質変換部は、エンコーダおよびデコーダを有する
　（２）に記載の情報処理装置。
（５）
　前記話者に関する特徴量は、時間的に変化しない特徴に対応する特徴量であり、
　前記エンコーダは、入力されたボーカル信号から、時間的に変化する特徴に対応する特徴量を抽出し、
　前記デコーダは、前記話者特徴量推定部により推定された特徴量および前記エンコーダにより抽出された特徴量に基づいてボーカル信号を生成する
　（４）に記載の情報処理装置。
（６）
　前記時間的に変化しない特徴に対応する特徴量は話者情報であり、
　前記時間的に変化する特徴に対応する特徴量は、音高情報、音量情報、発話情報の少なくとも一つを含む
　（５）に記載の情報処理装置。
（７）
　前記特徴量は、エンベディングベクトルにより規定される
　（６）に記載の情報処理装置。
（８）
　前記エンコーダは、特定の特徴のみを反映した特徴量からエンベディングベクトルを得る学習またはボーカル信号から特定の特徴のみを抽出するような学習を行うことで得られる学習モデルを用いて、前記時間的に変化する特徴に対応する特徴量のエンベディングベクトルを抽出する
　（７）に記載の情報処理装置。
（９）
　前記話者特徴量推定部は、所定の話者のボーカル信号に基づいて当該話者の話者情報を推定する学習により得られる学習モデルを用いて話者の特徴量を推定する
　（６）から（８）までの何れかに記載の情報処理装置。
（１０）
　前記話者特徴量推定部は、所定のボーカル信号に基づいて当該話者の話者情報を推定する学習により得られる学習モデルを用いて話者の特徴量を推定する
　（６）から（８）までの何れかに記載の情報処理装置。
（１１）
　話者特徴量推定部は、第１の話者特徴量推定部および第２の話者特徴推定部を含み、
　前記第１の話者特徴量推定部により推定された話者に関する特徴量と前記第２の話者特徴推定部により推定された話者に関する特徴量とを結合する特徴量結合部を有する
　（４）から（１０）までの何れかに記載の情報処理装置。
（１２）
　前記第１の話者特徴量推定部は所定時間以上のボーカル信号に基づいて話者に関する特徴量を推定し、前記第２の話者特徴量推定部は前記所定時間より短いボーカル信号に基づいて話者に関する特徴量を推定する
　（１１）に記載の情報処理装置。
（１３）
　前記第１のボーカル信号と前記第２のボーカル信号との類似度に応じて、前記特徴量結合部における結合係数を変化させる
　（１１）に記載の情報処理装置。
（１４）
　前記結合係数は、前記第１の話者特徴量推定部により推定された話者に関する特徴量および前記第２の話者特徴量推定部により推定された話者に関する特徴量のそれぞれに対する重み付けである
　（１３）に記載の情報処理装置。
（１５）
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法。
（１６）
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法をコンピュータに実行させるプログラム。

１００・・・スマートホン
１０２・・・音源分離部
１０１Ａ・・・話者特徴量推定部
１０１Ｂ・・・話者特徴量混合部
１０３・・・声質変換部
１０３Ａ・・・エンコーダ
１０３Ｃ・・・デコーダ
１０３Ｄ・・・類似度計算部
１２１Ａ・・・大域的特徴量推定部
１２１Ｂ・・・局所的特徴量推定部

Claims

　混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う声質変換部を有する
　情報処理装置。
　前記音源分離により前記混合音信号から第１のボーカル信号が分離され、
　前記声質変換部に対して、収音された第２のボーカル信号が入力され、
　前記声質変換部は、前記第１のボーカル信号および前記第２のボーカル信号の何れか一方を他方のボーカル信号に近づける
　請求項１に記載の情報処理装置。
　何れか一方を他方のボーカル信号に近づける変化量が設定可能とされる
　請求項２に記載の情報処理装置。
　さらに、話者に関する特徴量を推定する話者特徴量推定部を有し、
　前記声質変換部は、エンコーダおよびデコーダを有する
　請求項２に記載の情報処理装置。
　前記話者に関する特徴量は、時間的に変化しない特徴に対応する特徴量であり、
　前記エンコーダは、入力されたボーカル信号から、時間的に変化する特徴に対応する特徴量を抽出し、
　前記デコーダは、前記話者特徴量推定部により推定された特徴量および前記エンコーダにより抽出された特徴量に基づいてボーカル信号を生成する
　請求項４に記載の情報処理装置。
　前記時間的に変化しない特徴に対応する特徴量は話者情報であり、
　前記時間的に変化する特徴に対応する特徴量は、音高情報、音量情報、発話情報の少なくとも一つを含む
　請求項５に記載の情報処理装置。
　前記特徴量は、エンベディングベクトルにより規定される
　請求項６に記載の情報処理装置。
　前記エンコーダは、特定の特徴のみを反映した特徴量からエンベディングベクトルを得る学習またはボーカル信号から特定の特徴のみを抽出するような学習を行うことで得られる学習モデルを用いて、前記時間的に変化する特徴に対応する特徴量のエンベディングベクトルを抽出する
　請求項７に記載の情報処理装置。
　前記話者特徴量推定部は、所定の話者のボーカル信号に基づいて当該話者の話者情報を推定する学習により得られる学習モデルを用いて話者の特徴量を推定する
　請求項６に記載の情報処理装置。
　前記話者特徴量推定部は、所定のボーカル信号に基づいて当該話者の話者情報を推定する学習により得られる学習モデルを用いて話者の特徴量を推定する
　請求項６に記載の情報処理装置。
　話者特徴量推定部は、第１の話者特徴量推定部および第２の話者特徴推定部を含み、
　前記第１の話者特徴量推定部により推定された話者に関する特徴量と前記第２の話者特徴推定部により推定された話者に関する特徴量とを結合する特徴量結合部を有する
　請求項４に記載の情報処理装置。
　前記第１の話者特徴量推定部は所定時間以上のボーカル信号に基づいて話者に関する特徴量を推定し、前記第２の話者特徴量推定部は前記所定時間より短いボーカル信号に基づいて話者に関する特徴量を推定する
　請求項１１に記載の情報処理装置。
　前記第１のボーカル信号と前記第２のボーカル信号との類似度に応じて、前記特徴量結合部における結合係数を変化させる
　請求項１１に記載の情報処理装置。
　前記結合係数は、前記第１の話者特徴量推定部により推定された話者に関する特徴量および前記第２の話者特徴量推定部により推定された話者に関する特徴量のそれぞれに対する重み付けである
　請求項１３に記載の情報処理装置。
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法。
　声質変換部が、混合音信号からボーカル信号と伴奏信号とを音源分離し、当該音源分離の結果を用いて声質変換を行う
　情報処理方法をコンピュータに実行させるプログラム。