WO2022034779A1

WO2022034779A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2022034779A1
Application number: PCT/JP2021/027178
Authority: WO
Inventors: 貴裕堀
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2020-08-11
Filing date: 2021-07-20
Publication date: 2022-02-17
Anticipated expiration: 2023-02-11
Also published as: JP7604804B2; JP2022032133A

Abstract

画像処理装置は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出部と、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正部と、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力部と、を備える。

Description

画像処理装置および画像処理方法

　本発明は、画像処理装置および画像処理方法に関する。

　近年、リモートワークを導入する企業が増加し、オンライン会議またはビデオ通話の機会が増えてきている。オンライン会議またはビデオ通話の際、通話者の表情を確認するためには、映像を有効にすることが望ましい。映像を有効にする場合、通話者は、女性であれば化粧、男性であれば髭剃り等、通話に適した身だしなみに整えるために手間がかかる。これに対し、ビデオ通話のための映像を、通話に適した状態に補正する技術が提案されている。例えば、特許文献１は、画像データを伴うデータ通信において、瞬きの回数または眼球の充血度により使用者の疲労度を判定し、一定以上の疲労度の場合は予め取り込んでいた画像と合成する技術を開示する。また、特許文献２は、ユーザが事前に決定した「相手に見せてもよい映像」から、映像通信に利用する映像を選択または加工して出力する技術を開示する。

特開２００１－０１６５６４号公報特開２０１２－１４２９２５号公報

　ビデオ通話のための映像は、通話者の疲労度を判定するだけでは、身だしなみが整った状態であるにもかかわらず、不要な補正がされる可能性がある。また、通信用の映像を、相手に見せてもよい映像から常時選択または加工する場合、通信用の映像は、身だしなみが整っているか否かに関わらず補正される可能性がある。さらに、相手に見せてもよい映像をユーザが事前に決定しておくことは、手間がかかる場合があり、使い勝手が最適とは言えない。

　本発明は、一側面では、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正する技術を提供することを目的とする。

　本発明は、上記目的を達成するために、以下の構成を採用する。

　本開示の第一側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出部と、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正部と、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力部と、を備えることを特徴とする画像処理装置を提供する。

　「基準画像」は、例えば、ユーザの身だしなみが整った状態の画像である。画像処理装置は、ユーザの撮像画像と基準画像とを照合した結果に基づいて、撮像画像を補正するか否かを判定することができる。画像処理装置は、補正をするか否かの判定に応じて自動で撮像画像を補正するため、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。

　特徴量は、ユーザの顔で変化を捉えやすい部位の特徴量であってもよい。撮像画像および基準画像から、ユーザの顔で変化を捉えやすい部位の特徴量を抽出することで、画像処理装置は、同一のユーザ間で照合した場合に、撮像画像の身だしなみが整っているか否か、すなわち、補正処理を無効にするか否かを精度良く判定することができる。

　特徴量は、Ｈａａｒ－ｌｉｋｅ特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含むものであってもよい。また、特徴量は、身だしなみが整った状態の画像および身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出されてもよい。画像処理装置は、各種の特徴量またはこれらの組み合わせた特徴量を使用して補正処理を有効にするか否かを判定することができる。

　判定部は、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量との一致度を算出して、一致度が所定の閾値未満である場合に補正処理を有効にし、一致度が所定の閾値以上である場合に補正処理を無効にすると判定してもよい。画像処理装置は、ユーザの撮像画像と基準画像との一致度に基づいて、撮像画像を補正するか否かを判定し、自動で撮像画像を補正することができる。これにより、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。

　補正部は、一致度に応じてユーザの撮像画像に対する補正量を変化させてもよい。撮像画像と登録画像との一致度に応じて補正量を変化させることで、ユーザは、身だしなみがある程度整っている場合には、不要な補正を抑制することができる。

　補正部は、ユーザの撮像画像およびユーザの基準画像に基づいて、補正画像を生成してもよい。例えば、補正部は、ユーザの撮像画像およびユーザの基準画像を学習させたＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ、敵対的生成ネットワーク）により、補正画像を生成してもよい。また、補正部は、ユーザの基準画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を切り出した画像で置き換えることにより、補正画像を生成してもよい。ユーザの撮像画像および基準画像に基づいて補正画像を生成することで、画像処理装置は、基準画像により近い補正画像を生成することができる。

　補正部は、ユーザの撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより補正画像を生成してもよい。画像処理装置は、各種の顔の特徴情報に基づいて、基準画像を使用せずに補正画像を生成することができるため、ユーザは、基準画像を用意する手間を省くことができる。

　判定部は、補正処理を有効にするか無効にするかを、ユーザの撮像画像の所定のフレーム数ごとに判定してもよい。画像処理装置は、ビデオ通話中に口紅などの化粧が落ちた場合にも撮像画像を補正することができるため、ユーザは、身だしなみの崩れを気にすることなく通話を継続できる。

　画像処理装置は、ユーザの撮像画像を撮像する撮像部を、さらに備えてもよい。画像処理装置は、撮像部と一体に構成されることにより、簡易な構成とすることができる。

　本発明の第二側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出ステップと、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正ステップと、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力ステップと、を含むことを特徴とする人体検出方法を提供する。

　本発明によれば、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正することができる。

図１は、実施形態に係る画像処理装置の適用例を説明する図である。図２は、画像処理装置の機能構成を例示する図である。図３は、画像補正処理を例示するフローチャートである。図４Ａおよび図４Ｂは、顔の特徴量を抽出する第１の例を示す図である。図５Ａおよび図５Ｂは、顔の特徴量を抽出する第２の例を示す図である。図６は、撮像画像の補正処理の例を示す図である。

　以下、本発明の一側面に係る実施の形態を、図面に基づいて説明する。

　＜適用例＞
　図１は、実施形態に係る画像処理装置の適用例を説明する図である。画像処理装置は、カメラから入力されるカメラ画像（撮像画像）と、予めＤＢ（データベース）に登録されている登録画像（基準画像）とを取得し、各画像から特徴を抽出する。登録画像は、例えば、ユーザの身だしなみが整った状態の画像であり、撮像画像を補正するか否かを判定するための基準となる画像である。

　画像処理装置は、カメラ画像と登録画像との特徴量を照合し、一致度を評価する。一致度が所定の閾値以上である場合、画像処理装置は、ユーザの身だしなみが整っていると判断し、カメラ画像に対する補正処理を無効にする。一致度が所定の閾値未満である場合、画像処理装置は、ユーザの身だしなみが整っていないと判断して補正処理を有効にする。このように、画像処理装置は、カメラ画像の特徴量と登録画像の特徴量とを照合した結果に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定する。

　画像処理装置は、補正処理を有効にした場合、ユーザのカメラ画像を補正して表示画像（補正画像）を生成し、通話相手が通話に使用する他のコンピュータに送信して表示させる。また、補正画像は画像処理装置のディスプレイに表示されてもよい。表示画像は、ユーザの身だしなみが整った状態の登録画像に基づいて生成することができる。これにより、ユーザは、身だしなみが整っていない場合に、特別な操作をしなくても補正された画像が表示されるため、身だしなみの状態を気にすることなく、ビデオ通話に臨むことができる。

　＜実施形態＞
　（装置構成）
　図２を参照して、画像処理装置１の機能構成の一例について説明する。図２は、画像処理装置１の機能構成を例示する図である。画像処理装置１は、撮像部１０、登録画像データベース１１、特徴抽出部１２、補正判定部１３、補正処理部１４、出力部１５を含む。

　撮像部１０は、通話者であるユーザを撮像する。登録画像データベース１１は、ユーザの撮像画像を補正するか否かを判定するための基準となる登録画像（基準画像）を格納する。登録画像データベース１１は、各ユーザに対し、複数の登録画像を格納してもよい。登録画像は、例えば、ユーザが画像処理装置１で初めて通話した際の撮像画像とすることができる。また、登録画像は、ユーザが表示装置に表示された画像を確認しながら選択した画像としてもよい。なお、登録画像データベース１１は、ユーザの登録画像に限られず、身だしなみが整った状態での特徴量の情報を保持するものであってもよい。

　特徴抽出部１２（抽出部）は、ユーザの撮像画像および登録画像から特徴量を抽出する。特徴量は、例えば、Ｈａａｒ－ｌｉｋｅ特徴量、カラーヒストグラム、カラーモーメントである。また、特徴抽出部１２は、これらの組み合わせを、補正処理を有効にするか無効にするかを判定するための特徴量としてもよい。

　補正判定部１３（判定部）は、特徴抽出部１２が抽出した特徴量に基づいて、撮像画像に対する補正処理を有効にするか否かを判定する。具体的には、補正判定部１３は、ユーザの撮像画像の特徴量と、ユーザの登録画像の特徴量とを照合し、一致度を算出する。

　例えば、補正判定部１３は、眉と額側の肌との境界周辺のＨａａｒ－ｌｉｋｅ特徴量を、撮像画像および登録画像のそれぞれで算出し、「（登録画像の特徴量－各特徴量の差分）／登録画像の特徴量」を一致度として算出することができる。補正判定部１３は、眉と額側の肌との境界以外にも、複数部位でＨａａｒ－ｌｉｋｅ特徴量を算出し、これらの平均値を一致度としてもよい。

　補正判定部１３は、一致度が所定の閾値（例えば、８０％）以上である場合、ユーザの撮像画像に対する補正処理を無効にすると判定し、一致度が所定の閾値未満である場合、補正処理を有効にすると判定することができる。

　補正処理部１４（補正部）は、補正判定部１３が補正処理を有効にすると判定した場合に、ユーザの撮像画像を補正する。補正処理部１４は、例えば、ユーザの身だしなみが整った画像および整っていない画像を学習させたＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）により、補正画像を生成することができる。また、補正処理部１４は、登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、切り出した画像で置き換えて合成することにより、補正画像を生成することも可能である。さらに、補正処理部１４は、ユーザの撮像画像に対してノイズを除去するフィルタ処理または彩度調整をすることにより、補正画像を生成することも可能である。

　出力部１５は、通話者であるユーザの画像を出力する。出力部１５が出力した映像は、他のコンピュータに送信される。また、出力部１５が出力した映像は、画像処理装置１の表示装置に表示されてもよい。出力部１５は、補正判定部１３がユーザの撮像画像に対する補正処理を有効にすると判定した場合は、補正後のユーザの撮像画像（補正画像）を出力し、補正処理を無効にすると判定した場合は、ユーザの撮像画像を補正せずに出力する。補正判定部１３が補正処理を有効にすると判定した場合、出力部１５は、通話相手が通話に使用するタブレット端末等の電子機器に、補正後のユーザの撮像画像を送信して表示させる。

　本実施形態の画像処理装置１は、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよく、オンボードコンピュータのように組み込み型のコンピュータでもよい。画像処理装置１は、ＣＰＵ（プロセッサ）、ＲＡＭ（メモリ）、不揮発性のストレージ（ＨＤＤ、ＳＳＤなど）、入力装置（タッチパネルなど）、通信装置（有線又は無線のＬＡＮモジュールなど）を有する。また、画像処理装置１は、レンズおよび撮像素子（ＣＣＤやＣＭＯＳなどのイメージセンサ）を含む撮像装置、表示装置（液晶モニタなど）などのハードウェア資源も有する。

　プロセッサは、ストレージに格納されたプログラムをＲＡＭに展開して実行することにより、図２で説明する各機能部の機能を実現する。なお、画像処理装置１の実現方法はこれに限られない。画像処理装置１は、例えば、複数台のコンピュータ装置による分散コンピューティングにより実現されてもよく、各機能部の一部をクラウドサーバにより実現されてもよい。また、画像処理装置１の各機能部の一部は、ＦＰＧＡまたはＡＳＩＣなどの専用のハードウェア装置によって実現されてもよい。

　（画像補正処理）
　図３に沿って画像補正処理の全体的な流れを説明する。図３は、画像補正処理を例示するフローチャートである。画像補正処理は、例えば、ユーザが、画像処理装置１で通話に使用するアプリケーションを起動することにより開始される。なお、図３に示す画像補正処理は、カメラ画像（撮像画像）のフレームごとに実行される処理である。

　Ｓ１０１では、特徴抽出部１２は、撮像部１０で撮像されたユーザのカメラ画像を取得する。特徴抽出部１２は、カメラ画像の１フレームごとにＳ１０２の処理に進む。以下、各処理の説明で、カメラ画像は、撮像部１０から受信するデータの１フレームの画像であるものとして説明する。

　Ｓ１０２では、特徴抽出部１２は、カメラ画像が、特徴量を評価するタイミングの画像であるか否かを判定する。特徴量を評価するタイミングは、例えば、特徴抽出部１２が、各フレームのうち最初に人の顔を認識したタイミングとすることができる。なお、特徴量を評価するタイミングは、最初に人の顔を認識したタイミングに限られず、所定のフレーム数（例えば、３０フレーム）ごと、または所定時間（例えば、５分）ごとのように所定の間隔としてもよい。カメラ画像が、特徴量を評価するタイミングの画像である場合（Ｓ１０２：Ｙｅｓ）、処理はＳ１０３に進む。カメラ画像が、特徴量を評価するタイミングの画像でない場合（Ｓ１０２：Ｎｏ）、処理はＳ１０８に進む。

　Ｓ１０３では、特徴抽出部１２は、カメラ画像の特徴量を抽出する。また、登録画像データベース１１からユーザの登録画像を取得し、登録画像の特徴量を抽出する。ここで、図４および図５を用いて、特徴量の抽出について説明する。

　・特徴量抽出の第１の例
　図４は、顔の特徴量を抽出する第１の例を示す図である。図４の例は、ユーザ固有の経年変化しにくい特徴点を選択し、特徴点の周辺でＨａａｒ－ｌｉｋｅ特徴量を抽出する例である。図４Ａのカメラ画像および図４Ｂの登録画像に示す丸印は、ユーザ固有の経年変化しにくい特徴点を示す。

　図４Ａは、カメラ画像とともに、ユーザの左目周辺の領域でＨａａｒ－ｌｉｋｅ特徴量を算出した結果を示す。図４Ａは、エッジを識別する矩形パターン（上下または左右に２分割をして一方が白、他方が黒のフィルタ）等を使用してＨａａｒ－ｌｉｋｅ特徴量を算出した例を示す。算出されたＨａａｒ－ｌｉｋｅ特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻４０１aでのＨａａｒ－ｌｉｋｅ特徴量は、グレー４０１ｂで示される。

　図４Ｂは、登録画像とともに、ユーザの左目周辺の領域でＨａａｒ－ｌｉｋｅ特徴量を算出した結果を示す。Ｈａａｒ－ｌｉｋｅ特徴量は、図４Ａと同様に算出されたものとする。算出されたＨａａｒ－ｌｉｋｅ特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻４０２aでのＨａａｒ－ｌｉｋｅ特徴量は、図４Ａの４０１ｂよりも濃いグレー４０２ｂで示される。このように、登録画像では、アイライン等のメイクアップによる濃淡差により、カメラ画像よりもＨａａｒ－ｌｉｋｅ特徴量が大きくなるため、４０２ｂは４０１ｂよりも濃くなる。

　図４に示す第１の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるＨａａｒ－ｌｉｋｅ特徴量の一致度に基づいて算出することができる。カメラ画像と登録画像との一致度は、各特徴点での一致度の合計値または平均値としてもよい。各特徴点での一致度は、例えば、（Ｘ－｜Ｘ－Ｙ｜）／Ｘ（ただし、Ｘ：登録画像の特徴点でのＨａａｒ－ｌｉｋｅ特徴量、Ｙ：カメラ画像の対応する特徴点でのＨａａｒ－ｌｉｋｅ特徴量）として算出することができる。

　なお、ユーザ固有の経年変化しにくい特徴点で特徴量を照合する方法は、顔認証のアルゴリズムを用いて実現することも可能である。補正判定部１３は、Ｓ１０４およびＳ１０５の判定処理で、顔認証アルゴリズムによって本人であるか否かを示すスコアを算出し、カメラ画像と登録画像との一致度として使用することができる。

　・特徴量抽出の第２の例
　図５は、顔の特徴量を抽出する第２の例を示す図である。図５の例は、同一ユーザ間で変化を捉えやすい特徴点を選択し、特徴点の周辺でＨａａｒ－ｌｉｋｅ特徴量を抽出する例である。図５Ａのカメラ画像および図５Ｂの登録画像に示す丸印は、同一ユーザ間で変化を捉えやすい特徴点を示す。

　図５Ａは、カメラ画像とともに、ユーザの左頬周辺の領域でＨａａｒ－ｌｉｋｅ特徴量を算出した結果を示す。図５Ａは、エッジを識別する矩形パターン（上下または左右に２分割をして一方が白、他方が黒のフィルタ）等を使用してＨａａｒ－ｌｉｋｅ特徴量を算出した例を示す。算出されたＨａａｒ－ｌｉｋｅ特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央５０１aでのＨａａｒ－ｌｉｋｅ特徴量は、白５０１ｂで示される。

　図５Ｂは、登録画像とともに、ユーザの左頬周辺の領域でＨａａｒ－ｌｉｋｅ特徴量を算出した結果を示す。Ｈａａｒ－ｌｉｋｅ特徴量は、図５Ａと同様に算出されたものとする。算出されたＨａａｒ－ｌｉｋｅ特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央５０２aでのＨａａｒ－ｌｉｋｅ特徴量は、グレー５０２ｂで示される。このように、登録画像では、頬紅等のメイクアップによる濃淡差により、カメラ画像よりもＨａａｒ－ｌｉｋｅ特徴量が大きくなるため、５０２ｂは４０１ｂよりも濃くなる。

　図５に示す第２の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるＨａａｒ－ｌｉｋｅ特徴量の一致度に基づいて、図４の第１の例と同様に算出することができる。なお、女性の頬または男性の髭のように、身だしなみを整える前後で色が変化する部位で抽出する特徴量は、Ｈａａｒ－ｌｉｋｅ特徴量に限られず、カラーヒストグラム、カラーモーメント等の特徴量、またはこれらを組み合わせた特徴量であってもよい。

　第２の例では、同一ユーザ間で変化を捉えやすい特徴点での特徴量を照合するため、補正判定部１３は、身だしなみが整っているか否かを精度良く判定することができる。同一ユーザ間で変化を捉えやすい特徴点は、女性の場合は、眉、目尻、頬、口等の部位、男性の場合は、髭が生える口周り等の部位から選択すればよい。男女の性別によって照合する特徴点の部位を変えることで、身だしなみが整っているか否かは、より精度良く判定することが可能となる。

　・特徴量抽出の第３の例
　顔の特徴量を抽出する第３の例として、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）等のディープラーニングにより生成された学習モデルを使用する例について説明する。第３の例で使用する学習モデルは、例えば、ＣＮＮに、身だしなみが整っている画像および身だしなみが整っていない画像を学習させて生成したモデルである。ＣＮＮに学習させる画像は、ユーザ本人以外の画像であってもよく、ユーザ本人の画像を含んでもよい。特徴抽出部１２は、生成された学習モデルを使用して、ＣＮＮのアリゴリズムにより登録画像（身だしなみが整っている画像）およびカメラ画像のスコアを特徴量として抽出する。補正判定部１３は、Ｓ１０４およびＳ１０５の判定処理で、登録画像のスコアとカメラ画像のスコアとの一致度に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定することができる。

　図３に戻り、Ｓ１０４では、補正判定部１３は、Ｓ１０３で抽出されたカメラ画像の特徴量と登録画像の特徴量とを照合する。具体的には、補正判定部１３は、カメラ画像の特徴量と登録画像の特徴量とに基づいて、カメラ画像と登録画像との一致度を算出する。カメラ画像と登録画像との一致度は、上記の第１の例から第３の例で説明したように、各画像から抽出する特徴量の種類に応じた方法で算出される。

　Ｓ１０５では、補正判定部１３は、Ｓ１０４で算出したカメラ画像と登録画像との一致度が、所定の閾値以上であるか否かを判定する。一致度が所定の閾値以上である場合（Ｓ１０５：Ｙｅｓ）、処理はＳ１０７に進む。一致度が所定の閾値未満である場合（Ｓ１０５：Ｎｏ）、処理はＳ１０６に進む。

　Ｓ１０６では、カメラ画像と登録画像との一致度が所定の閾値未満であるため、補正判定部１３は、補正フラグをオン（ＯＮ）に設定し、カメラ画像の補正処理を有効にする。Ｓ１０７では、カメラ画像と登録画像との一致度が所定の閾値以上であるため、補正判定部１３は、補正フラグをオフ（ＯＦＦ）に設定し、カメラ画像の補正処理を無効にする。

　補正フラグは、補正処理部１４が、ユーザの撮像画像に対する補正処理を実行するか否かを決定するためのフラグである。Ｓ１０６で補正フラグがオンに設定されると、後のフレームに対してＳ１０７で補正フラグがオフに設定されるまで、補正処理は有効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオンに設定されると、補正処理部１４は、通話が終了するまでカメラ画像の補正処理を継続する。

　これに対し、Ｓ１０７で補正フラグがオフに設定されると、後のフレームに対してＳ１０６で補正フラグがオンに設定されるまで、補正処理は無効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオフに設定されると、カメラ画像は補正されずに表示装置に表示される。

　また、特徴量を評価するタイミングが、所定のフレーム数ごとである場合、Ｓ１０６で補正フラグがオンに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は有効となる。反対に、Ｓ１０７で補正フラグがオフに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は無効となり、カメラ画像は補正されずに表示装置に表示される。

　Ｓ１０８では、補正処理部１４は、補正フラグがオン（ＯＮ）であるか否かを判定する。補正フラグがオンである場合（Ｓ１０８：Ｙｅｓ）、処理はＳ１０９に進む。補正フラグがオフである場合（Ｓ１０８：Ｎｏ）、補正処理部１４はカメラ画像を補正せずに出力部１５に出力し、処理はＳ１１０に進む。

　Ｓ１０９では、補正処理部１４は、ユーザのカメラ画像を補正して補正画像を生成する。ここで、補正処理部１４が、補正画像を生成する３つの方法について説明する。１つ目および２つ目の方法は、カメラ画像および登録画像に基づいて補正画像を生成する方法である。３つ目の方法は、予め用意された顔の特徴情報に基づいてカメラ画像を補正することにより、補正画像を生成する方法である。

　１つ目の方法は、ユーザの身だしなみが整った画像と整っていない画像とを学習させたＧＡＮによって補正画像を生成する方法である。ＧＡＮは、例えば、補正フラグがオフの場合のカメラ画像を、身だしなみが整った画像のデータとして学習させることができる。また、ＧＡＮは、補正フラグがオンの場合のカメラ画像を、身だしなみが整っていない画像のデータとして学習させることができる。補正処理部１４は、学習済みのＧＡＮにより、身だしなみが整った補正画像を生成することができる。

　２つ目の方法は、ユーザの登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、登録画像から切り出した画像に置き換えて、補正画像を生成する方法である。図１を用いて、２つ目の方法を具体的に説明する。図１の例では、補正処理部１４は、登録画像の眉、目、口の画像を切り出す。補正処理部１４は、カメラ画像での眉、目、口を、登録画像から切り出した眉、目、口の画像に置き換えて、補正画像を生成することができる。

　なお、カメラ画像の一部を登録画像から切り出した画像に置き換えてこれらの画像を合成する際、カメラ画像と登録画像との一致度に応じて、補正量（ここでは、合成する割合）を変化させてもよい。例えば、補正処理部１４は、一致度が高くなるにつれて補正量を減らし、一致度が低くなるにつれて補正量を増やせばよい。

　また、ユーザは、登録画像の顔全体を切り出して置換するのか、一部を切り出して置換するのかを設定できるようにしてもよい。また、登録画像の一部を切り出す場合、ユーザは、顔のどの部位を切り出して置換するのかを設定できるようにしてもよい。

　３つ目の方法は、登録画像は使用せずに、予め登録画像データベース１１等に格納された顔の特徴情報に基づいてカメラ画像を補正し、補正画像を生成する方法である。顔の特徴情報は、例えば、メイクアップを施した場合の眉、口、頬、肌の色または明るさ等の情報である。顔の特徴情報は、例えば、仕事用、プライベート用などビデオ通話のシーンに応じて複数のパターンが用意されてもよい。ユーザは、ビデオ通話のシーンに応じて登録画像用意する手間を省くことができる。

　図６を用いて、３つ目の方法を具体的に説明する。図６の例では、補正処理部１４は、カメラ画像での頬のシミを、ノイズを除去するフィルタ処理により除去している。また、補正処理部１４は、顔の特徴情報に基づいて、眉、口、頬、肌の彩度調整をすることにより、補正画像（表示画像）を生成することができる。なお、フィルタ処理または彩度調整をする場合に、カメラ画像と登録画像との一致度に応じて補正量を変化させてもよい。

　図３に戻り、Ｓ１１０では、出力部１５は、補正処理部１４から出力された映像を出力する。すなわち、出力部１５は、補正フラグがオンに設定されている場合、補正処理部１４が生成した補正画像を出力する。また、出力部１５は、補正フラグがオフに設定されている場合、補正されていないユーザのカメラ画像を出力する。出力部１５が出力した映像は、他のコンピュータに送信され表示される。また、出力部１５が出力した映像は、表示装置に表示される。

　画像処理装置１は、ユーザが通話を終了するまでの間、フレームごとに上記の処理を繰り返す。ユーザが通話を終了すると、Ｓ１０１でカメラ画像は取得されなくなり、図３に示す画像補正処理は終了する。

　（作用効果）
　上記の実施形態において、画像処理装置１は、カメラ画像（撮像画像）と、身だしなみが整っている登録画像を取得し、各画像から特徴量を抽出して一致度を評価する。画像処理装置１は、一致度が所定の閾値以上であれば、身だしなみが整っていると判定し補正処理を無効にする。また、画像処理装置１は、一致度が所定の閾値未満であれば、身だしなみが整っていないと判定し、補正処理を有効にする。これにより、通話者（ユーザ）は、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。

　＜その他＞
　上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。

　例えば、上記の実施形態では、補正判定部１３は、カメラ画像と登録画像との特徴量を照合し、一致度を評価するがこれに限られない。補正判定部１３は、カメラ画像の特徴量と登録画像の特徴量との差分を評価して、差分が所定の閾値以上の場合に補正処理を有効にし、差分が所定の閾値未満の場合に補正処理を無効にしてもよい。

　また、例えば、上記の実施形態では、補正判定部１３は、カメラ画像と身だしなみが整った状態の画像との一致度が所定の閾値以上の場合に、補正処理を無効にするがこれに限られない。登録画像データベース１１に身だしなみが整っていない状態の画像をユーザの基準画像として格納してもよい。この場合、補正判定部１３は、カメラ画像と身だしなみが整っていない状態の画像との一致度が所定の閾値未満の場合に補正処理を無効にし、一致度が所定の閾値以上の場合に補正処理を有効にするようにしてもよい。

　＜付記１＞
　（１）ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部（１２）と、
　前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部（１３）と、
　前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部（１４）と、
　前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部（１５）と、
を備えることを特徴とする画像処理装置（１）。

　（２）ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出ステップと（Ｓ１０３）、
　前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと（Ｓ１０４～Ｓ１０７）、
　前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと（Ｓ１０８、Ｓ１０９）、
　前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと（Ｓ１１０）、
を含むことを特徴とする画像処理方法。

１：画像処理装置、１０：撮像部、１１：登録画像データベース、１２：特徴抽出部、１３：補正判定部、１４：補正処理部、１５：出力部

Claims

　ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部と、
　前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、
　前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部と、
　前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部と、
を備えることを特徴とする画像処理装置。
　前記特徴量は、前記ユーザの顔で変化を捉えやすい部位の特徴量である
ことを特徴とする請求項１に記載の画像処理装置。
　前記特徴量は、Ｈａａｒ－ｌｉｋｅ特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含む
ことを特徴とする請求項１または２に記載の画像処理装置。
　前記特徴量は、身だしなみが整った状態の画像および身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出される
ことを特徴とする請求項１から３のいずれか１項に記載の画像処理装置。
　前記判定部は、前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量との一致度を算出して、前記一致度が所定の閾値未満である場合に前記補正処理を有効にし、前記一致度が所定の閾値以上である場合に前記補正処理を無効にすると判定する
ことを特徴とする請求項１から４のいずれか１項に記載の画像処理装置。
　前記補正部は、前記一致度に応じて前記ユーザの撮像画像に対する補正量を変化させることを特徴とする請求項５に記載の画像処理装置。
　前記補正部は、前記ユーザの撮像画像および前記ユーザの基準画像に基づいて、前記補正画像を生成する
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　前記補正部は、前記ユーザの撮像画像および前記ユーザの基準画像を学習させたＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）により、前記補正画像を生成する
ことを特徴とする請求項７に記載の画像処理装置。
　前記補正部は、前記ユーザの基準画像の一部または顔全体を切り出し、前記ユーザの撮像画像の対応する部位を切り出した画像で置き換えることにより、前記補正画像を生成する
ことを特徴とする請求項７に記載の画像処理装置。
　前記補正部は、前記ユーザの撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより前記補正画像を生成する
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
　前記判定部は、前記補正処理を有効にするか無効にするかを、前記ユーザの撮像画像の所定のフレーム数ごとに判定する
ことを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
　前記ユーザの撮像画像を撮像する撮像部を、さらに備える
ことを特徴とする請求項１から１１のいずれか１項に記載の画像処理装置。
　ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出ステップと、
　前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、
　前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと、
　前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと、
を含むことを特徴とする画像処理方法。
　請求項１３に記載の方法の各ステップをコンピュータに実行させるためのプログラム。