JP7133045B2

JP7133045B2 - 特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体

Info

Publication number: JP7133045B2
Application number: JP2020572845A
Authority: JP
Inventors: 佳▲チー▼ 王; ▲かい▼ ▲陳▼; 瑞徐; 子▲緯▼ ▲劉▼; 健勤 ▲呂▼; ▲達▼▲華▼ 林
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-04-30
Filing date: 2020-02-19
Publication date: 2022-09-07
Anticipated expiration: 2040-02-19
Also published as: JP2021528778A; WO2020220797A1; SG11202012438VA; US11049217B2; CN110084309B; KR20210024126A; US20210104015A1; CN110084309A

Description

本発明は、コンピュータビジョン技術に関し、具体的に特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体に関する。

コンピュータビジョンタスクでは、特徴マップ拡大が最も基本的な操作の１つである。例えば、物体検出、画像意味領域分割、画像修復等のような、密に予測される必要のあるタスクでは、ニューラルネットワークから出力された低解像度の特徴マップを拡大することで高解像度の予測結果を取得してニューラルネットワークの学習及びテストを行う必要がある。更に例えば、ニューラルネットワーク設計では、低解像度の特徴マップを拡大してから高解像度の特徴マップとマージすることも、よく見られる操作である。

特徴マップ拡大を実現する方法は、最近傍補間、双線形補間及びデコンボリューション等を含んでもよい。ただし、最近傍補間及び双線形補間では、空間距離に応じて特徴マップを拡大したため、特徴マップに含まれる豊富な意味特徴が放棄されてしまった。デコンボリューションでは、特徴マップの意味特徴を利用して特徴マップを拡大してみたが、拡大された特徴マップの性能について改良する必要がある。

本発明は、少なくとも特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体を提供する。

第１態様は、特徴マップ拡大の方法を提供する。前記方法は、拡大すべきソース特徴マップを受信するステップと、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得するステップと、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップと、前記ソース特徴マップにおけるソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するステップと、前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、目標特徴マップを生成するステップと、を含み、前記Ｎは、前記ソース特徴マップに対する拡大倍数の二乗である。

本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップに対して畳み込み処理を行うステップは、Ｃ_ｕｐ個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Ｃ_ｕｐ個のチャンネルの再構成カーネル図を取得することと、前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するＣ_ｕｐ個のチャンネルの畳み込み出力特徴をＮ部に均等に分け、各部を前記ソース位置に対応する１つの前記再構成カーネルとすることと、を含み、前記Ｃ_ｕｐは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記１つの前記再構成カーネルは、Ｃ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴を含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴をフラット化し、２次元の再構成カーネルを取得するステップと、前記ソース位置を中心とする前記再構成領域を取得するステップと、を更に含み、前記再構成領域のサイズは、前記２次元の再構成カーネルのサイズと同じである。

本発明に供される何れかの実施形態を組み合わせたうえで、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップは、それぞれの前記再構成カーネルにおけるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得することを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するステップは、正規化後のＮ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得することと、前記Ｎ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得することと、を含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得することは、前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの前記再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とすることを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、前記目標特徴マップを生成するステップは、前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得することと、前記Ｎ個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填することと、を含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップは、トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニングすべきニューラルネットワークが前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するステップと、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップと、を更に含み、前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップは、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整することを更に含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記ソース特徴マップは、トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップを更に含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記方法は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、検出すべき少なくとも１つの目標物体を含み、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力することを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、欠け部を含み、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力することを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力することを含む。

第２態様は、特徴マップ拡大装置を提供する。前記装置は、拡大すべきソース特徴マップを受信するためのソースマップ受信モジュールと、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得するためのカーネル生成モジュールと、各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するための正規化処理モジュールと、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するための特徴再構成モジュールと、前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、目標特徴マップを生成するための目標マップ生成モジュールと、を備え、前記Ｎは、前記ソース特徴マップに対する拡大倍数の二乗である。

本発明に供される何れかの実施形態を組み合わせたうえで、前記カーネル生成モジュールは、Ｃ_ｕｐ個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Ｃ_ｕｐ個のチャンネルの再構成カーネル図を取得し、前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するＣ_ｕｐ個のチャンネルの畳み込み出力特徴をＮ部に均等に分け、各部を前記ソース位置に対応する１つの前記再構成カーネルとし、前記Ｃ_ｕｐは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記１つの前記再構成カーネルは、Ｃ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴を含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、更に、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴をフラット化し、２次元の前記再構成カーネルを取得し、前記ソース位置を中心とする前記再構成領域を取得し、前記再構成領域のサイズは、前記２次元の再構成カーネルのサイズと同じである。

本発明に供される何れかの実施形態を組み合わせたうえで、前記正規化処理モジュールは、それぞれの前記再構成カーネルにおけるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、正規化後のＮ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得し、前記Ｎ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴再構成モジュールは、前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とする。

本発明に供される何れかの実施形態を組み合わせたうえで、前記目標マップ生成モジュールは、前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得し、前記Ｎ個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、トレーニングすべきニューラルネットワークに含まれ、前記ソースマップ受信モジュールで受信されたソース特徴マップは、前記トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、前記カーネル生成モジュールは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記特徴マップ拡大装置は、目標特徴マップが前記目標マップ生成モジュールによって生成された後、前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するための予測処理モジュールと、前記サンプル画像のマーク結果と予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するためのパラメータ調整モジュールと、を更に備え、前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュールを更に備え、前記カーネル処理モジュールは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行い、前記パラメータ調整モジュールは、更に、前記サンプル画像のマーク結果と予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、トレーニング完了されたニューラルネットワークに含まれ、前記ソースマップ受信モジュールで受信されたソース特徴マップは、前記トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、前記カーネル生成モジュールは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記特徴マップ拡大装置は、前記目標特徴マップが前記目標マップ生成モジュールによって生成された後、前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するための結果出力モジュールを更に備える。

本発明に供される何れかの実施形態を組み合わせたうえで、前記特徴マップ拡大装置は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュールを更に備え、前記カーネル処理モジュールは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行う。

本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、検出すべき少なくとも１つの目標物体を含み、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記入力画像は、欠け部を含み、前記結果出力モジュール前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力する。

本発明に供される何れかの実施形態を組み合わせたうえで、前記結果出力モジュールは、前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力する。

第３態様は、特徴マップ拡大機器を提供する。前記機器は、メモリと、プロセッサとを備える。ただし、前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに、本発明の何れかの実施例の特徴マップ拡大方法を実施する。

第４態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されたときに、本発明の何れかの実施例の特徴マップ拡大方法は、実施される。

本発明の１つ又は複数の実施例の特徴マップ拡大方法、装置、機器及びコンピュータ可読記憶媒体では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なるソース位置において異なる再構成カーネルは取得される。換言すれば、本実施例の再構成カーネルは、ソース特徴マップにおける位置に対応し、ソース特徴マップの前記位置におけるコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。

本発明の１つ又は複数の実施例や関連技術における技術案がより明瞭に説明されるように、以下では、実施例や関連技術の記述に必要な図面を簡単に紹介する。以下の記述に係る図面が単に本発明の１つ又は複数の実施例において記載された幾つかの実施例に過ぎず、当業者であれば、進歩性に値する労働を掛けずにこれらの図面から他の図面を取得可能である。
本発明の少なくとも１つの実施例に係る特徴マップ拡大方法の模式的なフローチャートである。本発明の少なくとも１つの実施例に係る特徴マップ拡大ネットワークである。本発明の少なくとも１つの実施例に係るトレーニングすべきニューラルネットワークに適用される特徴マップ拡大方法の模式的なフローチャートである。本発明の少なくとも１つの実施例に係るソース特徴マップ拡大原理図である。本発明の少なくとも１つの実施例に係る別の特徴マップ拡大方法である。本発明の少なくとも１つの実施例に係る再構成カーネル図の生成原理の模式図である。本発明の少なくとも１つの実施例に係る再構成カーネル図の変換の模式図である。本発明の少なくとも１つの実施例に係る特徴再構成のフローチャートである。本発明の少なくとも１つの実施例に係る再構成特徴の生成の模式図である。本発明の少なくとも１つの実施例に係るトレーニング完了されたニューラルネットワークに適用される特徴マップ拡大方法の模式的なフローチャートである。本発明の少なくとも１つの実施例に係るＦＰＮのネットワーク構造の模式図である。本発明の少なくとも１つの実施例に係る特徴マップ拡大装置の模式的なブロック図である。本発明の少なくとも１つの実施例に係る別の特徴マップ拡大装置の模式的なブロック図である。本発明の少なくとも１つの実施例に係る更に別の特徴マップ拡大装置の模式的なブロック図である。

本発明の１つ又は複数の実施例における技術案がより良好に当業者に理解されるように、以下では、本発明の１つ又は複数の実施例の図面を組み合わせて本発明の１つ又は複数の実施例における技術案を明瞭で完全に記述する。記述される実施例が単に本発明の一部の実施例に過ぎず、全部の実施例ではない。本発明の１つ又は複数の実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。

特徴マップ拡大操作は、物体検出、画像意味領域分割等の複数種のタスクにおいて広く応用されている。本発明は、特徴マップ拡大方法を提供する。当該方法は、拡大すべき特徴マップの異なる位置でのコンテンツに基づいて、当該位置に対応する再構成カーネルを取得することができる。ただし、拡大すべき特徴マップをソース特徴マップと呼称し、拡大後の特徴マップを目標特徴マップと呼称すれば、再構成カーネルの役割は、ソース特徴マップにおける特徴に基づいて目標特徴マップにおける特徴を取得することである。

当該方法は、特徴マップの異なる位置でのコンテンツに基づいて再構成カーネルを取得するもため、「コンテンツ検知に基づく特徴マップ拡大方法」、又は「コンテンツ検知に基づく特徴再構成アルゴリズム」（Ｃｏｎｔｅｎｔ－ＡｗａｒｅＲｅＡｓｓｅｍｂｌｙｏｆＦｅａｔｕｒｅｓ、ＣＡＲＡＦＥと略称）と呼称されてもよい。

図１は、本発明の特徴マップ拡大方法の模式的なフローチャートを例示する。図１に示すように、当該方法は、下記のステップを含む。

ステップＳ１００では、拡大すべきソース特徴マップを受信する。ただし、前記ソース特徴マップは、入力特徴マップ拡大ネットワークのトレーニング用のサンプル画像に対して特徴抽出を行って得られたものであってもよく、入力特徴拡大ネットワークの処理用の目標画像に対して特徴抽出を行って得られたものであってもよい。

ステップＳ１０２では、前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得する。

本ステップでは、前記ソース位置は、ソース特徴マップにおける１つの画素であってもよい。前記Ｎは、ソース特徴マップに対する拡大倍数の二乗である。前記畳み込み処理は、畳み込み層を介してソース特徴マップに対して畳み込みを行うものであってもよく、１つのソース位置にＮ個の再構成カーネルが対応して得られる。

ステップＳ１０４では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。

例えば、ｓｏｆｔｍａｘを用いて再構成カーネルを正規化してもよい。実際の実施では、これに限定されない。

ステップＳ１０６では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得する。ただし、再構成領域の特徴に対して再構成を行い、以下では、再構成領域に対して特徴再構成を行うと別称してもよい。

本ステップでは、各再構成カーネルを用いてソース特徴マップの再構成領域に対して特徴再構成を行い、対応する１つの再構成特徴を取得する。こうして、Ｎ個の再構成カーネルは、合計でＮ個の再構成特徴を取得可能である。前記再構成領域は、例えば、ソース位置を中心とする１つの領域であり、且つ当該再構成領域のサイズは、再構成カーネルのサイズと同じである。

ステップＳ１０８では、前記ソース特徴マップのソース位置のそれぞれに対応するＮ個の再構成特徴に基づいて、目標特徴マップを生成する。

例えば、各ソース位置に対応するＮ個の再構成特徴を目標特徴マップにおける、ソース位置に対応する目標位置に充填してもよい。こうして、ソース特徴マップを拡大した目標特徴マップは、最終的に得られる。

本実施例の特徴マップ拡大方法では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なるソース位置において異なる再構成カーネルは取得される。換言すれば、同一のソース特徴マップのあらゆる位置について同一のカーネルを採用する従来方式と区別し、本実施例の再構成カーネルは、ソース特徴マップにおける位置に対応し、ソース特徴マップの前記位置におけるコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成（つまり、拡大）を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。

図２は、特徴マップ拡大ネットワークを例示する。当該特徴マップ拡大ネットワークは、図１に示す特徴マップ拡大方法を実行してもよい。図２に示すように、当該特徴マップ拡大ネットワークは、カーネル予測モジュール１１及び再構成モジュール１２を備えてもよい。拡大すべきソース特徴マップ１３が当該特徴マップ拡大ネットワークに入力されたときに、まず、カーネル予測モジュール１１は、当該ソース特徴マップ１３のコンテンツに基づいて再構成カーネル１４を取得してもよい。その後、再構成モジュール１２は、当該再構成カーネル１４を用いてソース特徴マップ１３における特徴に対して再構成を行って再構成特徴を取得する。再構成特徴を目標特徴マップ１５における対応する位置に充填すると、ソース特徴マップに対する拡大は、完成する。

上記特徴マップ拡大ネットワークは、トレーニングを経てから実際のタスクに応用される。以下では、当該特徴マップ拡大ネットワークのトレーニング段階及び応用段階をそれぞれ記述する。ただし、トレーニングする際に、主に、特徴マップ拡大ネットワークにおけるカーネル予測モジュール１１のパラメータ調整に係るが、再構成モジュール１２は、パラメータ調整に係らなくてもよい。
ネットワークトレーニング

図３は、本発明の特徴マップ拡大方法を例示する。当該方法では、トレーニングすべきニューラルネットワークは、入力されたサンプル画像に対して特徴抽出を行ってソース特徴マップを取得し、当該ソース特徴マップに対して特徴マップ拡大を行って目標特徴マップを取得した後、目標特徴マップに基づいてサンプル画像の予測結果についてネットワークパラメータ調整を行ってもよい。また、当該ニューラルネットワークのトレーニング中において、特徴マップ拡大ネットワークも、トレーニングを実施し、即ち、特徴マップ拡大ネットワークのパラメータを調整した。図３と図２を参照し、当該方法は、下記の処理を含んでもよい。

ステップ２００では、拡大すべきソース特徴マップを受信する。ただし、前記ソース特徴マップは、ニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよい。

本ステップでは、特徴マップ拡大ネットワークのトレーニング段階において、特徴マップ拡大ネットワークは、１つのトレーニングすべきニューラルネットワークに統合されてもよい。例えば、当該特徴マップ拡大ネットワークは、物体検出のためのＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ）ネットワークに統合されてもよく、又は、当該特徴マップ拡大ネットワークは、画像修復のためのネットワークに統合されてもよい。即ち、当該特徴マップ拡大ネットワークは、ニューラルネットワークの一部として当該ニューラルネットワークのトレーニングに関与してもよい。

当該ニューラルネットワークは、入力されたサンプル画像の特徴を抽出して前記ソース特徴マップを取得してもよい。次に、当該特徴マップ拡大ネットワークを介してソース特徴マップを目標特徴マップまで拡大した後、ニューラルネットワークは、更に、引き続き前記目標特徴マップに基づいてサンプル画像に対応する予測結果を取得してもよい。

例えば、図２を参照し、ソース特徴マップの形状パラメータは、Ｃ＊Ｈ＊Ｗであってもよい。ただし、Ｃは、ソース特徴マップのチャンネル数であり、Ｈは、高さであり、Ｗは、幅である。ｘは、当該ソース特徴マップの識別子であってもよい。

ステップ２０２では、コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得する。

ただし、コンテンツ符号化畳み込み層は、特徴マップ拡大ネットワークの一部であり、トレーニングすべきニューラルネットワークの一部でもある。本ステップでは、特徴マップ拡大ネットワークのカーネル予測モジュール１１は、「コンテンツ符号化畳み込み層」を含んでもよい。当該コンテンツ符号化畳み込み層は、畳み込みカーネルを介してソース特徴マップに対して畳み込み処理を行い、ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得してもよい。前記Ｎは、ソース特徴マップに対する拡大倍数の二乗である。

例えば、特徴マップ拡大ネットワークがソース特徴マップを２倍拡大しようとすれば、拡大倍数は、２となる。ソース特徴マップにおけるソース位置ごとに、２＊２＝４つの再構成カーネルは、取得可能である。前記「１つのソース位置」は、ソース特徴マップにおける１つの画素であってもよい。

再構成カーネルがコンテンツ符号化畳み込み層を介してソース特徴マップの異なる位置でのコンテンツに対して畳み込み処理を行って得られたものであるため、ソース特徴マップの異なる位置に関し、コンテンツが変化すると、再構成カーネルは、それとともに変化する。

ステップ２０４では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。

本ステップでは、各再構成カーネルは、複数の特徴を含んでもよく、各再構成カーネルの特徴の和が１となるように、同一の再構成カーネルに属する複数の特徴に対して正規化処理を行ってもよい。再構成カーネルが正規化されたため、ソース特徴マップの拡大時に、ソース特徴マップの特徴平均値は、変化しない。

正規化された後、正規化された再構成カーネルを再構成モジュール１２の特徴再構成処理に適用してもよい。

ステップ２０６では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得する。

上記ステップの処理を経て、ソース特徴マップの各ソース位置は、何れもＮ個の再構成カーネルに対応可能であり、且つ各再構成カーネルは、正規化処理される。

本ステップでは、特徴再構成処理を行うときに、ソース特徴マップの何れかのソース位置について実行する処理は、下記のことを含んでもよい。

まず、ソース位置を中心とする再構成領域を取得してもよい。当該再構成領域のサイズは、再構成カーネルのサイズと同じである。例えば、再構成カーネルが５＊５のサイズであると仮定すれば、再構成領域も５＊５のサイズとなる。

次に、ソース位置に対応する正規化後のＮ個の再構成カーネルをそれぞれ用いて、ソース位置に基づいて特定された再構成領域に対して特徴再構成を行う。１つの再構成カーネルが１つの対応する再構成特徴を取得可能であるため、合計でＮ個の再構成特徴は、取得され得る。

ステップ２０８では、前記ソース特徴マップのソース位置のそれぞれに対応するＮ個の再構成特徴に基づいて、目標特徴マップを生成する。

本ステップでは、ステップ２０６で得られた前記ソース位置に対応するＮ個の再構成特徴を、目標特徴マップにおける、前記ソース位置に対応する目標位置に充填してもよい。前記目標位置は、前記ソース位置よりも面積が大きい。

ソース特徴マップを２倍拡大することを例とすると、ソース特徴マップにおける１つの画素は、目標特徴マップにおける４つの画素に対応可能である。図４に示すように、拡大後の目標位置の高さ及び幅は、何れもソース位置の高さ及び幅の２倍である。当該ソース位置の１つの画素は、４つの再構成カーネル（図４は、単に模式的なものであり、実に、再構成カーネルのサイズは、ソース位置のサイズよりも大きくなってもよい）、それぞれ再構成カーネルａ、ｂ、ｃ及びｄに対応可能である。この４つの再構成カーネルは、それぞれ、ソース位置に対応する再構成領域とともに特徴再構成処理を行われ、合計で４つの再構成特徴を得る。例えば、再構成カーネルａと再構成領域とに対して特徴再構成処理を行った後、１つの再構成特徴が得られ、再構成カーネルｂと再構成領域とに対して特徴再構成処理を行った後、もう１つの再構成特徴が得られる。当該４つの再構成特徴を目標位置のＡ、Ｂ、Ｃ及びＤの４つの領域に充填すると、ソース位置を目標位置まで拡大することは、完了される。

ソース特徴マップのソース位置ごとに、上記ステップ２０６及びステップ２０８の処理を行うと、ソース特徴マップを目標特徴マップに拡大することは、実現可能である。ただし、ソース位置がソース特徴マップのエッジに存在するときに、再構成領域における、ソース特徴マップからはみだす部分に０を充填してもよい。

例えば、図２を参照し、目標特徴マップの形状パラメータは、Ｃ＊σＨ＊σＷであってもよい。ただし、Ｃは、目標特徴マップのチャンネル数であり、σＨは、高さであり、σＷは、幅であり、σは、ソース特徴マップから目標特徴マップまでの拡大倍数である。ｘ^２は、当該目標特徴マップの識別子であってもよい。

ステップ２１０では、前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得する。

本ステップでは、特徴マップ拡大ネットワークの所在するニューラルネットワークは、目標特徴マップに基づいて、サンプル画像に対応する予測結果を予測によって取得してもよい。ニューラルネットワークの具体的なシナリオが異なると、予測結果も異なってくる。例えば、予測結果は、物体の種別であってもよく、又はサンプル画像におけるある画素の所属する種別等であってもよい。

ステップ２１２では、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記ニューラルネットワークのパラメータを調整する。ただし、前記ニューラルネットワークのパラメータは、前記特徴マップ拡大ネットワークにおけるコンテンツ符号化畳み込み層のパラメータを含む。

本ステップでは、特徴マップ拡大ネットワークの所在するニューラルネットワークは、サンプル画像のマーク結果と、目標特徴マップに基づいてサンプル画像を予測した予測結果との間の差に基づいて、ニューラルネットワークを調整するパラメータを逆方向で伝送してもよい。ただし、特徴マップ拡大ネットワークは、ニューラルネットワークの一部であり、当該特徴マップ拡大ネットワークにおけるカーネル予測モジュールに含まれるコンテンツ符号化畳み込み層のパラメータは、トレーニング過程において調整されてもよい。

本実施例の特徴マップ拡大ネットワークのトレーニング方法では、ソース特徴マップの異なる位置でのコンテンツに基づいて畳み込みを行って当該位置に対応する再構成カーネルを取得することにより、同一のソース特徴マップであっても、異なる位置に異なる再構成カーネルを取得する。換言すれば、同一のソース特徴マップのあらゆる位置について同一のカーネルを採用する従来方式と区別し、本実施例の再構成カーネルは、ソース特徴マップにおける異なる位置に対応し、前記位置におけるソース特徴マップのコンテンツを検知して得られたものである。したがって、再構成カーネルを用いてソース特徴マップに対して特徴再構成（つまり、拡大）を行う際にソース特徴マップにおけるコンテンツが十分に利用されたため、特徴マップ拡大の正確度がより高くなり、特徴マップ拡大の性能が向上する。

図５は、特徴マップ拡大ネットワークを介してソース特徴マップを目標特徴マップまで拡大する過程をより詳細に示す。ただし、当該図５は、図２に加えて、特徴マップ拡大操作性能をより良好にする幾つかの処理を追加し、且つ、特徴マップ拡大操作の各処理ステップについて例示的な実践処理方式をそれぞれ記述した。図５におけるカーネル予測モジュール及び再構成モジュールは、何れも特徴マップ拡大ネットワークの構成部分である。ただし、図５におけるソース特徴マップ及び目標特徴マップは、図２におけるものと同じである。
カーネル予測モジュールの処理

図５を参照し、カーネル予測モジュール（ＫｅｒｎｅｌＰｒｅｄｉｃｔｉｏｎＭｏｄｕｌｅ）は、まず、入力されたソース特徴マップに対してチャンネル圧縮（ＣｈａｎｎｅｌＣｏｍｐｒｅｓｓｏｒ）を行ってもよい。具体的に、それは、チャンネル圧縮畳み込み層を介してソース特徴マップに対してチャンネル圧縮を行ってもよい。当該チャンネル圧縮畳み込み層は、１つの１＊１の畳み込み層であってもよい。

入力されたソース特徴マップのチャンネル数がＣであるとすれば、チャンネル圧縮畳み込み層の処理を経た後、出力チャンネル数は、Ｃ_ｍとなってもよい。ただし、Ｃ_ｍ＜Ｃである。ソース特徴マップに対してチャンネル圧縮を行うことにより、特徴マップ拡大アルゴリズムの効率を向上可能であり、且つ本発明のＣＡＲＡＦＥアルゴリズムに大きな受容野範囲内のソース特徴マップコンテンツ情報を集約させ、アルゴリズム性能を更に向上させる。試験で分かるように、チャンネル圧縮は、アルゴリズム性能を損なうことがない。

また、カーネル予測モジュールがチャンネル圧縮畳み込み層を追加した後、トレーニング過程において調整されるニューラルネットワークのパラメータは、上記コンテンツ符号化畳み込み層のパラメータだけでなく、当該チャンネル圧縮畳み込み層のパラメータも含む。

引き続き図５を参照し、チャンネルが圧縮されたソース特徴マップは、カーネル予測モジュールのコンテンツ符号化畳み込み層を介して畳み込み処理（ＣｏｎｔｅｎｔＥｎｃｏｄｅｒ）を行われる。

図６に示すように、前記コンテンツ符号化畳み込み層は、σ^２＊ｋ_ｕｐ ^２＝Ｃ_ｕｐ個のフィルタ（Ｆｉｌｔｅｒ）を含む。ただし、σ^２は、ソース特徴マップに対する拡大倍数の二乗であり、ｋ_ｕｐ ^２は、ある再構成カーネルのサイズであり、各フィルタは、Ｃ_ｍ個の畳み込みカーネルを含み、各畳み込みカーネルのサイズは、ｋ_{ｅｎｃｏｄｅｒ}＊ｋ_{ｅｎｃｏｄｅｒ}である。畳み込み処理を行うときに、各フィルタとソース特徴マップとに対して畳み込みを行い、１つのチャンネルの畳み込み出力特徴マップを得る。当該畳み込み出力特徴マップのサイズは、Ｈ＊Ｗである。コンテンツ符号化畳み込み層は、合計でＣ_ｕｐ個のチャンネルの畳み込み出力特徴マップを取得可能である。図６に示すように、畳み込み処理によって、Ｈ＊Ｗ＊σ^２＊ｋ_ｕｐ ^２の再構成カーネル図（Ｃ_ｕｐ個のチャンネルの再構成カーネル図とも呼称されてもよい）は得られる。当該再構成カーネル図では、各層が１つのチャンネルであり、且つ各層が１つの畳み込み出力特徴マップと呼称される。

再構成カーネル図が得られた後、引き続きソース特徴マップにおける位置のそれぞれに対応するＮ個の再構成カーネルを取得する。

まず、１つの畳み込み出力特徴マップは、大量の画素を含んでもよく、各画素の特徴は、１つの畳み込み出力特徴と呼称されてもよい。例えば、図７は、畳み込み出力特徴マップにおける１つの畳み込み出力特徴６１（図７における１つの小格子に対応する）、及びもう１つの畳み込み出力特徴６２を例示する。

次に、引き続き図７を参照し、再構成カーネル図の深度は、σ^２＊ｋ_ｕｐ ^２であり、即ち、ソース特徴マップの各位置（例えば、各画素）は、個のチャンネルの畳み込み出力特徴に対応する。ソース特徴マップの拡大倍数がσであるときに、目標特徴マップの高さがσＨであり、目標特徴マップの幅がσＷであると、再構成カーネル図の深度は、ｋ_ｕｐ ^２と変更されてもよい。具体的に、σ^２＊ｋ_ｕｐ ^２個のチャンネルの再構成カーネル図は、深度方向において切り分け、Ｎ＝σ^２部に均等に分けてもよい。図７では、拡大倍数が２であることを例とし、再構成カーネル図を４部に均等に分け、各部に含まれるチャンネル数がｋ_ｕｐ ^２である。各部は、１つの再構成カーネルと呼称されてもよく、当該再構成カーネルは、ｋ_ｕｐ ^２個のチャンネルの畳み込み特徴を含む。

また、図７では、再構成カーネル図を深度方向において均等に分けた後、隣接するチャンネルを合成して１つの再構成カーネルを構成する。実際の実施では、それに限定されず、深度方向における各チャンネルを自由に組み合わせてもよく、最終的にチャンネル数が均等に分けられたＮ部として組み合わせられればよい。しかし、ソース特徴マップの異なる画素に対応するチャンネルについて同じ組み合わせ方式を採用することを保証する必要がある。例えば、４つのチャンネル、０～３がある場合に、チャンネル０とチャンネル２を１グループとし、チャンネル１とチャンネル３を１グループとすれば、全ての画素は、このようにグルーピングする必要がある。

上記コンテンツ符号化畳み込み層の処理により、ソース特徴マップのソース位置ごとに、対応するＮ個の再構成カーネルは、取得可能である。また、試験で分かるように、畳み込みカーネルのサイズがｋ_{ｅｎｃｏｄｅｒ}＊ｋ_{ｅｎｃｏｄｅｒ}であり、前記再構成カーネルのサイズがｋ_ｕｐ＊ｋ_ｕｐであるときに、前記ｋ_{ｅｎｃｏｄｕｅｒ}＝ｋ_ｕｐ－２と設定すると、「より大きい受容野を検知」と「アルゴリズムの効率を向上」との間のバランスは、良好に達成できる。無論、本実施例では、実際の実施におけるｋ_{ｅｎｃｏｄｅｒ}とｋ_ｕｐの値について限定しない。しかし、ｋ_{ｅｎｃｏｄｅｒ}を増加すると、畳み込みカーネルの受容野を向上可能であるため、より大きな領域範囲のソース特徴マップのコンテンツを検知可能であり、取得された再構成カーネルを特徴マップ拡大に用いる効果もより良好になる。

引き続き図５を参照し、ソース特徴マップのソース位置のそれぞれに対応する再構成カーネルが得られた後、引き続き各再構成カーネルに対して正規化処理を行ってもよい（ＫｅｒｎｅｌＮｏｒｍａｌｉｚｅｒ）。上記のように、各再構成カーネルは、チャンネル数がｋ_ｕｐ ^２である畳み込み出力特徴を含んでもよく、これらの畳み込み出力特徴に対して正規化を行ってもよい。本実施例では、正規化の具体的な方式について限定せず、例示として、ｓｏｆｔｍａｘ関数によって正規化を行ってもよい。

ソース特徴マップの各ソース位置の再構成カーネルを取得して正規化した後、次に再構成モジュールを介して、正規化された再構成カーネルを用いてソース特徴マップの拡大処理を行ってもよい。
再構成モジュールの処理

引き続き図５を参照し、再構成モジュール（ＲｅａｓｓｅｍｂｌｙＭｏｄｕｌｅｓ）は、ソース特徴マップを拡大するときに、ソース特徴マップにおける各ソース位置に対して図８に示す処理を行ってもよい。

ステップ７００では、前記ソース位置に対応するＮ個の再構成カーネルを取得する。何れの再構成カーネルに対しても、ステップ７０２～７０８を実行する。

本ステップでは、同一のソース位置は、Ｎ個の再構成カーネルに対応する。例えば、拡大倍数が２であるときに、Ｎ＝４となり、１つのソース位置は、４つの再構成カーネルに対応する。各再構成カーネルを用いて再構成領域の特徴に対して再構成処理を行うと、対応する再構成特徴は、取得可能である。

ステップ７０２では、前記再構成カーネルに含まれる各チャンネルの畳み込み出力特徴をフラット化し、２次元の再構成カーネルを取得する。

図５に示すように、上記のように、１つの再構成カーネルは、ｋ_ｕｐ ^２個のチャンネルの畳み込み出力特徴を含む。これらの畳み込み出力特徴は、１つの２次元の再構成カーネルとしてフラット化してもよく、２次元再構成カーネルのサイズは、ｋ_ｕｐ＊ｋ_ｕｐである。

ステップ７０４では、前記ソース位置を中心とする再構成領域を取得し、前記再構成領域のサイズは、前記２次元の再構成カーネルのサイズと同じである。

本ステップでは、再構成領域は、ソース位置を中心とし、且つサイズもｋ_ｕｐ＊ｋ_ｕｐである。図５におけるＮ（ｘ_ｌ，ｋ_ｕｐ）は、１つの特徴再構成の関数を示し、当該関数は、例えば、後述する加重加算であってもよい。ｘ_ｌは、ソース位置ｌ（ｉ，ｊ）を中心とする再構成領域を示し、ｋ_ｕｐは、当該再構成領域のサイズもｋ_ｕｐ＊ｋ_ｕｐであることを示す。

ステップ７０６では、前記２次元の再構成カーネルとソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、各チャンネルに対応するチャンネル特徴を取得する。

本ステップでは、ソース特徴マップのチャンネル数は、Ｃである。注意すべきことは、再構成モジュールの処理が、チャンネル圧縮を行っていないソース特徴マップに対して行われるものであるが、上述したチャンネル圧縮が、カーネル予測モジュールによる畳み込み処理の前に実行され、主にコンテンツに基づいて生成された再構成カーネルの受容野範囲を拡張するために用いられる。

１つの再構成カーネルとソース特徴マップの１つのチャンネルの再構成領域とに対して特徴再構成を行った後、１つの対応するチャンネル特徴は得られる。図９は、１つのチャンネル特徴８１を例示し、当該チャンネル特徴８１の面積が目標位置の１／Ｎに対応する。例えば、拡大倍数が２であるときに、チャンネル特徴８１の面積は、目標位置面積の１／４に相当する。各チャンネルのチャンネル特徴を組み合わせると、図９に示す直方体の形状を形成可能であり、合計でＣ個のチャンネルがある。

本ステップでは、１つの再構成カーネルと１つのチャンネルの再構成領域とに対して特徴再構成を行うときに、使用される特徴再構成方式は、以下に例示される２種を含むが、それらに限定されない。

例えば、再構成カーネルと前記再構成領域における対応する位置の特徴とに対して加重加算を行い、再構成カーネルにおける各畳み込み出力特徴を重みとして、加重加算された結果を前記チャンネル特徴としてもよい。

ただし、

、ｗ_{ｌ’（ｎ，ｍ）}は、再構成カーネルにおける何れか１つの位置を示し、例えば、図５の再構成カーネルｗ_ｌ’における何れか１つの小格子であってもよい。

一般的に、デコンボリューションの畳み込みカーネルは、トレーニングするときに特定され、テスト過程において変更できない。換言すれば、テスト過程において、入力された画像がどの画像であっても、当該特定された畳み込みカーネルを用いて特徴マップ拡大を行う。それと対比し、本発明の特徴マップ拡大方法の再構成カーネルは、テストするときにソース特徴マップのコンテンツ畳み込み処理によって得られ、異なる特徴マップコンテンツに応じて、異なる畳み込み結果、即ち、再構成カーネルを得る。したがって、本発明の当該方法では、特徴マップ拡大過程において、拡大すべき画像のコンテンツに応じて、異なる再構成操作を行うことができる。実践で証明できるように、本発明の特徴マップ拡大方法の効果は、デコンボリューションよりも著しく優れる。

更に例えば、再構成カーネルの複数の畳み込み出力特徴から数値が最も大きな畳み込み出力特徴を特定し、当該最大値の畳み込み出力特徴位置に対応する再構成領域における特徴を前記チャンネル特徴として見つけ出してもよい。

ステップ７０８では、各チャンネルに対応するチャンネル特徴を組み合わせ、前記再構成カーネルに対応する１つの再構成特徴を取得する。例えば、図９は、１つの再構成特徴を示し、当該再構成特徴は、Ｃ個のチャンネルのチャンネル特徴を含む。

各再構成カーネルは、１つの再構成特徴を取得可能であり、Ｎ個の再構成カーネルは、合計でＮ個の再構成特徴を取得する。１つのソース位置に対応するＮ個の再構成特徴は、目標特徴マップにおける、前記ソース位置に対応する目標位置に充填されてもよい。

例えば、図４に示すものと類似し、４つの再構成特徴は、目標位置のＡ、Ｂ、ＣとＤの４つの領域に充填されてもよい。本実施例では、前記４つの再構成特徴のこの４つの個領域における充填順番について限定せず、各画素が同じ充填順番を用いることを保証すればよい。ソース位置と目標位置との間の対応関係及び拡大倍数に基づいて、目標特徴マップにおける前記目標位置を取得してもよい。

例えば、目標特徴マップにおける各位置ｌ’（ｉ’，ｊ’）は、ソース特徴マップにおける位置ｌ（ｉ，ｊ）に対応する。ただし、

σは、拡大倍数である。図４に示すものと類似し、ソース特徴マップにおける１つのソース位置は、目標特徴マップにおける１つの目標位置に対応し、且つ当該目標位置の領域面積は、ソース位置の領域面積のσ^２倍に対応する。

ソース特徴マップのソース位置ごとに上記操作を行うと、ソース特徴マップを目標特徴マップまで拡大することは、実現可能である。

特徴マップ拡大ネットワークのトレーニングが完了された後、如何なる特徴拡大に係る操作も当該特徴マップ拡大ネットワークを利用可能である。例えば、当該特徴マップ拡大ネットワークをある既存のニューラルネットワーク（例えば、ＦＰＮ）に統合し、当該ニューラルネットワークにおける特徴拡大が用いられる操作を本実施例の特徴マップ拡大ネットワークのものに置き換えてもよい。

上述したように、特徴マップ拡大ネットワークがニューラルネットワークに統合されたときに、当該ニューラルネットワークをトレーニングすることにより、当該ニューラルネットワークに統合された特徴マップ拡大ネットワークをトレーニング可能である。
ネットワーク応用

上記本発明の何れかの実施例に記述された特徴マップ拡大ネットワークを用いて特徴マップの拡大を行ってもよい。例えば、図１０は、一例の特徴マップ拡大方法を示し、当該方法は、トレーニング完了されたニューラルネットワークが入力画像からソース特徴マップを抽出し、当該ソース特徴マップに対して特徴マップ拡大を行った後の関連処理であってもよい。図１０に示すように、当該方法は、下記のステップを含んでもよい。

ステップ９００では、トレーニング完了されたニューラルネットワークは、入力画像からソース特徴マップを抽出する。

ただし、前記トレーニング完了されたニューラルネットワークは、本発明の何れかの実施例の前記方法を用いてトレーニングされるコンテンツ符号化畳み込み層を含む。

前記ソース特徴マップは、ニューラルネットワークが直接入力画像に対して特徴抽出を行って得られたものであってもよい。また、当該ニューラルネットワークには、複数の特徴マップ拡大ネットワークが含まれてもよい。こうして、抽出して得られたソース特徴マップに対して、複数回拡大を行うことができる。例えば、ソース特徴マップを４倍拡大しようとする場合に、トレーニングされた特徴マップ拡大ネットワークがソース特徴マップを２倍拡大可能であると、当該特徴マップ拡大ネットワークは、２回連続使用されてもよい。換言すれば、特徴マップ拡大ネットワークを介してソース特徴マップを２倍拡大してから、特徴マップ拡大ネットワークを介して引き続き２倍拡大することができる。

ステップ９０２では、コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得する。

本ステップでは、トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を用いてソース特徴マップに対して畳み込み処理を行ってもよい。別の例において、畳み込み処理の前に、更に、トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行ってもよい。コンテンツ符号化畳み込み層は、チャンネル圧縮されたソース特徴マップに対して畳み込み処理を行ってもよい。

トレーニング完了されたニューラルネットワークのパラメータが既に特定されたため、トレーニング完了されたニューラルネットワークに統合された特徴マップ拡大ネットワークのパラメータも特定され、特徴マップ拡大ネットワークにおけるコンテンツ符号化畳み込み層のパラメータ及びチャンネル圧縮畳み込み層のパラメータも既に特定された。

ステップ９０４では、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。

ステップ９０６では、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得する。

ステップ９０８では、前記ソース特徴マップのソース位置のそれぞれに対応するＮ個の再構成特徴に基づいて、目標特徴マップを生成する。

ステップ９１０では、前記目標特徴マップに基づいて、前記入力画像の処理結果を取得する。

以下では、ニューラルネットワークが目標特徴マップに基づいて処理結果を得る幾つかの例を示す。

例えば、物体検出のニューラルネットワークにおいて、入力画像は、検出すべき少なくとも１つの目標物体を含んでもよく、ニューラルネットワークは、まず入力画像の特徴を抽出してソース特徴マップを取得してもよい。次に、当該ニューラルネットワークは、当該特徴マップ拡大ネットワークを介して、当該ソース特徴マップを拡大した目標特徴マップを取得してもよい。その後、当該ニューラルネットワークは、当該目標特徴マップに基づいて引き続き処理し、入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別の確率を出力してもよい。

更に例えば、画像修復のニューラルネットワークにおいて、入力画像は、欠け部を含んでもよく、ニューラルネットワークは、まず、その基幹ネットワークを介して入力画像の特徴を抽出してソース特徴マップを取得してもよい。次に、当該ニューラルネットワークは、当該特徴マップ拡大ネットワークを介して、当該ソース特徴マップを拡大した目標特徴マップを取得してもよい。その後、当該ニューラルネットワークは、当該目標特徴マップに基づいて引き続き処理し、前記入力画像の欠け部の画素を出力してもよい。

より更に例えば、意味予測のニューラルネットワークにおいて、含まれる特徴マップ拡大ネットワークを介して、入力画像から抽出されたソース特徴マップを拡大することで、拡大後の目標特徴マップを取得し、当該目標特徴マップに基づいて引き続き処理し、前記入力画像における各画素の所属する種別を出力してもよい。

また例えば、インスタンス分割のニューラルネットワークにおいて、含まれる特徴マップ拡大ネットワークを介して、入力画像から抽出されたソース特徴マップを拡大することで、拡大後の目標特徴マップを取得し、当該目標特徴マップに基づいて引き続き処理し、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力してもよい。

上記本明細書の実施例に係る特徴マップ拡大アルゴリズムは、ＣＡＲＡＦＥアルゴリズムと呼称されてもよい。当該ＣＡＲＡＦＥの１種の応用場面は、ＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋ、特徴ピラミッドネットワーク）であり、この種のネットワークの構造は、図１１に示される。ＦＰＮでは、まず入力画像の複数層の特徴（ｃ２，ｃ３，ｃ４，ｃ５）を取得する。ただし、特徴ｃ２から、各層の特徴の大きさは、順に２倍縮小する。

ＦＰＮは、ダウンサンプリングｃ５（例えば、ｍａｘｐｏｏｌ（最大値プーリング）、ａｖｅｒａｇｅｐｏｏｌ（平均値プーリング））により、ｐ６を取得する。その後、ＦＰＮは、各層の特徴を順に１つ上の層の特徴へ伝達する。伝達の手順は、小さい特徴マップを２倍拡大してから、大きな特徴マップと加算する。

標準的なＦＰＮでは、上記拡大操作が最近傍補間を用いて実施される。ＣＡＲＡＦＥを応用したＦＰＮでは、最近傍補間をＣＡＲＡＦＥで直接置き換え、トレーニング過程においてＣＡＲＡＦＥのパラメータとＦＰＮのパラメータとに対して同時に最適化する。

ＦＰＮの１種の主な使用場面は、物体検出タスクにおけるＦａｓｔｅｒＲＣＮＮである。ＣＡＲＡＦＥを用いたＦＰＮと元のＦＰＮとをＦａｓｔｅｒＲＣＮＮにおいて対比する。ＭＳＣＯＣＯ２０１７データセットに、ＭＳＣＯＣＯの公式的な評価基準、即ち、ＩｏＵ（ｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－ｕｎｉｏｎ）０．５から０．９５のｍＡＰ（ｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ）平均値を使用する。ただし、ＩｏＵは、検出枠と目標枠との間の面積積集合／面積和集合を示し、ｍＡＰは、各種の平均精度（ａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ）が各種における平均（ｍｅａｎ）を示し、満点が１００であり、最小が０である。また、目標枠ごとに、当該目標枠の種別の検出に成功した検出枠が少なくとも１つがあるとともに、当該目標枠とのｉｏｕが特定の閾値より大きい場合に、当該物体が検出されたと考えられる。テストセット（ｔｅｓｔ－ｄｅｖ）において、ＣＡＲＡＦＥは、アルゴリズムの精度を３６．９から３８．１に増加してもよい。当該試験で分かるように、ＣＡＲＡＦＥをＦＰＮ構造に用いると、ＦａｓｔｅｒＲＣＮＮのアルゴリズム精度は、著しく向上することができる。

本明細書では、他のＣＡＲＡＦＥの応用インスタンスを挙げない。実際の試験では、当該ＣＡＲＡＦＥアルゴリズムで計算されるリソースのオーバヘッドが小さく、運転速度が速くて、物体検出タスク、画像修復タスク、意味領域分割タスクとインスタンス分割タスク等の複数種のタスクのネットワーク構造に統合して運用されることが非常に容易である。また、複数種のタスクにおけるＣＡＲＡＦＥアルゴリズムの挙動を評価して分かるように、当該アルゴリズムにより、各タスクが一致して安定する性能向上を得ることができる。

図１２は、特徴マップ拡大装置を提供する。図１２に示すように、当該装置は、ソースマップ受信モジュール１２０１、カーネル生成モジュール１２０２、正規化処理モジュール１２０３、特徴再構成モジュール１２０４及び目標マップ生成モジュール１２０５を備えてもよい。

ソースマップ受信モジュール１２０１は、拡大すべきソース特徴マップを受信する。前記ソース特徴マップは、入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよい。カーネル生成モジュール１２０２は、前記ソース特徴マップに対して畳み込み処理を行い、ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得する。前記Ｎは、ソース特徴マップに対する拡大倍数の二乗である。正規化処理モジュール１２０３は、各再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得する。特徴再構成モジュール１２０４は、前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得する。目標マップ生成モジュール１２０５は、前記ソース特徴マップのソース位置のそれぞれに対応するＮ個の再構成特徴に基づいて、目標特徴マップを生成する。

一例において、カーネル生成モジュール１２０２は、具体的に、Ｃ_ｕｐ個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Ｃ_ｕｐ個のチャンネルの再構成カーネル図を取得し、前記再構成カーネル図における、前記ソース特徴マップの同一ソース位置に対応するＣ_ｕｐ個のチャンネルの畳み込み出力特徴をＮ部に均等に分け、各部を１つの前記再構成カーネルとしてもよく、前記Ｃ_ｕｐは、前記拡大倍数と再構成カーネルのサイズとに基づいて特定されたものであり、１つの前記再構成カーネルは、Ｃ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴を含む。

一例において、特徴再構成モジュール１２０４は、更に、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、再構成領域の特徴に対して再構成を行う前に、前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴をフラット化し、２次元の前記再構成カーネルを取得し、前記ソース位置を中心とする前記再構成領域を取得してもよい。前記再構成領域のサイズは、前記再構成カーネルのサイズと同じである。

一例において、前記正規化処理モジュール１２０３は、具体的に、それぞれの再構成カーネルにおけるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得してもよい。

一例において、特徴再構成モジュール１２０４は、１つのソース位置に対応する正規化後のＮ個の再構成カーネルを用いて再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得する際に、前記再構成カーネルごとに、前記再構成カーネルのそれぞれとソース特徴マップの各チャンネルの前記再構成領域とに対して再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得し、前記再構成カーネルに対応する各チャンネルの前記チャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得してもよい。

一例において、特徴再構成モジュール１２０４は、前記再構成カーネルのそれぞれとソース特徴マップの各チャンネルの前記再構成領域とに対して再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得する際に、チャンネルごとに、前記再構成カーネルと前記チャンネルの再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記チャンネルに対応するチャンネル特徴としてもよい。

一例において、目標マップ生成モジュール１２０５は、具体的に、前記ソース位置と拡大倍数とに基づいて、目標特徴マップにおける、前記ソース位置に対応する前記目標位置を取得し、前記ソース位置に対応するＮ個の再構成特徴を、目標特徴マップにおける、前記ソース位置に対応する前記目標位置に充填してもよい。

一例において、図１３に示すように、図１２の特徴マップ拡大装置がトレーニングすべきニューラルネットワークに含まれたときに、当該装置は、予測処理モジュール１３０６とパラメータ調整モジュール１３０７を更に備えてもよい。

このような場合に、ソースマップ受信モジュール１２０１で受信されたソース特徴マップは、前記トレーニングすべきニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよく、カーネル生成モジュール１２０２は、前記ソース特徴マップに対して畳み込み処理を行うときに、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行ってもよい。

予測処理モジュール１３０６は、目標特徴マップが目標マップ生成モジュール１２０５によって生成された後、前記目標特徴マップに基づいて前記サンプル画像の予測結果を取得し、前記パラメータ調整モジュール１３０７は、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整し、前記ニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含む。

一例において、図１３に示すように、当該装置は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュール１３０８を更に備える。このような場合に、前記カーネル生成モジュール１２０２は、ソース特徴マップに対して畳み込み処理を行うときに、コンテンツ符号化畳み込み層を介してチャンネル圧縮後のソース特徴マップに対して畳み込み処理を行ってもよい。また、前記パラメータ調整モジュール１３０７は、更に、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整する。

一例において、図１４に示すように、図１２の特徴マップ拡大装置がトレーニング完了されたニューラルネットワークに含まれたときに、前記ソースマップ受信モジュール１２０１で受信されたソース特徴マップは、前記トレーニング完了された前記ニューラルネットワークが入力されたサンプル画像に対して特徴抽出を行って得られたものであってもよく、前記カーネル生成モジュール１２０２は、前記ソース特徴マップに対して畳み込み処理を行うときに、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行ってもよい。また、当該装置は、目標特徴マップが目標マップ生成モジュール１２０５によって生成された後、前記目標特徴マップに基づいて入力画像の処理結果を取得するための結果出力モジュール１４０６を更に備えてもよい。

一例において、図１４に示すように、当該装置は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うためのチャンネル圧縮モジュール１４０７を更に備えてもよい。このような場合に、前記カーネル生成モジュール１２０２は、ソース特徴マップに対して畳み込み処理を行うときに、前記コンテンツ符号化畳み込み層を介してチャンネル圧縮後のソース特徴マップに対して畳み込み処理を行ってもよい。

一例において、前記入力画像は、検出すべき少なくとも１つの目標物体を含み、前記結果出力モジュール１４０６は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各目標物体の検出枠、及び前記目標物体の所属する種別を出力してもよい。

一例において、前記入力画像は、欠け部を含み、結果出力モジュール１４０６は、具体的に、前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力する。

一例において、結果出力モジュール１４０６は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力する。

一例において、結果出力モジュール１４０６は、具体的に、前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力する。

本発明は、特徴マップ拡大機器を更に提供する。前記機器は、メモリと、プロセッサとを備える。前記メモリは、プロセッサで運転され得るコンピュータ指令を記憶し、前記プロセッサは、前記コンピュータ指令を実行したときに本発明の何れかの実施例の特徴マップ拡大方法を実施する。

本発明は、コンピュータ可読記憶媒体を更に提供する。コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例の特徴マップ拡大方法は、実施される。

当業者であれば理解できるように、本発明の１つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供され得る。したがって、本発明は、１００％ハードウェアの実施例、１００％ソフトウェアの実施例、又はソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本発明の１つ又は複数の実施例は、１つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むが、それらに限定されない）で実施されるコンピュータプログラム製品の形式を採用してもよい。

本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。当該記憶媒体には、コンピュータプログラムが記憶されてもよく、前記プログラムがプロセッサによって実行されたときに、本発明の何れかの実施例に記載の文字識別のためのニューラルネットワークのトレーニング方法のステップ、及び／又は、本発明の何れかの実施例に記載の文字識別方法のためのステップは、実施される。ただし、前記「及び／又は」は、両者のうちの１つを少なくとも含むことを示す。例えば、「Ｎ及び／又はＢ」は、Ｎ、Ｂ、及び「ＮとＢ」という３つの形態を含む。

本発明における各実施例は、何れも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じ又は類似する部分が互いに参照すればよい。特にデータ処理機器の実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所が方法実施例の部分の説明を参照すればよい。

上記は、本発明の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の挙動又はステップは、実施例における順番と異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番又は連続順番でないと所望の結果を得られないことを要求するとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理も、実行可能であり、又は有利なものである。

本発明における記述されたテーマ及び機能操作の実施例は、デジタル電子回路、有形的に体現されたコンピュータソフトウェア若しくはファームウェア、本発明に開示された構造及びその構造的均等物を含むコンピュータハードウェア、又はそれらのうちの１つ又は複数の組み合わせにおいて実現され得る。本発明に記述されたテーマの実施例は、１つ又は複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され又はデータ処理装置の操作を制御されるコンピュータプログラム指令における１つ又は複数のモジュールとして実現され得る。代替的に又は追加的に、プログラム指令は、人工で生成された伝送信号、例えば機器で生成された電気、光又は電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送されてデータ処理装置に実行させる。コンピュータ記憶媒体は、機器読み取り可能な記憶機器、機器読み取り可能な記憶基板、ランダム若しくはシリアルアクセスメモリ機器、又はそれらのうちの１つ又は複数の組み合わせであってもよい。

本発明に記述された処理及び論理フローは、１つ又は複数のコンピュータプログラムを実行する１つ又は複数のプログラマブルコンピュータによって実施されて、入力データに応じて操作を行って出力を生成して対応する機能を実行させてもよい。前記処理及び論理フローは、専用論理回路、例えばＦＰＧＮ（フィールドプログラマブルゲートアレイ）又はＮＳＩＣ（特定用途向け集積回路）によって実行されてもよく、装置も専用論理回路として実現されてもよい。

コンピュータプログラムの実行に適するコンピュータは、例えば、汎用及び／又は専用マイクロプロセッサ、又は如何なる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリ及び／又はランダムアクセスメモリから指令及びデータを受信する。コンピュータの基本ユニットは、指令を実施や実行するための中央処理装置と、指令及びデータを記憶するための１つ又は複数のメモリ機器とを備える。通常、コンピュータは、更に、データを記憶するための１つ又は複数の大容量記憶機器、例えば、磁気ディスク、磁光ディスク又は光ディスク等を含み、又は、コンピュータは、この大容量記憶機器に操作可能にカップリングされてそれからデータを受信したりそれへデータを伝送したりし、又は、２種の状況を兼ね備える。しかし、コンピュータは、このような機器を必ず有するとは限らない。また、コンピュータは、別の機器、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＮ）、モバイルオーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又は、例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリドライバの携帯型記憶機器に組み込まれてもよい。以上は、単に幾つかの例である。

コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、メディアとメモリ機器を含み、例えば、半導体メモリ機器（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭとフラッシュメモリ機器）、磁気ディスク（例えば、内部ハードディスク又はリムーバブルディスク）、磁光ディスク及びＣＤＲＯＭとＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補充され又は専用論理回路に統合されてもよい。

本発明が大量の具体的な実施詳細を含むが、これらの詳細は、如何なる開示範囲又は保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本発明の複数の実施例に記述された幾つかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、又は、如何なる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のように幾つかの組み合わせにおいて役割を果たし、ひいてはこのように保護するように要求されてもよいが、保護請求される組み合わせからの１つ又は複数の特徴は、幾つかの場合において当該組み合わせから除去されてもよく、更に、保護請求される組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指してもよい。

類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行され又は順に実行され又は全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。幾つかの場合に、マルチタスク及び並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。更に、理解できるように、記述されるプログラムユニット及びシステムは、通常、単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品としてカプセル化されてもよい。

このように、テーマの特定実施例が記述された。他の実施例は、添付する特許請求の範囲のスコープ内に含まれる。幾つかの場合において、特許請求の範囲に記載の動作は、異なる順番で実行可能であり、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番又は連続順番で所望の結果を得るとは限らない。幾つかの実施形態において、マルチタスク処理及び並行処理は、有利である可能性がある。

上述したのは、本発明の１つ又は複数の実施例の好適な実施例に過ぎず、本発明の１つ又は複数の実施例を制限するためのものではない。本発明の１つ又は複数の実施例の精神及び原則内でなされた如何なる変更、均等物による置換、改良等も、本発明の１つ又は複数の実施例の保護範囲内に含まれるべきである。

Claims

特徴マップ拡大方法であって、
拡大すべきソース特徴マップを受信するステップと、
前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得するステップと、
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップと、
前記ソース特徴マップにおけるソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するステップと、
前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、目標特徴マップを生成するステップと、を含み、
前記Ｎは、前記ソース特徴マップに対する拡大倍数の二乗であることを特徴とする特徴マップ拡大方法。
前記ソース特徴マップに対して畳み込み処理を行うステップは、
Ｃ_ｕｐ個のフィルタで前記ソース特徴マップに対して畳み込み処理を行い、Ｃ_ｕｐ個のチャンネルの再構成カーネル図を取得することと、
前記ソース特徴マップにおけるソース位置ごとに、前記再構成カーネル図における前記ソース位置に対応するＣ_ｕｐ個のチャンネルの畳み込み出力特徴をＮ部に均等に分け、各部を前記ソース位置に対応する１つの前記再構成カーネルとすることと、を含み、
前記Ｃ_ｕｐは、前記拡大倍数と前記再構成カーネルのサイズとに基づいて特定されたものであり、前記１つの前記再構成カーネルは、Ｃ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴を含むことを特徴とする請求項１に記載の特徴マップ拡大方法。
前記ソース位置に対応する再構成カーネルごとに、前記再構成カーネルに含まれるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴をフラット化し、２次元の再構成カーネルを取得するステップと、
前記ソース位置を中心とする前記再構成領域を取得するステップと、を更に含み、
前記再構成領域のサイズは、前記２次元の再構成カーネルのサイズと同じであることを特徴とする請求項２に記載の特徴マップ拡大方法。
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するステップは、
それぞれの前記再構成カーネルにおけるＣ_ｕｐ／Ｎ個のチャンネルの畳み込み出力特徴に対して正規化を行い、正規化後の再構成カーネルを取得することを含むことを特徴とする請求項２に記載の特徴マップ拡大方法。
前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するステップは、
正規化後のＮ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を取得することと、
前記Ｎ個の再構成カーネルのうちの再構成カーネルごとに、前記再構成カーネルに対応する各チャンネルのチャンネル特徴を組み合わせ、前記再構成カーネルに対応する再構成特徴を取得することと、を含むことを特徴とする請求項１から４の何れか一項に記載の特徴マップ拡大方法。
前記再構成カーネルのそれぞれと前記ソース特徴マップの各チャンネルの前記再構成領域とに対して特徴再構成を行い、前記再構成カーネルに対応する前記各チャンネルのチャンネル特徴を取得することは、
前記ソース特徴マップにおけるチャンネルごとに、前記再構成カーネルと前記チャンネルの前記再構成領域における対応する位置の特徴とに対して加重加算を行い、前記加重加算された結果を前記再構成カーネルに対応する前記チャンネルのチャンネル特徴とすることを含むことを特徴とする請求項５に記載の特徴マップ拡大方法。
前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、前記目標特徴マップを生成するステップは、
前記ソース位置と拡大倍数とに基づいて、前記目標特徴マップにおける、前記ソース位置に対応する目標位置を取得することと、
前記Ｎ個の再構成特徴を前記目標特徴マップにおける前記目標位置に充填することと、を含むことを特徴とする請求項１から６の何れか一項に記載の特徴マップ拡大方法。
前記ソース特徴マップは、トレーニングすべきニューラルネットワークがサンプル画像に対して特徴抽出を行って得られたものであり、
前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニングすべきニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記特徴マップ拡大方法は、
前記目標特徴マップが生成された後、前記トレーニングすべきニューラルネットワークが前記目標特徴マップに基づいて、前記サンプル画像の予測結果を取得するステップと、
前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップと、を更に含み、
前記トレーニングすべきニューラルネットワークのパラメータは、前記コンテンツ符号化畳み込み層のパラメータを含むことを特徴とする請求項１から７の何れか一項に記載の特徴マップ拡大方法。
前記特徴マップ拡大方法は、前記トレーニングすべきニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、
前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記トレーニングすべきニューラルネットワークのパラメータを調整するステップは、前記サンプル画像のマーク結果と前記予測結果との間の差に基づいて、前記チャンネル圧縮畳み込み層のパラメータを調整することを更に含むことを特徴とする請求項８に記載の特徴マップ拡大方法。
前記ソース特徴マップは、トレーニング完了されたニューラルネットワークが入力画像に対して特徴抽出を行って得られたものであり、
前記ソース特徴マップに対して畳み込み処理を行うステップは、前記トレーニング完了されたニューラルネットワークにおけるコンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことを含み、
前記特徴マップ拡大方法は、前記目標特徴マップが生成された後、前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップを更に含むことを特徴とする請求項１から７の何れか一項に記載の特徴マップ拡大方法。
前記特徴マップ拡大方法は、前記トレーニング完了されたニューラルネットワークにおけるチャンネル圧縮畳み込み層を介して前記ソース特徴マップに対してチャンネル圧縮を行うステップを更に含み、
前記コンテンツ符号化畳み込み層を介して前記ソース特徴マップに対して畳み込み処理を行うことは、前記コンテンツ符号化畳み込み層を介して、前記チャンネル圧縮された前記ソース特徴マップに対して畳み込み処理を行うことを含むことを特徴とする請求項１０に記載の特徴マップ拡大方法。
前記入力画像は、検出すべき少なくとも１つの目標物体を含み、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各目標物体に対する検出枠、及び前記目標物体の所属する種別を出力することを含み、または
前記入力画像は、欠け部を含み、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の欠け部の画素を出力することを含むことを特徴とする請求項１０又は１１に記載の特徴マップ拡大方法。
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各画素の所属する種別を出力することを含み、または
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像の処理結果を取得するステップは、
前記トレーニング完了されたニューラルネットワークが前記目標特徴マップに基づいて、前記入力画像における各インスタンス、及び各インスタンス内の各画素の所属する種別を出力することを特徴とする請求項１０又は１１に記載の特徴マップ拡大方法。
特徴マップ拡大装置であって、
拡大すべきソース特徴マップを受信するためのソースマップ受信モジュールと、
前記ソース特徴マップに対して畳み込み処理を行い、前記ソース特徴マップにおけるソース位置のそれぞれに対応するＮ個の再構成カーネルを取得するためのカーネル生成モジュールと、
各前記再構成カーネルに対して正規化処理を行い、正規化後の再構成カーネルを取得するための正規化処理モジュールと、
前記ソース特徴マップのソース位置ごとに、前記ソース位置に対応する正規化後のＮ個の再構成カーネルを用いて、前記ソース位置に基づいて特定された再構成領域の特徴に対して再構成を行い、前記ソース位置に対応するＮ個の再構成特徴を取得するための特徴再構成モジュールと、
前記ソース特徴マップのソース位置のそれぞれに対応する前記Ｎ個の再構成特徴に基づいて、目標特徴マップを生成するための目標マップ生成モジュールと、を備え、
前記Ｎは、前記ソース特徴マップに対する拡大倍数の二乗であることを特徴とする特徴マップ拡大装置。
特徴マップ拡大機器であって、
メモリと、プロセッサとを備え、
前記メモリは、前記プロセッサで運転され得るコンピュータ指令を記憶し、
前記プロセッサは、前記コンピュータ指令を実行したときに、請求項１から１３の何れか一項に記載の方法を実施することを特徴とする特徴マップ拡大機器。
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項１から１３の何れか一項に記載の方法が実施されることを特徴とするコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されたときに、請求項１から１３の何れか一項に記載の方法が実施されることを特徴とするコンピュータプログラム。