JP7235125B2

JP7235125B2 - 認識システム、モデル処理装置、モデル処理方法、及び、プログラム

Info

Publication number: JP7235125B2
Application number: JP2021541407A
Authority: JP
Inventors: 勝彦高橋; 哲夫井下; 遊哉石井; 学中野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-03-08
Anticipated expiration: 2039-08-21
Also published as: WO2021033288A1; JPWO2021033288A1; US20220292397A1

Description

本発明は、画像に含まれる物体を認識する技術に関する。

多くのパターンデータを用いて学習を行うことで、認識器の性能を向上できることが知られている。基礎となる認識器から各環境に適合させた認識器にチューニングすることも行われている。また、異なる環境に応じて認識精度を向上させる方法も各種提案されている。例えば、特許文献１は、複数の端末装置において学習された学習済判別器を用いて判別性能を向上させる学習支援装置を開示している。具体的に、この学習支援装置は、複数の端末において学習された学習済判別器を構成するニューラルネットワークのパラメータを収集し、最も正解率の高い学習済判別器を新たな学習用判別器として各端末装置に配信する。

特開２０１９－６１５７８号公報

特許文献１の手法では、学習支援装置は、複数の端末装置における学習済判別器のうち、最も正解率の高い学習済判別器を選択して各端末装置に配信するので、選択されなかった学習済判別器の特性を有効に活用することはできない。

本発明の１つの目的は、さまざまな現場環境で学習した複数のモデルを最適に統合して、高精度のモデルを生成することが可能な認識システムを提供することにある。

上記の課題を解決するため、本発明の一つの観点は、
複数の端末装置と、サーバ装置とを備える認識システムであって、
前記端末装置は、
認識処理に使用するモデルを規定するモデル情報を前記サーバ装置に送信する端末側送信手段と、
前記サーバ装置により生成された更新後のモデルを規定するモデル情報を受信する端末側受信手段と、
を備え、
前記サーバ装置は、
前記複数の端末装置から前記モデル情報を受信するサーバ側受信手段と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合手段と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して前記更新後のモデルを生成するモデル更新手段と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信するサーバ側送信手段と、
を備える。

本発明の他の観点では、複数の端末装置と通信可能なモデル処理装置は、
前記複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信する受信手段と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合手段と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成するモデル更新手段と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信する送信手段と、
を備える。

本発明のさらに他の観点では、モデル処理方法は、
複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信し、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成し、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成し、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信する。

本発明によれば、さまざまな現場環境で学習した複数のモデルを最適に統合して、高精度のモデルを生成することが可能な認識システムを提供することが可能となる。

第１実施形態に係る物体認識システムの構成を示すブロック図である。エッジ装置及びサーバ装置のハードウェア構成を示すブロック図である。物体認識システムの機能構成を示すブロック図である。物体認識処理、学習処理及びモデル蓄積処理のフローチャートである。モデル更新処理のフローチャートである。モデル更新部の第１実施例の機能構成を示すブロック図である。アンカーボックスの概念を説明する図である。モデル更新部の第１実施例によるモデル更新処理のフローチャートである。モデル更新部の第２実施例の機能構成を示すブロック図である。モデル更新部の第２実施例によるモデル更新処理のフローチャートである。モデル更新部の第３実施例の機能構成を示すブロック図である。第２実施形態に係る物体認識システムの構成を示すブロック図である。

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜第１実施形態＞
［全体構成］
図１は、第１実施形態に係る物体認識システムの構成を示すブロック図である。物体認識システム１は、例えば映像監視システムなどに用いられ、図示のように、複数のエッジ装置１００と、サーバ装置２００とを備える。複数のエッジ装置１００と、サーバ装置２００とは通信可能に構成される。エッジ装置１００は、物体認識を行う場所に設置される端末装置であり、カメラなどにより撮影された画像データから物体認識を行う。通常、複数のエッジ装置１００は、それぞれ異なる場所に設置され、その場所（以下、「現場」とも呼ぶ。）で撮影された画像データに対して物体認識を行う。具体的に、エッジ装置１００は、学習用の画像データに基づいて、内部に有する物体認識のためのモデル（以下、「エッジモデル」とも呼ぶ。）を学習する。そして、学習により得られたモデル（以下、「学習済エッジモデル」と呼ぶ。）を用いて、実際に現場で撮影された画像データから物体認識を行う。また、エッジ装置１００は、内部の学習済エッジモデルを規定するモデル情報をサーバ装置２００へ送信する。なお、エッジ装置１００は、本発明の端末装置の一例である。

サーバ装置２００は、複数のエッジ装置１００からエッジモデルのモデル情報を受信し、それらを統合して物体認識のための大規模モデルを生成する。また、サーバ装置２００は、生成した大規模モデルを用いて個々のエッジ装置１００のエッジモデルを学習し、新たなエッジモデルを生成する。このように、サーバ装置２００の大規模モデルを用いて新たなエッジモデルを生成することを「エッジモデルを更新する」と言い、生成された新たなエッジモデルを「更新後エッジモデル」と呼ぶ。サーバ装置２００は、更新後エッジモデルのモデル情報を個々のエッジ装置１００に送信する。

［ハードウェア構成］
（エッジ装置）
図２（Ａ）は、エッジ装置１００のハードウェア構成を示すブロック図である。図示のように、エッジ装置１００は、通信部１０２と、プロセッサ１０３と、メモリ１０４と、記録媒体１０５と、データベース（ＤＢ）１０６と、表示部１０７と、を備える。

通信部１０２は、有線又は無線のネットワークによりサーバ装置２００と通信する。具体的に、通信部１０２は、エッジ装置１００が設置された現場で取得された画像データや、エッジ装置１００の内部で学習された学習済エッジモデルを示すモデル情報をサーバ装置２００へ送信する。また、通信部１０２は、サーバ装置２００において生成された更新後エッジモデルを示すモデル情報をサーバ装置２００から受信する。

プロセッサ１０３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又はＣＰＵとＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、エッジ装置１００の全体を制御する。具体的に、プロセッサ１０３は、後述する物体認識処理、学習処理及びモデル更新処理を実行する。

メモリ１０４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１０４は、エッジ装置１００が使用する物体認識のためのモデルを示すモデル情報を記憶する。メモリ１０４は、プロセッサ１０３により実行される各種のプログラムを記憶する。また、メモリ１０４は、プロセッサ１０３による各種の処理の実行中に作業メモリとしても使用される。

記録媒体１０５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、エッジ装置１００に対して着脱可能に構成される。記録媒体１０５は、プロセッサ１０３が実行する各種のプログラムを記録している。エッジ装置１００が各種の処理を実行する際には、記録媒体１０５に記録されているプログラムがメモリ１０４にロードされ、プロセッサ１０３により実行される。

データベース１０６は、エッジ装置１００の学習処理において使用される、学習用の画像データを記憶する。学習用の画像データは正解ラベルを含む。また、データベース１０６は、現場で取得された画像データ、即ち、実際の物体認識処理の対象となる画像データを記憶する。表示部１０７は、例えば液晶表示装置などであり、物体認識処理の結果を表示する。なお、上記に加えて、エッジ装置１００は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器を備えていても良い。

（サーバ装置）
図２（Ｂ）は、サーバ装置２００のハードウェア構成を示すブロック図である。図示のように、サーバ装置２００は、通信部２０２と、プロセッサ２０３と、メモリ２０４と、記録媒体２０５と、データベース（ＤＢ）２０６と、を備える。

通信部２０２は、有線又は無線のネットワークにより、複数のエッジ装置１００と通信する。具体的に、通信部２０２は、エッジ装置１００が設置された現場で取得された画像データや、エッジ装置１００の内部で学習された学習済エッジモデルを示すモデル情報をエッジ装置１００から受信する。また、通信部２０２は、サーバ装置２００が生成した更新後エッジモデルを示すモデル情報をエッジ装置１００へ送信する。

プロセッサ２０３は、ＣＰＵ、又はＣＰＵとＧＰＵなどのコンピュータであり、予め用意されたプログラムを実行することにより、サーバ装置２００の全体を制御する。具体的に、プロセッサ２０３は、後述するモデル蓄積処理及びモデル更新処理を実行する。

メモリ２０４は、ＲＯＭ、ＲＡＭなどにより構成される。メモリ２０４は、複数のエッジ装置１００から送信されたエッジモデルを示すモデル情報を記憶する。メモリ２０４は、プロセッサ２０３により実行される各種のプログラムを記憶する。また、メモリ２０４は、プロセッサ２０３による各種の処理の実行中に作業メモリとしても使用される。

記録媒体２０５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、サーバ装置２００に対して着脱可能に構成される。記録媒体２０５は、プロセッサ２０３が実行する各種のプログラムを記録している。サーバ装置２００が各種の処理を実行する際には、記録媒体２０５に記録されているプログラムがメモリ２０４にロードされ、プロセッサ２０３により実行される。

データベース２０６は、モデル更新処理において使用される、学習用の画像データを記憶する。学習用の画像データは正解ラベルを含む。また、データベース２０６は、エッジモデルのモデル更新処理において使用される、各エッジ装置１００の現場で取得された画像データを記憶する。なお、上記に加えて、サーバ装置２００は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

［機能構成］
次に、物体認識システム１の機能構成について説明する。図３は、物体認識システム１の機能構成を示すブロック図である。エッジ装置１００は、認識部１１１と、モデル記憶部１１２と、モデル学習部１１３と、モデル情報受信部１１４と、モデル情報送信部１１５と、認識結果提示部１１６とを備える。サーバ装置２００は、モデル情報送信部２１１と、モデル情報受信部２１２と、モデル蓄積部２１３と、モデル更新部２５０と、を備える。

エッジ装置１００において、モデル記憶部１１２には、画像データから物体認識を行うためのエッジモデルが記憶される。エッジ装置１００の運用当初には、必要なレベルの学習を行った学習済エッジモデルがモデル記憶部１１２に記憶される。その後、モデル学習部１１３は、現場で得られた画像データを用いて定期的にエッジモデルの学習を行う。認識部１１１は、モデル記憶部１１２に記憶されているエッジモデルを用いて、エッジ装置１００が設置された現場で得られた画像データから物体認識を行い、認識結果を出力する。認識結果は、認識結果提示部１１６により、図２（Ａ）に示す表示部１０７などに表示される。

モデル情報送信部１１５は、エッジモデルを更新するため、モデル記憶部１１２に記憶されているエッジモデルのモデル情報をサーバ装置２００へ送信する。ここで、「モデル情報」は、そのモデルの構造（以下、「モデル構造」と呼ぶ。）と、そのモデルに設定されるパラメータの集合（以下、「パラメータセット」）とを含む。例えば、ニューラルネットワークを用いた物体認識のためのモデルの場合、モデル構造はそのニューラルネットワークの構造であり、パラメータセットはそのニューラルネットワークにおける各層の結合部に設定されるパラメータの集合である。モデル情報受信部１１４は、サーバ装置２００により生成された更新後エッジモデルのモデル情報をサーバ装置２００から受信し、モデル記憶部１１２に記憶する。なお、モデル情報受信部１１４は本発明の端末側受信部の一例であり、モデル情報送信部１１５は本発明の端末側送信部の一例である。

サーバ装置２００において、モデル情報受信部２１２は、複数のエッジ装置１００からエッジモデルのモデル情報を受信し、モデル蓄積部２１３に記憶する。これにより、複数のエッジ装置１００において学習され、使用されているエッジモデルがモデル蓄積部２１３に蓄積される。モデル更新部２５０は、モデル蓄積部２１３に蓄積されている複数のエッジモデルを統合して大規模モデルを生成する。大規模モデルは、本発明の統合モデルの一例である。

また、サーバ装置２００は、エッジ装置１００から、そのエッジ装置１００が設置された現場で得られた画像データの一部を一時的画像データ２１４として受信する。そして、モデル更新部２５０は、大規模モデルと一時的画像データ２１４とを用いてエッジモデルを更新し、更新後エッジモデルをモデル蓄積部２１３に蓄積する。モデル情報送信部２１１は、更新後エッジモデルを示すモデル情報を、そのエッジモデルの送信元のエッジ装置１００に送信する。なお、モデル情報送信部２１１は本発明のサーバ側送信部の一例であり、モデル情報受信部２１２は本発明のサーバ側受信部の一例であり、モデル更新部２５０は本発明のモデル統合部及びモデル更新部の一例である。

［動作］
次に、物体認識システム１の動作について説明する。エッジ装置１００は、物体認識処理と、学習処理と、モデル更新処理とを行う。また、サーバ装置２００は、モデル蓄積処理と、モデル更新処理とを行う。

まず、エッジ装置１００における物体認識処理について説明する。物体認識処理は、エッジ装置１００が画像データから物体を認識する処理であり、基本的にエッジ装置１００において常時実行されている。図４（Ａ）は物体認識処理のフローチャートである。現場で得られた画像データが入力されると、認識部１１１は、モデル記憶部１１２に記憶されているエッジモデルを用いて画像データから物体を認識し、認識結果を出力する（ステップＳ１０１）。そして、認識部１１１は、対象となる画像データが終了したか否かを判定する。画像データが終了していない場合（ステップＳ１０２：Ｎｏ）、認識部１１１は、次の画像データから物体を認識する（ステップＳ１０１）。一方、画像データが終了した場合（ステップＳ１０２：Ｙｅｓ）、物体認識処理は終了する。

次に、エッジ装置１００における学習処理について説明する。学習処理は、エッジ装置１００の内部でエッジモデルを学習する処理である。学習処理は、例えば、予め決められた日時に行ったり、予め決められた時間間隔で定期的に行ったり、ユーザが指定したときに行ったりすることができる。図４（Ｂ）は学習処理のフローチャートである。モデル学習部１１３は、現場で得られた画像データを用いて、モデル記憶部１１２に記憶されているエッジモデルを学習する（ステップＳ１１１）。学習が終了すると、モデル情報送信部１１５は、学習済エッジモデルのモデル情報をモデル記憶部１１２に記憶するとともに、サーバ装置２００へ送信する（ステップＳ１１２）。そして、学習処理は終了する。

次に、サーバ装置２００におけるモデル蓄積処理について説明する。モデル蓄積処理は、各エッジ装置１００から送信されたエッジモデルをサーバ装置２００内に蓄積する処理である。図４（Ｃ）はモデル蓄積処理のフローチャートである。上記のように、エッジ装置１００は、内部での学習処理が終了すると、学習済エッジモデルのモデル情報をサーバ装置２００へ送信する。サーバ装置２００では、モデル情報受信部２１２が学習済エッジモデルのモデル情報を受信し、（ステップＳ１２１）、モデル蓄積部２１３に蓄積する（ステップＳ１２２）。そして、モデル蓄積処理は終了する。こうして、各エッジ装置１００において学習処理が実行されるたびに、学習済エッジモデルのモデル情報がサーバ装置２００に蓄積される。

次に、モデル更新処理について説明する。モデル更新処理は、エッジ装置１００とサーバ装置２００が協力して行う。図５は、モデル更新処理のフローチャートである。いま、一例として、エッジ装置１００がモデル更新処理を開始させるものとする。エッジ装置１００は、例えば、学習処理によりエッジモデルを学習したときや、現場で所定量の新たな画像データが得られたときなどに、モデル更新処理を開始する。モデル更新処理を開始する際、エッジ装置１００は、サーバ装置２００へモデル更新リクエストを送信する（ステップＳ１３１）。この際、エッジ装置１００は、現場で得られた所定量の画像データを、一時的画像データ２１４としてサーバ装置２００へ送信する。

サーバ装置２００は、エッジ装置１００から一時的画像データ２１４を受信する（ステップＳ１３２）。次に、モデル更新部２５０は、複数のエッジモデルを用いて生成された大規模モデルと、一時的画像データ２１４とを用いて、モデル更新リクエストを送信したエッジ装置１００のエッジモデルを更新する（ステップＳ１３３）。具体的に、モデル更新部２５０は、対象となるエッジ装置１００の最新のエッジモデルをモデル蓄積部２１３から取得し、その更新を行い、更新後エッジモデルをモデル蓄積部２１３に保存する。そして、モデル情報送信部２１１は、更新後エッジモデルのモデル情報をエッジ装置１００へ送信する（ステップＳ１３４）。さらに、サーバ装置２００は、ステップＳ１３２でエッジ装置１００から受信した一時的画像データ２１４を消去する（ステップＳ１３５）。

エッジ装置１００では、モデル情報受信部１１４が、更新後エッジモデルのモデル情報をサーバ装置２００から受信し（ステップＳ１３６）、モデル記憶部１１２に記憶する（ステップＳ１３７）。そして、モデル更新処理は終了する。その後、エッジ装置１００は、基本的にサーバ装置２００により更新されたエッジモデルを用いて認識処理を実行することになる。

このように、モデル更新処理によれば、サーバ装置２００は複数のエッジモデルを用いて生成した大規模モデルを使用してエッジモデルを更新するので、複数のエッジモデルの特性を統合してエッジモデルを更新することができる。また、サーバ装置２００は、更新の対象となるエッジ装置１００の現場で得られた一時的画像データを用いてエッジモデルを更新するので、そのエッジ装置１００の現場に適した更新後エッジモデルを生成することができる。なお、一時的画像データは、現場で得られた画像データの一部に過ぎず、かつ、エッジモデルの更新が完了すると消去されるので、秘匿性を有する画像データの取扱いが問題になることはない。

なお、上記の例では、エッジ装置１００がモデル更新リクエストを送信してモデル更新処理を開始しているが、その代わりに、サーバ装置２００がモデル更新処理を開始するようにしてもよい。例えば、サーバ装置２００は、エッジ装置１００から学習済エッジモデルが送られてきたときに、モデル更新処理を開始してもよい。その場合、サーバ装置２００は、エッジ装置１００に対して一時的画像データの送信を要求してもよい。

［応用例］
上記の実施形態については、以下の応用例を適用することができる。
（応用例１）
上記の実施形態では、モデル更新処理が行われると、エッジ装置１００は、モデル更新処理を行う前のエッジモデル（以下、「更新前エッジモデル」と呼ぶ。）を、サーバ装置２００から受信した更新後エッジモデルで置き換え、その後の物体認識処理に使用している。その代わりに、エッジ装置１００は、いったん更新前エッジモデルと更新後エッジモデルの両方を保持し、そのうちの１つを選択してその後の物体認識処理に使用することとしてもよい。この場合、例えば、エッジ装置１００の認識結果提示部１１６は、更新前エッジモデルと更新後エッジモデルによる認識結果をユーザに提示し、ユーザが選択した方のモデルをその後の物体認識処理に使用することとしてもよい。その場合には、エッジ装置１００は、２つのエッジモデルによる認識結果を、例えば特定の比較用テスト画像データに対する認識結果、具体的には、比較用テスト画像データ上に認識された物体を示す枠及び認識の信頼度を表示した画像により表示してもよい。その代わりに、エッジ装置１００は、比較用テスト画像データに対して認識された物体の種類及び数を示すリストを表示してもよい。また、比較用テスト画像データに対して正解データが用意されている場合には、エッジ装置１００は、各エッジモデルによる認識精度を示す数値を表示することとしてもよい。さらに、このように正解データに基づいて２つのエッジモデルの認識結果を算出できる場合には、ユーザに選択させるのではなく、数値化された認識結果に基づいてエッジ装置１００がより性能の良い方のモデルを自動的に選択するようにしてもよい。

（応用例２）
上記の実施形態では、エッジ装置１００とサーバ装置２００の間で、物体を認識するためのモデルにおいて使用するクラスコードを統一する必要がある。よって、複数のエッジ装置１００で使用しているエッジモデル間でクラスコードの体系が異なっている場合には、サーバ装置２００は、クラスコードの体系を統一してから大規模モデルを生成し、モデル更新処理を行う。

いま、仮に認識対象物のクラスとして「人」、「自動車」、「信号機」があるものとする。あるエッジ装置Ｘのクラスコード体系は「人＝１」、「自動車＝２」、「信号＝３」であり、別のエッジ装置Ｙのクラスコード体系は「人＝Ａ」、「自動車＝Ｂ」、「信号＝Ｃ」であるとする。この場合、サーバ装置２００は、このままでは２つのエッジ装置Ｘ、Ｙのエッジモデルを統合することができない。そこで、各エッジ装置Ｘ、Ｙは、学習済エッジモデルのモデル情報をサーバ装置２００に送信する際に、それぞれのクラスコード体系を示す情報もモデル情報に含めてサーバ装置２００へ送信する。こうすると、サーバ装置２００は、受信したクラスコード体系を示す情報に基づいて、各エッジモデルが示す認識対象物のクラスコードを統一することが可能となる。なお、エッジ装置１００は、いったんクラスコード体系を示す情報をサーバ装置２００へ送信した後は、変更がない限り、エッジモデルに関するモデル情報を送信する際に毎回クラスコード体系を送信する必要はない。

なお、上記の方法は、各エッジ装置１００のクラスコード体系が異なる場合に、サーバ装置２００側でクラスコード体系を統一する方法である。その代わりに、サーバ装置２００が使用するクラスコード体系を標準クラスコード体系とし、全てのエッジ装置１００がこの標準クラスコード体系を使用するようにしてもよい。この場合、各エッジ装置１００は、エッジモデルのモデル情報をサーバ装置２００へ送信する際に、自身の内部で使用しているクラスコード体系から標準クラスコード体系へ変換してから、モデル情報をサーバ装置２００へ送信する。

［モデル更新部の実施例］
次に、サーバ装置２００のモデル更新部２５０の実施例について詳しく説明する。
（第１実施例）
図６は、モデル更新部２５０の第１実施例の機能構成を示すブロック図である。モデル更新部２５０は、まず複数の物体認識部を含む大規模モデルを学習するステップ（以下、「大規模モデル学習ステップ」と呼ぶ。）を実行し、次に学習済みの大規模モデルを用いて、更新後エッジモデルに相当するターゲットモデルを学習するステップ（以下、「ターゲットモデル学習ステップ」と呼ぶ。）を実行する。なお、物体認識部はエッジ装置１００で使用されるエッジモデルを用いて物体を認識するユニットである。

図示のように、モデル更新部２５０は、大別して、大規模モデル部２２０と、ターゲットモデル部２３０とを備える。大規模モデル部２２０は、画像入力部２２１と、重み算出部２２２と、第１の物体認識部２２３と、第２の物体認識部２２４と、積和部２２５と、パラメータ修正部２２６と、ロス算出部２２７と、正解ラベル記憶部２２８とを備える。また、ターゲットモデル部２３０は、ターゲットモデル物体認識部２３１と、ロス算出部２３２と、パラメータ修正部２３３とを備える。

ここで、「ターゲットモデル」とは、モデル更新の対象となるエッジ装置（以下、「更新対象エッジ装置」と呼ぶ。）１００のエッジモデル（以下、「更新対象エッジモデル」と呼ぶ。）を指す。また、第１の物体認識部２２３及び第２の物体認識部２２４は、それぞれ更新対象エッジ装置１００とは別のエッジ装置１００により学習されたエッジモデルにより物体を認識する。よって、第１の物体認識部２２３及び第２の物体認識部２２４は、事前に各エッジ装置１００において学習済みのエッジモデルを使用するものであり、以下に説明する処理において学習は行わない。上記の構成において、画像入力部２２１は図２（Ｂ）に示す通信部２０２により実現され、正解ラベル記憶部２２８は図２（Ｂ）に示すデータベース２０６により実現され、その他の構成要素は図２（Ｂ）に示すプロセッサ２０３により実現される。

画像入力部２２１には、学習用の画像データが入力される。ここでは、学習用の画像データとして、更新対象エッジ装置１００が設置された場所で撮影された一時的画像データ２１４が使用される。学習用の画像データに対しては、その画像に含まれる物体を示す正解ラベルが予め用意されている。

第１の物体認識部２２３は、例えばＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）、ＲｅｔｉｎａＮｅｔ、Ｆａｓｔｅｒ－ＲＣＮＮ（ＲｅｇｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などのディープラーニングによる物体検知用のニューラルネットワークに類似する構成を有する。但し、第１の物体認識部２２３は、ＮＭＳ（ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）処理前のアンカーボックス毎に算出された認識対象物体のスコア情報および座標情報をそのまま出力する。ここでは、認識対象物体の有無を検証する、すべての部分領域のことを「アンカーボックス」と呼ぶ。

図７は、アンカーボックスの概念を説明する図である。図示のように、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）の畳み込みにより得られた特徴マップ上に、スライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）が設定される。図３の例では、１つのスライディングウィンドウに対してｋ通りの大きさの異なるアンカーボックス（以下、単に「アンカー」とも呼ぶ。）が設定され、各アンカーに対して認識対象物体の有無が検証される。即ち、各アンカーは、すべてのスライディングウィンドウに対してｋ通りずつ設定される部分領域を指す。

第２の物体認識部２２４は、第１の物体認識部２２３と同様であり、モデルの構造も同一とする。ただし、第１の物体認識部２２３と第２の物体認識部２２４とは、異なるエッジ装置１００において学習されたエッジモデルを使用しているので、内部に所持するネットワークのパラメータは一致しておらず、認識特性も異なる。

重み算出部２２２は、内部に有する重み算出のためのパラメータ（以下、「重み算出パラメータ」と呼ぶ。）を最適化する。重み算出部２２２は、ＲｅｓＮｅｔなどの回帰問題に適用可能なディープニューラルネットワークなどによって構成される。重み算出部２２２は、画像入力部２２１に入力された画像データに基づいて、第１の物体認識部２２３と第２の物体認識部２２４が出力するスコア情報および座標情報を融合する際の重みを決定し、それぞれの重みを示す情報を積和部２２５へ出力する。基本的に、重みの次元数は用いる物体認識部の数に等しい。この場合、重み算出部２２２は、第１の物体認識部２２３に対する重みと第２の物体認識部２２４に対する重みの総和が「１」になるように重みを算出することが好ましい。例えば、重み算出部２２２は、第１の物体認識部２２３に対する重みを「α」とし、第２の物体認識部２２４に対する重みを「１－α」とすればよい。これにより、積和部２２５における平均値算出処理を簡略化することができる。

積和部２２５は、第１の物体認識部２２３および第２の物体認識部２２４が出力するスコア情報および座標情報を、それぞれ対応するアンカー同士で、重み算出部２２２が出力する重みに基づき積和した後に平均値を求める。なお、座標情報の積和演算は、正解ラベルに認識対象物体の存在が示されているアンカーに対してのみ行い、それ以外のアンカーに対しては計算不要である。平均値はアンカー毎かつ認識対象物体毎に算出される。

正解ラベル記憶部２２８は、学習用の画像データに対する正解ラベルを記憶している。具体的に、正解ラベル記憶部２２８は、正解ラベルとして、各アンカーに存在する認識対象物体のスコア情報、および、座標情報をアンカー毎に配列状に記憶する。正解ラベル記憶部２２８は、認識対象物体が存在しないアンカーに対応する記憶エリアには、認識対象物体が存在しない旨を示すスコア情報、および座標情報を記憶する。なお、学習用の画像データに対するもともとの正解情報は、入力画像に写っている認識対象物体の種類とその矩形領域を示すテキスト情報である場合が多いが、正解ラベル記憶部２２８に記憶されている正解ラベルは、その正解情報をアンカー毎のスコア情報および座標情報に変換したデータとなっている。

例えば、正解ラベル記憶部２２８は、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有するアンカーについては、当該物体のスコアを表す正解ラベルの位置に、スコア情報として当該物体のスコアを示す値１．０を格納し、座標情報として当該アンカーの標準矩形位置に対する当該物体が写っている矩形領域の位置の相対量（左端ｘ座標のずれ量、上端ｙ座標のずれ量、幅のずれ量、高さのずれ量）を格納する。また、正解ラベル記憶部２２８は、他の物体のスコアを表す正解ラベルの位置には物体が存在しない旨を示す値を格納する。また、ある物体が写っている矩形領域とあらかじめ定めた閾値以上の重複を有さないアンカーに対しては、正解ラベル記憶部２２８は、物体のスコアおよび座標情報を格納する正解ラベルの位置に物体が存在しない旨を示す値を格納する。

ロス算出部２２７は、積和部２２５が出力するスコア情報および座標情報と、正解ラベル記憶部２２８に記憶されている正解ラベルとを照合してロスを算出する。具体的には、ロス算出部２２７は、スコア情報に関する識別ロス、および、座標情報に関する回帰ロス（Ｒｅｇｒｅｓｓｉｏｎｌｏｓｓ）を算出する。積和部２２５が出力する平均値は、第１の物体認識部２２３がアンカー毎かつ認識対象物体毎に出力するスコア情報および座標情報と同義である。したがって、ロス算出部２２７は、第１の物体認識部２２３の出力に対する識別ロスの算出方法と全く等しい方法で識別ロスの値を算出することができる。ロス算出部２２７は、すべてのアンカーに対するスコア情報の差分を累積して識別ロスを算出する。また、回帰ロスについては、ロス算出部２２７は、いずれかの物体が存在するアンカーに対してのみ座標情報の差分を累積し、いずれの物体も存在しないアンカーに対しては座標情報の差分を考慮しない。

なお、識別ロスと回帰ロスを用いたディープニューラルネットワークの学習については以下の文献に記載されており、これを参考文献として取り込む。
”ＬｅａｒｎｉｎｇＥｆｆｉｃｉｅｎｔＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎＭｏｄｅｌｓｗｉｔｈＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ”，ＮｅｕｒＩＰＳ２０１７
以下、ロス算出部２２７が算出するロスを「大規模モデルロス」とも呼ぶ。

パラメータ修正部２２６は、ロス算出部２２７が算出した大規模モデルロスを減少させるように、重み算出部２２２に内在するネットワークのパラメータを修正する。この時、パラメータ修正部２２６は、第１の物体認識部２２３および第２の物体認識部２２４のネットワークのパラメータを固定し、重み算出部２２２のパラメータのみを修正する。パラメータ修正部２２６は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。

重み算出部２２２は、入力画像に対する各物体認識部の得手・不得手を予測して重みを最適化し、積和部２２５は、その重みを各物体認識部の出力に乗じて平均する。よって、単体の物体認識部に比べて高精度な最終判定を行うことができる。例えば、第１の物体認識部２２３は単独で歩く歩行者の検知を得意とし、第２の物体認識部２２４は集団で歩く歩行者の検知を得意としている場合、入力画像にたまたま単独で歩く人が映っていたならば、重み算出部２２２は第１の物体認識部２２３により大きな重みを割り当てる。また、パラメータ修正部２２６は、学習用の画像データの認識を得意とする物体認識部に対して重み算出部２２２が大きな重みを算出するように、重み算出部２２２のパラメータを修正する。このようにして重み算出部２２２のパラメータを学習することで、第１の物体認識部２２３および第２の物体認識部２２４の出力を最適に積和し、総合的に判定を行うことができる大規模モデルを構築することが可能となる。

ターゲットモデル物体認識部２３１は、更新の対象となるエッジモデルの物体認識部である。ターゲットモデル物体認識部２３１は、第１の物体認識部２２３および第２の物体認識部２２４と同一の、物体検知用のニューラルネットワークに類似した構成を有する。ターゲットモデル物体認識部２３１は、画像入力部２２１に入力された学習用の画像データに基づいて、認識対象物体のスコア情報および座標情報をロス算出部２３２に出力する。

ロス算出部２３２は、ターゲットモデル物体認識部２３１が出力したスコア情報および座標情報を、ロス算出部２２７と同様に、正解ラベル記憶部２２８に記憶されている正解ラベルと照合して識別ロスおよび回帰ロスを算出する。さらに、ロス算出部２３２は、ターゲットモデル物体認識部２３１が出力したスコア情報および座標情報を、積和部２２５が出力するスコア情報および座標情報と照合して識別ロスおよび回帰ロスを算出する。積和部２２５が出力するスコア情報および座標情報は、大規模モデルによるスコア情報および座標情報に相当する。そして、ロス算出部２３２は、算出したロスをパラメータ修正部２３３に供給する。

なお、学習用の画像データは、正解ラベルを有しない画像データ（「ラベルなし画像データ」と呼ぶ。）を含んでいてもよい。ラベルなし画像データについては、ロス算出部２３２は、ターゲットモデル物体認識部２３１が出力したスコア情報および座標情報を、積和部２２５が出力するスコア情報および座標情報と照合して生成した識別ロスおよび回帰ロスのみをパラメータ修正部２３３に出力すればよい。以下、ロス算出部２３２が算出するロスを「ターゲットモデルロス」とも呼ぶ。

パラメータ修正部２３３は、ロス算出部２３２が算出したロスを減少させるように、ターゲットモデル物体認識部２３１に内在するネットワークのパラメータを修正する。パラメータ修正部２３３は、パラメータの修正量を通常の誤差逆伝搬法により求めることができる。

次に、モデル更新部２５０の動作について説明する。図８は、モデル更新部２５０によるモデル更新処理のフローチャートである。この処理は、図２（Ｂ）に示すプロセッサ２０３が予め用意されたプログラムを実行することにより実現される。図８において、ステップＳ１１～Ｓ１８は大規模モデル学習ステップに相当し、ステップＳ１９～Ｓ２４はターゲットモデル学習ステップに相当する。なお、大規模モデル学習ステップの実行中には、ターゲットモデル物体認識部２３１、ロス算出部２３２およびパラメータ修正部２３３は動作しない。

まず、画像入力部２２１に学習用の画像データが入力される（ステップＳ１１）。第１の物体認識部２２３は、画像データを用いて物体認識を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１２）。同様に、第２の物体認識部２２４は、画像データを用いて物体認識を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ１３）。また、重み算出部２２２は、画像データを読み込み、第１の物体認識部２２３および第２の物体認識部２２４の出力それぞれに対する重みを算出する（ステップＳ１４）。

次に、積和部２２５は、アンカー毎に、第１の物体認識部２２３が出力した認識対象物体のスコア情報と座標情報、並びに、第２の物体認識部２２４が出力した認識対象物体のスコア情報と座標情報に、重み算出部２２２が算出したそれぞれに対する重みを掛け合わせて加算し、それらの平均値を出力する（ステップＳ１５）。次に、ロス算出部２２７は、得られた平均値と正解ラベルとの差を照合し、大規模モデルロスを算出する（ステップＳ１６）。そして、パラメータ修正部２２６は、大規模モデルロスの値が減少するように、重み算出部２２２に内在する重み算出パラメータを修正する（ステップＳ１７）。

モデル更新部２５０は、上記のステップＳ１１～Ｓ１７を所定の条件の間だけ繰返し、処理を終了する。なお、「所定の条件」とは、繰返しの回数やロスの値の変化度合いなどに関する条件であり、多くのディープラーニングの学習手順として採用されている方法のいずれかを使用することができる。こうして、大規模モデルが構築される。

こうして、大規模モデル学習ステップが終了すると（ステップＳ１８：Ｙｅｓ）、次に、ターゲットモデル学習ステップが行われる。ターゲットモデル学習ステップでは、重み算出部２２２の内部パラメータは、大規模モデル学習ステップで学習された値に固定される。なお、第１の物体認識部２２３および第２の物体認識部２２４の内部パラメータも事前に学習済みの値に固定されている。

画像入力部２２１に学習用の画像データが入力されると（ステップＳ１９）、大規模モデル部２２０は、入力された画像データを用いて物体認識を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部２３２に出力する（ステップＳ２０）。また、ターゲットモデル物体認識部２３１は、入力された画像データを用いて物体認識を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎にロス算出部２３２に出力する（ステップＳ２１）。次に、ロス算出部２３２は、ターゲットモデル物体認識部２３１が出力したスコア情報および座標情報を、正解ラベル記憶部２２８に記憶されている正解ラベル並びに大規模モデル部２２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出する（ステップＳ２２）。そして、パラメータ修正部２３３は、ターゲットモデルロスの値が減少するように、ターゲットモデル物体認識部２３１に内在するパラメータを修正する（ステップＳ２３）。モデル更新部２５０は、上記のステップＳ１９～Ｓ２４を所定の条件の間だけ繰返し、処理を終了する。

以上のように、モデル更新部２５０の第１実施例によれば、まず、複数の学習済みの物体認識部を用いて大規模モデルを学習し、次に、その大規模モデルを用いて更新対象エッジモデルを学習する。よって、更新対象エッジモデルを、更新対象エッジ装置１００が設置された場所の環境に適した小規模で高精度なモデルに更新することが可能となる。

（変形例１）
上記のモデル更新部２５０の第１実施例については、以下の変形例を適用することができる。
（１）上記の第１実施例では、各物体認識部が出力するスコア情報および座標情報を用いて学習を行っているが、座標情報は用いず、スコア情報のみを用いて学習を行うこととしてもよい。

（２）上記の第１実施例では、第１の物体認識部２２３および第２の物体認識部２２４の２つの物体認識部を用いたが、物体認識部は原理上３つ以上でも全く問題ない。その場合は、重み算出部２２２が出力する重みの次元数（数）を、物体認識部の数と等しくすればよい。

（３）第１の物体認識部２２３および第２の物体認識部２２４を構成する具体的なアルゴリズムとしては、物体検知のためのディープラーニング手法であれば何を用いてもよい。また、重み算出部２２２としては、回帰問題向けのディープラーニングに限らず、誤差逆伝搬法で学習できる関数、いいかえると、重みを算出する関数のパラメータで誤差関数を偏微分可能な関数、であれば何を用いても構わない。

（４）また、上記の第１実施例では、第１の物体認識部２２３と第２の物体認識部２２４とはモデルの構造の等しいものを用いるものとしているが、異なるモデルを用いてもよい。ただし、その場合は、積和部２２５にて、略等しい位置に対応する双方のアンカーの対応づけを工夫する必要がある。これは、異なるモデル間のアンカーは、完全一致しないためである。現実的な実装としては、第２の物体認識部２２４で設定される各アンカーを第１の物体認識部２２３で設定されるアンカーのいずれか１つに対応させ、第１の物体認識部２２３で設定されるアンカー毎に重み付け平均を計算し、第１の物体認識部２２３で設定されるアンカー毎かつ認識対象物体毎のスコア情報および座標情報を出力するようにすればよい。アンカーの対応の決め方としては、アンカーに対応する画像領域（物体が存在する矩形領域）を求め、その画像領域がもっとも過不足なく重複するアンカー同士を対応付ければよい。

（５）第１実施例の重み算出部２２２は画像全体に対して１通りの重みを設定しているが、その代わりに、重み算出部２２２が画像のアンカー毎、即ち部分領域毎に、各物体認識部の出力に対する重みを算出することとしても良い。

（６）重み算出部２２２が、例えばＲｅｔｉｎａＮｅｔのように各物体認識部がクラス毎に異なるバイナリ識別器を持っているならば、アンカー毎ではなくクラス毎に重みを変えられるようにしてもよい。この場合は、重み算出部２２２がクラス毎に重みを算出し、パラメータ修正部２２６がクラス毎にパラメータを修正すればよい。

（第２実施例）
次に、モデル更新部２５０の第２実施例について説明する。第１実施例では、まず、大規模モデルを学習し、その後に大規模モデルを用いてターゲットモデルを学習している。これに対し、第２実施例では、大規模モデルの学習とターゲットモデルの学習を同時に行う。

図９は、第２実施例に係るモデル更新部２５０ｘの機能構成を示すブロック図である。図示のように、第２実施例のモデル更新部２５０ｘでは、ロス算出部２３２の出力がパラメータ修正部２２６にも供給されている。この点以外は、第２実施例のモデル更新部２５０ｘは、図７に示す第１実施例のモデル更新部２５０と同一であり、各要素は基本的に第１実施例と同様に動作する。

第２実施例では、ロス算出部２３２は、ターゲットモデルロスをパラメータ修正部２３３のみならず、パラメータ修正部２２６にも供給する。パラメータ修正部２２６は、ターゲットモデルロスも考慮して、重み算出部２２２の重み算出パラメータを修正する。具体的には、パラメータ修正部２２６は、大規模モデルロス及びターゲットモデルロスが減少するように、重み算出パラメータを修正する。

次に、第２実施例によるモデル更新処理について説明する。図１０は、第２実施例によるモデル更新処理のフローチャートである。図１０に示す学習処理において、ステップＳ４１～Ｓ４６は、図８に示す第１実施例のモデル更新部２５０による学習処理のステップＳ１１～Ｓ１６と同様であるので説明を省略する。

ステップＳ４６でロス算出部２２７が大規模モデルロスを算出すると、ターゲットモデル物体認識部２３１は、入力された画像データを用いて物体検知を行い、画像中の認識対象物体のスコア情報と座標情報をアンカー毎かつ認識対象物体毎に出力する（ステップＳ４７）。次に、ロス算出部２３２は、ターゲットモデル物体認識部２３１が出力したスコア情報および座標情報を、正解ラベル並びに大規模モデル部２２０が出力したスコア情報および座標情報と比較してターゲットモデルロスを算出し、パラメータ修正部２２６及びパラメータ修正部２３３に供給する（ステップＳ４８）。

パラメータ修正部２２６は、大規模モデルロスおよびターゲットモデルロスが減少するように、重み算出部２２２の重み算出パラメータを修正する（ステップＳ４９）。また、パラメータ修正部２３３は、ターゲットモデルロスが減少するように、ターゲットモデル物体認識部２３１に内在するパラメータを修正する（ステップＳ５０）。モデル更新部２５０ｘは、上記のステップＳ４１～Ｓ５０を所定の条件の間だけ繰返し、処理を終了する。

以上のように、モデル更新部２５０の第２実施例によれば、大規模モデルの学習ステップと、ターゲットモデルの学習ステップを同時に実行することができる。よって、新たな現場の環境に適したターゲットモデルを効率的に構築することが可能となる。

（第３実施例）
次に、モデル更新部２５０の第３実施例について説明する。第３実施例は、画像データの撮影環境情報を用いて、各物体認識部に対する重み付けを行うものである。

図１１は、第３実施例に係るモデル更新部２５０ｙの機能構成を示すブロック図である。図示のように、モデル更新部２５０ｙは、図６に示すモデル更新部２５０における重み算出部２２２の代わりに重み算出／環境予測部２２２ｙを備え、さらに予測ロス算出部２２９を追加した構成を有する。これ以外は、第３実施例のモデル更新部２５０ｙは、第１実施例のモデル更新部２５０と同一である。

予測ロス算出部２２９には、撮影環境情報が入力される。撮影環境情報は、学習用の画像データが撮影された環境、即ち、更新対象エッジ装置１００の設置された環境を示す情報である。例えば、撮影環境情報は、（ａ）画像データを撮影したカメラの設置位置の屋内外の別（屋内または屋外）、（ｂ）その時の天候（晴天、曇天、雨または雪）、（ｃ）時刻（昼または夜）、（ｄ）カメラの俯角（０～３０度、３０～６０度または６０～９０度）などである。

重み算出／環境予測部２２２ｙは、重み算出パラメータを用いて第１の物体認識部２２３および第２の物体認識部２２４に対する重みを算出すると同時に、撮影環境を予測するためのパラメータ（以下、「撮影環境予測パラメータ」と呼ぶ。）を用いて、入力された画像データの撮影環境を予測して予測環境情報を生成し、予測ロス算出部２２９に出力する。例えば、撮影環境情報として上記（ａ）～（ｄ）の４種類のものを用いるとすれば、重み算出／環境予測部２２２ｙは、各種類の情報の属性値を１次元で表し、予測環境情報として４次元の値を出力する。重み算出／環境予測部２２２ｙは、重みと予測環境情報を算出するにあたり、計算の一部を共通化する。例えば、ディープニューラルネットワークで算出する場合、重み算出／環境予測部２２２ｙは、ネットワークの下位層を共通化し、上位層のみを重みおよび予測環境情報の算出に特化させる。即ち、重み算出／環境予測部２２２ｙはいわゆるマルチタスク学習を行う。これにより、重み算出パラメータと環境予測パラメータは、その一部が共通することとなる。

予測ロス算出部２２９は、撮影環境情報と、重み算出／環境予測部２２２ｙが算出した予測環境との差異を計算し、予測ロスとしてパラメータ修正部２２６に出力する。パラメータ修正部２２６は、ロス算出部２２７が算出したロスおよび予測ロス算出部２２９が算出した予測ロスを減少させるように、重み算出／環境予測部２２２ｙに内在するネットワークのパラメータを修正する。

第３実施例では、重み算出／環境予測部２２２ｙにおいて、重みの算出と予測環境情報の算出に一部のネットワークを共有しているので、類似した撮影環境のモデル同士は類似した重みをもちやすくなる。その結果、重み算出／環境予測部２２２ｙにおける学習を安定させる効果が得られる。

＜第２実施形態＞
図１２は、第２実施形態に係る物体認識システムの構成を示すブロック図である。第２実施形態の物体認識システムは、複数の端末装置１７０と、サーバ装置２７０とを備える。端末装置１７０は、端末側送信部１７１と、端末側受信部１７２と、を備える。また、サーバ装置２７０は、サーバ側受信部２７１と、モデル統合部２７２と、モデル更新部２７３と、サーバ側送信部２７４とを備える。

端末側送信部１７１は、認識処理に使用するモデルを規定するモデル情報をサーバ装置２７０に送信する。サーバ側受信部２７１は、複数の端末装置１７０からモデル情報を受信する。モデル統合部２７２は、複数の端末装置１７０から受信したモデル情報を統合して統合モデルを生成する。モデル更新部２７３は、モデル更新の対象となる端末装置１７０から受信したモデル情報が規定するモデルを、統合モデルを用いて学習することにより更新して更新後のモデルを生成する。サーバ側送信部２７４は、更新後のモデルを示すモデル情報を、モデル更新の対象となる端末装置１７０に送信する。端末側受信部１７２は、サーバ装置２７０により生成された更新後のモデルを規定するモデル情報を受信する。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
複数の端末装置と、サーバ装置とを備える認識システムであって、
前記端末装置は、
認識処理に使用するモデルを規定するモデル情報を前記サーバ装置に送信する端末側送信部と、
前記サーバ装置により生成された更新後のモデルを規定するモデル情報を受信する端末側受信部と、
を備え、
前記サーバ装置は、
前記複数の端末装置から前記モデル情報を受信するサーバ側受信部と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合部と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して前記更新後のモデルを生成するモデル更新部と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信するサーバ側送信部と、
を備える認識システム。

（付記２）
前記モデル統合部は、前記複数の端末装置から受信したモデル情報が規定するモデルによる認識結果を重み付け加算して、前記統合モデルを生成する付記１に記載の認識システム。

（付記３）
前記モデル情報は、モデルの構造を示すモデル構造と、当該モデル構造に対して設定されるパラメータのセットとを含み、
前記モデル更新部は、前記モデル更新の対象となる端末装置から受信したモデル情報に含まれるパラメータのセットを更新する付記１又は２に記載の認識システム。

（付記４）
前記モデル更新の対象となる端末装置の前記端末側送信部は、当該端末装置が設置された場所で得られた画像データを前記サーバ装置へ送信し、
前記サーバ側受信部は、前記画像データを受信し、
前記モデル統合部は、前記画像データを用いて前記統合モデルを生成し、
前記モデル更新部は、前記画像データを用いて前記モデルを更新する付記１乃至３のいずれか一項に記載の認識システム。

（付記５）
前記サーバ装置は、前記モデル更新部が前記モデルを更新した後、前記画像データを消去する付記４に記載の認識システム。

（付記６）
前記端末側送信部は、前記画像データの撮影環境情報を前記サーバ装置へ送信し、
前記モデル統合部は、前記撮影環境情報も使用して前記統合モデルを生成する付記４又は５に記載の認識システム。

（付記７）
前記端末装置は、当該端末装置が設置された場所で得られた画像データを用いてモデルを学習する学習部を備え、
前記端末側送信部は、前記学習部による学習が終わるたびに、学習後のモデルに対応するモデル情報を前記サーバ装置へ送信する付記１乃至６のいずれか一項に記載の認識システム。

（付記８）
前記端末装置は、前記サーバ装置による更新前のモデル及び前記サーバ装置による更新後のモデルによる認識結果を提示する認識結果提示部を備える付記１乃至７のいずれか一項に記載の認識システム。

（付記９）
前記端末側送信部は、前記モデルによる認識対象物と、当該認識対象物のクラスコードとの対応関係を示すコード体系情報を前記サーバ装置へ送信し、
前記モデル統合部は、前記コード体系情報に基づいて、複数の端末装置におけるモデルによるクラスコードを統一し、前記統合モデルを生成する付記１乃至８のいずれか一項に記載の認識システム。

（付記１０）
前記端末側送信部は、標準コード体系に従って各認識対象物に対してクラスコードを付与したモデル情報を前記サーバ装置へ送信し、
前記標準コード体系は、前記モデルによる認識対象物と、当該認識対象物のクラスコードとの対応関係を示すコード体系であって、前記複数の端末装置及び前記サーバ装置が統一的に使用するコード体系である付記１乃至８のいずれか一項に記載の認識システム。

（付記１１）
複数の端末装置と通信可能なモデル処理装置であって、
前記複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信する受信部と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合部と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成するモデル更新部と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信する送信部と、
を備えるモデル処理装置。

（付記１２）
複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信し、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成し、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成し、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信するモデル処理方法。

（付記１３）
複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信し、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成し、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成し、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信する処理をコンピュータに実行させるプログラムを記録した記録媒体。

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１物体認識システム
１００エッジ装置
１０３プロセッサ
１１１認識部
１１２モデル記憶部
１１３モデル学習部
１１４モデル情報受信部
１１５モデル情報送信部
１１６認識結果提示部
１７０端末装置
２００、２７０サーバ装置
２１１モデル情報送信部
２１２モデル情報受信部
２１３モデル蓄積部
２１４一時的画像データ
２５０モデル更新部

Claims

複数の端末装置と、サーバ装置とを備える認識システムであって、
前記端末装置は、
認識処理に使用するモデルを規定するモデル情報を前記サーバ装置に送信する端末側送信手段と、
前記サーバ装置により生成された更新後のモデルを規定するモデル情報を受信する端末側受信手段と、
を備え、
前記サーバ装置は、
前記複数の端末装置から前記モデル情報を受信するサーバ側受信手段と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合手段と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して前記更新後のモデルを生成するモデル更新手段と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信するサーバ側送信手段と、
を備える認識システム。
前記モデル統合手段は、前記複数の端末装置から受信したモデル情報が規定するモデルによる認識結果を重み付け加算して、前記統合モデルを生成する請求項１に記載の認識システム。
前記モデル情報は、モデルの構造を示すモデル構造と、当該モデル構造に対して設定されるパラメータのセットとを含み、
前記モデル更新手段は、前記モデル更新の対象となる端末装置から受信したモデル情報に含まれるパラメータのセットを更新する請求項１又は２に記載の認識システム。
前記モデル更新の対象となる端末装置の前記端末側送信手段は、当該端末装置が設置された場所で得られた画像データを前記サーバ装置へ送信し、
前記サーバ側受信手段は、前記画像データを受信し、
前記モデル統合手段は、前記画像データを用いて前記統合モデルを生成し、
前記モデル更新手段は、前記画像データを用いて前記モデルを更新する請求項１乃至３のいずれか一項に記載の認識システム。
前記サーバ装置は、前記モデル更新手段が前記モデルを更新した後、前記画像データを消去する請求項４に記載の認識システム。
前記端末側送信手段は、前記画像データの撮影環境情報を前記サーバ装置へ送信し、
前記モデル統合手段は、前記撮影環境情報も使用して前記統合モデルを生成する請求項４又は５に記載の認識システム。
前記端末装置は、当該端末装置が設置された場所で得られた画像データを用いてモデルを学習する学習手段を備え、
前記端末側送信手段は、前記学習手段による学習が終わるたびに、学習後のモデルに対応するモデル情報を前記サーバ装置へ送信する請求項１乃至６のいずれか一項に記載の認識システム。
複数の端末装置と通信可能なモデル処理装置であって、
前記複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信する受信手段と、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成するモデル統合手段と、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成するモデル更新手段と、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信する送信手段と、
を備えるモデル処理装置。
複数の端末装置から、認識処理に使用するモデルを規定するモデル情報を受信し、
前記複数の端末装置から受信したモデル情報を統合して統合モデルを生成し、
モデル更新の対象となる端末装置から受信したモデル情報が規定するモデルを、前記統合モデルを用いて学習することにより更新して更新後のモデルを生成し、
前記更新後のモデルを示すモデル情報を、前記モデル更新の対象となる端末装置に送信するモデル処理方法。
請求項９に記載のモデル処理方法をコンピュータに実行させるプログラム。