WO2024241739A1

WO2024241739A1 - 物体規模推定装置、物体規模推定方法、および物体規模推定システム

Info

Publication number: WO2024241739A1
Application number: PCT/JP2024/014500
Authority: WO
Inventors: 裕樹渡邉; 洋登永吉
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2023-05-19
Filing date: 2024-04-10
Publication date: 2024-11-28
Anticipated expiration: 2025-11-19
Also published as: JP2024166873A

Abstract

本発明では、対象となる物体の物体数を高精度に推定する技術を提供することを目的とする。本発明の物体規模推定装置の一つは、物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、を備える。

Description

物体規模推定装置、物体規模推定方法、および物体規模推定システム

　本発明は、物体規模推定装置、物体規模推定方法、および物体規模推定システムに関する。

　近年、災害発生直後の救助計画や、復興時の計画策定に迅速な被害規模の推定が必要とされており、機動的な広域撮影が可能なドローンの活用とも相まって、高度な活用に期待が高まっている。例えば、映像認識（または画像認識）技術を活用することにより、被害家屋、流木、堆積物の量を迅速に推定することが可能となる。

　撮影画像から対象物の規模を推定するための技術としては、特許文献１から特許文献３のような技術がある。

　特許文献１は、画像における特定の領域において、対象物の密度分布を推定する技術を開示している。特許文献１における画像処理装置は、画像取得機能と、算出機能と、領域取得機能と、推定機能と、を備えている。そして、画像取得機能は、対象画像を取得する。算出機能は、対象画像に含まれる対象（人）の密度分布を算出する。領域取得機能は、対象画像内に設定された第１領域を取得する。推定機能は、対象画像内の第１領域の周辺領域の密度分布に基づいて、対象画像内の第１領域の密度分布を推定する。

　特許文献２は、監視カメラを用いて施設全体の混雑度を可視化するシステムを提供する。システムは、監視カメラ映像から群衆を検知し、そのエッジ量から群衆の大きさ（人数）を導くことで、カメラ映像範囲内の混雑状況を推定する。また通過人数カウンタや、群衆の大きさと移動速度などに基づいて人流（人の移動量）を計算し、モデル化した群衆行動パターンに基づいて、カメラ映像範囲以外のエリアの人数を推定する。モデルは、BIC(Bayesian Information Criteria)等の統計的モデル選択手法により、分布関数やそのパラメータを選択することで構築される。混雑状況はマップ上にプロットされ、即座に当該エリアの混雑状況を把握できる。

　また、特許文献３における物体計数システム４０は、画像に示されている計数対象の物体に関する所定の条件が対応付けられている、画像の部分領域であり計数対象の物体の数が推定される領域の単位である推定領域の情報を取得する取得手段４１と、取得された推定領域の情報が示す推定領域が、他の推定領域における計数対象の物体に含まれていない所定の条件を満たす計数対象の物体を含むように、画像内に推定領域を設定する設定手段４２と、画像内に設定されている推定領域に示されている計数対象の物体の数を、推定領域毎に推定する推定手段４３と、推定領域内の所定の領域同士が重なる領域における計数対象の物体の密度を、各推定領域で推定された計数対象の物体の数を用いて算出する算出手段４４とを備える。

特開２０１８－０２２３４３号公報国際公開第２０１７／１２２２５８号国際公開第２０１７／０４３００２号

　物体検出・領域抽出技術は深層学習技術の導入により高精度化が進んでいる。ここで、衛星画像解析のように対象との距離が一定の場合には、比較的安定した物体カウントが可能である。しかし、空撮映像などから災害規模を推定する際のように撮像装置と対象物の間の距離が一定ではない場合に、近距離にある対象は物体インスタンス単位で検出できるが、遠距離にある対象は物体インスタンス単位では検出できない。このような場合の対策については、特許文献１から特許文献３では想定されていない。
　そこで、本発明では、対象となる物体の物体数を高精度に推定する技術を提供することを目的とする。

　上記の課題を解決するために、代表的な本発明の物体規模推定装置の一つは、物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、を備える。

　本発明によれば、対象となる物体の物体数を高精度に推定することができる。
　上記した以外の課題、構成および効果は、以下の実施をするための形態における説明により明らかにされる。

図１は、物体規模の推定処理において物体検出および領域抽出を行う場合を示す図である。図２は、第１実施形態に係る物体規模推定システムの構成を示す図である。図３は、第１実施形態に係る物体規模推定システムの構成をハードウェアとして示す一例を図である。図４は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。図５は、物体規模推定システムにおける物体規模の推定処理のフローチャートを示す図である。図６は、物体規模推定システムにおける物体規模の推定処理の結果の出力例を模式的に示す図である。図７は、第２実施形態に係る物体規模推定システムの構成を示す図である。図８は、画像データベースに保存されるデータの一例を示す図である。図９は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。図１０は、密度推定処理のフローチャートを示す図である。図１１は、物体規模推定システムにおける物体規模の推定処理の結果の出力例を模式的に示す図である。図１２は、物体規模の推定処理を示すシーケンス図である。

　以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

　本開示において、画像解析に関する説明が含まれる。解析の対象となる画像は、撮像装置が上空に配置されており、上空から見下ろした地上を撮像したものである。このため、画像には、撮像装置との間の距離が短い被写体および撮像装置との距離が大きい被写体が含まれ得る。以下の説明において、画像において「近距離」という場合には撮像装置との間の距離が小さい被写体のことを指し、画像において「遠距離」という場合には撮像装置との間の距離が大きい被写体のことを指す。
　また、物体規模という場合、物体の数を計数したものを指す。物体数という表示を用いることもある。

［従来例］
　図１を参照して、従来例の画像認識による物体規模の推定処理を説明する。図１は、物体規模の推定処理において物体検出および領域抽出を行う場合を示す図である。図１（ａ）は物体検出（object detection）を行う場合を示し、図１（ｂ）を領域抽出（semantic segmentation）を行う場合を示す。

　図１（ａ）を参照して物体検出を説明する。物体検出の対象である撮像画像１０は、ドローンに搭載された撮像装置によって撮像された画像の一例を示す。ドローンは、遠隔操作される無人航空機である。ドローンに搭載された撮像装置によって撮影が行われるため、撮像画像１０には、例えば、水平方向から鉛直方向下向きに向かい方向に撮像装置が向く向きである俯角および撮像装置が位置する高さである高度、の情報が関連付けられる。

　撮像画像１０において、画面中央部から奥側に向けて道が伸びる様子が示されている。また、撮像画像１０の下方は、撮像装置の近傍の箇所に該当しており、住宅と木などが生い茂る緑地が混在している。撮像画像１０の情報は、撮像装置から見て遠方の箇所に該当しており、住宅毎の境目は明瞭には示されていないが、複数の住宅が集まる住宅街が形成されている。撮像画像１０の上端部は、地上と上空の境界が示されている。

　画像における物体検出は、例えばＣＮＮ（Convolutional Neural Network、畳み込みニューラルネットワーク）モデル、ＹＯＬＯ（You Look Only Once）モデルなどを用いて行うことができる。

　物体検出後画像１１は、検出された物体を模式的に示す図である。物体検出後画像１１において、矩形部分１２が示されている。矩形部分１２は、住宅という特性を持つ領域を示している。物体検出後画像１１において矩形部分は１６個示されているので、撮像画像１０において住宅が１６棟含まれることが検出された。

　図１（ｂ）を参照して領域抽出を説明する。領域抽出は、例えば画素の特徴量を判定し、特徴量の近い部分をまとめて同一の領域として抽出する。領域抽出後画像１３は、抽出された領域を模式的に示す図である。領域抽出後画像１３において、斜線表示部分Ｓａは住宅が含まれる領域を示す。

　ここで、物体検出と領域抽出の特性について説明する。物体検出後画像１１に示されるように、撮像画像１０の下方、すなわち撮像装置から近距離にある物体については検出することが可能である。しかし、撮像画像１０の上方、すなわち撮像装置から遠距離にある物体については検出をすることができない。
　一方、領域抽出については、撮像画像１０の上方、すなわち撮像装置から遠距離にある領域についても住宅が含まれる領域として分類することが可能である。しかし、領域に含まれる住宅の数については、カウントすることができない。

　例えば、災害発生直後の状況においてドローンを用いた撮像画像から被災地域にある住宅数を把握することができれば、有効な支援計画を立てることに貢献し得る。しかしながら、従来の画像認識手法を用いる場合には、住宅数の把握をすることはできない。

［第１実施形態］
（システムの構成）
　図２および図３を参照して、第１実施形態に係る物体規模推定システムの構成を説明する。図２は、第１実施形態に係る物体規模推定システムの構成を示す図である。物体規模推定システム１００は、物体規模の推定処理の対象となる画像である対象画像において、検出対象となる物体（以下、「対象物体」ともいう。）を検出し、対象物体の物体数（物体規模）を推定する。

　物体規模推定システム１００は、記憶装置１０１と、入力装置１０２と、表示装置１０３と、主機能部１０４を含む。主機能部１０４は、物体規模推定システム主要な機能を発揮する。主機能部１０４を、物体規模推定装置として構成することも可能である。

　記憶装置１０１は、撮像装置によって取得された画像が記憶される。記憶された画像は、物体規模の推定処理の対象となる。記憶装置１０１は、任意の種類の記憶媒体によって構成される。記憶装置１０１は、複数の記憶媒体の組み合わせによって構成されてもよく、例えば、半導体メモリやハードディスクドライブなどの記憶デバイスの組み合わせによって構成されてもよい。記憶装置１０１は、クラウド上の記憶領域であってもよい。
　また、記憶装置１０１は、撮像装置であってもよく、例えばドローン搭載の撮像装置とすることも可能である。主機能部１０４は、この場合には、撮像装置から直接的に画像を取得することも可能である。また、複数の撮像装置から画像を取得する構成としてもよく、例えば複数のドローン搭載の撮像装置と主機能部１０４とが接続するシステムを構成することも可能である。

　入力装置１０２は、物体規模推定システム１００のユーザの入力操作を受け付ける。表示装置１０３は、物体規模の推定を行った結果を表示する。

　図２における主機能部１０４は、主に機能ブロックとしての側面を示す。主機能部１０４は、画像入力部１０５、領域抽出部１０６、深度推定部１０７、物体検出部１０８、密度推定部１０９、画像データベース１１０、物体数推定部１１１、表示部１１２を有する。

　画像入力部１０５は、記憶装置１０１と主機能部１０４との間のインターフェースとしての機能を有する。画像入力部１０５は、記憶装置１０１から物体規模の推定処理を行う対象となる画像である対象画像および対象画像に関連付けられる関連情報を取得する。

　領域抽出部１０６は、対象物体が含まれると推定される領域である推定領域を抽出する。領域抽出部１０６は、対象画像を共通の特徴を持つ領域に分類（グループ化）する処理を行う。例えば、領域抽出部１０６は、画素の特徴量を判定し、特徴量の近い部分をまとめて同一の領域として抽出する。領域抽出部１０６は、例えば、特徴量と物体の間の関係を示す教師データを予め学習しておき、物体毎に領域を区別することが可能である。また、教師データを用いずに、スペクトルやテクスチャなどの特徴量を用いて領域を分類することも可能である。第１実施形態の場合、住宅街、森林、道路、水辺などに領域を区別して抽出することが可能である。

　深度推定部１０７は、対象画像の深度マップを生成する。深度マップは、対象画像のなかの画素ごとの被撮像物（被写体）と撮像装置との間の距離を表現したものである。深度マップを生成する方法としては、例えば対象画像が撮像された場合における俯角および高度に基づいて、深度を推定して深度マップを生成することが可能である。他にも、対象画像が単眼カメラによって撮像された画像である場合、単眼深度推定を行い深度マップを生成する方法（例えば、画像に対応する深度マップを関連付けた教師データを集めて学習を行い対象画像の深度マップを生成する方法）、ステレオカメラにおけるカメラ間の視差を用いて深度マップを生成する方法、画像とレーザーや赤外線等を用いた測距センサの情報を組み合わせる方法、などがある。また、撮像装置の位置情報が対象画像に関連付けられている場合には、位置情報を用いて深度マップを生成することも可能である。深度推定部１０７は、画像および関連情報に基づいて、これらの方法から選択することが可能である。

　物体検出部１０８は、対象画像において、検出対象となる物体である対象物体を検出する。物体検出部１０８は、例えば、ＣＮＮモデル、ＹＯＬＯモデルなどを用いて、対象画像から対象物体を検出する。

　密度推定部１０９は、対象物体および深度マップに基づいて、対象物体の密度を推定する。

　画像データベース１１０は、対象画像および対象画像に関連する特徴量に関するデータを記憶する。

　物体数推定部１１１は、推定領域および深度マップに基づいて推定領域の面積を推定し、対象物体の密度および面積に基づいて推定領域における対象物体の数を算出する。

　表示部１１２は、算出された物体数に関する情報を表示装置１０３に出力する。

　図３は、第１実施形態に係る物体規模推定システムの構成をハードウェアとして示す一例を図である。物体規模推定システム１００は、記憶装置１０１と、入力装置１０２と、表示装置１０３と、プロセッサ２０１と、主記憶装置２０２と、ＮＩＣ（Network Interface Card）２０４を含む。

　プロセッサ２０１は、一定の処理手順に基づいてデータの変換、演算、加工をする処理装置である。プロセッサ２０１は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）などによって構成され、または複数の処理装置の組み合わせによって構成されてもよい。

　主記憶装置２０２は、記憶装置１０１と同様に、任意の種類の記憶媒体によって構成される。主記憶装置２０２は、複数の記憶媒体の組み合わせによって構成されてもよく、例えば、半導体メモリやハードディスクドライブなどの記憶デバイスの組み合わせによって構成されてもよい。

　主記憶装置２０２に記憶される処理プログラム２０３は、各機能ブロック（すなわち、画像入力部１０５、領域抽出部１０６、深度推定部１０７、物体検出部１０８、密度推定部１０９、物体数推定部１１１、表示部１１２）の処理手順を規定している。プロセッサ２０１が処理プログラム２０３を実行することによって、各機能ブロックの機能を発揮する。

　ＮＩＣ２０４は、主機能部１０４を構成する機器をネットワークに接続するためのインターフェースである。記憶装置１０１は、ＮＩＣ２０４を介して、主機能部１０４に接続される。なお、入力装置１０２と表示装置１０３は、ＮＩＣ２０４によって提供されるネットワークを介してプロセッサ２０１および主記憶装置２０２に接続される。

　上述のハードウェア構成は一例であり、本開示はこれに限定されない。例えば、記憶装置１０１は、ＮＩＣ２０４によってネットワークに接続されているため、ＮＡＳ（Network Attached Storage）またはＳＡＮ（Storage Area Network）が想定されている。記憶装置１０１は、ＤＡＳ（Direct Attached Storage）を適用してもよい。
　また、プロセッサ２０１と主記憶装置２０２の組み合わせによって機能ブロックの機能を実現しているが、負荷処理分散のため、他のプロセッサと主記憶装置の組み合わせを併用して処理プログラム２０３を実行することにしてもよい。
　また、記憶装置１０１と入力装置１０２と表示装置１０３は、物体規模推定システム１００のユーザと主機能部１０４の間のインターフェースの機能を有している。ユーザと主機能部１０４との間のインターフェースとして機能するものであれば、主機能部１０４と直接的に接続する別個のデバイスでなくともよい。例えば、表示装置１０３は、主機能部１０４と通信可能な携帯端末であってもよい。記憶装置１０１と入力装置１０２と表示装置１０３は、ユーザの使用態様に合わせて適宜設定することが可能である。

（物体規模の推定処理のデータの流れ）
　図４を参照して、深度および密度を用いた物体規模の推定処理を説明する。図４は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。

　最初に、物体規模推定システム１００に対象画像３０１を示す情報が読み込まれる。対象画像３０１は、例えばドローンを用いて撮像されるものであり、俯角および高度に関する情報が関連づけられている。ドローン等の航空機器による撮影に限定されず、本開示には他の画像を適用することも可能である。例えば、監視塔のような高所に設置された撮像装置によって取得された画像を用いてもよい。なお、対象画像３０１の画像自体は、前述の撮像画像１０と同じものである。

　続いて、深度推定処理３０２において、対象画像３０１の深度マップが作成される。深度マップ３０３は、対象画像３０１に深度推定を行った場合の結果の一例を模式的に示す図である。画素ごとに撮像装置と被撮像物との間の距離（深度）が抽出され、色の濃淡が深度の大小に対応している。

　領域抽出処理３０４において、対象画像３０１から住宅が含まれる領域が抽出される。領域抽出後画像３０５における斜線表示部分Ｓａは、住宅が含まれる領域を示す。

　物体検出処理３０６において、対象画像３０１から住宅（物体）が検出される。物体検出後画像３０７において、矩形部分は１６個含まれており、住宅が１６棟検出されている。

　なお、物体検出は、モデルを用いて検出する場合の検出の信頼度および矩形部分に含まれるピクセルサイズ（画素の大きさ）によって、物体検出の精度が判断される。例えば、信頼度およびピクセルサイズに基準値を設け、信頼度およびピクセルサイズが基準値を超えた矩形部分については物体検出ができたと判断し、信頼度およびピクセルサイズが基準値以下の場合には物体検出ができた物体数にカウントしない、とすることが可能である。またほかにも、画像において基準値を超える割合が高い部分を近距離として物体検出を行う、対象画像において基準値以下となる割合が高い部分を遠距離として領域抽出の対象とする、というように、領域抽出処理および物体検出処理を行う条件を設けることも可能である。

　続いて、密度推定処理３０８が行われる。物体検出処理を行うことができた近距離における物体密度が推定される。具体的には、まず、深度マップ３０３を用いて物体検出後画像３０７の矩形部分が検出された範囲の面積を算出する。算出された面積と物体数から、単位面積当たりの物体数（密度）が算出される。密度を示す情報である密度情報３０９が生成される。

　面積推定処理３１０において、領域抽出後画像３０５における斜線表示部分Ｓａの面積が推定される。斜線表示部分Ｓａの面積を示す情報である面積情報３１１が生成される。

　物体数推定処理３１２において、近距離における物体数の密度情報３０９および斜線表示部分Ｓａの面積情報に基づいて、斜線表示部分Ｓａに含まれる物体数（住宅数）が推定される。具体的には、近距離における住宅の密度と遠距離における住宅の密度が同じであると仮定のも、住宅の密度と斜線表示部分Ｓａの面積の積をとることによって、斜線表示部分Ｓａに含まれる住宅数が推定される。例えば、住宅の密度が０．０１２５ｍ^－２であり、斜線表示部分Ｓａの面積が７２００ｍ^２であった場合、０．０１２５×７２００＝９０であり、９０棟が斜線表示部分Ｓａに含まれると推定される。

　なお、処理の順序は適宜設定しうる。例えば、深度推定処理３０２と領域抽出処理３０４と物体検出処理３０６は、並列に処理を行うことも可能であるし、直列に処理を行ってもよい。直列に行う場合にも、処理を実行する順序は適宜設定しうる。

（物体規模の推定処理の手順）
　図５を参照して、密度および深度を用いた物体規模の推定処理の手順を説明する。図５は、物体規模推定システムにおける物体規模の推定処理のフローチャートを示す図である。

　最初に、物体規模推定システム１００は、物体規模の推定処理を行う画像を読み込む（ステップＳ６０１）。対象画像の情報は、画像入力部１０５によって物体規模推定システム１００に読み込まれる。

　続いて、深度推定部１０７は、読み込んだ対象画像の深度マップを作成する（ステップＳ６０２）。深度推定部１０７は、対象画像に関連付けられた情報（たとえば、撮像装置の俯角および高度など）を用いて、深度を推定し、深度マップを作成する。

　続いて、領域抽出部１０６は、読み込んだ画像から領域を抽出する（ステップＳ６０３）。領域抽出部１０６は、物体規模の推定処理の対象物体が含まれると推定される領域（推定領域）を抽出する。推定領域は、対象画像において、撮像装置から遠距離にあり、後述の物体検出を行うことができない部分においても行われる。

　続いて、物体検出部１０８は、読み込んだ画像から物体を検出する（ステップＳ６０４）。物体検出部１０８は、対象画像において、検出対象となる物体である対象物体を検出する。物体の検出は、対象画像において、概ね撮像装置から近距離にある物体が検出される。物体検出部１０８は、検出された物体の数を数える。

　続いて、密度推定部１０９は、近距離の物体密度を推定する（ステップＳ６０５）。密度推定部１０９は、物体検出部１０８によって検出された対象物体および深度推定部１０７によって生成された深度マップに基づいて、対象物体の密度を推定する。推定される密度は、撮像装置から近距離における物体の密度である。

　続いて、物体数推定部１１１は、遠距離の面積を推定する（ステップＳ６０６）。具体的には、物体数推定部１１１は、領域抽出部１０６によって抽出された推定領域および深度推定部１０７によって生成された深度マップに基づいて、推定領域の面積を推定する。

　さらに、物体数推定部１１１は、密度と面積から、遠距離の物体数を推定する（ステップＳ６０７）。具体的には、物体数推定部１１１は、密度推定部１０９によって推定された対象物体の密度およびステップＳ６０６において推定した推定領域の面積に基づいて、推定領域における対象物体の数を算出する。

　続いて、表示部１１２は、近距離と遠距離の物体数を出力する（ステップＳ６０８）。
具体的な出力例は後述する。

　なお、画像データベース１１０は、物体検出部１０８による物体検出の結果、領域抽出部１０６による領域抽出の結果、物体数推定部１１１による物体数推定の結果、を示す情報を保存する。物体数推定の結果を関連付けて保存することによって、ユーザが過去の推定結果にアクセスすることが容易になる。

（物体規模の推定処理の結果の出力の例）
　図６は、物体規模推定システム１００における物体規模の推定処理の結果の出力例を模式的に示す図である。

　図６において、入力装置１０２がマウスおよびキーボードとして示されている。同様に、表示装置１０３はディスプレイとして、主機能部１０４はタワー型のデスクトップコンピュータとして、それぞれ示されている。また、表示装置１０３の表示画面において、マウスカーソル７００、画像読み込みボタン７０１、入力画像表示部７０２、画像認識結果表示部７０４、規模推定結果表示部７０５、規模推定実行ボタン７０３、がそれぞれ示されている。物体規模推定システム１００は、マウスおよびキーボードを介して入力されたユーザの要求に基づいて、処理を行う。例えば、画像読み込みボタン７０１を選択して対応する処理が行われる場合には、画像読み込みボタン７０１上にマウスカーソル７００が配置された状態で、キーボードまたはマウスを介したユーザの入力操作が行われる。

　画像読み込みボタン７０１が選択される場合、物体規模の推定処理の対象となる画像を読み込む処理が行われる。読み込まれる対象画像は予め定められたものであってもよい。また、画像読み込みボタン７０１が選択された後に、記憶装置１０１に記憶された画像データをリスト等の形式に表示させ、ユーザに選択させることも可能である。

　入力画像表示部７０２は、読み込まれた画像を示す。ユーザは、入力画像表示部７０２に示された画像が物体規模の推定処理を行う対象画像であるかどうかを確認することが可能である。所望の画像ではなかった場合、ユーザは、再度画像読み込みボタン７０１を選択し、読み込む画像を選択することが可能である。

　規模推定実行ボタン７０３が選択される場合、読み込まれた対象画像について物体規模の推定処理が行われる。画像認識結果表示部７０４は、物体検出処理によって検出された対象物体を示す矩形部分（第１図形）、および領域抽出処理によって抽出された推定領域を示す斜線表示部分（第２図形）とを、読み込まれた対象画像上に重ねて表示した態様で示す。また、規模推定結果表示部７０５は、物体検出処理によって推定された近距離の物体数および物体数推定処理によって推定された推定領域に含まれる遠距離の物体数を示す。具体的には、「家屋１０６棟」と示されるように、入力画像表示部７０２に示された画像に含まれると推定される住宅数は１０６棟である。また１０６棟の内訳は、「近距離：１６棟」と示されるように対象画像の近距離において１６棟であり、「遠距離：９０棟（推定）」と示されるように対象画像の遠距離において９０棟である。なお、図６は表示態様の一例を示すものであり、本開示はこれに限定されない。例えば、対象物体を表示するのに矩形部分を表示する場合を示すが、他の多角形を採用してもよいし、ハッチ等の表示態様を変更するものでもよい。また、斜線表示部分についても、抽出された領域を区別できる態様であれば、斜線表示以外の表示態様を採用することも可能である。

（作用・効果）
　撮像された画像の中に、撮像装置から近距離にある物体と撮像装置から遠距離にある物体が含まれる場合、近距離にある物体については物体検出処理によって対象とする物体の個数を把握することが可能である。一方、遠距離にある物体については、信頼度の高い物体検出を行うことは難しい。また、領域抽出処理を行うことも可能ではあるが、対象とする物体を含む領域であることが認識されるにとどまり、これ以上の情報量を得ることは難しい。

　これに対し、本発明においては、対象画像の深度マップを生成し、近距離における物体の密度を用いることで、遠距離にある物体の物体数を推定する。このようにすることによって、物体検出処理による認識が困難な遠距離の物体の規模推定が可能となる。
　また、推定結果を表示することによって、ユーザへの情報提供が可能となる。物体検出処理の結果および領域抽出処理の結果を対象画像に重畳させた表示や、物体検知処理による物体数と深度マップを利用して推定された物体数を対比した表示を一度にユーザに提示するため、ユーザは物体規模の推定処理の確からしさを直感的に把握することが可能となる。

［第２実施形態］
（システムの構成）
　第２実施形態は、画像データベース内の画像を物体規模の推定処理に用いる点で第１実施形態と異なる。以下の説明において、上述の第１実施形態と同一または同等の構成要素については同一の符号を付し、その説明を簡略または省略する。

　図７は、第２実施形態に係る物体規模推定システムの構成を示す図である。第２実施形態の物体規模推定システム１００ａにおいて、第１実施形態の物体規模推定システム１００との違いは、画像データベース１１０ａに保存される情報が密度推定部１０９に用いられる点である。

　図８は、画像データベース１１０ａに保存されるデータの一例を示す図である。画像データベース１１０ａは、テンプレート画像とテンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、テンプレート画像に含まれる物体および物体の種別を含む物体テーブルと、テンプレート画像から抽出される領域および領域の種別を示す領域テーブルとを含む。なお、ここで物体規模の推定処理の対象となる対象画像と区別するためにテンプレート画像と表記する。テンプレート画像とは、物体規模の推定処理を行う前に事前に集められた画像または物体規模の推定処理を行う過程で取得された画像のことである。後述するように、テンプレート画像には、物体規模の推定処理の過程において生成された深度マップ、物体検出処理の結果、領域抽出処理の結果等が関連付けられている。以下、３つのテーブルのデータについて説明する。

　図８（ａ）は画像テーブルの一例を示す図である。画像テーブルは、物体規模推定システムに読み込まれる画像を管理する。画像テーブルは、深度マップおよび検索用の特徴量も管理する。画像テーブルは、ＩＤ、画像（以下、「テンプレート画像」ともいう。）、深度マップ、画像特徴量、深度マップ特徴量（以下、「テンプレート深度マップ特徴量」ともいう。）、の列（カラム）を含む。テーブルの行（レコード）には、テンプレート画像のデータ、テンプレート画像から生成された深度マップ、テンプレート画像の特徴量、深度マップの特徴量を含む。テンプレート画像の特徴量としては、エッジパターン、色、ＨＯＧ（Histograms of Oriented Gradients）、ＳＩＦＴ（Scaled Invariance Feature Transform）等が画素ごとに検出されている。深度マップの特徴量としては、例えば撮像装置からの距離を示す指標が用いられる。例えば、ＩＤ＝１に該当する行には、画像および深度マップが示されている。画像特徴量は［０．６２７，０．０５５，０．４７９，０．８８２，０．７２８，…］であり、深度マップ特徴量は［０．５５０，０．０４６，０．５４０，０．４５９，０．０９８，…］である。

　図８（ｂ）は物体テーブルの一例を示す図である。物体テーブルは、物体検出処理を行った結果を管理する。物体テーブルは、ＩＤ、画像ＩＤ、座標、種別、信頼度の列を含む。テーブルの行には、画像ＩＤのデータ、テンプレート画像において物体検出された領域を示す座標のデータ、種別を示すラベルのデータ、物体検出の信頼度のデータを含む。画像ＩＤによって、物体テーブルと画像テーブルは紐づけがされている。具体的には、画像ＩＤ＝１は、物体テーブルにおけるＩＤ＝１のテンプレート画像をさす。テーブルに含まれているデータ（レコード）について、例えば、ＩＤ＝１に該当する行には、画像ＩＤ＝１のテンプレート画像について物体検出処理を行った場合、座標［０．４２，０．６３，０．６，０．８］に囲まれる箇所に物体の種別として住宅が抽出されたことを示している。上述の座標における物体検出の信頼度は、０．９５である。図８（ｂ）に示される物体テーブルにおいては、画像ＩＤ＝１のテンプレート画像に対して複数の物体が検出されている。なお、図８（ｂ）においては種別として住宅が検出された場合が示されているが、物体テーブルには住宅以外の物体を検出した結果も含まれ得る。

　図８（ｃ）は領域テーブルの一例を示す図である。領域テーブルは、領域抽出処理を行った結果を管理する。領域テーブルは、ＩＤ、画像ＩＤ、領域、種別の列を含む。テーブルの行には、画像ＩＤのデータ、抽出された領域の範囲を示すデータ、種別を示すラベルのデータを含む。物体テーブルの場合と同様に、領域テーブルにおいても、画像ＩＤによって、物体テーブルと領域テーブルは紐づけがされている。テーブルに含まれるデータについて、例えば、画像ＩＤ＝１のテンプレート画像について領域抽出処理を行った場合、領域として、抽出された領域を示す斜線表示部分Ｓｂが示される。抽出された領域の種別は住宅街である。なお、図８（ｃ）においては種別として住宅街が検出された場合が示されているが、領域テーブルには住宅街以外の領域を検出した結果も含まれ得る。

（物体規模の推定処理のデータの流れ）
　図９を参照して、類似画像の検索を用いた物体規模の推定処理を説明する。図９は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。

　対象画像８０１は、物体規模推定システム１００ａに読み込まれる画像である。対象画像８０１において、対象画像８０１の右側の手前から奥にかけて、樹木が生えている部分が広がっている。また、植物が生えておらずかつ建物もない土地が中央部分に広がっている。対象画像８０１の左下側に少数の建物があり、対象画像８０１の左奥側に複数の建物がある。

　物体検出処理８０２において、対象画像８０１から住宅が検出される。物体検出後画像８０３において、矩形部分は１個含まれており、住宅が１棟検出されている。住宅が１棟しか検出されないため、密度推定処理を実施することができず、密度推定不可８０４と判定される。

　このように、対象画像８０１のように近距離の領域に物体が十分な数だけ映されていない場合、第１実施形態の密度推定処理を行うことができない。これに対して、第２実施形態においては、画像データベース１１０ａに蓄積されたテンプレート画像から、類似する深度マップを検索し、それに紐づいた物体検出結果から密度を推定する。

　深度推定処理８０５において、対象画像８０１の深度マップ８０６が形成される。

　続いて、類似画像検索処理８０７において、画像データベース１１０ａから深度マップ８０６に類似する深度マップおよび関連情報が検索される。具体的には、深度マップ８０６から抽出される深度マップ特徴量（以下、「対象深度マップ特徴量」ともいう。）をクエリとして用いる。

　類似画像検索結果８０８に示されるように、まず、深度マップ８０６の深度マップ特徴量と深度テーブルの深度マップ特徴量を比較し、深度マップ８０６と深度テーブルの深度マップとの間の類似度が算出される。画像ＩＤ＝２の深度マップは類似度が０．９０である。画像ＩＤ＝１のテンプレート画像の深度マップは類似度が０．８０である。画像ＩＤ＝３のテンプレート画像の深度マップは類似度が０．５０である。画像テーブルには３以上のレコードが含まれているところ、類似画像検索処理においては、例えば類似度が所定値（ここでは０．５０）以上となるテンプレート画像（以下、「類似テンプレート画像」ともいう。）を抽出する。または、ユーザによって類似テンプレート画像を選択させることも可能である。

　続いて、画像データベース１１０ａから抽出された類似テンプレート画像の物体の数を取得する。具体的には、抽出された類似テンプレート画像に関して物体テーブルを参照し、対象物体と同じ種別として検出された物体の数を算出する。画像ＩＤ＝２のテンプレート画像は１６棟の住宅を含む。画像ＩＤ＝１のテンプレート画像は１１棟の住宅を含む。画像ＩＤ＝３のテンプレート画像は１２棟の住宅を含む。なお、物体の数をカウントする場合、所定の信頼度以上のもののみをカウント対象とすることとしてもよい。

　続いて、密度推定処理８０９において、物体の平均密度が計算される。具体的には、領域テーブルに示される斜線表示部分Ｓｂの面積を算出し、物体の数と面積に基づいて密度が算出される。

　算出された密度を対象画像８０１に適用して、対象画像８０１に含まれる物体の数が推定される。

（密度推定処理の処理手順）
　図１０を参照して、類似画像の検索を用いた密度推定の処理手順を説明する。図１０は、密度推定処理のフローチャートを示す図である。物体規模の推定処理のうち、特に密度推定に部分を説明する。密度推定部１０９は、前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、画像テーブルから抽出し、類似テンプレート画像に含まれる対象物体の数である第２物体数を、前記物体テーブルに基づいて算出し、類似テンプレート画像の領域に含まれる対象物体の密度である第２密度を、第２物体数および前記領域テーブルに基づいて算出し、物体数推定部１１１は、第２密度を用いて第１物体数を算出する。

　物体検出部１０８は、読み込んだ対象画像から物体を検出し、検出された物体の数を数える。密度推定部１０９は、検出された物体の数が所定数以上であるかどうかを判断する（ステップＳ９０１）。所定数以上である場合（ステップＳ９０１においてＹＥＳ）、密度推定部１０９は、第１実施形態に示すように密度推定を行う（ステップＳ９０９）。一方、所定数未満である場合（ステップＳ９０１においてＮＯ）、密度推定部１０９は、深度マップ特徴量をクエリとして、物体規模の推定処理の対象とする対象画像に類似したテンプレート画像である類似テンプレート画像を検索する（ステップＳ９０２）。

　類似テンプレート画像の検索処理は、画像データベース１１０ａの画像テーブルに含まれるレコードに対して繰り返して行われる（ステップＳ９０３からステップＳ９０８）。密度推定部１０９は、画像データベース１１０ａの画像テーブルから、類似度が所定値以上となるテンプレート画像を抽出する。または、密度推定部１０９によって算出された類似度と画像テーブルのテンプレート画像をユーザに提示し、ユーザによって類似テンプレート画像を選択させることも可能である。類似度による抽出とユーザによる選択を組み合わせてもよい。ユーザによる選択を採用することによって、物体規模の推定処理の対象となる画像自体の見た目の特徴が考慮されることになるため、物体規模の推定処理の結果がより現実に即したものとなることが期待される。

　密度推定部１０９は、画像データベース１１０ａから抽出されたテンプレート画像の物体を取得する（ステップＳ９０５）。具体的には、密度推定部１０９は、画像データベース１１０ａの画像テーブルから抽出されたある画像ＩＤのテンプレート画像について、物体テーブルを参照してテンプレート画像に含まれる物体の数をカウントする。なお、物体の数をカウントする場合、所定の信頼度以上のものをカウントする対象とすることとしてもよい。物体の数が所定数以上でない場合（ステップＳ９０６においてＮＯ）、密度推定部１０９は次の画像について処理を行う。

　物体の数が所定数以上である場合（ステップＳ９０６においてＹＥＳ）、密度推定部１０９は、密度を計算し、平均密度を更新する。具体的には、密度推定部１０９は、領域テーブルに示されて領域の面積を算出し、物体の数と面積に基づいて密度を算出する。画像テーブルから抽出されるテンプレート画像についてステップＳ９０３からステップＳ９０７の処理を行い、算出された密度の平均値を算出する。

　なお、ここで平均密度を用いることによって、複数の検索結果が考慮されることになり、推定される密度がより正しい値となることが期待される。なお、平均値の取り方としては、単純平均を用いる方法の他にも、例えば類似度に応じて重みを付けて平均をとる方法、などの種々の方法を適用することも可能である。

（物体規模推定の結果の出力の例）
　図１１は、物体規模推定システム１００における物体規模の推定処理の結果の出力例を模式的に示す図である。第１実施形態の出力例との違いは、類似画像検索結果表示部１００１が示される点である。

　類似画像検索結果表示部１００１において、画像ＩＤ、深度マップ特徴量の類似度（対象深度マップ特徴量とテンプレート深度マップ特徴量の間の類似度）、画像ＩＤに対応するテンプレート画像における物体の数、画像テーブルにおける深度マップおよびテンプレート画像が示される。

（物体規模の推定処理の手順）
　図１２を参照して、密度推定の処理手順を説明する。図１２は、物体規模の推定処理を示すシーケンス図である。ユーザ１１００は、物体規模推定システム１００ａのユーザである。また、計算機１１２０は、物体規模推定システム１００ａをハードウェアとして実現した場合の一態様を示すものであり、例えば、入力装置１０２と表示装置１０３と主機能部１０４を含む電子計算機である。

　最初に、ユーザ１１００は、物体数を推定する要求を計算機１１２０に入力する（ステップＳ１１０１）。計算機１１２０は物体数を推定する対象となる画像である入力画像の要求を記憶装置１０１に送り（ステップＳ１１０２）、記憶装置１０１は入力画像を計算機１１２０に送る（ステップＳ１１０３）。

　計算機１１２０は、入力画像である対象画像に対して、深度推定処理（ステップＳ１１０４）、領域抽出処理（ステップＳ１１０５）、および物体検出処理（近距離の物体数の検出）（ステップＳ１１０６）を行う。なお、図１１において示されるのは一例であり、この３つの処理は順序を入れ替えることが可能である。

　計算機１１２０は、深度推定処理と領域推定処理と物体検出処理によって取得された値等を含む画像認識結果を画像データベース１１０ａに登録する（Ｓ１１０７）。画像データベース１１０ａは登録完了通知をする（ステップＳ１１０８）。

　計算機１１２０は、画像認識結果表示をユーザ１１００に示す（ステップＳ１１０９）。画像認識結果表示は、図１０の画像認識結果表示部７０４に示されるように、物体検出処理によって検出された物体を示す矩形部分と、領域抽出処理によって抽出された推定領域を示す斜線表示部分とを、読み込まれた対象画像上に重ねて表示した態様で示す。

　ここで、物体検出処理（ステップＳ１１０６）において物体数が所定数以上でない場合、計算機１１２０は密度推定処理（ステップＳ１１１０）を行う。密度推定処理（ステップＳ１１１０）は、図１０に示されるように、類似画像検索（ステップＳ１１１１）から密度推定に用いるテンプレート画像を選択する（ステップＳ１１１４）までの間の処理である。

　計算機１１２０は、類似画像検索（ステップＳ１１１１）を行い、画像データベース１１０ａから検索結果を抽出する（ステップＳ１１１２）。

　計算機１１２０は、検索結果表示をユーザ１１００に示す（ステップＳ１１１３）。類似画像検索（および密度推定）の結果表示は、図１１の類似画像検索結果表示部１００１に示されるように、画像ＩＤ、深度マップ特徴量の類似度（対象深度マップ特徴量とテンプレート深度マップ特徴量の間の類似度）、画像ＩＤに対応するテンプレート画像における物体の数、画像テーブルにおける深度マップおよび画像を含む。

　ユーザ１１００は、類似画像検索の結果表示のなかから、密度推定に用いるテンプレート画像を選択する（ステップＳ１１１４）。ユーザの選択は、計算機１１２０に入力される。

　計算機１１２０は、選択されたテンプレート画像に基づいて、遠距離の物体数の推定する（ステップＳ１１１５）。計算機１１２０は、ユーザ１１００に物体数を表示する（ステップＳ１１１６）。物体数の表示は、図１１の規模推定結果表示部７０５に示される態様で行われる。

（作用・効果）
　撮像を行う対象によっては、撮像された画像の中に近距離にある物体がわずかしか含まれておらず、物体検出による密度推定を行うことができない場合がある。このような場合であっても、類似画像に基づいて密度推定を行うことができるため、物体規模の推定処理を行うことが可能である。

［その他の実施形態］
　本開示において住宅を物体規模の推定処理の対象としたが、本開示はこれに限定されない。例えば、山間部に水害が発生した場合、河川に流木が流出することがある。物体規模の推定処理の対象に流木を適用することも可能である。また、資源の採掘施設において、採掘された資源を堆積させておく場合がある。物体規模の推定処理の対象に堆積物を適用することも可能である。

　本開示において物体規模の推定処理の対象に１つの画像とする場合を説明したが、本開示はこれに限定されない。被写体を複数の画像に分けて撮像する場合、複数の画像を組み合わせて形成した被写体に対して、物体規模の推定処理を行うことも可能である。

　以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

　本発明の内容となり得る態様を以下に述べる、ただしこれに限られるものではない。
（態様１）
　物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、
を備える物体規模推定装置。
（態様２）
　前記深度推定部は、前記対象画像が撮像された場合における俯角および高度に基づいて、前記深度マップを生成する、
態様１に記載の物体規模推定装置。
（態様３）
　前記対象画像は単眼カメラによって撮像された画像であり、
　前記深度推定部は、単眼深度推定を行い前記深度マップを生成する、
請求項１または２に記載の物体規模推定装置。
（態様４）
　テンプレート画像と前記テンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、
　前記テンプレート画像に含まれる物体および前記物体の種別を含む物体テーブルと、
　前記テンプレート画像から抽出される領域および前記領域の種別を示す領域テーブルと、を含む画像データベース、をさらに備え、
　前記密度推定部は、密度を推定できない場合、
　　前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、前記画像テーブルから抽出し、
　　前記類似テンプレート画像に含まれる対象物体の数である第２物体数を、前記物体テーブルに基づいて算出し、
　　前記類似テンプレート画像の前記領域に含まれる前記対象物体の密度である第２密度を、前記第２物体数および前記領域テーブルに基づいて算出し、
　前記物体数推定部は、
　　前記第２密度を用いて前記第１物体数を算出する、
態様１から３のいずれか１つに記載の物体規模推定装置。
（態様５）
　前記類似テンプレート画像はユーザによって選択される、
態様１から４のいずれか１つに記載の物体規模推定装置。
（態様６）
　物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定ステップと、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出ステップと、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出ステップと、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定ステップと、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定ステップ、
を備える物体規模推定方法。
（態様７）
　物体規模の推定処理の対象となる画像である対象画像を撮像する撮像装置と、
　前記撮像装置の深度マップを生成する深度推定部と、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、
を備える物体規模推定システム。
（態様８）
　前記撮像装置はドローンに搭載される、態様７に記載の物体規模推定システム。
（態様９）
　前記対象画像に前記対象物体を示す第１図形および前記推定領域を示す第２図形を重ねて表示した画像認識結果を示す表示装置、をさらに備える態様７または８に記載の物体規模推定システム。

１０：撮像画像，１１：物体検出後画像，１２：矩形部分，１３：領域抽出後画像，１００・１００ａ：物体規模推定システム，１０１：記憶装置，１０２：入力装置，１０３：表示装置，１０４：主機能部，１０５：画像入力部，１０６：領域抽出部，１０７：深度推定部，１０８：物体検出部，１０９：密度推定部，１１０・１１０ａ：画像データベース，１１１：物体数推定部，１１２：表示部，２０１：プロセッサ，２０２：主記憶装置，２０３：処理プログラム，３０１：対象画像，３０２：深度推定処理，３０３：深度マップ，３０４：領域抽出処理，３０５：領域抽出後画像，３０６：物体検出処理，３０７：物体検出後画像，３０８：密度推定処理，３０９：密度情報，３１０：面積推定処理，３１１：面積情報，３１２：物体数推定処理，７００：マウスカーソル，７０１：ボタン，７０２：入力画像表示部，７０３：規模推定実行ボタン，７０４：画像認識結果表示部，７０５：規模推定結果表示部，８０１：対象画像，８０２：物体検出処理，８０３：物体検出後画像，８０４：密度推定不可，８０５：深度推定処理，８０６：深度マップ，８０７：類似画像検索処理，８０８：類似画像検索結果，８０９：密度推定処理，１００１：類似画像検索結果表示部，１１００：ユーザ，１１２０：計算機

Claims

　物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、
を備える物体規模推定装置。
　前記深度推定部は、前記対象画像が撮像された場合における俯角および高度に基づいて、前記深度マップを生成する、
請求項１に記載の物体規模推定装置。
　前記対象画像は単眼カメラによって撮像された画像であり、
　前記深度推定部は、単眼深度推定を行い前記深度マップを生成する、
請求項１に記載の物体規模推定装置。
　テンプレート画像と前記テンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、
　前記テンプレート画像に含まれる物体および前記物体の種別を含む物体テーブルと、
　前記テンプレート画像から抽出される領域および前記領域の種別を示す領域テーブルと、を含む画像データベース、をさらに備え、
　前記密度推定部は、密度を推定できない場合、
　　前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、前記画像テーブルから抽出し、
　　前記類似テンプレート画像に含まれる対象物体の数である第２物体数を、前記物体テーブルに基づいて算出し、
　　前記類似テンプレート画像の前記領域に含まれる前記対象物体の密度である第２密度を、前記第２物体数および前記領域テーブルに基づいて算出し、
　前記物体数推定部は、
　　前記第２密度を用いて前記第１物体数を算出する、
請求項１に記載の物体規模推定装置。
　前記類似テンプレート画像はユーザによって選択される、
請求項４に記載の物体規模推定装置。
　物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定ステップと、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出ステップと、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出ステップと、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定ステップと、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定ステップ、
を備える物体規模推定方法。
　物体規模の推定処理の対象となる画像である対象画像を撮像する撮像装置と、
　前記撮像装置の深度マップを生成する深度推定部と、
　前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
　前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
　前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
　前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第１物体数を算出する物体数推定部、
を備える物体規模推定システム。
　前記撮像装置はドローンに搭載される、請求項７に記載の物体規模推定システム。
　前記対象画像に前記対象物体を示す第１図形および前記推定領域を示す第２図形を重ねて表示した画像認識結果を示す表示装置、をさらに備える請求項７に記載の物体規模推定システム。