[go: up one dir, main page]

WO2024241739A1 - 物体規模推定装置、物体規模推定方法、および物体規模推定システム - Google Patents

物体規模推定装置、物体規模推定方法、および物体規模推定システム Download PDF

Info

Publication number
WO2024241739A1
WO2024241739A1 PCT/JP2024/014500 JP2024014500W WO2024241739A1 WO 2024241739 A1 WO2024241739 A1 WO 2024241739A1 JP 2024014500 W JP2024014500 W JP 2024014500W WO 2024241739 A1 WO2024241739 A1 WO 2024241739A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
target
estimation
density
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2024/014500
Other languages
English (en)
French (fr)
Inventor
裕樹 渡邉
洋登 永吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of WO2024241739A1 publication Critical patent/WO2024241739A1/ja
Anticipated expiration legal-status Critical
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes

Definitions

  • the present invention relates to an object size estimation device, an object size estimation method, and an object size estimation system.
  • Patent Document 1 discloses a technique for estimating the density distribution of an object in a specific region in an image.
  • the image processing device in Patent Document 1 has an image acquisition function, a calculation function, a region acquisition function, and an estimation function.
  • the image acquisition function acquires a target image.
  • the calculation function calculates the density distribution of an object (person) included in the target image.
  • the region acquisition function acquires a first region set in the target image.
  • the estimation function estimates the density distribution of the first region in the target image based on the density distribution of the surrounding region of the first region in the target image.
  • Patent Document 2 provides a system that uses surveillance cameras to visualize the congestion level of an entire facility.
  • the system detects crowds from surveillance camera footage and derives the size (number of people) of the crowd from the edge amount, thereby estimating the congestion situation within the camera footage. It also calculates people flow (amount of people moving) based on a passing person counter and the size and movement speed of the crowd, and estimates the number of people in areas outside the camera footage based on modeled crowd behavior patterns.
  • the model is constructed by selecting distribution functions and their parameters using statistical model selection methods such as BIC (Bayesian Information Criteria).
  • BIC Bayesian Information Criteria
  • the object counting system 40 in Patent Document 3 includes an acquisition means 41 for acquiring information on an estimated area, which is a partial area of an image associated with a predetermined condition related to the objects to be counted shown in the image and is a unit of area for estimating the number of objects to be counted, a setting means 42 for setting an estimated area in the image so that the estimated area indicated by the acquired information on the estimated area includes objects to be counted that satisfy the predetermined condition and are not included in the objects to be counted in other estimated areas, an estimation means 43 for estimating the number of objects to be counted shown in the estimated area set in the image for each estimated area, and a calculation means 44 for calculating the density of the objects to be counted in areas where predetermined areas in the estimated area overlap, using the number of objects to be counted estimated in each estimated area.
  • an object of the present invention is to provide a technique for estimating the number of target objects with high accuracy.
  • one representative object scale estimation device of the present invention includes a depth estimation unit that generates a depth map of a target image, which is an image that is the subject of object scale estimation processing; an object detection unit that detects a target object, which is an object to be detected, in the target image; a region extraction unit that extracts an estimation region that is a region that is estimated to include the target object; a density estimation unit that estimates the density of the target object based on the target object and the depth map; and an object number estimation unit that estimates the area of the estimation region based on the estimation region and the depth map, and calculates a first object number, which is the number of target objects in the estimation region, based on the density and area of the target object.
  • the number of target objects can be estimated with high accuracy.
  • FIG. 1 is a diagram showing a case where object detection and area extraction are performed in the process of estimating the scale of an object.
  • FIG. 2 is a diagram showing the configuration of an object scale estimation system according to the first embodiment.
  • FIG. 3 is a diagram showing an example of the configuration of the object scale estimation system according to the first embodiment as hardware.
  • FIG. 4 is a diagram showing a schematic diagram of the data flow in the processing of the object scale estimation system.
  • FIG. 5 is a flowchart showing the process of estimating the scale of an object in the object scale estimation system.
  • FIG. 6 is a diagram illustrating an example of an output of the result of the object scale estimation process in the object scale estimation system.
  • FIG. 7 is a diagram showing the configuration of an object scale estimation system according to the second embodiment.
  • FIG. 1 is a diagram showing a case where object detection and area extraction are performed in the process of estimating the scale of an object.
  • FIG. 2 is a diagram showing the configuration of an object scale estimation system according to the first embodiment.
  • FIG. 8 is a diagram showing an example of data stored in the image database.
  • FIG. 9 is a diagram showing a schematic diagram of the data flow in the processing of the object scale estimation system.
  • FIG. 10 is a flowchart of the density estimation process.
  • FIG. 11 is a diagram illustrating an example of an output of a result of an object scale estimation process in the object scale estimation system.
  • FIG. 12 is a sequence diagram showing the process of estimating the scale of an object.
  • the image to be analyzed is an image of the ground viewed from above with an imaging device placed in the sky. Therefore, the image may include a subject that is close to the imaging device and a subject that is far from the imaging device.
  • a "close distance” in an image refers to a subject that is close to the imaging device
  • a "long distance” in an image refers to a subject that is far from the imaging device.
  • object size we mean the number of objects. Sometimes we also use the expression "number of objects.”
  • FIG. 1 is a diagram showing a case where object detection and region extraction are performed in the object scale estimation process.
  • Fig. 1(a) shows a case where object detection is performed, and
  • Fig. 1(b) shows a case where region extraction (semantic segmentation) is performed.
  • the captured image 10 which is the subject of object detection, is an example of an image captured by an imaging device mounted on a drone.
  • a drone is a remotely controlled unmanned aerial vehicle. Since the image is captured by an imaging device mounted on a drone, the captured image 10 is associated with information such as the depression angle, which is the direction in which the imaging device faces from the horizontal to a vertically downward direction, and the altitude, which is the height at which the imaging device is located.
  • captured image 10 a road is shown stretching from the center of the screen towards the back.
  • the bottom of captured image 10 corresponds to an area close to the imaging device, and is a mixture of houses and green spaces with trees and other plants.
  • the information in captured image 10 corresponds to an area far away from the imaging device, and although the boundaries between the houses are not clearly shown, a residential area with multiple houses clustered together has been formed.
  • the top edge of captured image 10 shows the boundary between the ground and the sky.
  • Object detection in images can be performed using, for example, a CNN (Convolutional Neural Network) model or a YOLO (You Look Only Once) model.
  • CNN Convolutional Neural Network
  • YOLO You Look Only Once
  • the post-object detection image 11 is a diagram that shows a schematic representation of a detected object.
  • a rectangular portion 12 is shown in the post-object detection image 11.
  • the rectangular portion 12 indicates an area that has the characteristics of a house.
  • 16 rectangular portions are shown in the post-object detection image 11, it has been detected that the captured image 10 contains 16 houses.
  • Post-area extraction image 13 is a diagram showing a schematic representation of an extracted area.
  • the shaded area Sa indicates an area that includes houses.
  • the characteristics of object detection and region extraction will be described.
  • the post-object detection image 11 it is possible to detect objects below the captured image 10, i.e., objects that are close to the imaging device. However, it is not possible to detect objects above the captured image 10, i.e., objects that are far from the imaging device.
  • the area above the captured image 10 it is possible to classify the area above the captured image 10, that is, the area far away from the image capture device, as an area including houses. However, it is not possible to count the number of houses included in the area.
  • FIG. 1 is a diagram showing the configuration of the object scale estimation system according to the first embodiment.
  • the object scale estimation system 100 detects objects to be detected (hereinafter also referred to as "target objects") in a target image, which is an image that is the subject of object scale estimation processing, and estimates the number of target objects (object scale).
  • target objects objects to be detected
  • target image which is an image that is the subject of object scale estimation processing
  • the object size estimation system 100 includes a storage device 101, an input device 102, a display device 103, and a main function unit 104.
  • the main function unit 104 performs the main functions of the object size estimation system. It is also possible to configure the main function unit 104 as an object size estimation device.
  • the storage device 101 stores images captured by an imaging device.
  • the stored images are subjected to object scale estimation processing.
  • the storage device 101 is configured with any type of storage medium.
  • the storage device 101 may be configured with a combination of multiple storage media, for example, a combination of storage devices such as semiconductor memories and hard disk drives.
  • the storage device 101 may be a storage area on the cloud.
  • the storage device 101 may be an imaging device, for example, an imaging device mounted on a drone.
  • the main function unit 104 may directly acquire images from the imaging device.
  • the storage device 101 may be configured to acquire images from multiple imaging devices, for example, a system may be configured in which multiple drone-mounted imaging devices are connected to the main function unit 104.
  • the input device 102 accepts input operations from a user of the object scale estimation system 100.
  • the display device 103 displays the results of the object scale estimation.
  • the main functional unit 104 in FIG. 2 is mainly shown as a functional block.
  • the main functional unit 104 has an image input unit 105, a region extraction unit 106, a depth estimation unit 107, an object detection unit 108, a density estimation unit 109, an image database 110, an object number estimation unit 111, and a display unit 112.
  • the image input unit 105 functions as an interface between the storage device 101 and the main function unit 104.
  • the image input unit 105 acquires, from the storage device 101, a target image, which is an image on which an object scale estimation process is to be performed, and related information associated with the target image.
  • the area extraction unit 106 extracts an estimated area that is an area that is estimated to include a target object.
  • the area extraction unit 106 performs a process of classifying (grouping) the target image into areas that have common characteristics. For example, the area extraction unit 106 determines the feature amount of pixels, and extracts parts with similar features as the same area.
  • the area extraction unit 106 can distinguish areas for each object, for example, by learning in advance training data that indicates the relationship between the feature amount and the object. It is also possible to classify areas using features such as spectrum and texture without using training data. In the case of the first embodiment, it is possible to distinguish and extract areas such as residential areas, forests, roads, and waterside areas.
  • the depth estimation unit 107 generates a depth map of the target image.
  • the depth map represents the distance between the object to be captured (subject) and the imaging device for each pixel in the target image.
  • As a method of generating a depth map for example, it is possible to estimate the depth and generate the depth map based on the depression angle and altitude when the target image is captured.
  • the target image is an image captured by a monocular camera
  • a method of generating a depth map by performing monocular depth estimation for example, a method of collecting teacher data associated with a depth map corresponding to an image and learning to generate a depth map of the target image
  • a method of generating a depth map using the parallax between cameras in a stereo camera a method of combining an image with information from a distance sensor using a laser, infrared, etc.
  • the position information of the imaging device is associated with the target image, it is also possible to generate a depth map using the position information.
  • the depth estimation unit 107 can select from these methods based on the image and related information.
  • the object detection unit 108 detects a target object, which is an object to be detected, in a target image.
  • the object detection unit 108 detects a target object from a target image using, for example, a CNN model, a YOLO model, etc.
  • the density estimation unit 109 estimates the density of the target object based on the target object and the depth map.
  • the image database 110 stores data on target images and features related to the target images.
  • the object number estimation unit 111 estimates the area of the estimation area based on the estimation area and the depth map, and calculates the number of target objects in the estimation area based on the density and area of the target objects.
  • the display unit 112 outputs information about the calculated number of objects to the display device 103.
  • FIG. 3 is a diagram showing an example of the configuration of an object size estimation system according to the first embodiment as hardware.
  • the object size estimation system 100 includes a storage device 101, an input device 102, a display device 103, a processor 201, a main storage device 202, and a NIC (Network Interface Card) 204.
  • NIC Network Interface Card
  • Processor 201 is a processing device that converts, calculates, and processes data based on a certain processing procedure.
  • Processor 201 may be composed of, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), etc., or may be composed of a combination of multiple processing devices.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the main memory device 202 is composed of any type of storage medium.
  • the main memory device 202 may be composed of a combination of multiple storage media, for example, a combination of storage devices such as semiconductor memory and hard disk drives.
  • the processing program 203 stored in the main memory device 202 defines the processing procedures of each functional block (i.e., the image input unit 105, the area extraction unit 106, the depth estimation unit 107, the object detection unit 108, the density estimation unit 109, the object number estimation unit 111, and the display unit 112).
  • the processor 201 executes the processing program 203 to provide the functions of each functional block.
  • the NIC 204 is an interface for connecting the devices that make up the main function unit 104 to a network.
  • the storage device 101 is connected to the main function unit 104 via the NIC 204.
  • the input device 102 and display device 103 are connected to the processor 201 and main storage device 202 via the network provided by the NIC 204.
  • the above hardware configuration is an example, and the present disclosure is not limited thereto.
  • a NAS Network Attached Storage
  • a SAN Storage Area Network
  • the storage device 101 may be a DAS (Direct Attached Storage).
  • the functions of the functional blocks are realized by a combination of the processor 201 and the main storage device 202, the processing program 203 may be executed by using a combination of another processor and a main storage device in order to distribute the processing load.
  • the storage device 101, the input device 102, and the display device 103 function as an interface between the user of the object scale estimation system 100 and the main functional unit 104.
  • the display device 103 may be a mobile terminal capable of communicating with the main functional unit 104.
  • the storage device 101, the input device 102, and the display device 103 can be appropriately configured according to the user's usage pattern.
  • Fig. 4 is a diagram showing a schematic diagram of the flow of data in the process of the object scale estimation system.
  • the target image 301 is captured using, for example, a drone, and is associated with information regarding the depression angle and altitude.
  • This disclosure is not limited to images captured using an aircraft device such as a drone, and other images can also be applied.
  • an image captured by an imaging device installed at a high position such as a watchtower may be used. Note that the image of the target image 301 itself is the same as the captured image 10 described above.
  • Depth map 303 is a diagram showing a schematic example of the results when depth estimation is performed on the target image 301.
  • the distance (depth) between the imaging device and the object being imaged is extracted for each pixel, and the shade of color corresponds to the depth.
  • area extraction process 304 an area including houses is extracted from target image 301.
  • the shaded area Sa in post-area extraction image 305 indicates the area including houses.
  • Post-object detection image 307 contains 16 rectangular areas, and 16 houses are detected.
  • the accuracy of object detection is determined by the reliability of detection when a model is used and the pixel size (size of pixels) included in the rectangular portion. For example, it is possible to set a reference value for reliability and pixel size, and determine that an object has been detected for rectangular portions where the reliability and pixel size exceed the reference value, and not count objects that have been detected if the reliability and pixel size are below the reference value. It is also possible to set conditions for performing area extraction and object detection, such as detecting objects in close range for portions of an image that frequently exceed the reference value, and detecting objects in long range for portions of a target image that frequently fall below the reference value.
  • density estimation processing 308 is performed.
  • the object density at close ranges where object detection processing has been performed is estimated.
  • the depth map 303 is used to calculate the area of the range in which the rectangular portion of the post-object detection image 307 is detected. From the calculated area and the number of objects, the number of objects per unit area (density) is calculated. Density information 309, which is information indicating the density, is generated.
  • area estimation process 310 the area of the hatched portion Sa in the post-region extraction image 305 is estimated.
  • Area information 311 is generated, which is information indicating the area of the hatched portion Sa.
  • the order of the processes can be set as appropriate.
  • the depth estimation process 302, the area extraction process 304, and the object detection process 306 can be performed in parallel, or they can be performed in series. Even when they are performed in series, the order in which the processes are performed can be set as appropriate.
  • Fig. 5 is a diagram showing a flowchart of the process for estimating the scale of an object in the object scale estimation system.
  • the object size estimation system 100 reads an image for which the object size estimation process is to be performed (step S601). Information on the target image is read into the object size estimation system 100 by the image input unit 105.
  • the depth estimation unit 107 creates a depth map of the read target image (step S602).
  • the depth estimation unit 107 estimates the depth using information associated with the target image (e.g., the depression angle and altitude of the imaging device, etc.) and creates the depth map.
  • the area extraction unit 106 extracts an area from the read image (step S603).
  • the area extraction unit 106 extracts an area (estimated area) that is estimated to include the target object of the object scale estimation process.
  • the estimated area is also extracted from a part of the target image that is far away from the imaging device and cannot perform object detection, which will be described later.
  • the object detection unit 108 detects objects from the read image (step S604).
  • the object detection unit 108 detects target objects, which are objects to be detected, in the target image.
  • Object detection generally involves detecting objects that are close to the imaging device in the target image.
  • the object detection unit 108 counts the number of detected objects.
  • the density estimation unit 109 estimates the density of objects in the short distance (step S605).
  • the density estimation unit 109 estimates the density of the target objects based on the target objects detected by the object detection unit 108 and the depth map generated by the depth estimation unit 107.
  • the estimated density is the density of objects in the short distance from the imaging device.
  • the object number estimation unit 111 estimates the area of the long distance (step S606). Specifically, the object number estimation unit 111 estimates the area of the estimation area based on the estimation area extracted by the area extraction unit 106 and the depth map generated by the depth estimation unit 107.
  • the object number estimation unit 111 estimates the number of objects at a long distance from the density and area (step S607). Specifically, the object number estimation unit 111 calculates the number of target objects in the estimation area based on the density of the target objects estimated by the density estimation unit 109 and the area of the estimation area estimated in step S606.
  • the display unit 112 outputs the number of objects at close range and long range (step S608). A specific output example will be described later.
  • the image database 110 stores information indicating the results of object detection by the object detection unit 108, the results of area extraction by the area extraction unit 106, and the results of object number estimation by the object number estimation unit 111. Storing the results of object number estimation in association with each other makes it easier for users to access past estimation results.
  • FIG. 6 is a diagram showing an example of an output of the result of the object scale estimation process in the object scale estimation system 100. As shown in FIG.
  • the input device 102 is shown as a mouse and keyboard.
  • the display device 103 is shown as a display, and the main function unit 104 is shown as a tower-type desktop computer.
  • Also shown on the display screen of the display device 103 are a mouse cursor 700, an image load button 701, an input image display section 702, an image recognition result display section 704, a scale estimation result display section 705, and a scale estimation execution button 703.
  • the object scale estimation system 100 performs processing based on a user request input via the mouse and keyboard. For example, when the image load button 701 is selected and the corresponding processing is performed, the user performs an input operation via the keyboard or mouse with the mouse cursor 700 positioned on the image load button 701.
  • the image load button 701 When the image load button 701 is selected, a process is performed to load an image that is to be the target of the object scale estimation process.
  • the target image to be loaded may be a predetermined one.
  • the input image display section 702 shows the loaded image. The user can check whether the image shown in the input image display section 702 is the target image for which object scale estimation processing is to be performed. If it is not the desired image, the user can select the image load button 701 again and select the image to load.
  • the image recognition result display unit 704 displays a rectangular portion (first figure) indicating the target object detected by the object detection process and a diagonally shaded portion (second figure) indicating the estimated area extracted by the area extraction process, superimposed on the loaded target image.
  • the scale estimation result display unit 705 also displays the number of objects in the near distance estimated by the object detection process and the number of objects in the far distance included in the estimated area estimated by the object number estimation process. Specifically, as shown by "106 houses", the number of houses estimated to be included in the image displayed on the input image display unit 702 is 106.
  • FIG. 6 shows an example of a display mode, and the present disclosure is not limited thereto.
  • a rectangular portion is shown to display the target object, but other polygonal shapes may be used, or the display mode may be changed to a hatched form.
  • a display mode other than the hatched display may be used as long as the extracted area can be distinguished.
  • a depth map of the target image is generated, and the number of objects at a long distance is estimated by using the density of objects at a short distance. In this way, it becomes possible to estimate the size of objects at a long distance that are difficult to recognize by object detection processing.
  • by displaying the estimation results it is possible to provide information to the user.
  • the results of the object detection process and the region extraction process are superimposed on the target image, and the number of objects detected by the object detection process is compared with the number of objects estimated using the depth map. This allows the user to intuitively grasp the accuracy of the object scale estimation process.
  • the second embodiment differs from the first embodiment in that images in an image database are used for the object scale estimation process.
  • the same or equivalent components as those in the first embodiment are denoted by the same reference numerals, and the description thereof will be simplified or omitted.
  • FIG. 7 is a diagram showing the configuration of an object size estimation system according to the second embodiment.
  • the object size estimation system 100a of the second embodiment differs from the object size estimation system 100 of the first embodiment in that information stored in the image database 110a is used by the density estimation unit 109.
  • FIG. 8 is a diagram showing an example of data stored in the image database 110a.
  • the image database 110a includes an image table that associates a template image with a template depth map feature that is a feature included in the depth map of the template image, an object table that includes objects and object types included in the template image, and a region table that indicates regions and region types extracted from the template image.
  • template image is used here to distinguish it from the target image that is the subject of the object scale estimation process.
  • the template image is an image that is collected in advance before the object scale estimation process is performed, or an image that is acquired during the object scale estimation process.
  • the template image is associated with a depth map generated during the object scale estimation process, the result of the object detection process, the result of the region extraction process, and the like. The data in the three tables will be described below.
  • FIG. 8(a) is a diagram showing an example of an image table.
  • the image table manages images to be loaded into the object scale estimation system.
  • the image table also manages depth maps and features for search.
  • the image table includes columns of ID, image (hereinafter also referred to as "template image”), depth map, image features, and depth map features (hereinafter also referred to as “template depth map features").
  • Rows (records) of the table include template image data, a depth map generated from the template image, template image features, and depth map features.
  • Features of the template image include edge patterns, colors, Histograms of Oriented Gradients (HOG), Scaled Invariance Feature Transform (SIFT), etc., which are detected for each pixel.
  • HOG Histograms of Oriented Gradients
  • SIFT Scaled Invariance Feature Transform
  • features of the depth map include, for example, an index indicating the distance from the imaging device.
  • the image features are [0.627, 0.055, 0.479, 0.882, 0.728, ...] and the depth map features are [0.550, 0.046, 0.540, 0.459, 0.098, ...].
  • FIG. 8B is a diagram showing an example of an object table.
  • the object table manages the results of the object detection process.
  • the object table includes columns of ID, image ID, coordinates, type, and reliability.
  • the rows of the table include image ID data, coordinate data indicating the area where the object is detected in the template image, label data indicating the type, and reliability data of the object detection.
  • the object table and the image table are linked by the image ID.
  • the reliability of the object detection at the above coordinates is 0.95.
  • Figure 8(b) shows a case where a house is detected as the type, the object table may also include results of detecting objects other than houses.
  • FIG. 8(c) is a diagram showing an example of an area table.
  • the area table manages the results of area extraction processing.
  • the area table includes columns for ID, image ID, area, and type.
  • the rows of the table include image ID data, data indicating the range of the extracted area, and label data indicating the type.
  • the object table and area table are linked by the image ID.
  • the type of the extracted area is a residential area. Note that while FIG. 8(c) shows a case where a residential area is detected as the type, the area table may also include the results of detecting areas other than residential areas.
  • Fig. 9 is a diagram showing a schematic diagram of the flow of data in the process of the object scale estimation system.
  • Target image 801 is an image that is loaded into object scale estimation system 100a.
  • target image 801 an area where trees are growing extends from the front to the back on the right side of target image 801. Furthermore, land with no vegetation and no buildings extends in the central part. There are a small number of buildings on the lower left side of target image 801, and multiple buildings on the back left side of target image 801.
  • object detection processing 802 a house is detected from target image 801.
  • post-object detection image 803 one rectangular portion is included and one house is detected. Since only one house is detected, density estimation processing cannot be performed and it is determined that density estimation is impossible 804.
  • the density estimation process of the first embodiment cannot be performed.
  • a similar depth map is searched for from the template images stored in the image database 110a, and density is estimated from the object detection results associated with it.
  • a depth map 806 of the target image 801 is formed.
  • a depth map and related information similar to the depth map 806 is searched from the image database 110a.
  • the depth map feature extracted from the depth map 806 (hereinafter also referred to as the "target depth map feature") is used as a query.
  • the depth map features of the depth map 806 are compared with the depth map features of the depth table, and the similarity between the depth map 806 and the depth map of the depth table is calculated.
  • the average density of the objects is calculated. Specifically, the area of the hatched portion Sb shown in the region table is calculated, and the density is calculated based on the number and area of the objects.
  • the calculated density is applied to the target image 801 to estimate the number of objects contained in the target image 801.
  • FIG. 10 is a diagram showing a flowchart of the density estimation processing. The part of the object scale estimation processing, particularly the density estimation, will be described.
  • the density estimation unit 109 extracts a similar template image, which is a template image having a template depth map feature similar to a target depth map feature which is a feature of the depth map of the target image, from the image table, calculates a second object number which is the number of target objects included in the similar template image based on the object table, calculates a second density which is the density of the target objects included in the region of the similar template image based on the second object number and the region table, and the object number estimation unit 111 calculates a first object number using the second density.
  • the object detection unit 108 detects objects from the loaded target image and counts the number of detected objects.
  • the density estimation unit 109 determines whether the number of detected objects is equal to or greater than a predetermined number (step S901). If the number is equal to or greater than the predetermined number (YES in step S901), the density estimation unit 109 performs density estimation as shown in the first embodiment (step S909). On the other hand, if the number is less than the predetermined number (NO in step S901), the density estimation unit 109 uses the depth map features as a query to search for similar template images that are template images similar to the target image that is the target of the object scale estimation process (step S902).
  • the search process for similar template images is repeated for records contained in the image table of the image database 110a (steps S903 to S908).
  • the density estimation unit 109 extracts template images from the image table of the image database 110a whose similarity is equal to or greater than a predetermined value.
  • the similarity calculated by the density estimation unit 109 and the template images in the image table can be presented to the user, allowing the user to select a similar template image. Extraction based on similarity and user selection may be combined. By adopting user selection, the visual characteristics of the image itself that is the subject of the object scale estimation process are taken into account, and it is expected that the results of the object scale estimation process will be more realistic.
  • the density estimation unit 109 acquires objects of the template image extracted from the image database 110a (step S905). Specifically, for a template image of a certain image ID extracted from the image table of the image database 110a, the density estimation unit 109 refers to the object table to count the number of objects contained in the template image. When counting the number of objects, those with a predetermined reliability or higher may be counted. If the number of objects is not the predetermined number or more (NO in step S906), the density estimation unit 109 performs processing on the next image.
  • the density estimation unit 109 calculates the density and updates the average density. Specifically, the density estimation unit 109 calculates the area of the region shown in the region table, and calculates the density based on the number and area of the objects. It performs the processes of steps S903 to S907 on the template image extracted from the image table, and calculates the average value of the calculated densities.
  • the average density here, multiple search results are taken into account, and it is expected that the estimated density will be a more accurate value.
  • various other methods can be used to calculate the average, such as a method of calculating the average weighted according to the degree of similarity.
  • Example of output of object scale estimation results 11 is a diagram showing a schematic example of an output of the result of the object scale estimation process in the object scale estimation system 100. The difference from the output example of the first embodiment is that a similar image search result display portion 1001 is displayed.
  • the similar image search result display section 1001 displays the image ID, the similarity of the depth map features (similarity between the target depth map features and the template depth map features), the number of objects in the template image corresponding to the image ID, and the depth map and template image in the image table.
  • FIG. 12 is a sequence diagram showing the process of estimating the object scale.
  • a user 1100 is a user of the object scale estimation system 100a.
  • a computer 1120 represents one aspect of the object scale estimation system 100a realized as hardware, and is, for example, an electronic computer including an input device 102, a display device 103, and a main function unit 104.
  • the user 1100 inputs a request to estimate the number of objects to the computer 1120 (step S1101).
  • the computer 1120 sends a request for an input image, which is an image for which the number of objects is to be estimated, to the storage device 101 (step S1102), and the storage device 101 sends the input image to the computer 1120 (step S1103).
  • the computer 1120 performs depth estimation processing (step S1104), area extraction processing (step S1105), and object detection processing (detection of the number of objects in the vicinity) (step S1106) on the target image, which is the input image. Note that what is shown in FIG. 11 is just an example, and the order of these three processes can be changed.
  • the computer 1120 registers the image recognition results, including values obtained by the depth estimation process, the area estimation process, and the object detection process, in the image database 110a (S1107).
  • the image database 110a notifies the completion of registration (step S1108).
  • the computer 1120 displays the image recognition result to the user 1100 (step S1109).
  • the image recognition result is displayed in a form in which a rectangular portion indicating the object detected by the object detection process and a diagonally shaded portion indicating the estimated area extracted by the area extraction process are superimposed on the loaded target image.
  • the computer 1120 performs density estimation process (step S1110).
  • the density estimation process is a process between similar image search (step S1111) and selection of a template image to be used for density estimation (step S1114).
  • the computer 1120 performs a similar image search (step S1111) and extracts search results from the image database 110a (step S1112).
  • the calculator 1120 displays the search results to the user 1100 (step S1113).
  • the display of the results of the similar image search includes the image ID, the similarity of the depth map features (similarity between the target depth map features and the template depth map features), the number of objects in the template image corresponding to the image ID, and the depth map and images in the image table.
  • the user 1100 selects a template image to be used for density estimation from the results of the similar image search (step S1114).
  • the user's selection is input to the computer 1120.
  • the calculator 1120 estimates the number of objects at a long distance based on the selected template image (step S1115).
  • the calculator 1120 displays the number of objects to the user 1100 (step S1116).
  • the number of objects is displayed in the manner shown in the scale estimation result display section 705 of FIG. 11.
  • the captured image may contain only a few objects at close range, making it impossible to perform density estimation by object detection. Even in such cases, density estimation can be performed based on similar images, making it possible to perform object scale estimation processing.
  • a house is taken as the target of the object-scale estimation process, but the present disclosure is not limited thereto.
  • driftwood may flow into a river.
  • Driftwood may also be applied as the target of the object-scale estimation process.
  • mined resources may be left to pile up. Sediments may also be applied as the target of the object-scale estimation process.
  • (Aspect 1) a depth estimation unit for generating a depth map of a target image, the target image being an image that is the subject of an object scale estimation process; an object detection unit that detects a target object that is a detection target in the target image; a region extraction unit that extracts an estimated region that is an area that is estimated to include the target object; a density estimation unit that estimates a density of the target object based on the target object and the depth map; an object number estimation unit that estimates an area of the estimation region based on the estimation region and the depth map, and calculates a first object number that is the number of target objects in the estimation region based on the density and the area of the target objects;
  • An object scale estimation device comprising: (Aspect 2) The depth estimation unit generates the depth map based on a depression angle and an altitude when the target image is captured.
  • the target image is an image captured by a monocular camera, The depth estimation unit performs monocular depth estimation to generate the depth map.
  • the object scale estimation device according to claim 1 or 2. an image table that associates a template image with a template depth map feature that is a feature included in a depth map of the template image; an object table including objects included in the template image and types of the objects; an image database including an area table indicating an area to be extracted from the template image and a type of the area;
  • the density estimation unit is unable to estimate the density, Extracting a similar template image from the image table, the similar template image being a template image having a template depth map feature similar to a target depth map feature being a feature of a depth map of the target image; Calculating a second object number, which is the number of target objects included in the similar template image, based on the object table; calculating a second density, which is a density of the target objects included in the region of the similar template image,
  • the object scale estimation device according to any one of aspects 1 to 3.
  • the similar template image is selected by a user. 5.
  • the object scale estimation device according to any one of aspects 1 to 4. (Aspect 6) a depth estimation step for generating a depth map of a target image, the target image being an image that is the subject of an object scale estimation process; an object detection step of detecting a target object that is an object to be detected in the target image; a region extraction step of extracting an estimated region which is a region estimated to include the target object; a density estimation step of estimating a density of the target object based on the target object and the depth map; an object number estimating step of estimating an area of the estimation region based on the estimation region and the depth map, and calculating a first object number, which is the number of target objects in the estimation region, based on the density and the area of the target objects;
  • the object scale estimation method comprises: (Aspect 7) an imaging device that captures a target image that is a target image for object scale estimation processing; a

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本発明では、対象となる物体の物体数を高精度に推定する技術を提供することを目的とする。本発明の物体規模推定装置の一つは、物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、を備える。

Description

物体規模推定装置、物体規模推定方法、および物体規模推定システム
 本発明は、物体規模推定装置、物体規模推定方法、および物体規模推定システムに関する。
 近年、災害発生直後の救助計画や、復興時の計画策定に迅速な被害規模の推定が必要とされており、機動的な広域撮影が可能なドローンの活用とも相まって、高度な活用に期待が高まっている。例えば、映像認識(または画像認識)技術を活用することにより、被害家屋、流木、堆積物の量を迅速に推定することが可能となる。
 撮影画像から対象物の規模を推定するための技術としては、特許文献1から特許文献3のような技術がある。
 特許文献1は、画像における特定の領域において、対象物の密度分布を推定する技術を開示している。特許文献1における画像処理装置は、画像取得機能と、算出機能と、領域取得機能と、推定機能と、を備えている。そして、画像取得機能は、対象画像を取得する。算出機能は、対象画像に含まれる対象(人)の密度分布を算出する。領域取得機能は、対象画像内に設定された第1領域を取得する。推定機能は、対象画像内の第1領域の周辺領域の密度分布に基づいて、対象画像内の第1領域の密度分布を推定する。
 特許文献2は、監視カメラを用いて施設全体の混雑度を可視化するシステムを提供する。システムは、監視カメラ映像から群衆を検知し、そのエッジ量から群衆の大きさ(人数)を導くことで、カメラ映像範囲内の混雑状況を推定する。また通過人数カウンタや、群衆の大きさと移動速度などに基づいて人流(人の移動量)を計算し、モデル化した群衆行動パターンに基づいて、カメラ映像範囲以外のエリアの人数を推定する。モデルは、BIC(Bayesian Information Criteria)等の統計的モデル選択手法により、分布関数やそのパラメータを選択することで構築される。混雑状況はマップ上にプロットされ、即座に当該エリアの混雑状況を把握できる。
 また、特許文献3における物体計数システム40は、画像に示されている計数対象の物体に関する所定の条件が対応付けられている、画像の部分領域であり計数対象の物体の数が推定される領域の単位である推定領域の情報を取得する取得手段41と、取得された推定領域の情報が示す推定領域が、他の推定領域における計数対象の物体に含まれていない所定の条件を満たす計数対象の物体を含むように、画像内に推定領域を設定する設定手段42と、画像内に設定されている推定領域に示されている計数対象の物体の数を、推定領域毎に推定する推定手段43と、推定領域内の所定の領域同士が重なる領域における計数対象の物体の密度を、各推定領域で推定された計数対象の物体の数を用いて算出する算出手段44とを備える。
特開2018-022343号公報 国際公開第2017/122258号 国際公開第2017/043002号
 物体検出・領域抽出技術は深層学習技術の導入により高精度化が進んでいる。ここで、衛星画像解析のように対象との距離が一定の場合には、比較的安定した物体カウントが可能である。しかし、空撮映像などから災害規模を推定する際のように撮像装置と対象物の間の距離が一定ではない場合に、近距離にある対象は物体インスタンス単位で検出できるが、遠距離にある対象は物体インスタンス単位では検出できない。このような場合の対策については、特許文献1から特許文献3では想定されていない。
 そこで、本発明では、対象となる物体の物体数を高精度に推定する技術を提供することを目的とする。
 上記の課題を解決するために、代表的な本発明の物体規模推定装置の一つは、物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、を備える。
 本発明によれば、対象となる物体の物体数を高精度に推定することができる。
 上記した以外の課題、構成および効果は、以下の実施をするための形態における説明により明らかにされる。
図1は、物体規模の推定処理において物体検出および領域抽出を行う場合を示す図である。 図2は、第1実施形態に係る物体規模推定システムの構成を示す図である。 図3は、第1実施形態に係る物体規模推定システムの構成をハードウェアとして示す一例を図である。 図4は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。 図5は、物体規模推定システムにおける物体規模の推定処理のフローチャートを示す図である。 図6は、物体規模推定システムにおける物体規模の推定処理の結果の出力例を模式的に示す図である。 図7は、第2実施形態に係る物体規模推定システムの構成を示す図である。 図8は、画像データベースに保存されるデータの一例を示す図である。 図9は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。 図10は、密度推定処理のフローチャートを示す図である。 図11は、物体規模推定システムにおける物体規模の推定処理の結果の出力例を模式的に示す図である。 図12は、物体規模の推定処理を示すシーケンス図である。
 以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
 本開示において、画像解析に関する説明が含まれる。解析の対象となる画像は、撮像装置が上空に配置されており、上空から見下ろした地上を撮像したものである。このため、画像には、撮像装置との間の距離が短い被写体および撮像装置との距離が大きい被写体が含まれ得る。以下の説明において、画像において「近距離」という場合には撮像装置との間の距離が小さい被写体のことを指し、画像において「遠距離」という場合には撮像装置との間の距離が大きい被写体のことを指す。
 また、物体規模という場合、物体の数を計数したものを指す。物体数という表示を用いることもある。
[従来例]
 図1を参照して、従来例の画像認識による物体規模の推定処理を説明する。図1は、物体規模の推定処理において物体検出および領域抽出を行う場合を示す図である。図1(a)は物体検出(object detection)を行う場合を示し、図1(b)を領域抽出(semantic segmentation)を行う場合を示す。
 図1(a)を参照して物体検出を説明する。物体検出の対象である撮像画像10は、ドローンに搭載された撮像装置によって撮像された画像の一例を示す。ドローンは、遠隔操作される無人航空機である。ドローンに搭載された撮像装置によって撮影が行われるため、撮像画像10には、例えば、水平方向から鉛直方向下向きに向かい方向に撮像装置が向く向きである俯角および撮像装置が位置する高さである高度、の情報が関連付けられる。
 撮像画像10において、画面中央部から奥側に向けて道が伸びる様子が示されている。また、撮像画像10の下方は、撮像装置の近傍の箇所に該当しており、住宅と木などが生い茂る緑地が混在している。撮像画像10の情報は、撮像装置から見て遠方の箇所に該当しており、住宅毎の境目は明瞭には示されていないが、複数の住宅が集まる住宅街が形成されている。撮像画像10の上端部は、地上と上空の境界が示されている。
 画像における物体検出は、例えばCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)モデル、YOLO(You Look Only Once)モデルなどを用いて行うことができる。
 物体検出後画像11は、検出された物体を模式的に示す図である。物体検出後画像11において、矩形部分12が示されている。矩形部分12は、住宅という特性を持つ領域を示している。物体検出後画像11において矩形部分は16個示されているので、撮像画像10において住宅が16棟含まれることが検出された。
 図1(b)を参照して領域抽出を説明する。領域抽出は、例えば画素の特徴量を判定し、特徴量の近い部分をまとめて同一の領域として抽出する。領域抽出後画像13は、抽出された領域を模式的に示す図である。領域抽出後画像13において、斜線表示部分Saは住宅が含まれる領域を示す。
 ここで、物体検出と領域抽出の特性について説明する。物体検出後画像11に示されるように、撮像画像10の下方、すなわち撮像装置から近距離にある物体については検出することが可能である。しかし、撮像画像10の上方、すなわち撮像装置から遠距離にある物体については検出をすることができない。
 一方、領域抽出については、撮像画像10の上方、すなわち撮像装置から遠距離にある領域についても住宅が含まれる領域として分類することが可能である。しかし、領域に含まれる住宅の数については、カウントすることができない。
 例えば、災害発生直後の状況においてドローンを用いた撮像画像から被災地域にある住宅数を把握することができれば、有効な支援計画を立てることに貢献し得る。しかしながら、従来の画像認識手法を用いる場合には、住宅数の把握をすることはできない。
[第1実施形態]
(システムの構成)
 図2および図3を参照して、第1実施形態に係る物体規模推定システムの構成を説明する。図2は、第1実施形態に係る物体規模推定システムの構成を示す図である。物体規模推定システム100は、物体規模の推定処理の対象となる画像である対象画像において、検出対象となる物体(以下、「対象物体」ともいう。)を検出し、対象物体の物体数(物体規模)を推定する。
 物体規模推定システム100は、記憶装置101と、入力装置102と、表示装置103と、主機能部104を含む。主機能部104は、物体規模推定システム主要な機能を発揮する。主機能部104を、物体規模推定装置として構成することも可能である。
 記憶装置101は、撮像装置によって取得された画像が記憶される。記憶された画像は、物体規模の推定処理の対象となる。記憶装置101は、任意の種類の記憶媒体によって構成される。記憶装置101は、複数の記憶媒体の組み合わせによって構成されてもよく、例えば、半導体メモリやハードディスクドライブなどの記憶デバイスの組み合わせによって構成されてもよい。記憶装置101は、クラウド上の記憶領域であってもよい。
 また、記憶装置101は、撮像装置であってもよく、例えばドローン搭載の撮像装置とすることも可能である。主機能部104は、この場合には、撮像装置から直接的に画像を取得することも可能である。また、複数の撮像装置から画像を取得する構成としてもよく、例えば複数のドローン搭載の撮像装置と主機能部104とが接続するシステムを構成することも可能である。
 入力装置102は、物体規模推定システム100のユーザの入力操作を受け付ける。表示装置103は、物体規模の推定を行った結果を表示する。
 図2における主機能部104は、主に機能ブロックとしての側面を示す。主機能部104は、画像入力部105、領域抽出部106、深度推定部107、物体検出部108、密度推定部109、画像データベース110、物体数推定部111、表示部112を有する。
 画像入力部105は、記憶装置101と主機能部104との間のインターフェースとしての機能を有する。画像入力部105は、記憶装置101から物体規模の推定処理を行う対象となる画像である対象画像および対象画像に関連付けられる関連情報を取得する。
 領域抽出部106は、対象物体が含まれると推定される領域である推定領域を抽出する。領域抽出部106は、対象画像を共通の特徴を持つ領域に分類(グループ化)する処理を行う。例えば、領域抽出部106は、画素の特徴量を判定し、特徴量の近い部分をまとめて同一の領域として抽出する。領域抽出部106は、例えば、特徴量と物体の間の関係を示す教師データを予め学習しておき、物体毎に領域を区別することが可能である。また、教師データを用いずに、スペクトルやテクスチャなどの特徴量を用いて領域を分類することも可能である。第1実施形態の場合、住宅街、森林、道路、水辺などに領域を区別して抽出することが可能である。
 深度推定部107は、対象画像の深度マップを生成する。深度マップは、対象画像のなかの画素ごとの被撮像物(被写体)と撮像装置との間の距離を表現したものである。深度マップを生成する方法としては、例えば対象画像が撮像された場合における俯角および高度に基づいて、深度を推定して深度マップを生成することが可能である。他にも、対象画像が単眼カメラによって撮像された画像である場合、単眼深度推定を行い深度マップを生成する方法(例えば、画像に対応する深度マップを関連付けた教師データを集めて学習を行い対象画像の深度マップを生成する方法)、ステレオカメラにおけるカメラ間の視差を用いて深度マップを生成する方法、画像とレーザーや赤外線等を用いた測距センサの情報を組み合わせる方法、などがある。また、撮像装置の位置情報が対象画像に関連付けられている場合には、位置情報を用いて深度マップを生成することも可能である。深度推定部107は、画像および関連情報に基づいて、これらの方法から選択することが可能である。
 物体検出部108は、対象画像において、検出対象となる物体である対象物体を検出する。物体検出部108は、例えば、CNNモデル、YOLOモデルなどを用いて、対象画像から対象物体を検出する。
 密度推定部109は、対象物体および深度マップに基づいて、対象物体の密度を推定する。
 画像データベース110は、対象画像および対象画像に関連する特徴量に関するデータを記憶する。
 物体数推定部111は、推定領域および深度マップに基づいて推定領域の面積を推定し、対象物体の密度および面積に基づいて推定領域における対象物体の数を算出する。
 表示部112は、算出された物体数に関する情報を表示装置103に出力する。
 図3は、第1実施形態に係る物体規模推定システムの構成をハードウェアとして示す一例を図である。物体規模推定システム100は、記憶装置101と、入力装置102と、表示装置103と、プロセッサ201と、主記憶装置202と、NIC(Network Interface Card)204を含む。
 プロセッサ201は、一定の処理手順に基づいてデータの変換、演算、加工をする処理装置である。プロセッサ201は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などによって構成され、または複数の処理装置の組み合わせによって構成されてもよい。
 主記憶装置202は、記憶装置101と同様に、任意の種類の記憶媒体によって構成される。主記憶装置202は、複数の記憶媒体の組み合わせによって構成されてもよく、例えば、半導体メモリやハードディスクドライブなどの記憶デバイスの組み合わせによって構成されてもよい。
 主記憶装置202に記憶される処理プログラム203は、各機能ブロック(すなわち、画像入力部105、領域抽出部106、深度推定部107、物体検出部108、密度推定部109、物体数推定部111、表示部112)の処理手順を規定している。プロセッサ201が処理プログラム203を実行することによって、各機能ブロックの機能を発揮する。
 NIC204は、主機能部104を構成する機器をネットワークに接続するためのインターフェースである。記憶装置101は、NIC204を介して、主機能部104に接続される。なお、入力装置102と表示装置103は、NIC204によって提供されるネットワークを介してプロセッサ201および主記憶装置202に接続される。
 上述のハードウェア構成は一例であり、本開示はこれに限定されない。例えば、記憶装置101は、NIC204によってネットワークに接続されているため、NAS(Network Attached Storage)またはSAN(Storage Area Network)が想定されている。記憶装置101は、DAS(Direct Attached Storage)を適用してもよい。
 また、プロセッサ201と主記憶装置202の組み合わせによって機能ブロックの機能を実現しているが、負荷処理分散のため、他のプロセッサと主記憶装置の組み合わせを併用して処理プログラム203を実行することにしてもよい。
 また、記憶装置101と入力装置102と表示装置103は、物体規模推定システム100のユーザと主機能部104の間のインターフェースの機能を有している。ユーザと主機能部104との間のインターフェースとして機能するものであれば、主機能部104と直接的に接続する別個のデバイスでなくともよい。例えば、表示装置103は、主機能部104と通信可能な携帯端末であってもよい。記憶装置101と入力装置102と表示装置103は、ユーザの使用態様に合わせて適宜設定することが可能である。
(物体規模の推定処理のデータの流れ)
 図4を参照して、深度および密度を用いた物体規模の推定処理を説明する。図4は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。
 最初に、物体規模推定システム100に対象画像301を示す情報が読み込まれる。対象画像301は、例えばドローンを用いて撮像されるものであり、俯角および高度に関する情報が関連づけられている。ドローン等の航空機器による撮影に限定されず、本開示には他の画像を適用することも可能である。例えば、監視塔のような高所に設置された撮像装置によって取得された画像を用いてもよい。なお、対象画像301の画像自体は、前述の撮像画像10と同じものである。
 続いて、深度推定処理302において、対象画像301の深度マップが作成される。深度マップ303は、対象画像301に深度推定を行った場合の結果の一例を模式的に示す図である。画素ごとに撮像装置と被撮像物との間の距離(深度)が抽出され、色の濃淡が深度の大小に対応している。
 領域抽出処理304において、対象画像301から住宅が含まれる領域が抽出される。領域抽出後画像305における斜線表示部分Saは、住宅が含まれる領域を示す。
 物体検出処理306において、対象画像301から住宅(物体)が検出される。物体検出後画像307において、矩形部分は16個含まれており、住宅が16棟検出されている。
 なお、物体検出は、モデルを用いて検出する場合の検出の信頼度および矩形部分に含まれるピクセルサイズ(画素の大きさ)によって、物体検出の精度が判断される。例えば、信頼度およびピクセルサイズに基準値を設け、信頼度およびピクセルサイズが基準値を超えた矩形部分については物体検出ができたと判断し、信頼度およびピクセルサイズが基準値以下の場合には物体検出ができた物体数にカウントしない、とすることが可能である。またほかにも、画像において基準値を超える割合が高い部分を近距離として物体検出を行う、対象画像において基準値以下となる割合が高い部分を遠距離として領域抽出の対象とする、というように、領域抽出処理および物体検出処理を行う条件を設けることも可能である。
 続いて、密度推定処理308が行われる。物体検出処理を行うことができた近距離における物体密度が推定される。具体的には、まず、深度マップ303を用いて物体検出後画像307の矩形部分が検出された範囲の面積を算出する。算出された面積と物体数から、単位面積当たりの物体数(密度)が算出される。密度を示す情報である密度情報309が生成される。
 面積推定処理310において、領域抽出後画像305における斜線表示部分Saの面積が推定される。斜線表示部分Saの面積を示す情報である面積情報311が生成される。
 物体数推定処理312において、近距離における物体数の密度情報309および斜線表示部分Saの面積情報に基づいて、斜線表示部分Saに含まれる物体数(住宅数)が推定される。具体的には、近距離における住宅の密度と遠距離における住宅の密度が同じであると仮定のも、住宅の密度と斜線表示部分Saの面積の積をとることによって、斜線表示部分Saに含まれる住宅数が推定される。例えば、住宅の密度が0.0125m-2であり、斜線表示部分Saの面積が7200mであった場合、0.0125×7200=90であり、90棟が斜線表示部分Saに含まれると推定される。
 なお、処理の順序は適宜設定しうる。例えば、深度推定処理302と領域抽出処理304と物体検出処理306は、並列に処理を行うことも可能であるし、直列に処理を行ってもよい。直列に行う場合にも、処理を実行する順序は適宜設定しうる。
(物体規模の推定処理の手順)
 図5を参照して、密度および深度を用いた物体規模の推定処理の手順を説明する。図5は、物体規模推定システムにおける物体規模の推定処理のフローチャートを示す図である。
 最初に、物体規模推定システム100は、物体規模の推定処理を行う画像を読み込む(ステップS601)。対象画像の情報は、画像入力部105によって物体規模推定システム100に読み込まれる。
 続いて、深度推定部107は、読み込んだ対象画像の深度マップを作成する(ステップS602)。深度推定部107は、対象画像に関連付けられた情報(たとえば、撮像装置の俯角および高度など)を用いて、深度を推定し、深度マップを作成する。
 続いて、領域抽出部106は、読み込んだ画像から領域を抽出する(ステップS603)。領域抽出部106は、物体規模の推定処理の対象物体が含まれると推定される領域(推定領域)を抽出する。推定領域は、対象画像において、撮像装置から遠距離にあり、後述の物体検出を行うことができない部分においても行われる。
 続いて、物体検出部108は、読み込んだ画像から物体を検出する(ステップS604)。物体検出部108は、対象画像において、検出対象となる物体である対象物体を検出する。物体の検出は、対象画像において、概ね撮像装置から近距離にある物体が検出される。物体検出部108は、検出された物体の数を数える。
 続いて、密度推定部109は、近距離の物体密度を推定する(ステップS605)。密度推定部109は、物体検出部108によって検出された対象物体および深度推定部107によって生成された深度マップに基づいて、対象物体の密度を推定する。推定される密度は、撮像装置から近距離における物体の密度である。
 続いて、物体数推定部111は、遠距離の面積を推定する(ステップS606)。具体的には、物体数推定部111は、領域抽出部106によって抽出された推定領域および深度推定部107によって生成された深度マップに基づいて、推定領域の面積を推定する。
 さらに、物体数推定部111は、密度と面積から、遠距離の物体数を推定する(ステップS607)。具体的には、物体数推定部111は、密度推定部109によって推定された対象物体の密度およびステップS606において推定した推定領域の面積に基づいて、推定領域における対象物体の数を算出する。
 続いて、表示部112は、近距離と遠距離の物体数を出力する(ステップS608)。
具体的な出力例は後述する。
 なお、画像データベース110は、物体検出部108による物体検出の結果、領域抽出部106による領域抽出の結果、物体数推定部111による物体数推定の結果、を示す情報を保存する。物体数推定の結果を関連付けて保存することによって、ユーザが過去の推定結果にアクセスすることが容易になる。
(物体規模の推定処理の結果の出力の例)
 図6は、物体規模推定システム100における物体規模の推定処理の結果の出力例を模式的に示す図である。
 図6において、入力装置102がマウスおよびキーボードとして示されている。同様に、表示装置103はディスプレイとして、主機能部104はタワー型のデスクトップコンピュータとして、それぞれ示されている。また、表示装置103の表示画面において、マウスカーソル700、画像読み込みボタン701、入力画像表示部702、画像認識結果表示部704、規模推定結果表示部705、規模推定実行ボタン703、がそれぞれ示されている。物体規模推定システム100は、マウスおよびキーボードを介して入力されたユーザの要求に基づいて、処理を行う。例えば、画像読み込みボタン701を選択して対応する処理が行われる場合には、画像読み込みボタン701上にマウスカーソル700が配置された状態で、キーボードまたはマウスを介したユーザの入力操作が行われる。
 画像読み込みボタン701が選択される場合、物体規模の推定処理の対象となる画像を読み込む処理が行われる。読み込まれる対象画像は予め定められたものであってもよい。また、画像読み込みボタン701が選択された後に、記憶装置101に記憶された画像データをリスト等の形式に表示させ、ユーザに選択させることも可能である。
 入力画像表示部702は、読み込まれた画像を示す。ユーザは、入力画像表示部702に示された画像が物体規模の推定処理を行う対象画像であるかどうかを確認することが可能である。所望の画像ではなかった場合、ユーザは、再度画像読み込みボタン701を選択し、読み込む画像を選択することが可能である。
 規模推定実行ボタン703が選択される場合、読み込まれた対象画像について物体規模の推定処理が行われる。画像認識結果表示部704は、物体検出処理によって検出された対象物体を示す矩形部分(第1図形)、および領域抽出処理によって抽出された推定領域を示す斜線表示部分(第2図形)とを、読み込まれた対象画像上に重ねて表示した態様で示す。また、規模推定結果表示部705は、物体検出処理によって推定された近距離の物体数および物体数推定処理によって推定された推定領域に含まれる遠距離の物体数を示す。具体的には、「家屋106棟」と示されるように、入力画像表示部702に示された画像に含まれると推定される住宅数は106棟である。また106棟の内訳は、「近距離:16棟」と示されるように対象画像の近距離において16棟であり、「遠距離:90棟(推定)」と示されるように対象画像の遠距離において90棟である。なお、図6は表示態様の一例を示すものであり、本開示はこれに限定されない。例えば、対象物体を表示するのに矩形部分を表示する場合を示すが、他の多角形を採用してもよいし、ハッチ等の表示態様を変更するものでもよい。また、斜線表示部分についても、抽出された領域を区別できる態様であれば、斜線表示以外の表示態様を採用することも可能である。
(作用・効果)
 撮像された画像の中に、撮像装置から近距離にある物体と撮像装置から遠距離にある物体が含まれる場合、近距離にある物体については物体検出処理によって対象とする物体の個数を把握することが可能である。一方、遠距離にある物体については、信頼度の高い物体検出を行うことは難しい。また、領域抽出処理を行うことも可能ではあるが、対象とする物体を含む領域であることが認識されるにとどまり、これ以上の情報量を得ることは難しい。
 これに対し、本発明においては、対象画像の深度マップを生成し、近距離における物体の密度を用いることで、遠距離にある物体の物体数を推定する。このようにすることによって、物体検出処理による認識が困難な遠距離の物体の規模推定が可能となる。
 また、推定結果を表示することによって、ユーザへの情報提供が可能となる。物体検出処理の結果および領域抽出処理の結果を対象画像に重畳させた表示や、物体検知処理による物体数と深度マップを利用して推定された物体数を対比した表示を一度にユーザに提示するため、ユーザは物体規模の推定処理の確からしさを直感的に把握することが可能となる。
[第2実施形態]
(システムの構成)
 第2実施形態は、画像データベース内の画像を物体規模の推定処理に用いる点で第1実施形態と異なる。以下の説明において、上述の第1実施形態と同一または同等の構成要素については同一の符号を付し、その説明を簡略または省略する。
 図7は、第2実施形態に係る物体規模推定システムの構成を示す図である。第2実施形態の物体規模推定システム100aにおいて、第1実施形態の物体規模推定システム100との違いは、画像データベース110aに保存される情報が密度推定部109に用いられる点である。
 図8は、画像データベース110aに保存されるデータの一例を示す図である。画像データベース110aは、テンプレート画像とテンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、テンプレート画像に含まれる物体および物体の種別を含む物体テーブルと、テンプレート画像から抽出される領域および領域の種別を示す領域テーブルとを含む。なお、ここで物体規模の推定処理の対象となる対象画像と区別するためにテンプレート画像と表記する。テンプレート画像とは、物体規模の推定処理を行う前に事前に集められた画像または物体規模の推定処理を行う過程で取得された画像のことである。後述するように、テンプレート画像には、物体規模の推定処理の過程において生成された深度マップ、物体検出処理の結果、領域抽出処理の結果等が関連付けられている。以下、3つのテーブルのデータについて説明する。
 図8(a)は画像テーブルの一例を示す図である。画像テーブルは、物体規模推定システムに読み込まれる画像を管理する。画像テーブルは、深度マップおよび検索用の特徴量も管理する。画像テーブルは、ID、画像(以下、「テンプレート画像」ともいう。)、深度マップ、画像特徴量、深度マップ特徴量(以下、「テンプレート深度マップ特徴量」ともいう。)、の列(カラム)を含む。テーブルの行(レコード)には、テンプレート画像のデータ、テンプレート画像から生成された深度マップ、テンプレート画像の特徴量、深度マップの特徴量を含む。テンプレート画像の特徴量としては、エッジパターン、色、HOG(Histograms of Oriented Gradients)、SIFT(Scaled Invariance Feature Transform)等が画素ごとに検出されている。深度マップの特徴量としては、例えば撮像装置からの距離を示す指標が用いられる。例えば、ID=1に該当する行には、画像および深度マップが示されている。画像特徴量は[0.627,0.055,0.479,0.882,0.728,…]であり、深度マップ特徴量は[0.550,0.046,0.540,0.459,0.098,…]である。
 図8(b)は物体テーブルの一例を示す図である。物体テーブルは、物体検出処理を行った結果を管理する。物体テーブルは、ID、画像ID、座標、種別、信頼度の列を含む。テーブルの行には、画像IDのデータ、テンプレート画像において物体検出された領域を示す座標のデータ、種別を示すラベルのデータ、物体検出の信頼度のデータを含む。画像IDによって、物体テーブルと画像テーブルは紐づけがされている。具体的には、画像ID=1は、物体テーブルにおけるID=1のテンプレート画像をさす。テーブルに含まれているデータ(レコード)について、例えば、ID=1に該当する行には、画像ID=1のテンプレート画像について物体検出処理を行った場合、座標[0.42,0.63,0.6,0.8]に囲まれる箇所に物体の種別として住宅が抽出されたことを示している。上述の座標における物体検出の信頼度は、0.95である。図8(b)に示される物体テーブルにおいては、画像ID=1のテンプレート画像に対して複数の物体が検出されている。なお、図8(b)においては種別として住宅が検出された場合が示されているが、物体テーブルには住宅以外の物体を検出した結果も含まれ得る。
 図8(c)は領域テーブルの一例を示す図である。領域テーブルは、領域抽出処理を行った結果を管理する。領域テーブルは、ID、画像ID、領域、種別の列を含む。テーブルの行には、画像IDのデータ、抽出された領域の範囲を示すデータ、種別を示すラベルのデータを含む。物体テーブルの場合と同様に、領域テーブルにおいても、画像IDによって、物体テーブルと領域テーブルは紐づけがされている。テーブルに含まれるデータについて、例えば、画像ID=1のテンプレート画像について領域抽出処理を行った場合、領域として、抽出された領域を示す斜線表示部分Sbが示される。抽出された領域の種別は住宅街である。なお、図8(c)においては種別として住宅街が検出された場合が示されているが、領域テーブルには住宅街以外の領域を検出した結果も含まれ得る。
(物体規模の推定処理のデータの流れ)
 図9を参照して、類似画像の検索を用いた物体規模の推定処理を説明する。図9は、物体規模推定システムの処理におけるデータの流れを模式的に示す図である。
 対象画像801は、物体規模推定システム100aに読み込まれる画像である。対象画像801において、対象画像801の右側の手前から奥にかけて、樹木が生えている部分が広がっている。また、植物が生えておらずかつ建物もない土地が中央部分に広がっている。対象画像801の左下側に少数の建物があり、対象画像801の左奥側に複数の建物がある。
 物体検出処理802において、対象画像801から住宅が検出される。物体検出後画像803において、矩形部分は1個含まれており、住宅が1棟検出されている。住宅が1棟しか検出されないため、密度推定処理を実施することができず、密度推定不可804と判定される。
 このように、対象画像801のように近距離の領域に物体が十分な数だけ映されていない場合、第1実施形態の密度推定処理を行うことができない。これに対して、第2実施形態においては、画像データベース110aに蓄積されたテンプレート画像から、類似する深度マップを検索し、それに紐づいた物体検出結果から密度を推定する。
 深度推定処理805において、対象画像801の深度マップ806が形成される。
 続いて、類似画像検索処理807において、画像データベース110aから深度マップ806に類似する深度マップおよび関連情報が検索される。具体的には、深度マップ806から抽出される深度マップ特徴量(以下、「対象深度マップ特徴量」ともいう。)をクエリとして用いる。
 類似画像検索結果808に示されるように、まず、深度マップ806の深度マップ特徴量と深度テーブルの深度マップ特徴量を比較し、深度マップ806と深度テーブルの深度マップとの間の類似度が算出される。画像ID=2の深度マップは類似度が0.90である。画像ID=1のテンプレート画像の深度マップは類似度が0.80である。画像ID=3のテンプレート画像の深度マップは類似度が0.50である。画像テーブルには3以上のレコードが含まれているところ、類似画像検索処理においては、例えば類似度が所定値(ここでは0.50)以上となるテンプレート画像(以下、「類似テンプレート画像」ともいう。)を抽出する。または、ユーザによって類似テンプレート画像を選択させることも可能である。
 続いて、画像データベース110aから抽出された類似テンプレート画像の物体の数を取得する。具体的には、抽出された類似テンプレート画像に関して物体テーブルを参照し、対象物体と同じ種別として検出された物体の数を算出する。画像ID=2のテンプレート画像は16棟の住宅を含む。画像ID=1のテンプレート画像は11棟の住宅を含む。画像ID=3のテンプレート画像は12棟の住宅を含む。なお、物体の数をカウントする場合、所定の信頼度以上のもののみをカウント対象とすることとしてもよい。
 続いて、密度推定処理809において、物体の平均密度が計算される。具体的には、領域テーブルに示される斜線表示部分Sbの面積を算出し、物体の数と面積に基づいて密度が算出される。
 算出された密度を対象画像801に適用して、対象画像801に含まれる物体の数が推定される。
(密度推定処理の処理手順)
 図10を参照して、類似画像の検索を用いた密度推定の処理手順を説明する。図10は、密度推定処理のフローチャートを示す図である。物体規模の推定処理のうち、特に密度推定に部分を説明する。密度推定部109は、前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、画像テーブルから抽出し、類似テンプレート画像に含まれる対象物体の数である第2物体数を、前記物体テーブルに基づいて算出し、類似テンプレート画像の領域に含まれる対象物体の密度である第2密度を、第2物体数および前記領域テーブルに基づいて算出し、物体数推定部111は、第2密度を用いて第1物体数を算出する。
 物体検出部108は、読み込んだ対象画像から物体を検出し、検出された物体の数を数える。密度推定部109は、検出された物体の数が所定数以上であるかどうかを判断する(ステップS901)。所定数以上である場合(ステップS901においてYES)、密度推定部109は、第1実施形態に示すように密度推定を行う(ステップS909)。一方、所定数未満である場合(ステップS901においてNO)、密度推定部109は、深度マップ特徴量をクエリとして、物体規模の推定処理の対象とする対象画像に類似したテンプレート画像である類似テンプレート画像を検索する(ステップS902)。
 類似テンプレート画像の検索処理は、画像データベース110aの画像テーブルに含まれるレコードに対して繰り返して行われる(ステップS903からステップS908)。密度推定部109は、画像データベース110aの画像テーブルから、類似度が所定値以上となるテンプレート画像を抽出する。または、密度推定部109によって算出された類似度と画像テーブルのテンプレート画像をユーザに提示し、ユーザによって類似テンプレート画像を選択させることも可能である。類似度による抽出とユーザによる選択を組み合わせてもよい。ユーザによる選択を採用することによって、物体規模の推定処理の対象となる画像自体の見た目の特徴が考慮されることになるため、物体規模の推定処理の結果がより現実に即したものとなることが期待される。
 密度推定部109は、画像データベース110aから抽出されたテンプレート画像の物体を取得する(ステップS905)。具体的には、密度推定部109は、画像データベース110aの画像テーブルから抽出されたある画像IDのテンプレート画像について、物体テーブルを参照してテンプレート画像に含まれる物体の数をカウントする。なお、物体の数をカウントする場合、所定の信頼度以上のものをカウントする対象とすることとしてもよい。物体の数が所定数以上でない場合(ステップS906においてNO)、密度推定部109は次の画像について処理を行う。
 物体の数が所定数以上である場合(ステップS906においてYES)、密度推定部109は、密度を計算し、平均密度を更新する。具体的には、密度推定部109は、領域テーブルに示されて領域の面積を算出し、物体の数と面積に基づいて密度を算出する。画像テーブルから抽出されるテンプレート画像についてステップS903からステップS907の処理を行い、算出された密度の平均値を算出する。
 なお、ここで平均密度を用いることによって、複数の検索結果が考慮されることになり、推定される密度がより正しい値となることが期待される。なお、平均値の取り方としては、単純平均を用いる方法の他にも、例えば類似度に応じて重みを付けて平均をとる方法、などの種々の方法を適用することも可能である。
(物体規模推定の結果の出力の例)
 図11は、物体規模推定システム100における物体規模の推定処理の結果の出力例を模式的に示す図である。第1実施形態の出力例との違いは、類似画像検索結果表示部1001が示される点である。
 類似画像検索結果表示部1001において、画像ID、深度マップ特徴量の類似度(対象深度マップ特徴量とテンプレート深度マップ特徴量の間の類似度)、画像IDに対応するテンプレート画像における物体の数、画像テーブルにおける深度マップおよびテンプレート画像が示される。
(物体規模の推定処理の手順)
 図12を参照して、密度推定の処理手順を説明する。図12は、物体規模の推定処理を示すシーケンス図である。ユーザ1100は、物体規模推定システム100aのユーザである。また、計算機1120は、物体規模推定システム100aをハードウェアとして実現した場合の一態様を示すものであり、例えば、入力装置102と表示装置103と主機能部104を含む電子計算機である。
 最初に、ユーザ1100は、物体数を推定する要求を計算機1120に入力する(ステップS1101)。計算機1120は物体数を推定する対象となる画像である入力画像の要求を記憶装置101に送り(ステップS1102)、記憶装置101は入力画像を計算機1120に送る(ステップS1103)。
 計算機1120は、入力画像である対象画像に対して、深度推定処理(ステップS1104)、領域抽出処理(ステップS1105)、および物体検出処理(近距離の物体数の検出)(ステップS1106)を行う。なお、図11において示されるのは一例であり、この3つの処理は順序を入れ替えることが可能である。
 計算機1120は、深度推定処理と領域推定処理と物体検出処理によって取得された値等を含む画像認識結果を画像データベース110aに登録する(S1107)。画像データベース110aは登録完了通知をする(ステップS1108)。
 計算機1120は、画像認識結果表示をユーザ1100に示す(ステップS1109)。画像認識結果表示は、図10の画像認識結果表示部704に示されるように、物体検出処理によって検出された物体を示す矩形部分と、領域抽出処理によって抽出された推定領域を示す斜線表示部分とを、読み込まれた対象画像上に重ねて表示した態様で示す。
 ここで、物体検出処理(ステップS1106)において物体数が所定数以上でない場合、計算機1120は密度推定処理(ステップS1110)を行う。密度推定処理(ステップS1110)は、図10に示されるように、類似画像検索(ステップS1111)から密度推定に用いるテンプレート画像を選択する(ステップS1114)までの間の処理である。
 計算機1120は、類似画像検索(ステップS1111)を行い、画像データベース110aから検索結果を抽出する(ステップS1112)。
 計算機1120は、検索結果表示をユーザ1100に示す(ステップS1113)。類似画像検索(および密度推定)の結果表示は、図11の類似画像検索結果表示部1001に示されるように、画像ID、深度マップ特徴量の類似度(対象深度マップ特徴量とテンプレート深度マップ特徴量の間の類似度)、画像IDに対応するテンプレート画像における物体の数、画像テーブルにおける深度マップおよび画像を含む。
 ユーザ1100は、類似画像検索の結果表示のなかから、密度推定に用いるテンプレート画像を選択する(ステップS1114)。ユーザの選択は、計算機1120に入力される。
 計算機1120は、選択されたテンプレート画像に基づいて、遠距離の物体数の推定する(ステップS1115)。計算機1120は、ユーザ1100に物体数を表示する(ステップS1116)。物体数の表示は、図11の規模推定結果表示部705に示される態様で行われる。
(作用・効果)
 撮像を行う対象によっては、撮像された画像の中に近距離にある物体がわずかしか含まれておらず、物体検出による密度推定を行うことができない場合がある。このような場合であっても、類似画像に基づいて密度推定を行うことができるため、物体規模の推定処理を行うことが可能である。
[その他の実施形態]
 本開示において住宅を物体規模の推定処理の対象としたが、本開示はこれに限定されない。例えば、山間部に水害が発生した場合、河川に流木が流出することがある。物体規模の推定処理の対象に流木を適用することも可能である。また、資源の採掘施設において、採掘された資源を堆積させておく場合がある。物体規模の推定処理の対象に堆積物を適用することも可能である。
 本開示において物体規模の推定処理の対象に1つの画像とする場合を説明したが、本開示はこれに限定されない。被写体を複数の画像に分けて撮像する場合、複数の画像を組み合わせて形成した被写体に対して、物体規模の推定処理を行うことも可能である。
 以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
 本発明の内容となり得る態様を以下に述べる、ただしこれに限られるものではない。
(態様1)
 物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、
 前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
 前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
 前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
 前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、
を備える物体規模推定装置。
(態様2)
 前記深度推定部は、前記対象画像が撮像された場合における俯角および高度に基づいて、前記深度マップを生成する、
態様1に記載の物体規模推定装置。
(態様3)
 前記対象画像は単眼カメラによって撮像された画像であり、
 前記深度推定部は、単眼深度推定を行い前記深度マップを生成する、
請求項1または2に記載の物体規模推定装置。
(態様4)
 テンプレート画像と前記テンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、
 前記テンプレート画像に含まれる物体および前記物体の種別を含む物体テーブルと、
 前記テンプレート画像から抽出される領域および前記領域の種別を示す領域テーブルと、を含む画像データベース、をさらに備え、
 前記密度推定部は、密度を推定できない場合、
  前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、前記画像テーブルから抽出し、
  前記類似テンプレート画像に含まれる対象物体の数である第2物体数を、前記物体テーブルに基づいて算出し、
  前記類似テンプレート画像の前記領域に含まれる前記対象物体の密度である第2密度を、前記第2物体数および前記領域テーブルに基づいて算出し、
 前記物体数推定部は、
  前記第2密度を用いて前記第1物体数を算出する、
態様1から3のいずれか1つに記載の物体規模推定装置。
(態様5)
 前記類似テンプレート画像はユーザによって選択される、
態様1から4のいずれか1つに記載の物体規模推定装置。
(態様6)
 物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定ステップと、
 前記対象画像において、検出対象となる物体である対象物体を検出する物体検出ステップと、
 前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出ステップと、
 前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定ステップと、
 前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定ステップ、
を備える物体規模推定方法。
(態様7)
 物体規模の推定処理の対象となる画像である対象画像を撮像する撮像装置と、
 前記撮像装置の深度マップを生成する深度推定部と、
 前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
 前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
 前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
 前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、
を備える物体規模推定システム。
(態様8)
 前記撮像装置はドローンに搭載される、態様7に記載の物体規模推定システム。
(態様9)
 前記対象画像に前記対象物体を示す第1図形および前記推定領域を示す第2図形を重ねて表示した画像認識結果を示す表示装置、をさらに備える態様7または8に記載の物体規模推定システム。
10:撮像画像,11:物体検出後画像,12:矩形部分,13:領域抽出後画像,100・100a:物体規模推定システム,101:記憶装置,102:入力装置,103:表示装置,104:主機能部,105:画像入力部,106:領域抽出部,107:深度推定部,108:物体検出部,109:密度推定部,110・110a:画像データベース,111:物体数推定部,112:表示部,201:プロセッサ,202:主記憶装置,203:処理プログラム,301:対象画像,302:深度推定処理,303:深度マップ,304:領域抽出処理,305:領域抽出後画像,306:物体検出処理,307:物体検出後画像,308:密度推定処理,309:密度情報,310:面積推定処理,311:面積情報,312:物体数推定処理,700:マウスカーソル,701:ボタン,702:入力画像表示部,703:規模推定実行ボタン,704:画像認識結果表示部,705:規模推定結果表示部,801:対象画像,802:物体検出処理,803:物体検出後画像,804:密度推定不可,805:深度推定処理,806:深度マップ,807:類似画像検索処理,808:類似画像検索結果,809:密度推定処理,1001:類似画像検索結果表示部,1100:ユーザ,1120:計算機

Claims (9)

  1.  物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定部と、
     前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
     前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
     前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
     前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、
    を備える物体規模推定装置。
  2.  前記深度推定部は、前記対象画像が撮像された場合における俯角および高度に基づいて、前記深度マップを生成する、
    請求項1に記載の物体規模推定装置。
  3.  前記対象画像は単眼カメラによって撮像された画像であり、
     前記深度推定部は、単眼深度推定を行い前記深度マップを生成する、
    請求項1に記載の物体規模推定装置。
  4.  テンプレート画像と前記テンプレート画像の深度マップに含まれる特徴量であるテンプレート深度マップ特徴量を関連付けた画像テーブルと、
     前記テンプレート画像に含まれる物体および前記物体の種別を含む物体テーブルと、
     前記テンプレート画像から抽出される領域および前記領域の種別を示す領域テーブルと、を含む画像データベース、をさらに備え、
     前記密度推定部は、密度を推定できない場合、
      前記対象画像の深度マップの特徴量である対象深度マップ特徴量と類似するテンプレート深度マップ特徴量を有するテンプレート画像である類似テンプレート画像を、前記画像テーブルから抽出し、
      前記類似テンプレート画像に含まれる対象物体の数である第2物体数を、前記物体テーブルに基づいて算出し、
      前記類似テンプレート画像の前記領域に含まれる前記対象物体の密度である第2密度を、前記第2物体数および前記領域テーブルに基づいて算出し、
     前記物体数推定部は、
      前記第2密度を用いて前記第1物体数を算出する、
    請求項1に記載の物体規模推定装置。
  5.  前記類似テンプレート画像はユーザによって選択される、
    請求項4に記載の物体規模推定装置。
  6.  物体規模の推定処理の対象となる画像である対象画像の深度マップを生成する深度推定ステップと、
     前記対象画像において、検出対象となる物体である対象物体を検出する物体検出ステップと、
     前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出ステップと、
     前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定ステップと、
     前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定ステップ、
    を備える物体規模推定方法。
  7.  物体規模の推定処理の対象となる画像である対象画像を撮像する撮像装置と、
     前記撮像装置の深度マップを生成する深度推定部と、
     前記対象画像において、検出対象となる物体である対象物体を検出する物体検出部と、
     前記対象物体が含まれると推定される領域である推定領域を抽出する領域抽出部と、
     前記対象物体および前記深度マップに基づいて、対象物体の密度を推定する密度推定部と、
     前記推定領域および前記深度マップに基づいて前記推定領域の面積を推定し、前記対象物体の前記密度および面積に基づいて前記推定領域における対象物体の数である第1物体数を算出する物体数推定部、
    を備える物体規模推定システム。
  8.  前記撮像装置はドローンに搭載される、請求項7に記載の物体規模推定システム。
  9.  前記対象画像に前記対象物体を示す第1図形および前記推定領域を示す第2図形を重ねて表示した画像認識結果を示す表示装置、をさらに備える請求項7に記載の物体規模推定システム。
PCT/JP2024/014500 2023-05-19 2024-04-10 物体規模推定装置、物体規模推定方法、および物体規模推定システム Pending WO2024241739A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023-083264 2023-05-19
JP2023083264A JP2024166873A (ja) 2023-05-19 2023-05-19 物体規模推定装置、物体規模推定方法、および物体規模推定システム

Publications (1)

Publication Number Publication Date
WO2024241739A1 true WO2024241739A1 (ja) 2024-11-28

Family

ID=93589344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/014500 Pending WO2024241739A1 (ja) 2023-05-19 2024-04-10 物体規模推定装置、物体規模推定方法、および物体規模推定システム

Country Status (2)

Country Link
JP (1) JP2024166873A (ja)
WO (1) WO2024241739A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159060A1 (ja) * 2016-03-18 2017-09-21 日本電気株式会社 情報処理装置、制御方法、及びプログラム
CN110287929A (zh) * 2019-07-01 2019-09-27 腾讯科技(深圳)有限公司 群体区域中目标的数量确定方法、装置、设备及存储介质
CN110472599A (zh) * 2019-08-20 2019-11-19 北京海益同展信息科技有限公司 对象数量确定方法、装置、存储介质与电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017159060A1 (ja) * 2016-03-18 2017-09-21 日本電気株式会社 情報処理装置、制御方法、及びプログラム
CN110287929A (zh) * 2019-07-01 2019-09-27 腾讯科技(深圳)有限公司 群体区域中目标的数量确定方法、装置、设备及存储介质
CN110472599A (zh) * 2019-08-20 2019-11-19 北京海益同展信息科技有限公司 对象数量确定方法、装置、存储介质与电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KULKARNI NACHIKET, RANA ABHIJEET, PATRE ABOLI: "Crowd Analysis and Density Estimation Using Surveillance Cameras", INTERNATIONAL JOURNAL OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGIES, vol. 6, no. 6, 1 January 2015 (2015-01-01), pages 5044 - 5047, XP093242902, ISSN: 0975-9646 *
SOHEI KAJIMA, AKIRA UCHIYAMA, AKIHITO HIROMORI, HIROZUMI YAMAGUCHI, TERUO HIGASHINO: "Image-based Crowd Counting with Perspective Geometry Using a Smartphone", IPSJ SYMPOSIUM SERIES: MULTIMEDIA, DISTRIBUTED, COOPERATIVE AND MOBILE SYMPOSIUM (DICOMO2015); JULY 8-10, 2015, INFORMATION PROCESSING SOCIETY OF JAPAN, JP, vol. 2015, no. 1, 1 January 2015 (2015-01-01) - 10 July 2015 (2015-07-10), JP, pages 157 - 165, XP009559471 *

Also Published As

Publication number Publication date
JP2024166873A (ja) 2024-11-29

Similar Documents

Publication Publication Date Title
Fernandez Galarreta et al. UAV-based urban structural damage assessment using object-based image analysis and semantic reasoning
CN108537112B (zh) 图像处理装置、图像处理系统、图像处理方法及存储介质
EP3000074B1 (en) Method and system for generating a three-dimensional model
CN114565675B (zh) 一种在视觉slam前端去除动态特征点的方法
US20160027208A1 (en) Image analysis method
US9245247B2 (en) Queue analysis
US11727317B2 (en) Systems and methods for coherent monitoring
US10452913B1 (en) Systems and methods for coherent monitoring
JP2009251893A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
CN109816745A (zh) 人体热力图展示方法及相关产品
Gilani et al. Fusion of LiDAR data and multispectral imagery for effective building detection based on graph and connected component analysis
JP2017033197A (ja) 変化領域検出装置、方法、及びプログラム
Ouma et al. On the optimization and selection of wavelet texture for feature extraction from high‐resolution satellite imagery with application towards urban‐tree delineation
JP5180922B2 (ja) 画像検索システム及び画像検索方法
JP2007033157A (ja) 画像解析装置、画像解析方法及びプログラム
Kalantar et al. Smart counting–oil palm tree inventory with UAV
CN115862113A (zh) 陌生人异常识别方法、装置、设备及存储介质
Zhu et al. Large-scale architectural asset extraction from panoramic imagery
JP5746550B2 (ja) 画像処理装置、画像処理方法
Bin et al. Parcel-based change detection in land-use maps by adopting the holistic feature
CN116051980B (zh) 基于倾斜摄影的建筑识别方法、系统、电子设备及介质
US20250200919A1 (en) Automated buckshot modeling tool
Khan et al. A review of benchmark datasets and training loss functions in neural depth estimation
KR20200005853A (ko) 심층 구조 학습 기반 사람 계수 방법 및 시스템
Galarreta Urban Structural Damage Assessment Using Object-Oriented Analysis and Semantic Reasoning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24810747

Country of ref document: EP

Kind code of ref document: A1