[go: up one dir, main page]

WO2016181672A1 - 画像解析装置、画像解析方法、及び、画像解析プログラム - Google Patents

画像解析装置、画像解析方法、及び、画像解析プログラム Download PDF

Info

Publication number
WO2016181672A1
WO2016181672A1 PCT/JP2016/053348 JP2016053348W WO2016181672A1 WO 2016181672 A1 WO2016181672 A1 WO 2016181672A1 JP 2016053348 W JP2016053348 W JP 2016053348W WO 2016181672 A1 WO2016181672 A1 WO 2016181672A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
background
captured image
target object
captured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2016/053348
Other languages
English (en)
French (fr)
Inventor
松本 修一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Noritsu Precision Co Ltd
Original Assignee
Noritsu Precision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Noritsu Precision Co Ltd filed Critical Noritsu Precision Co Ltd
Priority to JP2017517619A priority Critical patent/JP6780639B2/ja
Publication of WO2016181672A1 publication Critical patent/WO2016181672A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/01Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems characterised by the transmission medium
    • G08B25/04Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems characterised by the transmission medium using a single signalling line, e.g. in a closed loop

Definitions

  • the present invention relates to an image analysis apparatus, an image analysis method, and an image analysis program.
  • the background subtraction method is generally well known as a method for detecting a target object in a photographed image photographed by a photographing apparatus.
  • the background difference method is a method of extracting a region (foreground region) that is different from the background image in the captured image by calculating a difference between the background image set in advance and the captured image (input image).
  • the pixel value of the region in which the target object appears changes from the background image. Therefore, according to this background subtraction method, the region where the target object is captured can be extracted as the foreground region, and thereby the presence of the target object can be detected.
  • Patent Document 1 proposes a method of detecting an area in which a person to be watched is captured using a background difference method. Specifically, each estimation condition is set on the assumption that the foreground region extracted by the background subtraction method is related to the behavior of the person being watched over, and by determining whether or not each of these estimation conditions is satisfied A method for estimating the state of the person being watched over has been proposed.
  • the present inventor has found that the following problems occur when a target object is detected based on a general background subtraction method. That is, as a background image used for the background subtraction method, there may be a case where a captured image acquired when starting such a target object detection process is set. In such a case, if the target object appears in the captured image set as the background image, the target object cannot be detected by a general background subtraction method while the target object maintains the current state. .
  • the present inventor has a problem that setting a captured image of a target object as a background image causes a problem that the target object cannot be properly detected unless the target object moves. Found.
  • the watching system as described above, there arises a problem that it becomes impossible to appropriately estimate the state of the watching target person.
  • the present invention has been made in consideration of such points, and an object of the present invention is to provide a technique that can appropriately detect a target object in the background subtraction method.
  • the present invention adopts the following configuration in order to solve the above-described problems.
  • the image analysis device is a captured image captured by a capturing device, and continuously acquires captured images including depth data indicating the depth of each pixel in the captured image.
  • a background setting unit that sets the acquired captured image as a background image that is a background of the captured image, when starting a process of detecting a target object from the captured image, and a background difference method
  • a detection unit that detects the target object from the captured image by calculating a difference between the captured image and the background image.
  • the background setting unit determines whether or not the target object is reflected in the captured image acquired when the process of detecting the target object is started by a predetermined image analysis.
  • the acquired captured image is obtained by changing the depth of each pixel in the region where the target object is captured in the acquired captured image. Set an image as the background image.
  • the image analysis apparatus detects a target object from the photographed image by extracting the foreground region of the photographed image based on the background subtraction method, and is acquired when starting the target object detection process.
  • a background image used for the background subtraction method is set according to the photographed image.
  • the image analysis apparatus determines whether or not the target object is shown in the captured image acquired when the process of detecting the target object is started by predetermined image analysis.
  • the image analysis apparatus determines that the target object is captured in the acquired captured image, the depth of each pixel in the region where the target object is captured in the acquired captured image is determined. After the change, the acquired captured image is set as the background image.
  • the depth of each pixel in the region where the target object is captured is changed from the original value to a different value.
  • the position indicated by the depth of each pixel is changed to a position shifted from the target object. Specifically, since the depth of each pixel is acquired with respect to the subject surface, if the depth of each pixel in the region where the target object is captured is changed, the position indicated by the depth of each pixel is changed from the surface of the target object. Shift.
  • the depth of each pixel in the region where the target object is captured is not pointed to the surface of the target object.
  • a captured image can be set as a background image. Therefore, even if the target object maintains the state at the time when the captured image to be set as the background image is acquired, the depth of each pixel in the region where the target object is captured does not indicate the surface of the target object.
  • the target object can be properly detected based on the above. Therefore, according to the said structure, the technique which enables a target object to be detected appropriately in a background difference method can be provided.
  • the target object to be detected may be appropriately selected according to the embodiment.
  • the target object is, for example, a watching target person who is a watching target.
  • the image analysis apparatus may detect the watching target person from the captured image based on the background subtraction method, for example, for the purpose of estimating the behavior of the watching target person.
  • the background setting unit determines that the target object is reflected in the acquired captured image. Is obtained after changing the depth of each pixel in the region where the target object is captured to indicate a position that is a predetermined distance behind the position indicated by the original value of the depth.
  • the photographed image may be set as the background image.
  • the background setting unit looks at the depth of each pixel in the area where the target object is captured in the captured image set as the background image from the position of the imaging device rather than the position indicated by the original value of the depth. The position is changed to indicate the rear position by a predetermined distance.
  • the predetermined distance that serves as a reference for the amount by which the depth of each pixel is changed may be appropriately set according to the embodiment.
  • the predetermined distance may be set in consideration of the thickness of the target object so that the depth of each pixel does not point behind the original background position.
  • the predetermined distance may be set to about 30 cm, for example.
  • the background setting unit obtains a labeling process by applying a labeling process to the captured image obtained when the process of detecting the target object is started. Obtained by extracting one or more connected component regions in the captured image and analyzing whether or not the extracted one or more connected component regions correspond to the region in which the target object is reflected It may be determined whether or not the target object is shown in the captured image. According to this configuration, it is possible to appropriately extract the target object based on the labeling process and set the background image so that the target object can be properly detected in the background difference method.
  • the image processing apparatus may further include a background update unit that updates the background image with the acquired captured image after starting the process of detecting the target object. . Then, when the target object is detected from the acquired captured image, the background update unit replaces the background image with the acquired captured image except for an area where the target object is reflected. Then, the background image may be updated.
  • a background subtraction method corresponding to a change in the background can be provided by updating the background image.
  • the background image is updated, if the target object appears in the captured image set as the background image, the same problem as described above may occur.
  • the background image is updated except for the area where the target object is shown. Therefore, according to the configuration, it is possible to appropriately update the background image even in a situation where the target object is reflected in the captured image, and to appropriately detect the target object from the captured image based on the updated background image. Is possible.
  • the detection unit may detect a watching target person as the target object from the captured image.
  • the background setting unit determines that the watching target person is reflected in the acquired captured image
  • the background setting unit further determines whether or not the watching target person is in a predetermined state.
  • the acquired photographed image is changed after changing the depth of each pixel in the region where the person being watched is captured in the obtained photographed image.
  • the background image may be set.
  • a background image capable of detecting the target person can be set. That is, it is possible to set a background image suitable for estimating the state of the person being watched over.
  • the person to be watched over is a person to be watched over, for example, an inpatient, a resident in a facility, or a care recipient.
  • the predetermined state of the watching target person whose depth is to be changed may be appropriately set according to the embodiment, and is a state that requires positive detection of the watching target person, for example. As such an example, for example, an end sitting position on a bed may be set in the predetermined state.
  • an information processing system that realizes each of the above-described configurations, an information processing method, or a program may be used. It may be a storage medium that can be read by a computer, other devices, machines, or the like in which such a program is recorded.
  • the computer-readable recording medium is a medium that stores information such as programs by electrical, magnetic, optical, mechanical, or chemical action.
  • the information processing system may be realized by one or a plurality of information processing devices.
  • a computer continuously captures a captured image that is captured by a capturing device and includes depth data indicating the depth of each pixel in the captured image.
  • a step of acquiring a step of detecting the target object from the captured image, setting the acquired captured image as a background image that is a background of the captured image, and a background subtraction method, Detecting the target object from the captured image by calculating a difference between the captured image and the background image, and setting the background image by performing a predetermined image analysis, It is determined whether or not the target object is captured in the captured image acquired when the object detection process is started, and the target object is included in the acquired captured image. If it is determined that the depth of each pixel in the region where the target object is reflected in the acquired captured image, the acquired captured image is set as the background image.
  • Information processing method is performed by a step of acquiring, a step of detecting the target object from the captured image, setting the acquired captured image as a background image that is a background of the captured image, and a background subtraction
  • the image analysis program continues a captured image that is a captured image captured by the imaging apparatus and includes depth data indicating the depth of each pixel in the captured image.
  • a step of automatically acquiring a step of setting the acquired captured image as a background image that is a background of the captured image when starting a process of detecting a target object from the captured image, Calculating the difference between the captured image and the background image, detecting the target object from the captured image, and setting the background image by performing a predetermined image analysis, It is determined whether or not the target object is captured in the captured image acquired when the process of detecting the target object is started, and the acquired captured image When it is determined that the target object is captured, the depth of each pixel in the region where the target object is captured in the acquired captured image is changed, and the acquired captured image is converted to the background image. It is a program for making it set to.
  • FIG. 1 schematically illustrates an example of a scene to which the present invention is applied.
  • FIG. 2 illustrates a hardware configuration of the image analysis apparatus according to the embodiment.
  • FIG. 3 illustrates the relationship between the depth acquired by the camera according to the embodiment and the subject.
  • FIG. 4 illustrates a functional configuration of the image analysis apparatus according to the embodiment.
  • FIG. 5 illustrates a processing procedure relating to setting of a background image in the image analysis apparatus according to the embodiment.
  • FIG. 6 illustrates a captured image acquired by the camera according to the embodiment.
  • FIG. 7 illustrates the coordinate relationship in the captured image according to the embodiment.
  • FIG. 8 illustrates the positional relationship between an arbitrary point (pixel) of the captured image and the camera in the real space according to the embodiment.
  • FIG. 9 illustrates a state in which the labeling process is applied to the captured image according to the embodiment.
  • FIG. 10 schematically illustrates a process of changing the depth when setting the background image according to the embodiment.
  • FIG. 11 schematically illustrates background
  • this embodiment will be described with reference to the drawings.
  • this embodiment described below is only an illustration of the present invention in all respects. It goes without saying that various improvements and modifications can be made without departing from the scope of the present invention. That is, in implementing the present invention, a specific configuration according to the embodiment may be adopted as appropriate.
  • data appearing in the present embodiment is described in a natural language, more specifically, it is specified by a pseudo language, a command, a parameter, a machine language, or the like that can be recognized by a computer.
  • FIG. 1 schematically illustrates a scene where the image analysis apparatus 1 according to the present embodiment is used.
  • the image analysis apparatus 1 according to the present embodiment is an information processing apparatus that photographs a person to be watched by a camera 2 and detects the person to be watched from a captured image 3 obtained thereby, thereby watching the person to be watched. . Therefore, the image analysis apparatus 1 according to the present embodiment can be widely used in a scene where the watching target person is watched.
  • the image analysis apparatus 1 photographs a person to be watched by a camera 2.
  • the camera 2 corresponds to the “photographing device” of the present invention
  • the watching target person corresponds to the “target object” of the present invention.
  • the person being watched over is a person to be watched over, for example, an inpatient, a facility resident, or a care recipient.
  • the person to be watched is sleeping on a bed, for example, and the camera 2 is set to photograph the person to be watched in such a state.
  • the camera 2 may be arranged in any place as long as the person to be watched can be photographed in the scene where the person to be watched is watched.
  • the camera 2 is configured to be able to acquire the depth corresponding to each pixel in the captured image 3.
  • the camera 2 includes a depth sensor (a depth sensor 21 described later) that measures the depth of the subject so that the depth of each pixel can be acquired.
  • the image analysis apparatus 1 according to the present embodiment is connected to such a camera 2 and acquires a captured image 3 obtained by capturing the person being watched over.
  • the captured image 3 includes depth data indicating the depth obtained for each pixel, as illustrated in FIG. 6 described later.
  • the captured image 3 only needs to include data indicating the depth of the subject within the shooting range (view angle).
  • the captured image 3 is data in which the depth of the subject within the shooting range is distributed two-dimensionally (for example, a depth map). There may be.
  • the captured image 3 may include an RGB image together with the depth data. Further, the captured image 3 may be a moving image or one or a plurality of still images.
  • the image analysis apparatus 1 continuously acquires such a captured image 3 and extracts the foreground region of the captured image 3 that is continuously acquired by the background subtraction method.
  • a person to be watched is detected from the acquired captured image 3.
  • the background image used for the background subtraction method is set by the captured image 3 acquired when the process of detecting the watching target person is started.
  • the image analysis apparatus 1 uses the captured image 3 acquired when starting the monitoring process of the person to be watched by the background difference method as a background image (described later) of the captured image 3.
  • a background image (described later) of the captured image 3.
  • Background image 4 the image analysis device 1 sets the captured image 3 captured by the camera 2 as a background image used for the background difference method.
  • the background image including the watching target person is set. Then, as long as the watching target person does not move, there is no difference in depth between the captured image 3 acquired after setting the background image and the background image in the region in which the watching target person appears, and the background difference The law makes it impossible to detect the person being watched over.
  • the image analysis apparatus 1 when setting the background image in the initial operation, includes the captured image 3 acquired when the monitoring target person detection process is started by predetermined image analysis. It is determined whether the person to be watched is shown.
  • the predetermined image analysis may be appropriately selected according to the embodiment as long as the person being watched over can be detected at this time.
  • the predetermined image analysis is, for example, a labeling process described later.
  • the image analysis device 1 determines that the watching target person is reflected in the acquired captured image 3, the watching target person is reflected in the acquired captured image 3.
  • the acquired captured image 3 is set as a background image. That is, when the watching target person is reflected in the captured image 3 set as the background image, the image analysis apparatus 1 according to the present embodiment calculates the depth of each pixel in the region where the watching target person is captured from the original value. By changing to a different value, the position indicated by the depth of each pixel is watched and changed to a position shifted from the subject.
  • the image analysis apparatus 1 according to the present embodiment watches the position indicated by the depth of each pixel and changes the position to a position shifted from the surface of the target person. To do.
  • the image analysis apparatus 1 determines the depth of each pixel in the region where the watching target person is captured. Then, the photographed image 3 is set as a background image. Therefore, even if the target person watches and maintains the state at the time when the captured image 3 to be set as the background image is acquired, the target target person between the captured image 3 and the background image acquired after setting the background image is maintained. A difference in depth occurs in the captured area. In other words, even if the target person watches and maintains the state at the time when the captured image 3 to be set as the background image is acquired, the image analysis apparatus 1 appropriately selects the target person to watch based on the background subtraction method using this background image. Can be detected. Therefore, according to the present embodiment, the above-described problems can be avoided, and a technique that can appropriately detect the target object based on the background subtraction method from the beginning of setting the background image can be provided.
  • the watching target person is exemplified as the target object detected by the background subtraction method.
  • the image analysis apparatus 1 according to the present embodiment is not limited to such a scene, and may be used in a scene where a target object other than the watching target person is detected.
  • the target object may be appropriately selected according to the embodiment, and the image analysis apparatus 1 according to the present embodiment is widely applicable to scenes where the target object is detected.
  • the image analysis apparatus 1 according to the present embodiment may be configured to analyze the state of the target object.
  • the image analysis apparatus 1 may be configured to analyze the state of the person being watched over (rising up, end sitting, getting out of bed, etc.).
  • the location of the image analysis device 1 can be determined as appropriate according to the embodiment as long as the captured image 3 can be acquired from the camera 2.
  • the image analysis apparatus 1 may be disposed so as to be close to the camera 2 as illustrated in FIG.
  • the image analysis apparatus 1 may be connected to the camera 2 via a network, or may be disposed at a place completely different from the camera 2.
  • FIG. 2 illustrates the hardware configuration of the image analysis apparatus 1 according to the present embodiment.
  • the image analysis apparatus 1 stores a control unit 11 including a CPU, a RAM (Random Access Memory), a ROM (Read Only Memory), and the like, a program 5 executed by the control unit 11, and the like.
  • Unit 12 a touch panel display 13 for displaying and inputting images, a speaker 14 for outputting sound, an external interface 15 for connecting to an external device, a communication interface 16 for communicating via a network, and This is a computer to which a drive 17 for reading a program stored in the storage medium 6 is electrically connected.
  • the communication interface and the external interface are described as “communication I / F” and “external I / F”, respectively.
  • the components can be omitted, replaced, and added as appropriate according to the embodiment.
  • the control unit 11 may include a plurality of processors.
  • the touch panel display 13 may be replaced with an input device and a display device that are separately connected independently.
  • the speaker 14 may be omitted.
  • the speaker 14 may be connected to the image analysis device 1 as an external device instead of as an internal device of the image analysis device 1.
  • the image analysis apparatus 1 may incorporate a camera 2.
  • the image analysis device 1 may include a plurality of external interfaces 15 and may be connected to a plurality of external devices.
  • the camera 2 according to the present embodiment is connected to the image analysis apparatus 1 via the external interface 15 and is installed for photographing the person to be watched over.
  • the installation purpose of the camera 2 is not limited to such an example, and can be selected as appropriate according to the embodiment.
  • This camera 2 corresponds to the photographing apparatus of the present invention.
  • the camera 2 includes a depth sensor 21 for measuring the depth of the subject.
  • the type and measurement method of the depth sensor 21 may be appropriately selected according to the embodiment.
  • the depth sensor 21 may be a sensor of TOF (TimeFOf Flight) method or the like.
  • the configuration of the camera 2 is not limited to such an example as long as the depth of the subject can be acquired, and can be appropriately selected according to the embodiment.
  • the camera 2 may be a stereo camera. Since the stereo camera shoots the subject within the shooting range from a plurality of different directions, the depth of the subject can be recorded.
  • the camera 2 may be replaced with the depth sensor 21 alone.
  • the depth sensor 21 may be an infrared depth sensor that measures the depth based on infrared irradiation so that the depth can be acquired without being affected by the brightness of the shooting location.
  • relatively inexpensive imaging devices including such an infrared depth sensor include Kinect from Microsoft, Xtion from ASUS, and Stucture® Sensor from Occipital.
  • FIG. 3 shows an example of a distance that can be handled as the depth according to the present embodiment.
  • the depth represents the depth of the subject.
  • the depth of the subject may be expressed by, for example, a straight line distance A between the camera 2 and the object, or a perpendicular distance B from the horizontal axis with respect to the subject of the camera 2. It may be expressed as
  • the depth according to the present embodiment may be the distance A or the distance B.
  • the distance B is treated as the depth.
  • the distance A and the distance B can be converted into each other by using, for example, the three-square theorem. Therefore, the following description using the distance B can be applied to the distance A as it is.
  • the image analysis apparatus 1 according to the present embodiment can specify the position of the subject in the real space.
  • the storage unit 12 stores the program 5.
  • the program 5 is a program for causing the image analysis apparatus 1 to execute each process related to setting of a background image, which will be described later, and corresponds to the “image analysis program” of the present invention.
  • the program 5 may be recorded on the storage medium 6.
  • the storage medium 6 stores information such as a program by an electrical, magnetic, optical, mechanical, or chemical action so that information such as a program recorded by a computer or other device or machine can be read. It is a medium to do.
  • the storage medium 6 corresponds to the “storage medium” of the present invention.
  • 2 illustrates a disk-type storage medium such as a CD (Compact Disk) or a DVD (Digital Versatile Disk) as an example of the storage medium 6.
  • the type of the storage medium 6 is not limited to the disk type and may be other than the disk type. Examples of the storage medium other than the disk type include a semiconductor memory such as a flash memory.
  • an image analysis device 1 may be, for example, a device designed exclusively for the provided service, or a general-purpose device such as a PC (Personal Computer) or a tablet terminal. Furthermore, the image analysis apparatus 1 may be implemented by one or a plurality of computers.
  • FIG. 4 illustrates a functional configuration of the image analysis apparatus 1 according to the present embodiment.
  • the control unit 11 of the image analysis device 1 expands the program 5 stored in the storage unit 12 in the RAM.
  • the control part 11 interprets and runs the program 5 expand
  • the image analysis apparatus 1 functions as a computer including the image acquisition unit 111, the background setting unit 112, the detection unit 113, and the background update unit 114.
  • the image acquisition unit 111 continuously acquires the captured image 3 captured by the camera 2. Since the camera 2 includes the depth sensor 21, the acquired captured image 3 includes depth data indicating the depth of each pixel in the captured image 3.
  • the background setting unit 112 sets and registers the acquired captured image 3 in the background image 4 when starting the process of detecting the target object from the continuously acquired captured image 3.
  • the background setting unit 112 starts a process of detecting the target object by predetermined image analysis. It is determined whether or not the target object is shown in the captured image 3 acquired at the time.
  • the background setting unit 112 determines that the target object is captured in the acquired captured image 3
  • the background setting unit 112 changes the depth of each pixel in the region where the target object is captured in the acquired captured image 3. After that, the acquired captured image 3 is set as the background image 4.
  • the detection unit 113 detects the target object from the captured image 3 by calculating the difference between the captured image 3 and the background image 4 based on the background difference method.
  • the background update unit 114 updates the background image with the acquired captured image 3 after starting the process of detecting the target object.
  • the background update unit 114 replaces the background image 4 with the acquired captured image 3 except for the area where the target object is captured, when the target object is detected from the acquired captured image 3, thereby Image 4 is updated.
  • the target object is a watching target person.
  • the target object is not limited to the watching target person, and may be appropriately selected according to the embodiment.
  • FIG. 5 illustrates a processing procedure regarding setting of the background image 4 by the image analysis apparatus 1.
  • the control unit 11 of the image analysis apparatus 1 executes the processing procedure according to the present operation example when starting the processing to be detected by the person being watched based on the background difference method described later.
  • processing procedure relating to the setting of the background image described below corresponds to the “image analysis method” of the present invention.
  • the processing procedure related to setting the background image described below is merely an example, and each processing may be changed as much as possible. Further, in the processing procedure described below, steps can be omitted, replaced, and added as appropriate according to the embodiment.
  • Step S101 In step S ⁇ b> 101, the control unit 11 functions as the image acquisition unit 111 and acquires the captured image 3 captured by the camera 2.
  • the camera 2 includes the depth sensor 21. Therefore, the captured image 3 acquired in this step S101 includes depth data indicating the depth of each pixel.
  • the control unit 11 acquires the captured image 3 illustrated in FIG. 6 as the captured image 3 including the depth data.
  • FIG. 6 shows an example of the captured image 3 including depth data.
  • the captured image 3 illustrated in FIG. 6 is an image in which the gray value of each pixel is determined according to the depth of each pixel.
  • a black pixel is closer to the camera 2.
  • a white pixel is farther from the camera 2.
  • the control unit 11 can specify the position of each pixel in the real space. That is, the control unit 11 can specify the position in the three-dimensional space (real space) of the subject captured in each pixel from the coordinates (two-dimensional information) and the depth of each pixel in the captured image 3. .
  • FIGS. 7 and 8 a calculation example in which the control unit 11 specifies the position of each pixel in the real space will be described with reference to FIGS. 7 and 8.
  • FIG. 7 illustrates the coordinate relationship in the captured image 3.
  • FIG. 8 illustrates the positional relationship between an arbitrary pixel (point s) of the captured image 3 and the camera 2 in the real space. 7 corresponds to a direction perpendicular to the paper surface of FIG. That is, the length of the captured image 3 shown in FIG. 8 corresponds to the length in the vertical direction (H pixels) illustrated in FIG. Further, the length in the horizontal direction (W pixels) illustrated in FIG. 7 corresponds to the length in the vertical direction of the photographed image 3 that does not appear in FIG.
  • the coordinates of an arbitrary pixel (point s) of the captured image 3 are (x s , y s ), the horizontal angle of view of the camera 2 is V x , and the vertical image. Assume that the corner is V y . Further, it is assumed that the number of pixels in the horizontal direction of the captured image 3 is W, the number of pixels in the vertical direction is H, and the coordinates of the center point (pixel) of the captured image 3 are (0, 0).
  • the control unit 11 can acquire information indicating the angle of view (V x , V y ) of the camera 2 from the camera 2.
  • the method for acquiring information indicating the angle of view (V x , V y ) of the camera 2 is not limited to such an example, and the control unit 11 is information indicating the angle of view (V x , V y ) of the camera 2. May be acquired based on user input, or may be acquired as a preset setting value.
  • the control unit 11 can acquire the coordinates (x s , y s ) of the point s and the number of pixels (W ⁇ H) of the captured image 3 from the captured image 3.
  • the control unit 11 can acquire the depth Ds of the point s by referring to the depth data included in the captured image 3.
  • the control unit 11 can specify the position of each pixel (point s) in the real space by using these pieces of information. For example, the control unit 11 performs vector S (S x , S y , S z) from the camera 2 to the point s in the camera coordinate system illustrated in FIG. , 1) can be calculated. Thereby, the position of the point s in the two-dimensional coordinate system in the captured image 3 and the position of the point s in the camera coordinate system can be mutually converted.
  • the vector S is a vector of a three-dimensional coordinate system centered on the camera 2.
  • the camera 2 may be tilted with respect to the horizontal direction. That is, the camera coordinate system may be tilted from the world coordinate system in the three-dimensional space (real space). Therefore, the control unit 11 applies the projective transformation using the roll angle, pitch angle ( ⁇ in FIG. 8), and yaw angle of the camera 2 to the vector S, so that the vector S of the camera coordinate system is converted to the world coordinate system. And the position of the point s in the world coordinate system may be calculated.
  • the data format of the captured image 3 including the depth data may not be limited to such an example, and may be appropriately selected according to the embodiment.
  • the captured image 3 may be data (for example, a depth map) in which the depth of the subject within the imaging range is two-dimensionally distributed.
  • the captured image 3 may include an RGB image together with the depth data.
  • the captured image 3 may be a moving image or one or a plurality of still images.
  • Step S102 Returning to FIG. 5, in the next step S ⁇ b> 102, the control unit 11 functions as the background setting unit 112, and applies the labeling process to the captured image 3 acquired in step S ⁇ b> 101 when starting the process of detection by the watching target person. As a result, one or a plurality of connected component regions are extracted from the acquired captured image 3. When one or a plurality of connected component regions are extracted from the captured image 3, the control unit 11 advances the processing to the next step S103.
  • FIG. 9 illustrates a state in which the labeling process is applied to the captured image 3 illustrated in FIG.
  • the labeling process is a process of extracting continuous areas in an image and labeling each area.
  • a continuous area in this image is referred to as a connected component area.
  • a connected component region can be extracted, and as a result, a region in which a person to be watched can be detected as a lump region (one connected component region).
  • the control unit 11 refers to the depth of each pixel in the captured image 3 and determines whether or not there is a difference between adjacent pixels that is greater than a predetermined threshold. Then, based on this determination, the control unit 11 extracts a region where the depth between adjacent pixels is not different from a predetermined threshold or more as a lump of connected component regions, and the depth between adjacent pixels is equal to or greater than a predetermined threshold. The area with the difference of is set as the other boundary area.
  • a region 31 corresponds to a region where the person to be watched is captured
  • a region 32 corresponds to a region where a wall of the room is captured.
  • the control part 11 gives a label to each area
  • the predetermined threshold value that serves as an index for extracting such a connected component region may be appropriately set according to the embodiment.
  • the connected component area is expressed in white, and the other boundary areas are expressed in black.
  • the method of expressing each region is not limited to such an example, and may be appropriately selected according to the embodiment.
  • the position of the bed (for example, the position of the bed surface) is set in advance, and the control unit 11 excludes a portion below a predetermined height from the bed surface from the labeling process target. . Therefore, in FIG. 9, the lower part of the two areas (31, 32) is set to be a wide boundary area (black area).
  • the image analysis apparatus 1 may not be configured in this way, and the entire captured image 3 may be the target of the labeling process.
  • Step S103 & Step S104 Returning to FIG. 5, in the next step S ⁇ b> 103 and step S ⁇ b> 104, the control unit 11 functions as the background setting unit 112, and the one or more connected component regions extracted in step S ⁇ b> 102 are in the region where the person being watched is shown. By analyzing whether or not this is the case, it is determined whether or not the person to be watched is shown in the captured image 3 acquired in step S101.
  • step S103 the control unit 11 analyzes whether or not one or a plurality of connected component areas extracted in step S102 correspond to an area where the person being watched is reflected.
  • a method for analyzing whether or not the connected component region extracted by the labeling process is a region in which the person to be watched is captured may be appropriately selected according to the embodiment.
  • control unit 11 may analyze whether or not the connected component area extracted by the labeling process is an area in which the person to be watched is shown as follows. That is, since the size and shape of the person being watched over are limited to some extent, the area and dispersion of the area in which the person being watched over is within a certain range. Therefore, the control unit 11 calculates the area and variance of each connected component region extracted in step S102, and determines whether the calculated area and variance of each connected component region are included in a predetermined range. .
  • control part 11 watches the connected component area
  • control unit 11 observes a connected component region that is determined to include at least one of area and variance not included in the predetermined range, and recognizes it as a region that is not captured by the subject. In this way, the control unit 11 can analyze whether or not the connected component region extracted by the labeling process is a region where the person to be watched is shown.
  • the area range and the dispersion range which are the criteria for determining whether or not the area is the person being watched over, may be appropriately set according to the embodiment.
  • the control unit 11 performs the above analysis on each region (31, 32).
  • the range of the predetermined area and the range of dispersion are set so as to include the area and dispersion of the region 31, and are set so as not to include any one of the area and dispersion of the region 32.
  • the control unit 11 can recognize the region 31 as a region where the target person is reflected and recognize the region 32 as a region other than the target person.
  • step S104 the control unit 11 determines whether or not the person to be watched is shown in the captured image 3 acquired in step S101, based on the analysis result in step S103. If the control unit 11 determines that the person to be watched is captured in the captured image 3 acquired in step S101, the control unit 11 proceeds to the next step S105. On the other hand, when it is determined that the watching target person is not captured in the captured image 3 acquired in step S101, the control unit 11 omits the process of step S105 and proceeds to the next step S106.
  • step S103 the control unit 11 recognizes whether or not each connected component region is a region where the person being watched is shown, based on the area and dispersion of each connected component region. Therefore, if there is a connected component region that is recognized as the region in which the person to be watched is captured in step S103, the control unit 11 determines that the person to be watched is in the captured image 3, and the next step The process proceeds to S105. On the other hand, when there is no connected component area recognized as the area in which the person to be watched is captured in step S103, the control unit 11 determines that the person to be watched in is not captured in the captured image 3, and in step S105. The process is omitted, and the process proceeds to the next step S106. In the example of FIG. 9, the control unit 11 watches the area 31 and recognizes it as an area where the subject is reflected, and proceeds to the next step S ⁇ b> 105.
  • control unit 11 functions as the background setting unit 112, and the captured image acquired in step S101 when starting the process of detecting the watching target by predetermined image analysis. It is determined whether or not the person to be watched is shown in 3. Further, the image analysis apparatus 1 according to the present embodiment employs the above-described labeling process as the predetermined image analysis for determining whether or not the person being watched over is captured in the captured image 3.
  • the depth of the subject appearing in the captured image 3 is acquired with respect to the surface of the subject, the area of the surface portion of the subject corresponding to each pixel of the captured image 3 does not always match between the pixels.
  • the control unit 11 may calculate the area of each connected component region in real space using the depth of each pixel in step S103 in order to exclude the influence of the subject's perspective.
  • the area of each connected component region in the real space can be calculated as follows, for example. That is, the control unit 11 first determines the length of the arbitrary point s (one pixel) illustrated in FIGS. 7 and 8 in the real space in the real space on the basis of the following relational expressions 4 and 5. w and the length h in the vertical direction are respectively calculated.
  • control unit 11 calculates the area of one pixel in the real space at the depth Ds by the square of w, the square of h, or the product of w and h calculated in this way. And the control part 11 calculates the area in the real space of each connected component area
  • control unit 11 may use the average of the areas for several frames.
  • the control unit 11 determines the corresponding region. You may exclude from a process target.
  • Step S105 In the next step S105, the control unit 11 functions as the background setting unit 112, and when it is determined in step S104 that the watching target person is reflected in the captured image 3 acquired in step S101, the captured image is displayed.
  • the depth of each pixel in the area where the person to be watched in 3 is shown is changed.
  • a method for changing the depth of each pixel can be appropriately selected according to the embodiment. For example, as illustrated in FIG. 10, the control unit 11 changes the depth of each pixel in the region where the person being watched in the captured image 3 is captured.
  • FIG. 10 schematically illustrates a process of changing each pixel of the region 31 in which the watching target person illustrated in FIG. 9 is captured.
  • a watching target person is reflected in the captured image 3 set as the background image 4 in step S106 described later, the watching target person is present in front of the background when viewed from the camera 2. That is, as illustrated in FIG. 10, the original background portion hidden behind the watching target person exists behind the watching target person as viewed from the camera 2.
  • the control unit 11 may change the depth of each pixel in the region where the person to be watched in the captured image 3 is captured as follows. That is, the control unit 11 indicates the depth of each pixel in the region where the person to be watched in the captured image 3 is captured by a predetermined distance from the position indicated by the original value of the depth as viewed from the camera 2. You may change to For example, the control unit 11 can implement such a change by adding a predetermined value to the depth of each pixel in the region where the person to be watched in the captured image 3 is captured.
  • the control unit 11 sets the depth of each pixel in the region 31 where the person to be watched is captured to a position 312 that is a predetermined distance behind the position 311 indicated by the original value of the depth as viewed from the camera 2. It has changed as shown. By this change, the depth of each pixel in the region where the person being watched over can be pointed to a position close to the original background, and the captured image 3 can be made an image similar to the original background. That is, in step S106 described later, it becomes possible to set a background image 4 that is more similar to the original background.
  • the predetermined distance that serves as a reference for the amount by which the depth of each pixel is changed may be appropriately set according to the embodiment. Further, the predetermined distance may be different for each pixel. Furthermore, the depth of each pixel may be set in consideration of the thickness of the person being watched over so that it does not point behind the original background position. In this case, the predetermined distance may be set to about 30 cm, for example.
  • the process of changing the depth of each pixel in the region where the person to be watched in the captured image 3 is captured may not be limited to such an example.
  • the control unit 11 indicates the depth of each pixel in the region where the person to be watched in the captured image 3 is captured by a predetermined distance from the position indicated by the original value of the depth as viewed from the camera 2. You may change to The direction in which the depth of each pixel is changed can be appropriately selected according to the embodiment. However, for the reason described above, it is preferable that the direction in which the depth of each pixel is changed is backward as viewed from the camera 2. As described above, when the depth of each pixel in the region where the watching target person is captured in the captured image 3 is changed, the control unit 11 advances the processing to the next step S106.
  • Step S106 In the next step S106, the control unit 11 functions as the background setting unit 112, and sets the captured image 3 acquired in step S101 as the background image 4. For example, the control unit 11 registers the captured image 3 as the background image 4 in the RAM or the storage unit 12 to set the captured image 3 acquired in step S ⁇ b> 101 as the background image 4. That is, in the processing of steps S102 to S106, the control unit 11 functions as the background setting unit 112, and sets the captured image 3 acquired when starting the process of detecting the watching target as the background image 4.
  • step S105 In the case of going through the process of step S105, in other words, in the case where it is determined that the watching target person is reflected in the captured image 3 acquired in step S101, the area of the watching target person is shown.
  • the captured image 3 acquired in step S101 is set as the background image 4 after the depth of each pixel included is changed.
  • the process does not go through the process of step S105, in other words, if it is determined that the person to be watched over is not shown in the captured image 3 acquired in step S101, it is acquired in step S101.
  • the captured image 3 is set as the background image 4 as it is.
  • step S101 the control unit 11 may acquire a plurality of captured images 3 within a predetermined time. Further, the control unit 11 may apply the processing of steps S102 to S105 to each captured image 3.
  • step S106 the control unit 11 may create a background image 4 to be set by averaging a plurality of captured images 3 acquired within a predetermined time. Further, the control unit 11 may create the background image 4 by applying the processing of steps S102 to S106 to the single photographed image 3 acquired in step S101.
  • the number of captured images 3 (number of frames) used to create the background image 4 can be selected as appropriate according to the embodiment.
  • the image analysis apparatus 1 can detect the watching target person from the captured image 3 based on the background difference method. Therefore, the image analysis apparatus 1 detects the person to be watched from the captured image 3 by applying the background subtraction method to the captured image 3 acquired after setting the background image 4.
  • the control unit 11 functions as the image acquisition unit 111 and acquires the captured image 3 from the camera 2.
  • the control unit 11 functions as the detection unit 113, and extracts a foreground region in the captured image 3 by calculating a difference between the acquired captured image 3 and the background image 4 based on the background difference method.
  • the control unit 11 determines whether or not the foreground area extracted by pattern matching or the like is an area in which the person to be watched is captured (hereinafter also referred to as “person area”). To detect.
  • the control unit 11 continuously detects the monitoring target person in the captured image 3 by tracking (tracking) the monitoring target person (target object) once detected in the continuously acquired captured image 3. May be. Such tracking can be performed based on an optical flow or the like. As a result, as long as the watching target person is shown in the captured image 3, the control unit 11 can continue to detect the watching target person based on this tracking.
  • the background may change over time.
  • the control unit 11 functions as the background update unit 114 to cope with such a situation, and after starting the process for detecting the watching target person, the acquired captured image 3 is used.
  • the background image 4 is updated.
  • the trigger for updating the background image 4 is, for example, as follows. That is, the control unit 11 may extract the foreground area of the captured image 3 based on the background difference method, and may execute a process of updating the background image 4 when the foreground area exceeds a predetermined area. In addition, the control unit 11 causes the background image to be displayed when the watching target person does not appear in the captured image 3 because the watching target person leaves the shooting range of the camera 2 and the watching target person is not detected in the captured image 3. 4 may be executed.
  • FIG. 11 schematically illustrates the update process of the background image 4 according to the present embodiment.
  • the control unit 11 may update the background image 4 by replacing the previously set background image 4 with the captured image 3 acquired at that time.
  • the same problem as described above may occur.
  • the control unit 11 when the monitoring target person is detected from the captured image 3 acquired at that time by the processing of the detection unit 113 or the like, the control unit 11 includes the region where the monitoring target person is captured.
  • the background image 4 is updated with the captured image 3 except for.
  • the region 33 corresponds to a region where the person to be watched is shown
  • the region 34 corresponds to the other region. Therefore, the control unit 11 replaces the value of each pixel corresponding to the background image 4 with the value (depth, etc.) of each pixel included in the region 34 of the photographed image 3 except for the region 33 where the person being watched is captured.
  • the background image 4 is updated.
  • the control unit 11 sets the captured image 3 as the background image 4 as it is.
  • updating the background image 4 in this way is a situation in which the person to be watched (target object) is reflected in the captured image 3 acquired when the trigger for updating the background image 4 occurs.
  • the background image 4 can be updated appropriately. Therefore, according to the present embodiment, it is possible to appropriately detect the watching target person (target object) from the captured image 3 based on the updated background image 4.
  • the method of updating the background image 4 can be selected as appropriate according to the embodiment.
  • the control unit 11 may update the background image 4 with a plurality of photographed images 3 or update the background image 4 with one photographed image 3. Good.
  • the number of captured images 3 (number of frames) used for updating the background image 4 can be selected as appropriate according to the embodiment.
  • the image analysis apparatus 1 determines whether or not the person to be watched is shown in the captured image 3 set as the background image 4 in steps S102 to S104.
  • the image analysis apparatus 1 displays each area of the region in which the person to be monitored is captured in the captured image 3.
  • the pixel depth is changed in the process of step S105.
  • the image analysis apparatus 1 sets the captured image 3 as the background image 4 in step S106. That is, when the watching target person is reflected in the captured image 3 set as the background image, the image analysis apparatus 1 according to the present embodiment calculates the depth of each pixel in the region where the watching target person is captured from the original value. Change to a different value. Accordingly, the position indicated by the depth of each pixel in the region where the watching target person is photographed is changed to a position shifted from the surface of the watching target person.
  • the image analysis apparatus 1 determines the depth of each pixel in the region where the watching target person appears.
  • the photographed image 3 can be set as the background image 4 without pointing to the person's surface. Therefore, even if the target person watches and maintains the state at the time when the captured image 3 set as the background image 4 is acquired, between the captured image 3 acquired after setting the background image 4 and the background image 4. A difference in depth occurs in the region where the watching target person is photographed.
  • the image analysis apparatus 1 determines the target person to watch based on the background difference method using the background image 4. It can be detected properly. Therefore, according to the present embodiment, it is possible to provide a technique that enables appropriate detection of the watching target person (target object) based on the background difference method from the beginning of setting the background image.
  • the control unit 11 extracts a person region from the captured image 3 based on the labeling process.
  • the method for extracting the person region is not limited to such a method, and may be appropriately selected according to the embodiment.
  • a method of extracting a person region by performing raster scan of the entire image assuming the size and orientation of the object such as a face detection method using a Haar-like detector, may be used.
  • the labeling process as in steps S102 and S103 it is possible to identify the person area without scanning the entire image a plurality of times, so that the person area can be extracted at high speed. For this reason, when performing real-time processing, it is preferable to use the above-described labeling processing for extracting a person region.
  • the image analysis apparatus 1 detects the person to be watched from the captured image 3 based on the background difference method.
  • the image analysis apparatus 1 may further analyze the state of the detected watching target person.
  • the method for analyzing the state of the person being watched over and the type of state to be analyzed may be appropriately selected according to the embodiment. For example, it is possible to detect the person being watched over, the end sitting position, and getting out of bed by the following analysis method.
  • the control unit 11 may determine whether the person region extracted by the processing of the detection unit 113 appears at a position higher than a predetermined height from the bed surface in order to detect the rising of the person being watched over.
  • the position of the bed surface may be set in advance, and a predetermined height (threshold value) serving as an index for detecting the rising may be appropriately set according to the embodiment.
  • the control unit 11 can detect that the person to be watched is standing up when it is determined that the person area appears at a position higher than a predetermined height from the bed surface.
  • the control unit 11 may determine whether or not the person area extracted by the processing of the detection unit 113 appears in a predetermined range on the bedside in order to detect the end sitting position of the person being watched over.
  • a predetermined range (detection range) serving as an index for detecting the end sitting position may be appropriately set according to the embodiment. The control unit 11 can detect that the person to be watched is in the end sitting position when it is determined that the person area appears in the predetermined range of the bedside.
  • the control unit 11 may determine whether or not the person region extracted by the processing of the detection unit 113 appears at a position separated from the bed by a predetermined distance or more in order to detect the person to watch over.
  • the predetermined distance (threshold value) serving as an index for detecting bed leaving may be set as appropriate according to the embodiment.
  • the control unit 11 can detect that the person to be watched is in the state of getting out of bed when it is determined that the person area appears at a position separated from the bed by a predetermined distance or more.
  • the control unit 11 can analyze the state of the person being watched over based on the positional relationship between the person area and the bed. In this way, when the image analysis apparatus 1 analyzes the state of the watching target person, the image analyzing apparatus 1 captures the watching target person in the captured image 3 except in a scene where the watching target person is in the analysis target state. It is not necessary to detect from. For example, in a case where the state where the watching target person is sleeping on the bed is not detected, the image analysis apparatus 1 may not detect the sleeping watching target person from the captured image 3.
  • the control unit 11 functions as the background setting unit 112 before executing the process of step S105. It may be further determined whether or not the person being watched over is in a predetermined state.
  • the predetermined state to be determined in this process may include the state to be analyzed as described above, or may include a state other than the analysis target.
  • the predetermined state to be determined in this process may include rising of the person being watched over, end sitting position, and getting out of bed.
  • the control unit 11 is based on the positional relationship between the connected component region in which the watching target is extracted and the bed extracted by the processing of steps S102 to S104. It can be determined whether or not the person being watched over is in a predetermined state.
  • control part 11 may be comprised so that the process of said step S105 may be performed, when it determines with a watching target person being in a predetermined state. On the other hand, when it is determined that the person being watched over is not in a predetermined state, the control unit 11 may omit the process of step S105 and proceed to the next step S106.
  • step S105 the process of step S105 is applied to the captured image 3. That is, in step S106, the control unit 11 sets the captured image 3 as the background image 4 after changing the depth of each pixel included in the region where the person to be watched is captured, as in the above embodiment. Therefore, after setting the background image 4 as described above, the person to be watched in the state of rising or the like is not treated as the background, and the person to be watched is appropriately selected from the captured image 3 in the processing of the background subtraction method by the detection unit 113. Can be detected.
  • the monitoring target person in a scene where it is not necessary to positively detect the watching target person, the monitoring target person is not detected and in the scene where it is necessary to positively detect the watching target person. It is possible to set the background image 4 capable of detecting the watching target person. That is, the background image 4 suitable for estimating the state of the person being watched over can be set.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Alarm Systems (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

背景差分法において対象物体を適正に検出可能にする技術を提供することを目的とする。本発明の一側面に係る画像解析装置は、各画素の深度を示す深度データを含む撮影画像を継続的に取得する画像取得部と、撮影画像から対象物体を検出する処理を開始する際に、取得された撮影画像を撮影画像の背景である背景画像に設定する背景設定部と、背景差分法に基づいて、撮影画像と背景画像との差分を算出することで、撮影画像から対象物体を検出する検出部と、を備える。そして、背景設定部は、所定の画像解析によって、対象物体を検出する処理を開始する際に取得された撮影画像内に対象物体が写っているか否かを判定し、取得された撮影画像内に対象物体が写っていると判定した場合に、取得された撮影画像内において対象物体の写っている領域の各画素の深度を変更した上で、取得された撮影画像を背景画像に設定する。

Description

画像解析装置、画像解析方法、及び、画像解析プログラム
 本発明は、画像解析装置、画像解析方法、及び、画像解析プログラムに関する。
 撮影装置により撮影した撮影画像内で対象物体を検出する方法として、背景差分法が一般的によく知られている。背景差分法は、事前に設定した背景画像と撮影画像(入力画像)との差分を算出することで、背景画像と相違する領域(前景領域)を撮影画像内において抽出する手法である。背景画像内とは異なる状態の又は存在しない対象物体が撮影画像内に存在する場合には、当該対象物体の写る領域の画素値は背景画像から変化する。そのため、この背景差分法によれば、対象物体の写る領域を前景領域として抽出することができ、これによって、対象物体の存在を検出することができる。
 近年、この背景差分法による対象物体の検出は、様々な分野で利用されている。例えば、特許文献1では、背景差分法を利用して見守り対象者の写る領域を検出する手法が提案されている。具体的には、背景差分法により抽出される前景領域が見守り対象者の行動に関連すると仮定して各推定条件が設定されており、この各推定条件が満たされるか否かを判定することによって当該見守り対象者の状態を推定する方法が提案されている。
特開2014-236896号公報
 しかしながら、本件発明者は、一般的な背景差分法に基づいて対象物体を検出する場合に、次のような問題点が生じることを見出した。すなわち、背景差分法に利用する背景画像として、このような対象物体の検出処理を開始する際に取得された撮影画像を設定する場合がある。このような場合に、背景画像に設定した撮影画像に対象物体が写っていると、その時点の状態を対象物体が維持する間は、一般的な背景差分法で対象物体が検出できなくなってしまう。
 つまり、対象物体の写っている撮影画像を背景画像に設定してしまうことによって、当該対象物体が動かない限りは、当該対象物体を適正に検出できなくなってしまう問題点が生じることを本件発明者は見出した。これによって、例えば、上記のような見守りシステムでは、見守り対象者の状態を適切に推定できなくなってしまう等の問題が生じてしまう。
 本発明は、一側面では、このような点を考慮してなされたものであり、背景差分法において対象物体を適正に検出可能にする技術を提供することを目的とする。
 本発明は、上述した課題を解決するために、以下の構成を採用する。
 すなわち、本発明の一側面に係る画像解析装置は、撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得する画像取得部と、前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定する背景設定部と、背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出する検出部と、を備える。そして、前記背景設定部は、所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定し、取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定する。
 上記構成に係る画像解析装置は、背景差分法に基づいて撮影画像の前景領域を抽出することによって当該撮影画像から対象物体を検出するところ、当該対象物体の検出処理を開始する際に取得された撮影画像によって背景差分法に用いる背景画像を設定する。このとき、上記構成に係る画像解析装置は、所定の画像解析によって、当該対象物体を検出する処理を開始する際に取得された撮影画像内に対象物体が写っているか否かを判定する。そして、上記構成に係る画像解析装置は、取得された撮影画像内に対象物体が写っていると判定した場合に、取得された撮影画像内において対象物体の写っている領域の各画素の深度を変更した上で、取得された撮影画像を背景画像に設定する。
 すなわち、上記構成では、背景画像に設定する撮影画像に対象物体が写っている場合には、この対象物体の写る領域の各画素の深度は元の値から異なる値に変更され、これによって、当該各画素の深度の指し示す位置は対象物体からずれた位置に変更される。具体的には、各画素の深度は被写体表面に対して取得されるため、対象物体の写る領域の各画素の深度を変更すると、当該各画素の深度の指し示す位置は、当該対象物体の表面からずれる。
 そのため、上記構成によれば、背景画像に設定する撮影画像に対象物体が写っていたとしても、対象物体の写る領域の各画素の深度を当該対象物体の表面を指し示さなくした上で、当該撮影画像を背景画像に設定することができる。したがって、背景画像に設定する撮影画像を取得した時点の状態を対象物体が維持していたとしても、対象物体の写る領域の各画素の深度は対象物体の表面を指し示していないため、この背景画像に基づいて当該対象物体を適正に検出することができる。よって、上記構成によれば、背景差分法において対象物体を適正に検出可能にする技術を提供することができる。
 なお、検出する対象となる対象物体は、実施の形態に応じて適宜選択されてよい。対象物体は、例えば、見守りの対象となる見守り対象者である。この場合、上記画像解析装置は、例えば、見守り対象者の行動を推定することを目的として、背景差分法に基づいて撮影画像から当該見守り対象者を検出してもよい。
 また、上記一側面に係る画像解析装置の別の形態として、前記背景設定部は、取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を、当該深度の元の値が示す位置よりも前記撮影装置からみて所定の距離だけ後方の位置を示すように変更した上で、取得された前記撮影画像を前記背景画像に設定してもよい。
 背景画像に設定する撮影画像内に対象物体が写っている場合、この対象物体に隠れている本来の背景部分は、この対象物体よりも撮影装置からみて後方に存在する。そこで、当該構成では、背景設定部は、背景画像に設定する撮影画像内において、対象物体の写っている領域の各画素の深度を、当該深度の元の値が示す位置よりも撮影装置からみて所定の距離だけ後方の位置を示すように変更する。これによって、当該構成によれば、本来の背景により類似する背景画像を設定することができ、背景差分法において対象物体を適正に検出することが可能になる。
 なお、各画素の深度を変更する量の基準となる所定の距離は、実施の形態に応じて適宜設定されてよい。例えば、当該所定の距離は、各画素の深度が本来の背景の位置よりも後方を指し示さないように、対象物体の厚みを考慮して設定されてもよい。この場合、対象物体として見守り対象者を検出するときには、当該所定の距離は、例えば、30cm程度に設定されてよい。
 また、上記一側面に係る画像解析装置の別の形態として、前記背景設定部は、前記対象物体を検出する処理を開始する際に取得された前記撮影画像にラベリング処理を適用することで、取得された前記撮影画像内で1又は複数の連結成分領域を抽出し、抽出された1又は複数の連結成分領域が前記対象物体の写っている領域に該当するか否かを解析することで、取得された前記撮影画像内に前記対象物体が写っているか否かを判定してもよい。当該構成によれば、ラベリング処理に基づいて対象物体を適切に抽出し、背景差分法において対象物体を適正に検出することが可能となるように背景画像を設定することができる。
 また、上記一側面に係る画像解析装置の別の形態として、前記対象物体を検出する処理を開始した後に、取得された前記撮影画像により前記背景画像を更新する背景更新部を更に備えてもよい。そして、前記背景更新部は、取得された前記撮影画像から前記対象物体が検出された場合に、前記対象物体の写っている領域を除いて、取得された前記撮影画像に前記背景画像を置き換えることで、前記背景画像を更新してもよい。
 当該構成によれば、背景画像を更新することで、背景の変化に対応した背景差分法を提供することができる。また、背景画像を更新する際に、背景画像に設定する撮影画像に対象物体が写っていると、上記と同様の問題が生じうる。これに対して、当該構成では、取得された撮影画像から対象物体が検出された場合には、対象物体の写っている領域を除いて、背景画像を更新する。そのため、当該構成によれば、撮影画像に対象物体が写っている状況であっても背景画像を適切に更新し、更新後の背景画像に基づいて撮影画像から対象物体を適正に検出することが可能である。
 また、上記一側面に係る画像解析装置の別の形態として、前記検出部は、前記対象物体として見守り対象者を前記撮影画像から検出してもよい。そして、前記背景設定部は、取得された前記撮影画像内に前記見守り対象者が写っていると判定した場合に、当該見守り対象者が所定の状態にあるか否かを更に判定し、当該見守り対象者が当該所定の状態にあると判定した場合に、取得された前記撮影画像内において当該見守り対象者の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定してもよい。
 当該構成では、背景差分法に基づいて撮影画像から見守り対象者を検出するところ、背景画像に設定する撮影画像に写る見守り対象者が所定の状態にある場合に限り、見守り対象者の写る領域の各画素の深度を変更する。したがって、例えば、見守り対象者がベッド上で正常に就寝している場面等、見守り対象者を積極的に検出することを要しない場面では、背景画像を設定する際の深度の変更処理を省略することができる。
 よって、当該構成によれば、見守り対象者を積極的に検出することを要しない場面では当該見守り対象者を検出せず、かつ、見守り対象者を積極的に検出することを要する場面では当該見守り対象者を検出可能な背景画像を設定することができる。すなわち、見守り対象者の状態推定に適した背景画像を設定することができる。
 なお、見守り対象者とは、見守りの対象となる人物であり、例えば、入院患者、施設入居者、要介護者である。また、深度を変更する対象とする見守り対象者の所定の状態は、実施の形態に応じて適宜設定されてよく、例えば、見守り対象者を積極的に検出することを要する状態である。このような例として、当該所定の状態には、例えば、ベッド上での端座位等が設定されてよい。
 なお、上記各形態に係る画像解析装置の別の形態として、以上の各構成を実現する情報処理システムであってもよいし、情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記録したコンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記録媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、情報処理システムは、1又は複数の情報処理装置によって実現されてもよい。
 例えば、本発明の一側面に係る画像解析方法は、コンピュータが、撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得するステップと、前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定するステップと、背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出するステップと、を実行し、前記背景画像を設定するステップでは、所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定し、取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定する、情報処理方法である。
 また、例えば、本発明の一側面に係る画像解析プログラムは、コンピュータに、撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得するステップと、前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定するステップと、背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出するステップと、を実行させ、前記背景画像を設定するステップでは、所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定させ、取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定させる、ためのプログラムである。
 本発明によれば、背景差分法において対象物体を適正に検出することが可能になる。
図1は、本発明が適用される場面の一例を模式的に例示する。 図2は、実施の形態に係る画像解析装置のハードウェア構成を例示する。 図3は、実施の形態に係るカメラにより取得される深度と被写体との関係を例示する。 図4は、実施の形態に係る画像解析装置の機能構成を例示する。 図5は、実施の形態に係る画像解析装置における背景画像の設定に関する処理手順を例示する。 図6は、実施の形態に係るカメラにより取得される撮影画像を例示する。 図7は、実施の形態に係る撮影画像内の座標関係を例示する。 図8は、実施の形態に係る撮影画像の任意の点(画素)とカメラとの実空間内での位置関係を例示する。 図9は、実施の形態に係る撮影画像にラベリング処理を適用した状態を例示する。 図10は、実施の形態に係る背景画像設定の際の深度を変更する処理を模式的に例示する。 図11は、実施の形態に係る背景画像の更新処理を模式的に例示する。
 以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメタ、マシン語等で指定される。
 §1 適用場面
 まず、図1を用いて、本発明が適用される場面について説明する。図1は、本実施形態に係る画像解析装置1が用いられる場面を模式的に例示する。本実施形態に係る画像解析装置1は、カメラ2によって見守り対象者を撮影し、それにより得られた撮影画像3から見守り対象者を検出することで、当該見守り対象者を見守る情報処理装置である。そのため、本実施形態に係る画像解析装置1は、見守り対象者の見守りを行う場面で広く利用可能である。
 具体的には、図1で例示されるように、本実施形態に係る画像解析装置1は、カメラ2によって見守り対象者を撮影する。カメラ2は、本発明の「撮影装置」に相当し、見守り対象者は、本発明の「対象物体」に相当する。見守り対象者は、見守りの対象となる人物であり、例えば、入院患者、施設入居者、要介護者である。
 この見守り対象者は、例えば、ベッド上で就寝しており、カメラ2は、そのような状態の見守り対象者を撮影するために設定されている。このカメラ2は、この見守り対象者の見守りを行う場面で当該見守り対象者を撮影可能であれば、いかなる場所に配置されてもよい。
 当該カメラ2は、撮影画像3内の各画素に対応する深度を取得可能に構成される。本実施形態では、カメラ2は、各画素の深度を取得可能なように、被写体の深度を測定する深度センサ(後述する深度センサ21)を含んでいる。本実施形態に係る画像解析装置1は、このようなカメラ2と接続しており、見守り対象者を撮影した撮影画像3を取得する。
 この撮影画像3は、後述する図6に例示されるように、画素毎に得られる深度を示す深度データを含んでいる。撮影画像3は、撮影範囲(画角)内の被写体の深度を示すデータを含んでいればよく、例えば、撮影範囲内の被写体の深度が二次元状に分布したデータ(例えば、深度マップ)であってもよい。また、撮影画像3は、深度データとともに、RGB画像を含んでもよい。更に、撮影画像3は、動画像であってもよいし、1又は複数枚の静止画像であってもよい。
 本実施形態に係る画像解析装置1は、このような撮影画像3を継続的に取得し、継続的に取得される撮影画像3の前景領域を背景差分法により抽出することで、当該継続的に取得される撮影画像3から見守り対象者を検出する。本実施形態では、この背景差分法に利用する背景画像を、当該見守り対象者の検出する処理を開始する際に取得された撮影画像3によって設定する。
 すなわち、本実施形態に係る画像解析装置1は、この背景差分法による見守り対象者の検出処理を開始する際に取得された撮影画像3を、当該撮影画像3の背景である背景画像(後述する背景画像4)に設定する。換言すると、見守り対象者を検出する処理の初期動作の一つとして、画像解析装置1は、カメラ2により撮影した撮影画像3を、背景差分法に利用する背景画像に設定する。
 ここで、背景画像に設定する撮影画像3に見守り対象者が写っている場合には、見守り対象者を含んだ背景画像が設定されてしまう。そうすると、見守り対象者が移動しない限りは、背景画像を設定した後に取得された撮影画像3と背景画像との間で、当該見守り対象者の写る領域に深度の差分が生じなくなってしまい、背景差分法では見守り対象者が検出できなくなってしまう。
 そこで、本実施形態では、上記初期動作において背景画像を設定する際に、画像解析装置1は、所定の画像解析によって、見守り対象者の検出処理を開始する際に取得された撮影画像3内に見守り対象者が写っているか否かを判定する。当該所定の画像解析は、この時点で見守り対象者を検出可能であれば、実施の形態に応じて適宜選択されてよい。当該所定の画像解析は、例えば、後述するラベリング処理である。
 そして、本実施形態に係る画像解析装置1は、取得された撮影画像3内に見守り対象者が写っていると判定した場合には、取得された撮影画像3内において見守り対象者の写っている領域の各画素の深度を変更した上で、取得された撮影画像3を背景画像に設定する。すなわち、本実施形態に係る画像解析装置1は、背景画像に設定する撮影画像3に見守り対象者が写っている場合には、この見守り対象者の写る領域の各画素の深度を元の値から異なる値に変更し、これによって、当該各画素の深度の指し示す位置を見守り対象者からずれた位置に変更する。詳細には、各画素の深度は被写体表面に対して取得されるため、本実施形態に係る画像解析装置1は、当該各画素の深度の指し示す位置を見守り対象者の表面からずれた位置に変更する。
 そのため、本実施形態によれば、画像解析装置1は、背景画像に設定する撮影画像3に見守り対象者が写っていたとしても、見守り対象者の写る領域の各画素の深度を当該見守り対象者の表面を指し示さなくした上で、当該撮影画像3を背景画像に設定する。したがって、背景画像に設定する撮影画像3を取得した時点の状態を見守り対象者が維持したとしても、背景画像を設定した後に取得された撮影画像3と背景画像との間で当該見守り対象者の写る領域に深度の差分が生じる。すなわち、背景画像に設定する撮影画像3を取得した時点の状態を見守り対象者が維持したとしても、画像解析装置1は、この背景画像を利用した背景差分法に基づいて見守り対象者を適正に検出することができる。よって、本実施形態によれば、上記問題点を回避することができ、背景画像を設定した当初より背景差分法に基づいて対象物体を適正に検出可能にする技術を提供することができる。
 なお、本実施形態では、背景差分法によって検出する対象物体として見守り対象者が例示されている。ただし、本実施形態に係る画像解析装置1は、このような場面に限定して適用される訳ではなく、見守り対象者以外の対象物体を検出する場面に利用されてもよい。対象物体は実施の形態に応じて適宜選択されてよく、本実施形態に係る画像解析装置1は、対象物体を検出する場面に広く適用可能である。加えて、本実施形態に係る画像解析装置1は、対象物体の状態を解析するよう構成されてもよい。例えば、画像解析装置1は、見守り対象者の状態(起き上がり、端座位、離床等)を解析するように構成されてよい。
 また、画像解析装置1の配置場所は、カメラ2から撮影画像3を取得可能であれば、実施の形態に応じて適宜決定可能である。例えば、画像解析装置1は、図1に例示されるように、カメラ2に近接するように配置されてもよい。また、画像解析装置1は、ネットワークを介してカメラ2と接続してもよく、当該カメラ2とは全く異なる場所に配置されてもよい。
 §2 構成例
 <ハードウェア構成>
 次に、図2を用いて、画像解析装置1のハードウェア構成を説明する。図2は、本実施形態に係る画像解析装置1のハードウェア構成を例示する。画像解析装置1は、図2に例示されるように、CPU、RAM(Random Access Memory)、ROM(Read Only Memory)等を含む制御部11、制御部11で実行するプログラム5等を記憶する記憶部12、画像の表示と入力を行うためのタッチパネルディスプレイ13、音声を出力するためのスピーカ14、外部装置と接続するための外部インタフェース15、ネットワークを介して通信を行うための通信インタフェース16、及び記憶媒体6に記憶されたプログラムを読み込むためのドライブ17が電気的に接続されたコンピュータである。図2では、通信インタフェース及び外部インタフェースは、それぞれ、「通信I/F」及び「外部I/F」と記載されている。
 なお、画像解析装置1の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換、及び追加が可能である。例えば、制御部11は、複数のプロセッサを含んでもよい。また、例えば、タッチパネルディスプレイ13は、それぞれ別個独立に接続される入力装置及び表示装置に置き換えられてもよい。また、例えば、スピーカ14は省略されてもよい。また、例えば、スピーカ14は、画像解析装置1の内部装置としてではなく、外部装置として画像解析装置1に接続されてもよい。また、画像解析装置1はカメラ2を内蔵してもよい。更に、画像解析装置1は、複数の外部インタフェース15を備えてもよく、複数の外部装置と接続してもよい。
 本実施形態に係るカメラ2は、外部インタフェース15を介して画像解析装置1に接続しており、見守り対象者を撮影するために設置されている。ただし、このカメラ2の設置目的は、このような例に限られなくてもよく、実施の形態に応じて適宜選択可能である。このカメラ2は、本発明の撮影装置に相当する。
 本実施形態では、カメラ2は、被写体の深度を測定するための深度センサ21を備えている。この深度センサ21の種類及び測定方法は、実施の形態に応じて適宜選択されてよい。例えば、深度センサ21として、TOF(Time Of Flight)方式等のセンサを挙げることができる。
 ただし、カメラ2の構成は、被写体の深度を取得可能であれば、このような例に限定されなくてもよく、実施の形態に応じて適宜選択可能である。例えば、カメラ2は、ステレオカメラであってもよい。ステレオカメラは、撮影範囲内の被写体を複数の異なる方向から撮影するため、当該被写体の深度を記録することができる。また、カメラ2は、深度センサ21単体に置き換わってもよい。
 なお、見守り対象者を撮影する場所は暗い可能性がある。そこで、撮影場所の明るさに影響されずに深度を取得可能なように、深度センサ21は、赤外線の照射に基づいて深度を測定する赤外線深度センサであってもよい。このような赤外線深度センサを含む比較的安価な撮影装置として、例えば、マイクロソフト社のKinect、ASUS社のXtion、Occipital社のStucture Sensorを挙げることができる。
 ここで、図3を用いて、本実施形態に係る深度センサ21によって測定される深度を詳細に説明する。図3は、本実施形態に係る深度として扱うことが可能な距離の一例を示す。当該深度は、被写体の深さを表現する。図3で例示されるように、被写体の深さは、例えば、カメラ2と対象物との直線の距離Aで表現されてもよいし、カメラ2の被写体に対する水平軸から下ろした垂線の距離Bで表現されてもよい。
 すなわち、本実施形態に係る深度は、距離Aであってもよいし、距離Bであってもよい。本実施形態では、距離Bを深度として扱うことにする。ただし、距離Aと距離Bとは、例えば、三平方の定理等を用いることで、互いに変換可能である。そのため、距離Bを用いた以降の説明は、そのまま、距離Aに適用することが可能である。このような深度を利用することで、本実施形態に係る画像解析装置1は、実空間上における被写体の位置を特定することができる。
 なお、本実施形態に係る記憶部12は、プログラム5を格納する。このプログラム5は、画像解析装置1に後述する背景画像の設定に関する各処理を実行させるためのプログラムであり、本発明の「画像解析プログラム」に相当する。このプログラム5は記憶媒体6に記録されていてもよい。
 記憶媒体6は、コンピュータその他装置、機械等が記録されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。記憶媒体6は、本発明の「記憶媒体」に相当する。なお、図2は、記憶媒体6の一例として、CD(Compact Disk)、DVD(Digital Versatile Disk)等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体6の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。
 また、このような画像解析装置1は、例えば、提供されるサービス専用に設計された装置であってもよいし、PC(Personal Computer)、タブレット端末等の汎用の装置であってもよい。更に、画像解析装置1は、1又は複数のコンピュータにより実装されてもよい。
 <機能構成例>
 次に、図4を用いて、画像解析装置1の機能構成を説明する。図4は、本実施形態に係る画像解析装置1の機能構成を例示する。本実施形態では、画像解析装置1の制御部11は、記憶部12に記憶されたプログラム5をRAMに展開する。そして、制御部11は、RAMに展開されたプログラム5をCPUにより解釈及び実行して、各構成要素を制御する。これにより、画像解析装置1は、画像取得部111、背景設定部112、検出部113及び背景更新部114を備えるコンピュータとして機能する。
 画像取得部111は、カメラ2によって撮影された撮影画像3を継続的に取得する。カメラ2には深度センサ21が含まれているため、取得される撮影画像3には、当該撮影画像3内の各画素の深度を示す深度データが含まれる。背景設定部112は、継続的に取得される撮影画像3から対象物体を検出する処理を開始する際に、取得された撮影画像3を背景画像4に設定登録する。
 ここで、背景画像4に設定する撮影画像3に対象物体が写っていることで生じる上記問題点を回避するため、背景設定部112は、所定の画像解析によって、対象物体を検出する処理を開始する際に取得された撮影画像3内に当該対象物体が写っているか否かを判定する。そして、背景設定部112は、取得された撮影画像3内に対象物体が写っていると判定した場合に、取得された撮影画像3内において対象物体の写っている領域の各画素の深度を変更した上で、取得された撮影画像3を背景画像4に設定する。
 検出部113は、背景差分法に基づいて、撮影画像3と背景画像4との差分を算出することで、撮影画像3から対象物体を検出する。また、背景更新部114は、対象物体を検出する処理を開始した後に、取得された撮影画像3により背景画像を更新する。この背景更新部114は、取得された撮影画像3から対象物体が検出された場合に、対象物体の写っている領域を除いて、取得された撮影画像3に背景画像4を置き換えることで、背景画像4を更新する。なお、本実施形態では、対象物体は、見守り対象者である。ただし、対象物体は、見守り対象者に限られる訳ではなく、実施の形態に応じて適宜選択されてよい。
 なお、本実施形態では、これらの機能がいずれも汎用のCPUによって実現される例を説明している。しかしながら、これらの機能の一部又は全部が、1又は複数の専用のプロセッサにより実現されてもよい。また、画像解析装置1の機能構成に関して、実施形態に応じて、適宜、機能の省略、置換、及び追加が行われてもよい。例えば、画像解析装置1が背景画像の更新を行わない場合には、背景更新部114は省略されてもよい。各機能に関しては後述する動作例で詳細に説明する。
 §3 動作例
 次に、図5を用いて、画像解析装置1の動作例を説明する。図5は、画像解析装置1による背景画像4の設定に関する処理手順を例示する。画像解析装置1の制御部11は、例えば、後述する背景差分法に基づく見守り対象者の検出する処理を開始する際に、本動作例に係る処理手順を実行する。
 なお、以下で説明する背景画像の設定に関する処理手順は、本発明の「画像解析方法」に相当する。ただし、以下で説明する背景画像の設定に関する処理手順は一例にすぎず、各処理は可能な限り変更されてもよい。また、以下で説明する処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。
 (ステップS101)
 ステップS101では、制御部11は、画像取得部111として機能し、カメラ2により撮影された撮影画像3を取得する。本実施形態では、上記のとおり、カメラ2は、深度センサ21を備えている。そのため、本ステップS101において取得される撮影画像3には、各画素の深度を示す深度データが含まれている。制御部11は、この深度データを含む撮影画像3として、例えば、図6で例示される撮影画像3を取得する。
 図6は、深度データを含む撮影画像3の一例を示す。図6で例示される撮影画像3は、各画素の濃淡値が当該各画素の深度に応じて定められた画像である。黒色の画素ほど、カメラ2に近いことを示す。一方、白色の画素ほど、カメラ2から遠いことを示す。制御部11は、この深度データに基づいて、各画素の写る対象の実空間での位置を特定することができる。すなわち、制御部11は、撮影画像3内の各画素の座標(二次元情報)と深度とから、当該各画素内に写る被写体の三次元空間(実空間)での位置を特定することができる。以下、図7及び図8を用いて、制御部11が各画素の実空間上での位置を特定する計算例を示す。
 図7は、撮影画像3内の座標関係を例示する。また、図8は、撮影画像3の任意の画素(点s)とカメラ2との実空間内での位置関係を例示する。なお、図7の左右方向は、図8の紙面に垂直な方向に対応する。すなわち、図8で表れている撮影画像3の長さは、図7で例示される縦方向の長さ(Hピクセル)に対応する。また、図7で例示される横方向の長さ(Wピクセル)は、図8で表れていない撮影画像3の紙面垂直方向の長さに対応する。
 図7で例示されるように、撮影画像3の任意の画素(点s)の座標が(xs,ys)であるとし、カメラ2の横方向の画角がVx、縦方向の画角がVyであるとする。また、撮影画像3の横方向のピクセル数がWであるとし、縦方向のピクセル数がHであるとし、撮影画像3の中心点(画素)の座標が(0,0)であるとする。
 制御部11は、カメラ2の画角(Vx、Vy)を示す情報をカメラ2から取得することができる。ただし、カメラ2の画角(Vx、Vy)を示す情報を取得する方法はこのような例に限られず、制御部11は、カメラ2の画角(Vx、Vy)を示す情報を、ユーザ入力に基づき取得してもよいし、予め設定されている設定値として取得してもよい。また、制御部11は、撮影画像3から、点sの座標(xs,ys)及び撮影画像3のピクセル数(W×H)を取得することができる。更に、制御部11は、撮影画像3に含まれる深度データを参照することによって、点sの深度Dsを取得することができる。
 制御部11は、これらの情報を利用することで、当該各画素(点s)の実空間上の位置を特定することができる。例えば、制御部11は、以下の数1~3で示される関係式に基づいて、図8に例示されるカメラ座標系におけるカメラ2から点sまでのベクトルS(Sx,Sy,Sz,1)の各値を算出することができる。これにより、撮影画像3内の二次元座標系における点sの位置とカメラ座標系における点sの位置とは相互に変換可能になる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 ただし、上記ベクトルSは、カメラ2を中心とした三次元座標系のベクトルである。このカメラ2は、図8に例示されるように、水平方向に対して傾いている場合がある。すなわち、カメラ座標系は、三次元空間(実空間)のワールド座標系から傾いている場合がある。そのため、制御部11は、カメラ2のロール角、ピッチ角(図8のα)及びヨー角を用いた射影変換を上記ベクトルSに適用することによって、上記カメラ座標系のベクトルSをワールド座標系のベクトルに変換し、ワールド座標系における点sの位置を算出してもよい。
 なお、深度データを含む撮影画像3のデータ形式は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてもよい。例えば、撮影画像3は、撮影範囲内の被写体の深度が二次元状に分布したデータ(例えば、深度マップ)であってもよい。また、例えば、撮影画像3は、深度データとともに、RGB画像を含んでもよい。更に、撮影画像3は、動画像であってもよいし、1又は複数枚の静止画像であってもよい。制御部11は、このような撮影画像3を取得すると、次のステップS102に処理を進める。
 (ステップS102)
 図5に戻り、次のステップS102では、制御部11は、背景設定部112として機能し、見守り対象者の検出する処理を開始する際にステップS101で取得された撮影画像3にラベリング処理を適用することで、取得された撮影画像3内で1又は複数の連結成分領域を抽出する。撮影画像3内で1又は複数の連結成分領域を抽出すると、制御部11は、次のステップS103に処理を進める。
 ここで、図9を用いて、このラベリング処理について説明する。図9は、図6で例示される撮影画像3にラベリング処理を適用した状態を例示する。ラベリング処理とは、画像内の連続した領域を抽出し、それぞれの領域にラベルを付す処理である。本実施形態では、この画像内の連続した領域を連結成分領域と称する。このラベリング処理によれば、連結成分領域を抽出することができ、これによって、一塊の領域(1つの連結成分領域)として見守り対象者の写る領域を検出することができる。
 具体的には、制御部11は、例えば、撮影画像3内の各画素の深度を参照し、隣接する画素間で深度が所定の閾値以上の差があるか否かを判定する。そして、この判定に基づいて、制御部11は、隣接する画素間で深度が所定の閾値以上の差のない領域を一塊の連結成分領域として抽出し、隣接する画素間で深度が所定の閾値以上の差のある領域をそれ以外の境界領域に設定する。
 図9の例では、この処理によって、2つの領域(31、32)が連結成分領域として抽出されている。領域31は、見守り対象者の写る領域に対応し、領域32は、室内の壁の写る領域に対応する。そして、制御部11は、各領域(31、32)にラベルを付与する。例えば、面積の大きい順にラベルを付す場合には、制御部11は、領域32に1番のラベルを付与し、領域31に2番のラベルを付与する。
 なお、このような連結成分領域を抽出する指標となる上記所定の閾値は、実施の形態に応じて適宜設定されてよい。また、図9では、説明の便宜のため、連結成分領域が白色で表現されており、それ以外の境界領域が黒色で表現されている。しかしながら、各領域を表現する手法は、このような例に限定される訳ではなく、実施の形態に応じて適宜選択されてよい。
 また、本実施形態では、見守り対象者のベッド上での起き上がり、端座位、ベッドからの離床等を見守ることが想定されている。そこで、本実施形態では、ベッドの位置(例えば、ベッド面の位置)が予め設定されており、制御部11は、ベッド面から所定の高さ以下の部分はラベリング処理の対象から除外している。そのため、図9では、2つの領域(31、32)の下方側の部分が広く境界領域(黒色の領域)に設定されている。ただし、画像解析装置1は、このように構成されなくてもよく、撮影画像3全体をラベリング処理の対象としてもよい。
 (ステップS103&ステップS104)
 図5に戻り、次のステップS103及びステップS104では、制御部11は、背景設定部112として機能し、ステップS102で抽出された1又は複数の連結成分領域が見守り対象者の写っている領域に該当するか否かを解析することで、ステップS101で取得された撮影画像3内に見守り対象者が写っているか否かを判定する。
 具体的には、まず、ステップS103では、制御部11は、ステップS102で抽出された1又は複数の連結成分領域が見守り対象者の写っている領域に該当するか否かを解析する。ラベリング処理で抽出された連結成分領域が見守り対象者の写っている領域であるか否かを解析する手法は、実施の形態に応じて適宜選択されてよい。
 例えば、制御部11は、次のようにして、ラベリング処理で抽出された連結成分領域が見守り対象者の写っている領域であるか否かを解析してもよい。すなわち、見守り対象者の大きさ及び形状はある程度限定されるため、見守り対象者の写っている領域の面積及び分散はそれぞれある程度の範囲に収まる。そこで、制御部11は、ステップS102で抽出された各連結成分領域の面積及び分散をそれぞれ算出し、算出した各連結成分領域の面積及び分散それぞれが所定の範囲に含まれるか否かを判定する。
 そして、制御部11は、面積及び分散それぞれが所定の範囲に含まれると判定された連結成分領域を見守り対象者の写っている領域と認識する。一方、制御部11は、面積及び分散の少なくともいずれかが所定の範囲に含まれないと判定された連結成分領域を見守り対象者以外の写っている領域と認識する。制御部11は、このようにして、ラベリング処理で抽出された連結成分領域が見守り対象者の写っている領域であるか否かを解析することができる。
 なお、見守り対象者の写っている領域か否かを判定する基準となる面積の範囲及び分散の範囲はそれぞれ、実施の形態に応じて適宜設定されてよい。例えば、図9の例では、制御部11は、各領域(31、32)に対して上記のような解析を行う。この場合、所定の面積の範囲及び分散の範囲は、領域31の面積及び分散を含むように設定され、領域32の面積及び分散のいずれか一方を含まないように設定される。これによって、制御部11は、図9の例において、領域31を見守り対象者の写っている領域と認識し、領域32を見守り対象者以外の写っている領域と認識することができる。
 次に、ステップS104では、制御部11は、ステップS103の解析結果に基づいて、ステップS101で取得された撮影画像3内に見守り対象者が写っているか否かを判定する。そして、制御部11は、ステップS101で取得された撮影画像3内に見守り対象者が写っていると判定した場合には、次のステップS105に処理を進める。一方、制御部11は、ステップS101で取得された撮影画像3内に見守り対象者が写っていないと判定した場合には、ステップS105の処理を省略し、次のステップS106に処理を進める。
 例えば、上記ステップS103では、制御部11は、各連結成分領域の面積及び分散に基づいて、各連結成分領域が見守り対象者の写っている領域か否かを認識している。そのため、制御部11は、ステップS103で見守り対象者の写っている領域と認識した連結成分領域が存在する場合には、撮影画像3内に見守り対象者が写っていると判定し、次のステップS105に処理を進める。一方、制御部11は、ステップS103で見守り対象者の写っている領域と認識した連結成分領域が存在しない場合には、撮影画像3内に見守り対象者が写っていないと判定し、ステップS105の処理を省略し、次のステップS106に処理を進める。図9の例では、制御部11は、領域31を見守り対象者の写っている領域と認識し、次のステップS105に処理を進める。
 すなわち、上記ステップS102~S104の処理では、制御部11は、背景設定部112として機能し、所定の画像解析によって、見守り対象者を検出する処理を開始する際にステップS101で取得された撮影画像3内に見守り対象者が写っているか否かを判定している。また、本実施形態に係る画像解析装置1は、見守り対象者が撮影画像3に写っているか否かを判定するこの所定の画像解析として、上記のラベリング処理を採用している。
 なお、例えば、カメラ2から被写体が遠ざかるほど、撮影画像3内の被写体の像は小さくなり、カメラ2に被写体が近づくほど、撮影画像3内の被写体の像は大きくなる。撮影画像3内に写る被写体の深度は被写体の表面に対して取得されるが、その撮影画像3の各画素に対応する被写体の表面部分の面積は各画素間で一致するとは限らない。
 そこで、制御部11は、被写体の遠近による影響を除外するために、上記ステップS103において、各画素の深度を利用して、各連結成分領域の実空間における面積を算出してもよい。各連結成分領域の実空間における面積は、例えば、次のようにして算出することができる。すなわち、制御部11は、まず、以下の数4及び数5の関係式に基づいて、図7及び図8に例示される任意の点s(1画素)の実空間内における横方向の長さw及び縦方向の長さhをそれぞれ算出する。
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
 次に、制御部11は、このように算出されるwの2乗、hの2乗、又はwとhとの積によって、深度Dsにおける1画素の実空間内での面積を算出する。そして、制御部11は、各連結成分領域に含まれる各画素の実空間内での面積の総和を求めることで、各連結成分領域の実空間における面積を算出する。これにより、被写体の遠近の影響を除外し、各連結成分領域の解析精度を高めることができる。
 なお、このような面積は、深度情報のノイズ、見守り対象者以外の物体の動き、等によって、大きく変化してしまう場合がある。これに対応するため、制御部11は、数フレーム分の面積の平均を利用してもよい。また、制御部11は、処理対象のフレームにおける該当領域の面積と当該処理対象のフレームよりも過去の数フレームにおける当該該当領域の面積の平均との差が所定範囲を超える場合、当該該当領域を処理対象から除外してもよい。
 (ステップS105)
 次のステップS105では、制御部11は、背景設定部112として機能し、ステップS101で取得された撮影画像3内に見守り対象者が写っているとステップS104において判定された場合に、当該撮影画像3内の見守り対象者の写っている領域の各画素の深度を変更する。各画素の深度を変更する方法は、実施の形態に応じて適宜選択可能である。例えば、図10で例示されるように、制御部11は、撮影画像3内の見守り対象者の写っている領域の各画素の深度を変更する。
 図10は、図9で例示した見守り対象者の写る領域31の各画素を変更する処理を模式的に例示する。後述するステップS106において背景画像4に設定する撮影画像3内に見守り対象者が写っている場合には、見守り対象者は、カメラ2からみて背景よりも手前側に存在する。すなわち、図10に例示されるように、見守り対象者に隠れている本来の背景部分は、この見守り対象者よりもカメラ2からみて後方に存在する。
 そこで、制御部11は、撮影画像3内の見守り対象者の写る領域の各画素の深度を次のように変更してもよい。すなわち、制御部11は、撮影画像3内の見守り対象者の写る領域の各画素の深度を、当該深度の元の値が示す位置よりもカメラ2からみて所定の距離だけ後方の位置を示すように変更してもよい。例えば、制御部11は、撮影画像3内の見守り対象者の写る領域の各画素の深度に所定の値を加算することで、このような変更を実施することができる。
 図10の例では、制御部11は、見守り対象者の写る領域31の各画素の深度を、当該深度の元の値が示す位置311よりもカメラ2からみて所定の距離だけ後方の位置312を示すように変更している。この変更によって、見守り対象者の写る領域の各画素の深度が本来の背景の近い位置を指し示すようにすることができ、この撮影画像3を本来の背景に類似する画像にすることができる。すなわち、後述するステップS106において、本来の背景により類似する背景画像4を設定することが可能になる。
 なお、各画素の深度を変更する量の基準となる所定の距離は、実施の形態に応じて適宜設定されてよい。また、当該所定の距離は、画素毎に相違していてもよい。更に、各画素の深度が本来の背景の位置よりも後方を指し示さないように、見守り対象者の厚みを考慮して設定されてもよい。この場合、当該所定の距離は、例えば、30cm程度に設定されてよい。
 また、撮影画像3内の見守り対象者の写る領域の各画素の深度を変更する処理は、このような例に限定されなくてもよい。例えば、制御部11は、撮影画像3内の見守り対象者の写る領域の各画素の深度を、当該深度の元の値が示す位置よりもカメラ2からみて所定の距離だけ前方の位置を示すように変更してもよい。各画素の深度を変更する方向は、実施の形態に応じて適宜選択可能である。ただし、上記の理由から、各画素の深度を変更する方向は、カメラ2からみて後方であるのが好ましい。このように、撮影画像3内の見守り対象者の写っている領域の各画素の深度を変更すると、制御部11は、次のステップS106に処理を進める。
 (ステップS106)
 次のステップS106では、制御部11は、背景設定部112として機能し、ステップS101で取得された撮影画像3を背景画像4に設定する。例えば、制御部11は、RAM又は記憶部12に当該撮影画像3を背景画像4として登録することで、ステップS101で取得された撮影画像3を背景画像4に設定する。すなわち、ステップS102~S106の処理では、制御部11は、背景設定部112として機能し、見守り対象者を検出する処理を開始する際に取得された撮影画像3を背景画像4に設定する。
 上記ステップS105の処理を経由している場合には、換言すると、ステップS101で取得された撮影画像3に見守り対象者が写っていると判定された場合には、当該見守り対象者の写る領域に含まれる各画素の深度が変更された上で、ステップS101で取得された撮影画像3が背景画像4に設定される。一方、上記ステップS105の処理を経由していない場合には、換言すると、ステップS101で取得された撮影画像3に見守り対象者が写っていないと判定された場合には、ステップS101で取得された撮影画像3がそのまま背景画像4に設定される。これによって、本動作例に係る処理手順は終了する。
 なお、上記ステップS101において、制御部11は、所定時間内に複数枚の撮影画像3を取得してもよい。また、制御部11は、各撮影画像3に上記ステップS102~S105の処理を適用してもよい。そして、本ステップS106では、制御部11は、所定時間内に取得された複数枚の撮影画像3を平均化することで、設定する背景画像4を作成してもよい。また、制御部11は、上記ステップS101で取得した1枚の撮影画像3に上記ステップS102~S106の処理を適用することで、背景画像4を作成してもよい。背景画像4を作成するために用いる撮影画像3の枚数(フレーム数)は、実施の形態に応じて適宜選択可能である。
 <その他>
 (1)見守り対象者の検出
 上記動作例により背景画像4が設定されると、画像解析装置1は、背景差分法に基づいて撮影画像3から見守り対象者を検出することが可能になる。そこで、画像解析装置1は、背景画像4を設定した後に取得される撮影画像3に背景差分法を適用することで、当該撮影画像3から見守り対象者を検出する。
 具体的には、制御部11は、背景画像4を設定した後も、画像取得部111として機能し、カメラ2から撮影画像3を取得する。次に、制御部11は、検出部113として機能し、背景差分法に基づいて、取得した撮影画像3と背景画像4との差分を算出することで、撮影画像3内の前景領域を抽出する。そして、制御部11は、パターンマッチング等で抽出した前景領域が見守り対象者の写る領域(以下、「人物領域」とも称する)か否かを判定し、これによって、撮影画像3から見守り対象者を検出する。
 なお、制御部11は、継続的に取得される撮影画像3内において一度検出した見守り対象者(対象物体)を追跡(トラッキング)することで、撮影画像3内で見守り対象者を継続的に検出してもよい。このような追跡は、オプティカルフロー等に基づいて行うことができる。これによって、撮影画像3内に見守り対象者が写っている限りは、制御部11は、このトラッキングに基づいて、見守り対象者を検出し続けることができる。
 (2)背景画像の更新
 また、時間経過によって背景が変化する場合がある。この場合に、背景差分法に基づいて撮影画像3から見守り対象者を引き続き検出しようとすると、見守り対象者とは無関係な前景領域が多く抽出されてしまう。これによって、撮影画像3から見守り対象者を誤検出してしまう可能性が生じうる。そこで、本実施形態では、制御部11は、このような事態に対応すべく、背景更新部114として機能し、上記の見守り対象者を検出する処理を開始した後に、取得された撮影画像3によって背景画像4を更新する。
 この背景画像4を更新するトリガは、例えば、次のとおりである。すなわち、制御部11は、背景差分法に基づいて撮影画像3の前景領域を抽出し、この前景領域が所定の面積を超えた場合に、背景画像4を更新する処理を実行してもよい。また、制御部11は、見守り対象者がカメラ2の撮影範囲から離れることで、撮影画像3に見守り対象者が写らなくなり、撮影画像3内で見守り対象者が検出されなくなった場合に、背景画像4を更新する処理を実行してもよい。
 ここで、図11を用いて、本実施形態に係る背景画像4の更新処理を説明する。図11は、本実施形態に係る背景画像4の更新処理を模式的に例示する。制御部11は、上記のトリガの条件が満たされた場合に、先に設定された背景画像4を、その時点で取得された撮影画像3に置き換えることで、背景画像4を更新してもよい。ただし、背景画像4に設定する撮影画像3に見守り対象者が写っている場合には、上記と同様の問題点が生じうる。
 そこで、本実施形態では、制御部11は、上記検出部113等の処理によって、その時点で取得された撮影画像3から見守り対象者が検出される場合には、見守り対象者の写っている領域を除いて、当該撮影画像3により背景画像4を更新する。例えば、図11の例では、領域33が、見守り対象者の写っている領域に対応し、領域34が、それ以外の領域に対応する。そのため、制御部11は、見守り対象者の写っている領域33を除き、撮影画像3の領域34に含まれる各画素の値(深度等)に、背景画像4の対応する各画素の値を置き換えることで、背景画像4を更新する。一方、制御部11は、その時点で取得された撮影画像3から見守り対象者が検出されない場合には、当該撮影画像3をそのまま背景画像4に設定する。
 本実施形態では、このように背景画像4を更新することで、背景画像4を更新するトリガが発生した時点で取得された撮影画像3に見守り対象者(対象物体)が写っている状況であっても背景画像4を適切に更新することができる。そのため、本実施形態によれば、更新後の背景画像4に基づいて撮影画像3から見守り対象者(対象物体)を適正に検出することが可能である。
 なお、背景画像4を更新する方法は実施の形態に応じて適宜選択可能である。例えば、制御部11は、上記背景画像4の設定と同様に、複数枚の撮影画像3によって背景画像4を更新してもよいし、1枚の撮影画像3によって背景画像4を更新してもよい。背景画像4の更新に利用する撮影画像3の枚数(フレーム数)は、実施形態に応じて適宜選択可能である。
 (作用・効果)
 以上のように、本実施形態に係る画像解析装置1は、ステップS102~S104において背景画像4に設定する撮影画像3内に見守り対象者が写っているか否かを判定する。そして、背景画像4に設定する撮影画像3内に見守り対象者が写っていると判定される場合には、画像解析装置1は、当該撮影画像3内における見守り対象者の写っている領域の各画素の深度をステップS105の処理で変更する。その上で、画像解析装置1は、ステップS106において、当該撮影画像3を背景画像4に設定する。すなわち、本実施形態に係る画像解析装置1は、背景画像に設定する撮影画像3に見守り対象者が写っている場合には、この見守り対象者の写る領域の各画素の深度を元の値から異なる値に変更する。これによって、当該見守り対象者の写る領域の各画素の深度の指し示す位置は、見守り対象者の表面からずれた位置に変更される。
 そのため、本実施形態によれば、画像解析装置1は、背景画像4に設定する撮影画像3に見守り対象者が写っていたとしても、見守り対象者の写る領域の各画素の深度を当該見守り対象者の表面を指し示さなくした上で、当該撮影画像3を背景画像4に設定することができる。したがって、背景画像4に設定される撮影画像3を取得した時点の状態を見守り対象者が維持したとしても、背景画像4を設定した後に取得された撮影画像3と当該背景画像4との間で当該見守り対象者の写る領域に深度の差分が生じる。すなわち、背景画像4に設定する撮影画像3を取得した時点の状態を見守り対象者が維持したとしても、画像解析装置1は、この背景画像4を利用した背景差分法に基づいて見守り対象者を適正に検出することができる。よって、本実施形態によれば、背景画像を設定した当初より背景差分法に基づいて見守り対象者(対象物体)を適正に検出可能にする技術を提供することができる。
 §4 変形例
 以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。
 例えば、上記実施形態では、ステップS102及びS103において、制御部11は、ラベリング処理に基づいて撮影画像3から人物領域を抽出している。しかしながら、人物領域を抽出する方法は、このような方法に限られなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、Haar-like検出器を利用した顔検出方法のように、対象物の大きさと向きとを想定し、画像全体をラスタスキャンすることにより、人物領域を抽出する方法が利用されてもよい。ただし、上記ステップS102及びS103のようなラベリング処理によると、画像全体を複数回スキャンしなくても人物領域を識別することが可能であるため、人物領域を高速に抽出することができる。そのため、リアルタイム処理を行う場合には、人物領域の抽出に上記ラベリング処理を利用するのが好ましい。
 また、例えば、上記実施形態では、画像解析装置1は、背景差分法に基づいて、撮影画像3から見守り対象者を検出している。当該画像解析装置1は、更に、検出した見守り対象者の状態を解析してもよい。見守り対象者の状態を解析する方法及び解析対象の状態の種類は、実施の形態に応じて適宜選択されてよい。例えば、次のような解析方法で、見守り対象者の起き上がり、端座位及び離床を検知することができる。
 すなわち、見守り対象者がベッド上で起き上がった場合、抽出される人物領域はベッド面から所定の高さ以上の位置に現れる。そこで、制御部11は、見守り対象者の起き上がりを検知するため、検出部113の処理によって抽出した人物領域がベッド面から所定の高さ以上の位置に現れているか否かを判定してもよい。ベッド面の位置は予め設定されてよく、起き上がりを検知する指標となる所定の高さ(閾値)は、実施の形態に応じて適宜設定されてよい。制御部11は、ベッド面から所定の高さ以上の位置に人物領域が現れていると判定した場合に、見守り対象者が起き上がり状態にあることを検知することができる。
 また、見守り対象者が端座位の状態にある場合、抽出される人物領域はベッドサイドの所定の範囲に現れる。そこで、制御部11は、見守り対象者の端座位を検知するため、検出部113の処理によって抽出した人物領域がベッドサイドの所定の範囲に現れるか否かを判定してもよい。端座位を検知する指標となる所定の範囲(検知範囲)は、実施の形態に応じて適宜設定されてよい。制御部11は、ベッドサイドの所定の範囲に人物領域が現れていると判定した場合に、見守り対象者が端座位の状態にあることを検知することができる。
 更に、見守り対象者が離床の状態にある場合、抽出される人物領域は、ベッドから離れた位置に現れる。そこで、制御部11は、見守り対象者の離床を検知するため、検出部113の処理によって抽出した人物領域がベッドから所定の距離以上離れた位置に現れているか否かを判定してもよい。離床を検知する指標となる所定の距離(閾値)は、実施の形態に応じて適宜設定されてよい。制御部11は、ベッドから所定の距離以上離れた位置に人物領域が現れていると判定した場合に、見守り対象者が離床の状態にあることを検知することができる。
 すなわち、制御部11は、人物領域とベッドとの位置関係に基づいて、見守り対象者の状態を解析することができる。なお、このように、画像解析装置1が見守り対象者の状態を解析する場合には、見守り対象者が解析対象の状態にある場面以外では、画像解析装置1は、見守り対象者を撮影画像3から検出しなくてもよい。例えば、見守り対象者がベッド上で就寝している状態を検知しない場合には、画像解析装置1は、就寝している見守り対象者を撮影画像3から検出しなくてもよい。
 そこで、制御部11は、上記ステップS104において撮影画像3内に見守り対象者が写っていると判定した場合には、上記ステップS105の処理を実行する前に、背景設定部112として機能し、当該見守り対象者が所定の状態にあるか否かを更に判定してもよい。本処理の判定の対象とする所定の状態には、上記のような解析対象とする状態が含まれてよいし、解析対象以外の状態が含まれてもよい。例えば、本処理の判定の対象とする所定の状態には、見守り対象者の起き上がり、端座位及び離床が含まれてよい。なお、制御部11は、上記見守り対象の状態を検知する方法と同様に、上記ステップS102~S104の処理により抽出した見守り対象者の写っている連結成分領域とベッドとの位置関係に基づいて、見守り対象者が所定の状態にあるか否かを判定することができる。
 そして、制御部11は、見守り対象者が所定の状態にあると判定した場合に、上記ステップS105の処理を実行するように構成されてよい。一方、制御部11は、見守り対象者が所定の状態にないと判定した場合には、上記ステップS105の処理を省略して、次のステップS106に処理を進めてもよい。
 これによって、例えば、見守り対象者がベッド上で正常に就寝している場面等、見守り対象者を積極的に検出することを要しない場面では、背景画像を設定する際の深度の変更処理を省略することができる。すなわち、上記判定の対象とする所定の状態から見守り対象者の就寝状態を除外した場合には、上記ステップS106では、就寝状態にある見守り対象者が写る撮影画像3がそのまま背景画像4に設定され得る。そのため、このような背景画像4を設定した後には、就寝状態にある見守り対象者は背景として扱われ、検出部113による背景差分法の処理において、見守り対象者を検出しないようにすることができる。
 一方、上記判定の対象とする所定の状態に見守り対象者の起き上がり等の状態が含まれている場合に、撮影画像3にこのような状態の見守り対象者が写っているときには、上記実施形態と同様に、撮影画像3にステップS105の処理が適用される。すなわち、上記ステップS106では、制御部11は、上記実施形態と同様に、見守り対象者の写る領域に含まれる各画素の深度を変更した上で、撮影画像3を背景画像4に設定する。そのため、このような背景画像4を設定した後には、起き上がり等の状態にある見守り対象者は背景としては扱われず、検出部113による背景差分法の処理において、見守り対象者を撮影画像3から適正に検出することができる。
 したがって、本変形例によれば、見守り対象者を積極的に検出することを要しない場面では当該見守り対象者を検出せず、かつ、見守り対象者を積極的に検出することを要する場面では当該見守り対象者を検出可能な背景画像4を設定することができる。すなわち、見守り対象者の状態推定に適した背景画像4を設定することができる。
 1…画像解析装置、
 2…カメラ、21…深度センサ、
 3…撮影画像、4…背景画像、
 5…プログラム、6…記憶媒体、
11…制御部、12…記憶部、13…タッチパネルディスプレイ、
14…スピーカ、15…外部インタフェース、16…通信インタフェース、
17…ドライブ、
111…画像取得部、112…背景設定部、113…検出部、
114…背景更新部

Claims (7)

  1.  撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得する画像取得部と、
     前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定する背景設定部と、
     背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出する検出部と、
    を備え、
     前記背景設定部は、
      所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定し、
      取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定する、
    画像解析装置。
  2.  前記背景設定部は、取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を、当該深度の元の値が示す位置よりも前記撮影装置からみて所定の距離だけ後方の位置を示すように変更した上で、取得された前記撮影画像を前記背景画像に設定する、
    請求項1に記載の画像解析装置。
  3.  前記背景設定部は、前記対象物体を検出する処理を開始する際に取得された前記撮影画像にラベリング処理を適用することで、取得された前記撮影画像内で1又は複数の連結成分領域を抽出し、抽出された1又は複数の連結成分領域が前記対象物体の写っている領域に該当するか否かを解析することで、取得された前記撮影画像内に前記対象物体が写っているか否かを判定する、
    請求項1又は2に記載の画像解析装置。
  4.  前記対象物体を検出する処理を開始した後に、取得された前記撮影画像により前記背景画像を更新する背景更新部を更に備え、
     前記背景更新部は、取得された前記撮影画像から前記対象物体が検出された場合に、前記対象物体の写っている領域を除いて、取得された前記撮影画像に前記背景画像を置き換えることで、前記背景画像を更新する、
    請求項1から3のいずれか1項に記載の画像解析装置。
  5.  前記検出部は、前記対象物体として見守り対象者を前記撮影画像から検出し、
     前記背景設定部は、
      取得された前記撮影画像内に前記見守り対象者が写っていると判定した場合に、当該見守り対象者が所定の状態にあるか否かを更に判定し、
      当該見守り対象者が当該所定の状態にあると判定した場合に、取得された前記撮影画像内において当該見守り対象者の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定する、
    請求項1から4のいずれか1項に記載の画像解析装置。
  6.  コンピュータが、
     撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得するステップと、
     前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定するステップと、
     背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出するステップと、
    を実行し、
     前記背景画像を設定するステップでは、
      所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定し、
      取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定する、
    画像解析方法。
  7.  コンピュータに、
     撮影装置によって撮影された撮影画像であって、当該撮影画像内の各画素の深度を示す深度データを含む撮影画像を継続的に取得するステップと、
     前記撮影画像から対象物体を検出する処理を開始する際に、取得された前記撮影画像を前記撮影画像の背景である背景画像に設定するステップと、
     背景差分法に基づいて、前記撮影画像と前記背景画像との差分を算出することで、前記撮影画像から前記対象物体を検出するステップと、
    を実行させ、
     前記背景画像を設定するステップでは、
      所定の画像解析によって、前記対象物体を検出する処理を開始する際に取得された前記撮影画像内に前記対象物体が写っているか否かを判定させ、
      取得された前記撮影画像内に前記対象物体が写っていると判定した場合に、取得された前記撮影画像内において前記対象物体の写っている領域の各画素の深度を変更した上で、取得された前記撮影画像を前記背景画像に設定させる、
    ための画像解析プログラム。
PCT/JP2016/053348 2015-05-11 2016-02-04 画像解析装置、画像解析方法、及び、画像解析プログラム Ceased WO2016181672A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017517619A JP6780639B2 (ja) 2015-05-11 2016-02-04 画像解析装置、画像解析方法、及び、画像解析プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015096226 2015-05-11
JP2015-096226 2015-05-11

Publications (1)

Publication Number Publication Date
WO2016181672A1 true WO2016181672A1 (ja) 2016-11-17

Family

ID=57248050

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/053348 Ceased WO2016181672A1 (ja) 2015-05-11 2016-02-04 画像解析装置、画像解析方法、及び、画像解析プログラム

Country Status (2)

Country Link
JP (1) JP6780639B2 (ja)
WO (1) WO2016181672A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112104857A (zh) * 2019-06-17 2020-12-18 株式会社万代南梦宫游艺 图像生成系统、图像生成方法及信息存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003187248A (ja) * 2001-12-21 2003-07-04 Mitsubishi Electric Corp 画像処理システムおよび画像処理装置
JP2012049628A (ja) * 2010-08-24 2012-03-08 Nikon Corp 画像処理装置、撮像装置、及び画像処理プログラム
JP2014236896A (ja) * 2013-06-10 2014-12-18 Nkワークス株式会社 情報処理装置、情報処理方法、及び、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012050013A (ja) * 2010-08-30 2012-03-08 Team Lab Inc 撮像装置、画像処理装置、画像処理方法及び画像処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003187248A (ja) * 2001-12-21 2003-07-04 Mitsubishi Electric Corp 画像処理システムおよび画像処理装置
JP2012049628A (ja) * 2010-08-24 2012-03-08 Nikon Corp 画像処理装置、撮像装置、及び画像処理プログラム
JP2014236896A (ja) * 2013-06-10 2014-12-18 Nkワークス株式会社 情報処理装置、情報処理方法、及び、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112104857A (zh) * 2019-06-17 2020-12-18 株式会社万代南梦宫游艺 图像生成系统、图像生成方法及信息存储介质

Also Published As

Publication number Publication date
JP6780639B2 (ja) 2020-11-04
JPWO2016181672A1 (ja) 2018-03-01

Similar Documents

Publication Publication Date Title
JP6115335B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US10410089B2 (en) Training assistance using synthetic images
JP6125188B2 (ja) 映像処理方法及び装置
CN104380338B (zh) 信息处理器以及信息处理方法
JP6638723B2 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
US9582707B2 (en) Head pose estimation using RGBD camera
US9460337B2 (en) Information processor and information processing method
KR101333871B1 (ko) 멀티-카메라 교정을 위한 방법 및 장치
US11398049B2 (en) Object tracking device, object tracking method, and object tracking program
KR101071352B1 (ko) 좌표맵을 이용한 팬틸트줌 카메라 기반의 객체 추적 장치 및 방법
Guomundsson et al. ToF imaging in smart room environments towards improved people tracking
JP6780641B2 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
WO2016031314A1 (ja) 個人識別装置、個人識別方法、及び、個人識別プログラム
JP6737262B2 (ja) 異常状態検知装置、異常状態検知方法、及び、異常状態検知プログラム
JP2009211122A (ja) 画像処理装置およびオブジェクト推定プログラム。
WO2016185738A1 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
JP6780639B2 (ja) 画像解析装置、画像解析方法、及び、画像解析プログラム
US10346680B2 (en) Imaging apparatus and control method for determining a posture of an object
US20220230342A1 (en) Information processing apparatus that estimates object depth, method therefor, and storage medium holding program therefor
JP2023016500A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2024119395A (ja) 画像処理装置、画像処理方法、及びプログラム
KR20240131600A (ko) 센서를 이용한 객체 크기 추정 시스템 및 방법
Shinozuka et al. [POSTER] Consistency between Reflection on the Glass and Virtual Object in Augmented Reality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16792398

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017517619

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16792398

Country of ref document: EP

Kind code of ref document: A1