WO2022034779A1 - 画像処理装置および画像処理方法 - Google Patents
画像処理装置および画像処理方法 Download PDFInfo
- Publication number
- WO2022034779A1 WO2022034779A1 PCT/JP2021/027178 JP2021027178W WO2022034779A1 WO 2022034779 A1 WO2022034779 A1 WO 2022034779A1 JP 2021027178 W JP2021027178 W JP 2021027178W WO 2022034779 A1 WO2022034779 A1 WO 2022034779A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- user
- correction
- feature amount
- captured image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/20—Processor architectures; Processor configuration, e.g. pipelining
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
Definitions
- the present invention relates to an image processing apparatus and an image processing method.
- Patent Document 1 is a technique for determining a user's fatigue level based on the number of blinks or the degree of hyperemia of the eyeball in data communication involving image data, and if the fatigue level is above a certain level, the technique is combined with a previously captured image.
- Patent Document 2 discloses a technique of selecting or processing a video to be used for video communication from a "video that may be shown to the other party" determined in advance by the user and outputting the video.
- the video for a video call may be unnecessarily corrected even though it is in a well-dressed state just by determining the degree of fatigue of the caller. Further, when the communication image is always selected or processed from the images that may be shown to the other party, the communication image may be corrected regardless of whether or not the appearance is well-organized. Further, it may take time and effort for the user to determine in advance an image that may be shown to the other party, and it cannot be said that the usability is optimal.
- One aspect of the present invention is to provide a technique for correcting a captured image of a caller when the caller of the video call is not well dressed.
- the present invention adopts the following configuration in order to achieve the above object.
- the first aspect of the present disclosure is based on the result of collating the feature amount of the user's captured image and the feature amount of the user's reference image with the feature amount of the user's captured image and the feature amount of the user's reference image.
- a determination unit that determines whether to enable or disable the correction processing for the user's captured image, a correction unit that generates a correction image for the user's captured image when it is determined to enable the correction processing, and a correction.
- a corrected image is output, and when it is determined that the correction processing is invalidated, an output unit that outputs an uncorrected captured image of the user is provided.
- the "reference image” is, for example, an image in which the user's appearance is in order.
- the image processing device can determine whether or not to correct the captured image based on the result of collating the captured image of the user with the reference image. Since the image processing device automatically corrects the captured image according to the determination of whether or not to make correction, the user may be concerned about the state of appearance or perform special operations for instructing the correction of the image. You can make video calls without having to.
- the feature amount may be a feature amount of a part where changes can be easily captured on the user's face.
- the feature amount may include at least one of the Haar-like feature amount, the color histogram, and the color moment. Further, the feature amount may be calculated by an algorithm using a learning model in which an image in a well-dressed state and an image in a non-dressed state are trained. The image processing apparatus can determine whether or not the correction processing is enabled by using various feature quantities or a combination of these feature quantities.
- the determination unit calculates the degree of matching between the feature amount of the captured image of the user and the feature amount of the reference image of the user, enables the correction process when the matching degree is less than a predetermined threshold value, and determines the matching degree. If it is equal to or more than the threshold value, it may be determined that the correction process is invalidated.
- the image processing device can determine whether or not to correct the captured image based on the degree of matching between the captured image of the user and the reference image, and can automatically correct the captured image. This allows the user to engage in a video call without having to worry about their appearance or performing any special operation to instruct image correction.
- the correction unit may change the correction amount for the captured image of the user according to the degree of agreement. By changing the correction amount according to the degree of matching between the captured image and the registered image, the user can suppress unnecessary correction when the appearance is adjusted to some extent.
- the correction unit may generate a correction image based on the captured image of the user and the reference image of the user.
- the correction unit may generate a correction image by a GAN (Generative Adversarial Network, a hostile generation network) that has learned a user's captured image and a user's reference image.
- the correction unit may generate a correction image by cutting out a part or the entire face of the user's reference image and replacing the corresponding portion of the user's captured image with the cut out image.
- the image processing apparatus can generate the corrected image closer to the reference image.
- the correction unit may generate a correction image by performing a filter process for removing noise based on facial feature information or a saturation adjustment on the captured image of the user. Since the image processing device can generate a corrected image based on various facial feature information without using a reference image, the user can save the trouble of preparing the reference image.
- the determination unit may determine whether to enable or disable the correction process for each predetermined number of frames of the captured image of the user. Since the image processing device can correct the captured image even if the makeup such as lipstick is removed during the video call, the user can continue the call without worrying about the appearance of the user.
- the image processing device may further include an imaging unit that captures an image captured by the user.
- the image processing device can be configured in a simple manner by being integrally configured with the image pickup unit.
- the second aspect of the present invention is based on the result of collating the feature amount of the user's captured image and the feature amount of the user's reference image with the feature amount of the user's captured image and the feature amount of the user's reference image.
- a determination step for determining whether to enable or disable the correction process for the user's captured image a correction step for generating a corrected image for the user's captured image when it is determined to enable the correction process, and a correction.
- a corrected image is output, and when it is determined that the correction processing is invalidated, an output step of outputting an uncorrected captured image of the user is included.
- FIG. 1 is a diagram illustrating an application example of the image processing apparatus according to the embodiment.
- FIG. 2 is a diagram illustrating the functional configuration of the image processing device.
- FIG. 3 is a flowchart illustrating the image correction process.
- 4A and 4B are diagrams showing a first example of extracting facial features.
- 5A and 5B are diagrams showing a second example of extracting facial features.
- FIG. 6 is a diagram showing an example of correction processing of a captured image.
- FIG. 1 is a diagram illustrating an application example of the image processing apparatus according to the embodiment.
- the image processing device acquires a camera image (captured image) input from the camera and a registered image (reference image) registered in advance in the DB (database), and extracts features from each image.
- the registered image is, for example, an image in a state in which the appearance of the user is in order, and is a reference image for determining whether or not to correct the captured image.
- the image processing device collates the feature amounts of the camera image and the registered image and evaluates the degree of matching.
- the degree of matching is equal to or higher than a predetermined threshold value
- the image processing device determines that the user is well dressed and invalidates the correction processing for the camera image.
- the degree of matching is less than a predetermined threshold value
- the image processing apparatus determines that the user is not well dressed and enables the correction process. In this way, the image processing device determines whether to enable or disable the correction processing for the camera image based on the result of collating the feature amount of the camera image with the feature amount of the registered image.
- the image processing device corrects the user's camera image to generate a display image (corrected image), and sends it to another computer used by the other party for the call to display it. Further, the corrected image may be displayed on the display of the image processing device.
- the display image can be generated based on the registered image in a state in which the user is well dressed. As a result, when the user is not well dressed, the corrected image is displayed without any special operation, so that the user can engage in a video call without worrying about the groomed state.
- FIG. 2 is a diagram illustrating the functional configuration of the image processing device 1.
- the image processing device 1 includes an imaging unit 10, a registered image database 11, a feature extraction unit 12, a correction determination unit 13, a correction processing unit 14, and an output unit 15.
- the image pickup unit 10 captures a user who is a caller.
- the registered image database 11 stores a registered image (reference image) as a reference for determining whether or not to correct the captured image of the user.
- the registered image database 11 may store a plurality of registered images for each user.
- the registered image can be, for example, an captured image when the user makes a call for the first time on the image processing device 1. Further, the registered image may be an image selected by the user while checking the image displayed on the display device.
- the registered image database 11 is not limited to the registered image of the user, and may hold information on the feature amount in a well-dressed state.
- the feature extraction unit 12 extracts the feature amount from the captured image and the registered image of the user.
- the feature amount is, for example, a Haar-like feature amount, a color histogram, and a color moment. Further, the feature extraction unit 12 may use these combinations as feature quantities for determining whether to enable or disable the correction process.
- the correction determination unit 13 determines whether or not to enable the correction process for the captured image based on the feature amount extracted by the feature extraction unit 12. Specifically, the correction determination unit 13 collates the feature amount of the captured image of the user with the feature amount of the registered image of the user, and calculates the degree of agreement.
- the correction determination unit 13 calculates the Haar-like feature amount around the boundary between the eyebrows and the skin on the forehead side for each of the captured image and the registered image, and "(feature amount of registered image-difference between each feature amount". ) / Feature amount of registered image ”can be calculated as the degree of matching.
- the correction determination unit 13 may calculate Haar-like feature amounts at a plurality of sites in addition to the boundary between the eyebrows and the skin on the forehead side, and may use the average value of these features as the degree of coincidence.
- the correction determination unit 13 determines that the correction process for the captured image of the user is invalid when the match degree is equal to or higher than a predetermined threshold value (for example, 80%), and the correction process is performed when the match degree is less than the predetermined threshold value. Can be determined to be valid.
- a predetermined threshold value for example, 80%
- the correction processing unit 14 corrects the captured image of the user when the correction determination unit 13 determines that the correction processing is valid.
- the correction processing unit 14 can generate a correction image by, for example, a GAN (Generative Adversarial Network) trained with a well-dressed image and an unprepared image of the user. Further, the correction processing unit 14 can also generate a correction image by cutting out a part of the registered image or the entire face, replacing the corresponding portion of the captured image of the user with the cut out image, and synthesizing the image. .. Further, the correction processing unit 14 can also generate a correction image by performing filter processing or saturation adjustment for removing noise from the captured image of the user.
- GAN Generic Adversarial Network
- the output unit 15 outputs an image of the user who is the caller.
- the video output by the output unit 15 is transmitted to another computer. Further, the video output by the output unit 15 may be displayed on the display device of the image processing device 1.
- the output unit 15 determines that the correction processing for the user's captured image is valid, the output unit 15 outputs the corrected user's captured image (corrected image) and determines that the correction processing is invalidated. Outputs the captured image of the user without correction.
- the correction determination unit 13 determines that the correction process is enabled, the output unit 15 transmits the corrected image of the user to an electronic device such as a tablet terminal used by the other party for the call and displays the image.
- the image processing device 1 of the present embodiment may be a general-purpose computer such as a personal computer, a server computer, a tablet terminal, or a smartphone, or may be an embedded computer such as an onboard computer.
- the image processing device 1 includes a CPU (processor), a RAM (memory), a non-volatile storage (HDD, SSD, etc.), an input device (touch panel, etc.), and a communication device (wired or wireless LAN module, etc.).
- the image processing device 1 also has hardware resources such as an image pickup device including a lens and an image pickup element (image sensor such as a CCD or CMOS) and a display device (liquid crystal monitor or the like).
- the processor realizes the functions of each functional unit described in FIG. 2 by expanding the program stored in the storage into RAM and executing it.
- the method of realizing the image processing device 1 is not limited to this.
- the image processing device 1 may be realized by, for example, distributed computing by a plurality of computer devices, or a part of each functional unit may be realized by a cloud server. Further, a part of each functional unit of the image processing device 1 may be realized by a dedicated hardware device such as FPGA or ASIC.
- FIG. 3 is a flowchart illustrating the image correction process.
- the image correction process is started, for example, by the user starting an application used for a telephone call on the image processing device 1.
- the image correction process shown in FIG. 3 is a process executed for each frame of the camera image (captured image).
- the feature extraction unit 12 acquires the user's camera image captured by the image pickup unit 10.
- the feature extraction unit 12 proceeds to the process of S102 for each frame of the camera image.
- the camera image will be described as an image of one frame of data received from the image pickup unit 10.
- the feature extraction unit 12 determines whether or not the camera image is an image at the timing for evaluating the feature amount.
- the timing for evaluating the feature amount can be, for example, the timing at which the feature extraction unit 12 first recognizes a human face in each frame.
- the timing for evaluating the feature amount is not limited to the timing when the human face is first recognized, and is predetermined every predetermined number of frames (for example, 30 frames) or every predetermined time (for example, 5 minutes). It may be an interval.
- the process proceeds to S103. If the camera image is not an image at the timing for evaluating the feature amount (S102: No), the process proceeds to S108.
- the feature extraction unit 12 extracts the feature amount of the camera image. Further, the registered image of the user is acquired from the registered image database 11, and the feature amount of the registered image is extracted. Here, the extraction of the feature amount will be described with reference to FIGS. 4 and 5.
- FIG. 4 is a diagram showing a first example of extracting facial features.
- the example of FIG. 4 is an example of selecting a user-specific feature point that does not easily change over time and extracting a Haar-like feature amount around the feature point.
- the circles shown in the camera image of FIG. 4A and the registered image of FIG. 4B indicate user-specific feature points that are unlikely to change over time.
- FIG. 4A shows the result of calculating the Haar-like feature amount in the area around the user's left eye together with the camera image.
- FIG. 4A shows an example in which Haar-like features are calculated using a rectangular pattern that identifies edges (a filter that is divided into two parts vertically or horizontally, one of which is white and the other of which is black).
- the calculated Haar-like feature amount is represented by a light and shade rectangle corresponding to the calculated value.
- the Haar-like feature at the outer corner of the left eye of the user 401a is shown in gray 401b.
- FIG. 4B shows the result of calculating the Haar-like feature amount in the area around the user's left eye together with the registered image. It is assumed that the Haar-like feature amount is calculated in the same manner as in FIG. 4A.
- the calculated Haar-like feature amount is represented by a light and shade rectangle corresponding to the calculated value.
- the Haar-like feature at the outer corner of the eye 402a of the user's left eye is shown in a darker gray 402b than 401b in FIG. 4A.
- the Haar-like feature amount is larger than that of the camera image due to the difference in shade due to make-up such as eyeline, so that 402b is darker than 401b.
- the degree of matching between the camera image and the registered image can be calculated, for example, based on the degree of matching of the Haar-like feature amount at each of the feature points indicated by the circles.
- the degree of matching between the camera image and the registered image may be the total value or the average value of the degree of matching at each feature point.
- the degree of agreement at each feature point is, for example, (X-
- the correction determination unit 13 can calculate a score indicating whether or not the person is the person by the face authentication algorithm and use it as the degree of matching between the camera image and the registered image.
- FIG. 5 is a diagram showing a second example of extracting facial feature amounts.
- the example of FIG. 5 is an example of selecting feature points that can easily capture changes among the same users and extracting Haar-like feature amounts around the feature points.
- the circles shown in the camera image of FIG. 5A and the registered image of FIG. 5B indicate feature points where changes can be easily captured among the same users.
- FIG. 5A shows the result of calculating the Haar-like feature amount in the area around the left cheek of the user together with the camera image.
- FIG. 5A shows an example in which Haar-like features are calculated using a rectangular pattern that identifies edges (a filter that is divided into two parts vertically or horizontally, one of which is white and the other of which is black).
- the calculated Haar-like feature amount is represented by a light and shade rectangle corresponding to the calculated value.
- the Haar-like feature at the center 501a of the user's left cheek is indicated by white 501b.
- FIG. 5B shows the result of calculating the Haar-like feature amount in the area around the left cheek of the user together with the registered image. It is assumed that the Haar-like feature amount is calculated in the same manner as in FIG. 5A.
- the calculated Haar-like feature amount is represented by a light and shade rectangle corresponding to the calculated value.
- the Haar-like feature at the center 502a of the user's left cheek is shown in gray 502b.
- the Haar-like feature amount is larger than that of the camera image due to the difference in shade due to make-up such as blusher, so that 502b is darker than 401b.
- the degree of matching between the camera image and the registered image is, for example, the degree of matching of the Haar-like feature amount at each of the feature points indicated by the circles, in the first aspect of FIG. It can be calculated in the same way as the example.
- the feature amount extracted at the part where the color changes before and after grooming, such as a woman's cheek or a man's beard is not limited to the Haar-like feature amount, but is a feature amount such as a color histogram, a color moment, or the like. It may be a feature quantity that combines these.
- the correction determination unit 13 can accurately determine whether or not the appearance is in order.
- the characteristic points that make it easy to detect changes among the same users may be selected from the parts such as the eyebrows, the outer corners of the eyes, the cheeks, and the mouth in the case of females, and the parts around the mouth where beards grow in the case of males.
- the learning model used in the third example is, for example, a model generated by training a CNN to learn a well-dressed image and an undressed image.
- the image to be trained by the CNN may be an image other than the user himself / herself, or may include an image of the user himself / herself.
- the feature extraction unit 12 uses the generated learning model to extract the scores of the registered image (image with a well-groomed appearance) and the camera image as the feature amount by the algorithm of CNN.
- the correction determination unit 13 determines whether to enable or disable the correction process for the camera image based on the degree of matching between the score of the registered image and the score of the camera image. can.
- the correction determination unit 13 collates the feature amount of the camera image extracted in S103 with the feature amount of the registered image. Specifically, the correction determination unit 13 calculates the degree of matching between the camera image and the registered image based on the feature amount of the camera image and the feature amount of the registered image. The degree of matching between the camera image and the registered image is calculated by a method according to the type of feature amount extracted from each image, as described in the first to third examples above.
- the correction determination unit 13 determines whether or not the degree of matching between the camera image calculated in S104 and the registered image is equal to or greater than a predetermined threshold value. When the degree of coincidence is equal to or higher than a predetermined threshold value (S105: Yes), the process proceeds to S107. If the degree of coincidence is less than a predetermined threshold value (S105: No), the process proceeds to S106.
- the correction determination unit 13 sets the correction flag to ON to enable the correction processing of the camera image.
- the correction determination unit 13 sets the correction flag to OFF to invalidate the correction process of the camera image.
- the correction flag is a flag for determining whether or not the correction processing unit 14 executes correction processing for the captured image of the user.
- the correction flag is set to on in S106, the correction process is valid until the correction flag is set to off in S107 for the subsequent frame.
- the timing for evaluating the feature amount is only at the beginning of the call, when the correction flag is first set to ON, the correction processing unit 14 continues the correction processing of the camera image until the end of the call.
- the correction process is invalid until the correction flag is set to on in S106 for the subsequent frame. If the feature amount is evaluated only at the beginning of the call and the correction flag is set to off first, the camera image is displayed on the display device without being corrected.
- the correction flag is set to ON in S106, the correction processing of the camera image is effective until the next timing for evaluating the feature amount. It becomes. On the contrary, when the correction flag is set to off in S107, the correction process of the camera image is invalidated until the next timing for evaluating the feature amount, and the camera image is displayed on the display device without being corrected.
- the correction processing unit 14 determines whether or not the correction flag is ON. If the correction flag is on (S108: Yes), the process proceeds to S109. When the correction flag is off (S108: No), the correction processing unit 14 outputs the camera image to the output unit 15 without correcting it, and the processing proceeds to S110.
- the correction processing unit 14 corrects the user's camera image and generates a corrected image.
- the correction processing unit 14 describes three methods for generating a corrected image.
- the first and second methods are methods of generating a corrected image based on a camera image and a registered image.
- the third method is a method of generating a corrected image by correcting the camera image based on the facial feature information prepared in advance.
- the first method is to generate a corrected image by GAN that trains an image that is well-dressed and an image that is not well-groomed by the user.
- the GAN can train a camera image when the correction flag is off as data of a well-dressed image.
- the GAN can learn the camera image when the correction flag is on as the data of the image that is not well-groomed.
- the correction processing unit 14 can generate a well-dressed correction image by the learned GAN.
- the second method is to cut out a part or the whole face of the user's registered image and replace the corresponding part of the user's captured image with the image cut out from the registered image to generate a corrected image.
- the second method will be specifically described with reference to FIG.
- the correction processing unit 14 cuts out an image of the eyebrows, eyes, and mouth of the registered image.
- the correction processing unit 14 can generate a correction image by replacing the eyebrows, eyes, and mouth in the camera image with the images of the eyebrows, eyes, and mouth cut out from the registered image.
- the correction amount (here, the ratio of synthesizing) is changed according to the degree of matching between the camera image and the registered image. You may let me.
- the correction processing unit 14 may reduce the correction amount as the degree of matching increases, and increase the correction amount as the degree of matching decreases.
- the user may be able to set whether to cut out and replace the entire face of the registered image or to cut out and replace a part of the registered image. Further, when a part of the registered image is cut out, the user may be able to set which part of the face is cut out and replaced.
- the third method is to generate a corrected image by correcting the camera image based on the facial feature information stored in advance in the registered image database 11 or the like without using the registered image.
- the facial feature information is, for example, information such as eyebrows, mouth, cheeks, skin color or brightness when makeup is applied.
- a plurality of patterns of facial feature information may be prepared according to a video call scene such as for work or private use. The user can save the trouble of preparing the registered image according to the scene of the video call.
- the correction processing unit 14 removes the spots on the cheeks in the camera image by a filter processing for removing noise. Further, the correction processing unit 14 can generate a correction image (display image) by adjusting the saturation of the eyebrows, mouth, cheeks, and skin based on the facial feature information. When performing filter processing or saturation adjustment, the correction amount may be changed according to the degree of matching between the camera image and the registered image.
- the output unit 15 outputs the video output from the correction processing unit 14. That is, when the correction flag is set to ON, the output unit 15 outputs the corrected image generated by the correction processing unit 14. Further, when the correction flag is set to off, the output unit 15 outputs the camera image of the user who has not been corrected.
- the video output by the output unit 15 is transmitted to another computer and displayed. Further, the video output by the output unit 15 is displayed on the display device.
- the image processing device 1 repeats the above processing for each frame until the user ends the call.
- the camera image is not acquired in S101, and the image correction process shown in FIG. 3 ends.
- the image processing device 1 acquires a camera image (captured image) and a registered image in which the appearance is well-organized, extracts a feature amount from each image, and evaluates the degree of matching. If the degree of matching is equal to or higher than a predetermined threshold value, the image processing device 1 determines that the appearance is in order and invalidates the correction processing. Further, if the degree of matching is less than a predetermined threshold value, the image processing device 1 determines that the appearance is not in order and enables the correction processing. As a result, the caller (user) can engage in a video call without worrying about the state of appearance or performing a special operation for instructing image correction.
- the correction determination unit 13 collates the feature amounts of the camera image and the registered image and evaluates the degree of matching, but the present invention is not limited to this.
- the correction determination unit 13 evaluates the difference between the feature amount of the camera image and the feature amount of the registered image, enables the correction process when the difference is equal to or more than a predetermined threshold value, and corrects when the difference is less than the predetermined threshold value.
- the process may be disabled.
- the correction determination unit 13 invalidates the correction process when the degree of matching between the camera image and the image in a well-dressed state is equal to or higher than a predetermined threshold value, but the present invention is limited to this. do not have.
- An image in a state where the appearance is not prepared may be stored in the registered image database 11 as a reference image of the user.
- the correction determination unit 13 invalidates the correction process when the degree of matching between the camera image and the undressed image is less than a predetermined threshold value, and the correction process when the degree of matching is equal to or more than a predetermined threshold value. May be enabled.
- an image processing apparatus comprising the above.
- Image processing device 10: Image pickup unit, 11: Registered image database, 12: Feature extraction unit, 13: Correction determination unit, 14: Correction processing unit, 15: Output unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephone Function (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
画像処理装置は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出部と、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正部と、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力部と、を備える。
Description
本発明は、画像処理装置および画像処理方法に関する。
近年、リモートワークを導入する企業が増加し、オンライン会議またはビデオ通話の機会が増えてきている。オンライン会議またはビデオ通話の際、通話者の表情を確認するためには、映像を有効にすることが望ましい。映像を有効にする場合、通話者は、女性であれば化粧、男性であれば髭剃り等、通話に適した身だしなみに整えるために手間がかかる。これに対し、ビデオ通話のための映像を、通話に適した状態に補正する技術が提案されている。例えば、特許文献1は、画像データを伴うデータ通信において、瞬きの回数または眼球の充血度により使用者の疲労度を判定し、一定以上の疲労度の場合は予め取り込んでいた画像と合成する技術を開示する。また、特許文献2は、ユーザが事前に決定した「相手に見せてもよい映像」から、映像通信に利用する映像を選択または加工して出力する技術を開示する。
ビデオ通話のための映像は、通話者の疲労度を判定するだけでは、身だしなみが整った状態であるにもかかわらず、不要な補正がされる可能性がある。また、通信用の映像を、相手に見せてもよい映像から常時選択または加工する場合、通信用の映像は、身だしなみが整っているか否かに関わらず補正される可能性がある。さらに、相手に見せてもよい映像をユーザが事前に決定しておくことは、手間がかかる場合があり、使い勝手が最適とは言えない。
本発明は、一側面では、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正する技術を提供することを目的とする。
本発明は、上記目的を達成するために、以下の構成を採用する。
本開示の第一側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出部と、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正部と、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力部と、を備えることを特徴とする画像処理装置を提供する。
「基準画像」は、例えば、ユーザの身だしなみが整った状態の画像である。画像処理装置は、ユーザの撮像画像と基準画像とを照合した結果に基づいて、撮像画像を補正するか否かを判定することができる。画像処理装置は、補正をするか否かの判定に応じて自動で撮像画像を補正するため、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
特徴量は、ユーザの顔で変化を捉えやすい部位の特徴量であってもよい。撮像画像および基準画像から、ユーザの顔で変化を捉えやすい部位の特徴量を抽出することで、画像処理装置は、同一のユーザ間で照合した場合に、撮像画像の身だしなみが整っているか否か、すなわち、補正処理を無効にするか否かを精度良く判定することができる。
特徴量は、Haar-like特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含むものであってもよい。また、特徴量は、身だしなみが整った状態の画像および身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出されてもよい。画像処理装置は、各種の特徴量またはこれらの組み合わせた特徴量を使用して補正処理を有効にするか否かを判定することができる。
判定部は、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量との一致度を算出して、一致度が所定の閾値未満である場合に補正処理を有効にし、一致度が所定の閾値以上である場合に補正処理を無効にすると判定してもよい。画像処理装置は、ユーザの撮像画像と基準画像との一致度に基づいて、撮像画像を補正するか否かを判定し、自動で撮像画像を補正することができる。これにより、ユーザは、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
補正部は、一致度に応じてユーザの撮像画像に対する補正量を変化させてもよい。撮像画像と登録画像との一致度に応じて補正量を変化させることで、ユーザは、身だしなみがある程度整っている場合には、不要な補正を抑制することができる。
補正部は、ユーザの撮像画像およびユーザの基準画像に基づいて、補正画像を生成してもよい。例えば、補正部は、ユーザの撮像画像およびユーザの基準画像を学習させたGAN(Generative Adversarial Network、敵対的生成ネットワーク)により、補正画像を生成してもよい。また、補正部は、ユーザの基準画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を切り出した画像で置き換えることにより、補正画像を生成してもよい。ユーザの撮像画像および基準画像に基づいて補正画像を生成することで、画像処理装置は、基準画像により近い補正画像を生成することができる。
補正部は、ユーザの撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより補正画像を生成してもよい。画像処理装置は、各種の顔の特徴情報に基づいて、基準画像を使用せずに補正画像を生成することができるため、ユーザは、基準画像を用意する手間を省くことができる。
判定部は、補正処理を有効にするか無効にするかを、ユーザの撮像画像の所定のフレーム数ごとに判定してもよい。画像処理装置は、ビデオ通話中に口紅などの化粧が落ちた場合にも撮像画像を補正することができるため、ユーザは、身だしなみの崩れを気にすることなく通話を継続できる。
画像処理装置は、ユーザの撮像画像を撮像する撮像部を、さらに備えてもよい。画像処理装置は、撮像部と一体に構成されることにより、簡易な構成とすることができる。
本発明の第二側面は、ユーザの撮像画像およびユーザの基準画像の特徴量を抽出する抽出ステップと、ユーザの撮像画像の特徴量とユーザの基準画像の特徴量とを照合した結果に基づいて、ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、補正処理を有効にすると判定した場合に、ユーザの撮像画像の補正画像を生成する補正ステップと、補正処理を有効にすると判定された場合は、補正画像を出力し、補正処理を無効にすると判定された場合は、補正されていないユーザの撮像画像を出力する出力ステップと、を含むことを特徴とする人体検出方法を提供する。
本発明によれば、ビデオ通話の通話者の身だしなみが整っていない場合に、通話者の撮像画像を補正することができる。
以下、本発明の一側面に係る実施の形態を、図面に基づいて説明する。
<適用例>
図1は、実施形態に係る画像処理装置の適用例を説明する図である。画像処理装置は、カメラから入力されるカメラ画像(撮像画像)と、予めDB(データベース)に登録されている登録画像(基準画像)とを取得し、各画像から特徴を抽出する。登録画像は、例えば、ユーザの身だしなみが整った状態の画像であり、撮像画像を補正するか否かを判定するための基準となる画像である。
図1は、実施形態に係る画像処理装置の適用例を説明する図である。画像処理装置は、カメラから入力されるカメラ画像(撮像画像)と、予めDB(データベース)に登録されている登録画像(基準画像)とを取得し、各画像から特徴を抽出する。登録画像は、例えば、ユーザの身だしなみが整った状態の画像であり、撮像画像を補正するか否かを判定するための基準となる画像である。
画像処理装置は、カメラ画像と登録画像との特徴量を照合し、一致度を評価する。一致度が所定の閾値以上である場合、画像処理装置は、ユーザの身だしなみが整っていると判断し、カメラ画像に対する補正処理を無効にする。一致度が所定の閾値未満である場合、画像処理装置は、ユーザの身だしなみが整っていないと判断して補正処理を有効にする。このように、画像処理装置は、カメラ画像の特徴量と登録画像の特徴量とを照合した結果に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定する。
画像処理装置は、補正処理を有効にした場合、ユーザのカメラ画像を補正して表示画像(補正画像)を生成し、通話相手が通話に使用する他のコンピュータに送信して表示させる。また、補正画像は画像処理装置のディスプレイに表示されてもよい。表示画像は、ユーザの身だしなみが整った状態の登録画像に基づいて生成することができる。これにより、ユーザは、身だしなみが整っていない場合に、特別な操作をしなくても補正された画像が表示されるため、身だしなみの状態を気にすることなく、ビデオ通話に臨むことができる。
<実施形態>
(装置構成)
図2を参照して、画像処理装置1の機能構成の一例について説明する。図2は、画像処理装置1の機能構成を例示する図である。画像処理装置1は、撮像部10、登録画像データベース11、特徴抽出部12、補正判定部13、補正処理部14、出力部15を含む。
(装置構成)
図2を参照して、画像処理装置1の機能構成の一例について説明する。図2は、画像処理装置1の機能構成を例示する図である。画像処理装置1は、撮像部10、登録画像データベース11、特徴抽出部12、補正判定部13、補正処理部14、出力部15を含む。
撮像部10は、通話者であるユーザを撮像する。登録画像データベース11は、ユーザの撮像画像を補正するか否かを判定するための基準となる登録画像(基準画像)を格納する。登録画像データベース11は、各ユーザに対し、複数の登録画像を格納してもよい。登録画像は、例えば、ユーザが画像処理装置1で初めて通話した際の撮像画像とすることができる。また、登録画像は、ユーザが表示装置に表示された画像を確認しながら選択した画像としてもよい。なお、登録画像データベース11は、ユーザの登録画像に限られず、身だしなみが整った状態での特徴量の情報を保持するものであってもよい。
特徴抽出部12(抽出部)は、ユーザの撮像画像および登録画像から特徴量を抽出する。特徴量は、例えば、Haar-like特徴量、カラーヒストグラム、カラーモーメントである。また、特徴抽出部12は、これらの組み合わせを、補正処理を有効にするか無効にするかを判定するための特徴量としてもよい。
補正判定部13(判定部)は、特徴抽出部12が抽出した特徴量に基づいて、撮像画像に対する補正処理を有効にするか否かを判定する。具体的には、補正判定部13は、ユーザの撮像画像の特徴量と、ユーザの登録画像の特徴量とを照合し、一致度を算出する。
例えば、補正判定部13は、眉と額側の肌との境界周辺のHaar-like特徴量を、撮像画像および登録画像のそれぞれで算出し、「(登録画像の特徴量-各特徴量の差分)/登録画像の特徴量」を一致度として算出することができる。補正判定部13は、眉と額側の肌との境界以外にも、複数部位でHaar-like特徴量を算出し、これらの平均値を一致度としてもよい。
補正判定部13は、一致度が所定の閾値(例えば、80%)以上である場合、ユーザの撮像画像に対する補正処理を無効にすると判定し、一致度が所定の閾値未満である場合、補正処理を有効にすると判定することができる。
補正処理部14(補正部)は、補正判定部13が補正処理を有効にすると判定した場合に、ユーザの撮像画像を補正する。補正処理部14は、例えば、ユーザの身だしなみが整った画像および整っていない画像を学習させたGAN(Generative Adversarial Network)により、補正画像を生成することができる。また、補正処理部14は、登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、切り出した画像で置き換えて合成することにより、補正画像を生成することも可能である。さらに、補正処理部14は、ユーザの撮像画像に対してノイズを除去するフィルタ処理または彩度調整をすることにより、補正画像を生成することも可能である。
出力部15は、通話者であるユーザの画像を出力する。出力部15が出力した映像は、他のコンピュータに送信される。また、出力部15が出力した映像は、画像処理装置1の表示装置に表示されてもよい。出力部15は、補正判定部13がユーザの撮像画像に対する補正処理を有効にすると判定した場合は、補正後のユーザの撮像画像(補正画像)を出力し、補正処理を無効にすると判定した場合は、ユーザの撮像画像を補正せずに出力する。補正判定部13が補正処理を有効にすると判定した場合、出力部15は、通話相手が通話に使用するタブレット端末等の電子機器に、補正後のユーザの撮像画像を送信して表示させる。
本実施形態の画像処理装置1は、パーソナルコンピュータ、サーバコンピュータ、タブレット端末、スマートフォンのような汎用的なコンピュータでもよく、オンボードコンピュータのように組み込み型のコンピュータでもよい。画像処理装置1は、CPU(プロセッサ)、RAM(メモリ)、不揮発性のストレージ(HDD、SSDなど)、入力装置(タッチパネルなど)、通信装置(有線又は無線のLANモジュールなど)を有する。また、画像処理装置1は、レンズおよび撮像素子(CCDやCMOSなどのイメージセンサ)を含む撮像装置、表示装置(液晶モニタなど)などのハードウェア資源も有する。
プロセッサは、ストレージに格納されたプログラムをRAMに展開して実行することにより、図2で説明する各機能部の機能を実現する。なお、画像処理装置1の実現方法はこれに限られない。画像処理装置1は、例えば、複数台のコンピュータ装置による分散コンピューティングにより実現されてもよく、各機能部の一部をクラウドサーバにより実現されてもよい。また、画像処理装置1の各機能部の一部は、FPGAまたはASICなどの専用のハードウェア装置によって実現されてもよい。
(画像補正処理)
図3に沿って画像補正処理の全体的な流れを説明する。図3は、画像補正処理を例示するフローチャートである。画像補正処理は、例えば、ユーザが、画像処理装置1で通話に使用するアプリケーションを起動することにより開始される。なお、図3に示す画像補正処理は、カメラ画像(撮像画像)のフレームごとに実行される処理である。
図3に沿って画像補正処理の全体的な流れを説明する。図3は、画像補正処理を例示するフローチャートである。画像補正処理は、例えば、ユーザが、画像処理装置1で通話に使用するアプリケーションを起動することにより開始される。なお、図3に示す画像補正処理は、カメラ画像(撮像画像)のフレームごとに実行される処理である。
S101では、特徴抽出部12は、撮像部10で撮像されたユーザのカメラ画像を取得する。特徴抽出部12は、カメラ画像の1フレームごとにS102の処理に進む。以下、各処理の説明で、カメラ画像は、撮像部10から受信するデータの1フレームの画像であるものとして説明する。
S102では、特徴抽出部12は、カメラ画像が、特徴量を評価するタイミングの画像であるか否かを判定する。特徴量を評価するタイミングは、例えば、特徴抽出部12が、各フレームのうち最初に人の顔を認識したタイミングとすることができる。なお、特徴量を評価するタイミングは、最初に人の顔を認識したタイミングに限られず、所定のフレーム数(例えば、30フレーム)ごと、または所定時間(例えば、5分)ごとのように所定の間隔としてもよい。カメラ画像が、特徴量を評価するタイミングの画像である場合(S102:Yes)、処理はS103に進む。カメラ画像が、特徴量を評価するタイミングの画像でない場合(S102:No)、処理はS108に進む。
S103では、特徴抽出部12は、カメラ画像の特徴量を抽出する。また、登録画像データベース11からユーザの登録画像を取得し、登録画像の特徴量を抽出する。ここで、図4および図5を用いて、特徴量の抽出について説明する。
・特徴量抽出の第1の例
図4は、顔の特徴量を抽出する第1の例を示す図である。図4の例は、ユーザ固有の経年変化しにくい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。図4Aのカメラ画像および図4Bの登録画像に示す丸印は、ユーザ固有の経年変化しにくい特徴点を示す。
図4は、顔の特徴量を抽出する第1の例を示す図である。図4の例は、ユーザ固有の経年変化しにくい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。図4Aのカメラ画像および図4Bの登録画像に示す丸印は、ユーザ固有の経年変化しにくい特徴点を示す。
図4Aは、カメラ画像とともに、ユーザの左目周辺の領域でHaar-like特徴量を算出した結果を示す。図4Aは、エッジを識別する矩形パターン(上下または左右に2分割をして一方が白、他方が黒のフィルタ)等を使用してHaar-like特徴量を算出した例を示す。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻401aでのHaar-like特徴量は、グレー401bで示される。
図4Bは、登録画像とともに、ユーザの左目周辺の領域でHaar-like特徴量を算出した結果を示す。Haar-like特徴量は、図4Aと同様に算出されたものとする。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左目の目尻402aでのHaar-like特徴量は、図4Aの401bよりも濃いグレー402bで示される。このように、登録画像では、アイライン等のメイクアップによる濃淡差により、カメラ画像よりもHaar-like特徴量が大きくなるため、402bは401bよりも濃くなる。
図4に示す第1の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるHaar-like特徴量の一致度に基づいて算出することができる。カメラ画像と登録画像との一致度は、各特徴点での一致度の合計値または平均値としてもよい。各特徴点での一致度は、例えば、(X-|X-Y|)/X(ただし、X:登録画像の特徴点でのHaar-like特徴量、Y:カメラ画像の対応する特徴点でのHaar-like特徴量)として算出することができる。
なお、ユーザ固有の経年変化しにくい特徴点で特徴量を照合する方法は、顔認証のアルゴリズムを用いて実現することも可能である。補正判定部13は、S104およびS105の判定処理で、顔認証アルゴリズムによって本人であるか否かを示すスコアを算出し、カメラ画像と登録画像との一致度として使用することができる。
・特徴量抽出の第2の例
図5は、顔の特徴量を抽出する第2の例を示す図である。図5の例は、同一ユーザ間で変化を捉えやすい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。図5Aのカメラ画像および図5Bの登録画像に示す丸印は、同一ユーザ間で変化を捉えやすい特徴点を示す。
図5は、顔の特徴量を抽出する第2の例を示す図である。図5の例は、同一ユーザ間で変化を捉えやすい特徴点を選択し、特徴点の周辺でHaar-like特徴量を抽出する例である。図5Aのカメラ画像および図5Bの登録画像に示す丸印は、同一ユーザ間で変化を捉えやすい特徴点を示す。
図5Aは、カメラ画像とともに、ユーザの左頬周辺の領域でHaar-like特徴量を算出した結果を示す。図5Aは、エッジを識別する矩形パターン(上下または左右に2分割をして一方が白、他方が黒のフィルタ)等を使用してHaar-like特徴量を算出した例を示す。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央501aでのHaar-like特徴量は、白501bで示される。
図5Bは、登録画像とともに、ユーザの左頬周辺の領域でHaar-like特徴量を算出した結果を示す。Haar-like特徴量は、図5Aと同様に算出されたものとする。算出されたHaar-like特徴量は、算出された値に応じた濃淡の矩形により表されている。ユーザの左頬の中央502aでのHaar-like特徴量は、グレー502bで示される。このように、登録画像では、頬紅等のメイクアップによる濃淡差により、カメラ画像よりもHaar-like特徴量が大きくなるため、502bは401bよりも濃くなる。
図5に示す第2の例では、カメラ画像と登録画像との一致度は、例えば、丸印で示す特徴点のそれぞれにおけるHaar-like特徴量の一致度に基づいて、図4の第1の例と同様に算出することができる。なお、女性の頬または男性の髭のように、身だしなみを整える前後で色が変化する部位で抽出する特徴量は、Haar-like特徴量に限られず、カラーヒストグラム、カラーモーメント等の特徴量、またはこれらを組み合わせた特徴量であってもよい。
第2の例では、同一ユーザ間で変化を捉えやすい特徴点での特徴量を照合するため、補正判定部13は、身だしなみが整っているか否かを精度良く判定することができる。同一ユーザ間で変化を捉えやすい特徴点は、女性の場合は、眉、目尻、頬、口等の部位、男性の場合は、髭が生える口周り等の部位から選択すればよい。男女の性別によって照合する特徴点の部位を変えることで、身だしなみが整っているか否かは、より精度良く判定することが可能となる。
・特徴量抽出の第3の例
顔の特徴量を抽出する第3の例として、CNN(Convolution Neural Network)等のディープラーニングにより生成された学習モデルを使用する例について説明する。第3の例で使用する学習モデルは、例えば、CNNに、身だしなみが整っている画像および身だしなみが整っていない画像を学習させて生成したモデルである。CNNに学習させる画像は、ユーザ本人以外の画像であってもよく、ユーザ本人の画像を含んでもよい。特徴抽出部12は、生成された学習モデルを使用して、CNNのアリゴリズムにより登録画像(身だしなみが整っている画像)およびカメラ画像のスコアを特徴量として抽出する。補正判定部13は、S104およびS105の判定処理で、登録画像のスコアとカメラ画像のスコアとの一致度に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定することができる。
顔の特徴量を抽出する第3の例として、CNN(Convolution Neural Network)等のディープラーニングにより生成された学習モデルを使用する例について説明する。第3の例で使用する学習モデルは、例えば、CNNに、身だしなみが整っている画像および身だしなみが整っていない画像を学習させて生成したモデルである。CNNに学習させる画像は、ユーザ本人以外の画像であってもよく、ユーザ本人の画像を含んでもよい。特徴抽出部12は、生成された学習モデルを使用して、CNNのアリゴリズムにより登録画像(身だしなみが整っている画像)およびカメラ画像のスコアを特徴量として抽出する。補正判定部13は、S104およびS105の判定処理で、登録画像のスコアとカメラ画像のスコアとの一致度に基づいて、カメラ画像に対する補正処理を有効にするか無効にするかを判定することができる。
図3に戻り、S104では、補正判定部13は、S103で抽出されたカメラ画像の特徴量と登録画像の特徴量とを照合する。具体的には、補正判定部13は、カメラ画像の特徴量と登録画像の特徴量とに基づいて、カメラ画像と登録画像との一致度を算出する。カメラ画像と登録画像との一致度は、上記の第1の例から第3の例で説明したように、各画像から抽出する特徴量の種類に応じた方法で算出される。
S105では、補正判定部13は、S104で算出したカメラ画像と登録画像との一致度が、所定の閾値以上であるか否かを判定する。一致度が所定の閾値以上である場合(S105:Yes)、処理はS107に進む。一致度が所定の閾値未満である場合(S105:No)、処理はS106に進む。
S106では、カメラ画像と登録画像との一致度が所定の閾値未満であるため、補正判定部13は、補正フラグをオン(ON)に設定し、カメラ画像の補正処理を有効にする。S107では、カメラ画像と登録画像との一致度が所定の閾値以上であるため、補正判定部13は、補正フラグをオフ(OFF)に設定し、カメラ画像の補正処理を無効にする。
補正フラグは、補正処理部14が、ユーザの撮像画像に対する補正処理を実行するか否かを決定するためのフラグである。S106で補正フラグがオンに設定されると、後のフレームに対してS107で補正フラグがオフに設定されるまで、補正処理は有効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオンに設定されると、補正処理部14は、通話が終了するまでカメラ画像の補正処理を継続する。
これに対し、S107で補正フラグがオフに設定されると、後のフレームに対してS106で補正フラグがオンに設定されるまで、補正処理は無効となる。特徴量を評価するタイミングが通話の最初だけである場合、最初に補正フラグがオフに設定されると、カメラ画像は補正されずに表示装置に表示される。
また、特徴量を評価するタイミングが、所定のフレーム数ごとである場合、S106で補正フラグがオンに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は有効となる。反対に、S107で補正フラグがオフに設定されると、次に特徴量を評価するタイミングになるまで、カメラ画像の補正処理は無効となり、カメラ画像は補正されずに表示装置に表示される。
S108では、補正処理部14は、補正フラグがオン(ON)であるか否かを判定する。補正フラグがオンである場合(S108:Yes)、処理はS109に進む。補正フラグがオフである場合(S108:No)、補正処理部14はカメラ画像を補正せずに出力部15に出力し、処理はS110に進む。
S109では、補正処理部14は、ユーザのカメラ画像を補正して補正画像を生成する。ここで、補正処理部14が、補正画像を生成する3つの方法について説明する。1つ目および2つ目の方法は、カメラ画像および登録画像に基づいて補正画像を生成する方法である。3つ目の方法は、予め用意された顔の特徴情報に基づいてカメラ画像を補正することにより、補正画像を生成する方法である。
1つ目の方法は、ユーザの身だしなみが整った画像と整っていない画像とを学習させたGANによって補正画像を生成する方法である。GANは、例えば、補正フラグがオフの場合のカメラ画像を、身だしなみが整った画像のデータとして学習させることができる。また、GANは、補正フラグがオンの場合のカメラ画像を、身だしなみが整っていない画像のデータとして学習させることができる。補正処理部14は、学習済みのGANにより、身だしなみが整った補正画像を生成することができる。
2つ目の方法は、ユーザの登録画像の一部または顔全体を切り出し、ユーザの撮像画像の対応する部位を、登録画像から切り出した画像に置き換えて、補正画像を生成する方法である。図1を用いて、2つ目の方法を具体的に説明する。図1の例では、補正処理部14は、登録画像の眉、目、口の画像を切り出す。補正処理部14は、カメラ画像での眉、目、口を、登録画像から切り出した眉、目、口の画像に置き換えて、補正画像を生成することができる。
なお、カメラ画像の一部を登録画像から切り出した画像に置き換えてこれらの画像を合成する際、カメラ画像と登録画像との一致度に応じて、補正量(ここでは、合成する割合)を変化させてもよい。例えば、補正処理部14は、一致度が高くなるにつれて補正量を減らし、一致度が低くなるにつれて補正量を増やせばよい。
また、ユーザは、登録画像の顔全体を切り出して置換するのか、一部を切り出して置換するのかを設定できるようにしてもよい。また、登録画像の一部を切り出す場合、ユーザは、顔のどの部位を切り出して置換するのかを設定できるようにしてもよい。
3つ目の方法は、登録画像は使用せずに、予め登録画像データベース11等に格納された顔の特徴情報に基づいてカメラ画像を補正し、補正画像を生成する方法である。顔の特徴情報は、例えば、メイクアップを施した場合の眉、口、頬、肌の色または明るさ等の情報である。顔の特徴情報は、例えば、仕事用、プライベート用などビデオ通話のシーンに応じて複数のパターンが用意されてもよい。ユーザは、ビデオ通話のシーンに応じて登録画像用意する手間を省くことができる。
図6を用いて、3つ目の方法を具体的に説明する。図6の例では、補正処理部14は、カメラ画像での頬のシミを、ノイズを除去するフィルタ処理により除去している。また、補正処理部14は、顔の特徴情報に基づいて、眉、口、頬、肌の彩度調整をすることにより、補正画像(表示画像)を生成することができる。なお、フィルタ処理または彩度調整をする場合に、カメラ画像と登録画像との一致度に応じて補正量を変化させてもよい。
図3に戻り、S110では、出力部15は、補正処理部14から出力された映像を出力する。すなわち、出力部15は、補正フラグがオンに設定されている場合、補正処理部14が生成した補正画像を出力する。また、出力部15は、補正フラグがオフに設定されている場合、補正されていないユーザのカメラ画像を出力する。出力部15が出力した映像は、他のコンピュータに送信され表示される。また、出力部15が出力した映像は、表示装置に表示される。
画像処理装置1は、ユーザが通話を終了するまでの間、フレームごとに上記の処理を繰り返す。ユーザが通話を終了すると、S101でカメラ画像は取得されなくなり、図3に示す画像補正処理は終了する。
(作用効果)
上記の実施形態において、画像処理装置1は、カメラ画像(撮像画像)と、身だしなみが整っている登録画像を取得し、各画像から特徴量を抽出して一致度を評価する。画像処理装置1は、一致度が所定の閾値以上であれば、身だしなみが整っていると判定し補正処理を無効にする。また、画像処理装置1は、一致度が所定の閾値未満であれば、身だしなみが整っていないと判定し、補正処理を有効にする。これにより、通話者(ユーザ)は、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
上記の実施形態において、画像処理装置1は、カメラ画像(撮像画像)と、身だしなみが整っている登録画像を取得し、各画像から特徴量を抽出して一致度を評価する。画像処理装置1は、一致度が所定の閾値以上であれば、身だしなみが整っていると判定し補正処理を無効にする。また、画像処理装置1は、一致度が所定の閾値未満であれば、身だしなみが整っていないと判定し、補正処理を有効にする。これにより、通話者(ユーザ)は、身だしなみの状態を気にしたり、画像の補正を指示するための特別な操作をしたりすることなく、ビデオ通話に臨むことができる。
<その他>
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
上記実施形態は、本発明の構成例を例示的に説明するものに過ぎない。本発明は上記の具体的な形態には限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。
例えば、上記の実施形態では、補正判定部13は、カメラ画像と登録画像との特徴量を照合し、一致度を評価するがこれに限られない。補正判定部13は、カメラ画像の特徴量と登録画像の特徴量との差分を評価して、差分が所定の閾値以上の場合に補正処理を有効にし、差分が所定の閾値未満の場合に補正処理を無効にしてもよい。
また、例えば、上記の実施形態では、補正判定部13は、カメラ画像と身だしなみが整った状態の画像との一致度が所定の閾値以上の場合に、補正処理を無効にするがこれに限られない。登録画像データベース11に身だしなみが整っていない状態の画像をユーザの基準画像として格納してもよい。この場合、補正判定部13は、カメラ画像と身だしなみが整っていない状態の画像との一致度が所定の閾値未満の場合に補正処理を無効にし、一致度が所定の閾値以上の場合に補正処理を有効にするようにしてもよい。
<付記1>
(1)ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部(12)と、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部(13)と、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部(14)と、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部(15)と、
を備えることを特徴とする画像処理装置(1)。
(1)ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部(12)と、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部(13)と、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部(14)と、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部(15)と、
を備えることを特徴とする画像処理装置(1)。
(2)ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出ステップと(S103)、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと(S104~S107)、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと(S108、S109)、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと(S110)、
を含むことを特徴とする画像処理方法。
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと(S104~S107)、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと(S108、S109)、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと(S110)、
を含むことを特徴とする画像処理方法。
1:画像処理装置、10:撮像部、11:登録画像データベース、12:特徴抽出部、13:補正判定部、14:補正処理部、15:出力部
Claims (14)
- ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出部と、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定部と、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正部と、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力部と、
を備えることを特徴とする画像処理装置。 - 前記特徴量は、前記ユーザの顔で変化を捉えやすい部位の特徴量である
ことを特徴とする請求項1に記載の画像処理装置。 - 前記特徴量は、Haar-like特徴量、カラーヒストグラム、カラーモーメントのうち少なくともいずれかの特徴量を含む
ことを特徴とする請求項1または2に記載の画像処理装置。 - 前記特徴量は、身だしなみが整った状態の画像および身だしなみが整っていない状態の画像を学習させた学習モデルを使用したアルゴリズムによって算出される
ことを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。 - 前記判定部は、前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量との一致度を算出して、前記一致度が所定の閾値未満である場合に前記補正処理を有効にし、前記一致度が所定の閾値以上である場合に前記補正処理を無効にすると判定する
ことを特徴とする請求項1から4のいずれか1項に記載の画像処理装置。 - 前記補正部は、前記一致度に応じて前記ユーザの撮像画像に対する補正量を変化させることを特徴とする請求項5に記載の画像処理装置。
- 前記補正部は、前記ユーザの撮像画像および前記ユーザの基準画像に基づいて、前記補正画像を生成する
ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。 - 前記補正部は、前記ユーザの撮像画像および前記ユーザの基準画像を学習させたGAN(Generative Adversarial Network)により、前記補正画像を生成する
ことを特徴とする請求項7に記載の画像処理装置。 - 前記補正部は、前記ユーザの基準画像の一部または顔全体を切り出し、前記ユーザの撮像画像の対応する部位を切り出した画像で置き換えることにより、前記補正画像を生成する
ことを特徴とする請求項7に記載の画像処理装置。 - 前記補正部は、前記ユーザの撮像画像に対し、顔の特徴情報に基づいてノイズを除去するフィルタ処理または彩度調整をすることにより前記補正画像を生成する
ことを特徴とする請求項1から6のいずれか1項に記載の画像処理装置。 - 前記判定部は、前記補正処理を有効にするか無効にするかを、前記ユーザの撮像画像の所定のフレーム数ごとに判定する
ことを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。 - 前記ユーザの撮像画像を撮像する撮像部を、さらに備える
ことを特徴とする請求項1から11のいずれか1項に記載の画像処理装置。 - ユーザの撮像画像および前記ユーザの基準画像の特徴量を抽出する抽出ステップと、
前記ユーザの撮像画像の特徴量と前記ユーザの基準画像の特徴量とを照合した結果に基づいて、前記ユーザの撮像画像に対する補正処理を有効にするか無効にするかを判定する判定ステップと、
前記補正処理を有効にすると判定した場合に、前記ユーザの撮像画像の補正画像を生成する補正ステップと、
前記補正処理を有効にすると判定された場合は、前記補正画像を出力し、前記補正処理を無効にすると判定された場合は、補正されていない前記ユーザの撮像画像を出力する出力ステップと、
を含むことを特徴とする画像処理方法。 - 請求項13に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020135645A JP7604804B2 (ja) | 2020-08-11 | 2020-08-11 | 画像処理装置および画像処理方法 |
| JP2020-135645 | 2020-08-11 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2022034779A1 true WO2022034779A1 (ja) | 2022-02-17 |
Family
ID=80247172
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2021/027178 Ceased WO2022034779A1 (ja) | 2020-08-11 | 2021-07-20 | 画像処理装置および画像処理方法 |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7604804B2 (ja) |
| WO (1) | WO2022034779A1 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20250103768A1 (en) * | 2022-03-09 | 2025-03-27 | Sony Semiconductor Solutions Corporation | Information processing device, information processing method, recording medium, and information processing system |
Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005346663A (ja) * | 2004-06-07 | 2005-12-15 | Seiko Epson Corp | オブジェクト画像判別方法およびオブジェクト画像判別システム、オブジェクト画像判別プログラム、並びに誤検出判別方法、誤検出判別システム、誤検出判別プログラム |
| US20090147141A1 (en) * | 2007-12-11 | 2009-06-11 | Hae Sun Lee | Method and apparatus for video telephony in mobile terminal |
| JP2011198178A (ja) * | 2010-03-23 | 2011-10-06 | Nikon Corp | 電子機器 |
| JP2012053813A (ja) * | 2010-09-03 | 2012-03-15 | Dainippon Printing Co Ltd | 人物属性推定装置、人物属性推定方法、及びプログラム |
| JP2013141104A (ja) * | 2011-12-29 | 2013-07-18 | Nikon Corp | 撮像装置 |
| JP2013172166A (ja) * | 2012-02-17 | 2013-09-02 | Nikon Corp | 画像処理装置、撮像装置及びプログラム |
| WO2015001856A1 (ja) * | 2013-07-01 | 2015-01-08 | Necソリューションイノベータ株式会社 | 属性推定システム |
| JP2017033372A (ja) * | 2015-08-04 | 2017-02-09 | 日本放送協会 | 人物認識装置及びそのプログラム |
| JP2018501675A (ja) * | 2014-09-30 | 2018-01-18 | クアルコム,インコーポレイテッド | センサ素子アレイにおける特徴計算 |
| JP2019070871A (ja) * | 2017-10-05 | 2019-05-09 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
| JP2019201360A (ja) * | 2018-05-17 | 2019-11-21 | 住友電気工業株式会社 | 画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法 |
| JP2020013563A (ja) * | 2018-07-19 | 2020-01-23 | パロ アルト リサーチ センター インコーポレイテッド | 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法 |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4378250B2 (ja) | 2003-09-25 | 2009-12-02 | 富士フイルム株式会社 | テレビ電話機及びプログラム |
| JP4441853B2 (ja) | 2003-11-12 | 2010-03-31 | ノーリツ鋼機株式会社 | 濃度補正のための顔選別方法及びこの方法を実施する装置 |
| JP5840528B2 (ja) | 2012-02-21 | 2016-01-06 | 花王株式会社 | 顔画像合成装置及び顔画像合成方法 |
| JP5625196B2 (ja) | 2012-04-09 | 2014-11-19 | 株式会社モルフォ | 特徴点検出装置、特徴点検出方法、特徴点検出プログラム及び記録媒体 |
| JP2013257844A (ja) | 2012-06-14 | 2013-12-26 | Casio Comput Co Ltd | 画像変換装置、画像変換方法及びプログラム |
| JP2015176252A (ja) | 2014-03-13 | 2015-10-05 | オムロン株式会社 | 画像処理装置および画像処理方法 |
| JP5950486B1 (ja) | 2015-04-01 | 2016-07-13 | みずほ情報総研株式会社 | 加齢化予測システム、加齢化予測方法及び加齢化予測プログラム |
| JP6450710B2 (ja) | 2016-05-18 | 2019-01-09 | みずほ情報総研株式会社 | 情報予測システム、情報予測方法及び情報予測プログラム |
| JP6740784B2 (ja) | 2016-07-29 | 2020-08-19 | 株式会社Ihi | 認証システム、認証方法、および認証プログラム |
| KR102832133B1 (ko) | 2019-06-20 | 2025-07-09 | 엘지전자 주식회사 | 시선 추적을 이용한 디스플레이 제어방법 및 디스플레이 제어장치 |
-
2020
- 2020-08-11 JP JP2020135645A patent/JP7604804B2/ja active Active
-
2021
- 2021-07-20 WO PCT/JP2021/027178 patent/WO2022034779A1/ja not_active Ceased
Patent Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005346663A (ja) * | 2004-06-07 | 2005-12-15 | Seiko Epson Corp | オブジェクト画像判別方法およびオブジェクト画像判別システム、オブジェクト画像判別プログラム、並びに誤検出判別方法、誤検出判別システム、誤検出判別プログラム |
| US20090147141A1 (en) * | 2007-12-11 | 2009-06-11 | Hae Sun Lee | Method and apparatus for video telephony in mobile terminal |
| JP2011198178A (ja) * | 2010-03-23 | 2011-10-06 | Nikon Corp | 電子機器 |
| JP2012053813A (ja) * | 2010-09-03 | 2012-03-15 | Dainippon Printing Co Ltd | 人物属性推定装置、人物属性推定方法、及びプログラム |
| JP2013141104A (ja) * | 2011-12-29 | 2013-07-18 | Nikon Corp | 撮像装置 |
| JP2013172166A (ja) * | 2012-02-17 | 2013-09-02 | Nikon Corp | 画像処理装置、撮像装置及びプログラム |
| WO2015001856A1 (ja) * | 2013-07-01 | 2015-01-08 | Necソリューションイノベータ株式会社 | 属性推定システム |
| JP2018501675A (ja) * | 2014-09-30 | 2018-01-18 | クアルコム,インコーポレイテッド | センサ素子アレイにおける特徴計算 |
| JP2017033372A (ja) * | 2015-08-04 | 2017-02-09 | 日本放送協会 | 人物認識装置及びそのプログラム |
| JP2019070871A (ja) * | 2017-10-05 | 2019-05-09 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
| JP2019201360A (ja) * | 2018-05-17 | 2019-11-21 | 住友電気工業株式会社 | 画像処理装置、コンピュータプログラム、ビデオ通話システム、及び画像処理方法 |
| JP2020013563A (ja) * | 2018-07-19 | 2020-01-23 | パロ アルト リサーチ センター インコーポレイテッド | 意味的情報に基づいてフォトリアリスティックな合成画像を生成するためのシステムおよび方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7604804B2 (ja) | 2024-12-24 |
| JP2022032133A (ja) | 2022-02-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101190686B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 컴퓨터 판독가능한 기록 매체 | |
| CN105072327B (zh) | 一种防闭眼的人像拍摄处理的方法和装置 | |
| CN107730444B (zh) | 图像处理方法、装置、可读存储介质和计算机设备 | |
| WO2020253349A1 (zh) | 基于图像识别的驾驶行为预警方法、装置和计算机设备 | |
| WO2016179985A1 (zh) | 具有健康检测功能的装置、显示装置、系统及健康检测方法 | |
| EP4073682B1 (en) | Generating videos, which include modified facial images | |
| US11227424B2 (en) | Method and system to provide a computer-modified visualization of the desired face of a person | |
| KR20160030037A (ko) | 닮은얼굴그림 생성 장치, 닮은얼굴그림 생성 방법 | |
| WO2023010796A1 (zh) | 图像处理方法及相关装置 | |
| EP3956748B1 (en) | Headset signals to determine emotional states | |
| WO2022034779A1 (ja) | 画像処理装置および画像処理方法 | |
| US11812183B2 (en) | Information processing device and program | |
| CN101499131A (zh) | 影像校正装置及影像校正方法 | |
| CN110490794A (zh) | 基于人工智能的人物图像处理方法及装置 | |
| WO2017185452A1 (zh) | 图片还原方法及系统 | |
| KR101507410B1 (ko) | 모바일 단말의 라이브 메이크업 촬영 방법 및 장치 | |
| JP2016053868A (ja) | 似顔絵画像生成装置、似顔絵画像生成方法及び似顔絵画像生成プログラム | |
| JP2005242535A (ja) | 画像補正装置 | |
| CN113487489A (zh) | 一种脸部修容显示及关键点检测模型训练方法及终端 | |
| CN114078082B (zh) | 一种人物图像性别转换模型的训练、图像生成方法及装置 | |
| CN114681258B (zh) | 一种自适应调整按摩模式的方法及按摩设备 | |
| CN112488965B (zh) | 一种图像处理方法和装置 | |
| TWI743413B (zh) | 獨照生成裝置和方法及其非揮發性電腦可讀媒體 | |
| JP6287527B2 (ja) | 情報処理装置、方法及びプログラム | |
| US20230123330A1 (en) | Interaction training system for autistic patient using image warping, method for training image warping model, and computer readable storage medium including executions causing processor to perform same |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21855858 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 21855858 Country of ref document: EP Kind code of ref document: A1 |