WO2020159241A1 - Method for processing image, and apparatus therefor - Google Patents
Method for processing image, and apparatus therefor Download PDFInfo
- Publication number
- WO2020159241A1 WO2020159241A1 PCT/KR2020/001401 KR2020001401W WO2020159241A1 WO 2020159241 A1 WO2020159241 A1 WO 2020159241A1 KR 2020001401 W KR2020001401 W KR 2020001401W WO 2020159241 A1 WO2020159241 A1 WO 2020159241A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- artificial intelligence
- learning
- intelligence model
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Definitions
- the present disclosure relates to a method and apparatus for processing an image, and more particularly, to a method and apparatus for extracting a face of a target object by converting an image including the target object into a sample structure.
- Artificial Intelligence (Artificial Intelligence) system is a system that the machine learns, judges, and becomes smart, unlike the existing Rule-based smart system. As the artificial intelligence system is used, the recognition rate is improved and the user's taste can be more accurately understood, and the existing rule-based smart system is gradually being replaced by a deep learning-based artificial intelligence system.
- Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, speech recognition/synthesis, etc.
- Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement.
- Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation.
- Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on.
- Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
- the acquired images can be used for face recognition technology, and the technology for recognizing faces from images can be used in various fields.
- Some embodiments aim to provide a method for processing an image to recognize a face of a target object included in the image, and a device accordingly.
- some embodiments may provide a method and apparatus according to the target image processing method for extracting a face from a target image including a different target object based on a learning image including the target object.
- a first aspect of the present disclosure acquires a plurality of sets of learning images corresponding to a plurality of types of target objects, wherein the learning images in the sets of learning images have a predetermined structure.
- the feature points forming the are labeled; Generating a first artificial intelligence model for determining a sample structure based on the labeled feature points using the training image in the training image sets; Identifying a face from the modified learning image based on the sample structure; And learning a second artificial intelligence model for verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image. It can provide a way to handle.
- a communication unit A memory storing at least one instruction; And a processor that controls the electronic device by executing the at least one instruction, wherein the processor acquires a plurality of sets of training images corresponding to a plurality of types of target objects, but learns within the sets of training images.
- the image is labeled with feature points forming a predetermined structure, and using the training image in the set of training images, creates a first artificial intelligence model for determining a sample structure based on the labeled feature points, and A second artifact for identifying a face from the modified learning image based on a sample structure, and verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image It is possible to provide an electronic device that trains an intelligent model.
- a third aspect of the present disclosure is to acquire a plurality of sets of training images corresponding to a plurality of types of target objects, wherein the training images in the training image sets are labeled with feature points forming a predetermined structure, action; Generating a first artificial intelligence model for determining a sample structure based on the labeled feature points using the training image in the training image sets; Identifying a face from the modified learning image based on the sample structure; And training a second artificial intelligence model for verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image. It is possible to provide a computer program comprising a medium.
- FIG. 1 is a schematic diagram of a system for processing an image according to some embodiments.
- FIG. 2 is a schematic diagram of a method of generating an artificial intelligence model for recognizing a face of a target object from a learning image according to some embodiments.
- FIG. 3 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a learning image, according to some embodiments.
- FIG. 4 is a diagram illustrating a first artificial intelligence model according to some embodiments.
- FIG. 6 is a schematic diagram of a system for extracting a face of a target object included in the target image by applying the target image to the artificial intelligence model according to some embodiments.
- FIG. 8 is a diagram illustrating a method of extracting a face of a target object by applying a target image to an artificial intelligence learning model according to some embodiments.
- FIG. 9 is a block diagram of an electronic device according to some embodiments.
- FIG. 10 is a block diagram of a processor in accordance with some embodiments.
- 11 is a diagram illustrating an example in which a device and an electronic device learn and recognize data by interworking with each other, according to some embodiments.
- the target object may refer to various types of objects including faces, such as animals, characters, and emoticons, as well as people.
- faces such as animals, characters, and emoticons
- dogs and cats are different target objects
- dog emoticons and cat emoticons may be different target objects.
- an artificial intelligence model for extracting a face of a target object from a predetermined image is provided.
- an image corresponding to each of a plurality of types of target objects used to generate an artificial intelligence model is referred to as a'learning image'.
- the image applied to the generated artificial intelligence model is referred to as a'target image'.
- the artificial intelligence model may be a learning model trained using at least one of a machine learning, neural network, genetic, deep learning, and classification algorithms as an artificial intelligence algorithm.
- FIG. 1 is a schematic diagram of a system for processing an image according to some embodiments.
- the electronic device 1000 may provide a system for processing an image to recognize a face of a target object included in the image.
- the electronic device 1000 may be a server, but is not limited thereto.
- the electronic device 1000 includes eyes and noses common to each of the faces of the plurality of types of target objects, and based on the eyes and noses of the target object forming a triangular structure, the sample structure is determined and determined. You can create artificial intelligence models to verify the sample structure. That is, the electronic device 1000 may determine a sample structure irrelevant to the type of the target object, using a learning image corresponding to a plurality of types of target objects. The electronic device 1000 may identify the face of the target object by transforming the learning image based on the sample structure.
- the electronic device 1000 may restore the training image from the modified training image, compare the restored training image with the training image before transformation, and verify the generated artificial intelligence model. Specifically, when restoring the modified learning image, the electronic device 1000 may determine whether the sample structure is incorrectly determined based on whether the difference between the restored learning image and the learning image is greater than or equal to a threshold value.
- the electronic device 1000 may receive a target image corresponding to a target object of a different type from a plurality of target objects included in the set of learning images used to generate the artificial intelligence model from an external device (not shown). Can.
- the electronic device 1000 may transform the target image into a sample structure by inputting the target image into the artificial intelligence model, extract faces of different target objects from the modified target image, and verify the extracted face.
- FIG. 2 is a schematic diagram of a system 100 for generating an artificial intelligence model for recognizing a face of a target object from a learning image according to some embodiments.
- the electronic device 1000 acquires a plurality of training image sets 110 corresponding to a plurality of types of target objects to generate an artificial intelligence model for recognizing the face of the target object.
- the electronic device 1000 converts a pig image set 111, a dog image set 112, and a cat image set 113 corresponding to pigs, dogs, and cats into learning image sets 110, respectively. Can be obtained.
- the target object of the acquired learning image set is'pig' will be described.
- the pig learning image different from the first learning image 150 in the pig image set 111 as well as the operations described below are subject It can be applied to the entire learning image regardless of the type of object.
- the learning image in the training image sets 110 may be labeled with feature points forming a predetermined structure.
- the learning image corresponding to each of a plurality of types of target objects may be labeled with feature points corresponding to the left eye, right eye, and nose of the target object, and the preset structure includes the target object's eye and It may be a triangular structure connecting the nose.
- the first learning image 150 corresponding to the pig may be labeled with feature points forming a triangular structure corresponding to the left eye, right eye, and nose.
- the electronic device 1000 uses the learning image in the plurality of training image sets 110 to determine the first artificial intelligence for determining the sample structure 120 based on the labeled feature points.
- the sample structure 120 may be determined based on labeled feature points and a spatial transform network (STN) function.
- the STN function may spatially transform the input image based on the transformation parameter ⁇ .
- the STN function corresponds to [Equation 1]
- the electronic device 1000 uses the [Equation 1] to generate a sample structure 120 based on labeled feature points in the learning image. Can decide.
- input Labeled feature points in the learning image may be indicated. Enter for example May be a coordinate or vector of labeled feature points in the learning image, but is not limited thereto, and may be any type that can represent the labeled feature points.
- the electronic device 1000 is input
- the sample structure 120 may be determined based on the average value of. Specifically, the electronic device 1000 outputs the sample structure 120 of feature points included in the training image in the plurality of training image sets 110 as an output value of the STN function. It can be decided based on.
- the electronic device 1000 corresponds to the sample structure 120 determined by [Equation 1] and the STN function g STN corresponding to the labeled feature point of the learning image. Structure that is output when is input
- the sample structure 120 may be trained such that the difference between the livers is equal to or less than a predetermined threshold.
- the electronic device 1000 uses the following [Equation 2] to correspond to the feature points labeled in the learning image in the STN function. Structure that is output when is input And sample structure 120 and differences between Calculate and learn to make the mean absolute error (MAE) value to a minimum.
- [Equation 2] to correspond to the feature points labeled in the learning image in the STN function.
- the electronic device 1000 may transform the first learning image 150 based on the sample structure 120 determined using the STN function.
- the electronic device 1000 may identify the face of the pig as a target object from the modified first learning image 151.
- the modified first learning image 151 is expressed in the form of an image, but what is actually obtained may be a coordinate, vector, or function of the modified first learning image 151.
- the electronic device 1000 compares the first learning image 152 reconstructed from the modified first learning image 151 and the first learning image 150 before transformation, and thus, the first A second artificial intelligence model for validating the artificial intelligence model may be trained. Specifically, the electronic device 1000 restores the modified first learning image 151 based on the sample structure 120, and between the restored first learning image 152 and the first learning image 150 before transformation. Based on the difference, the first artificial intelligence model can be verified. At this time, the electronic device 1000 may use Equation 3 below to obtain a difference between the restored first learning image 152 and the first learning image 150.
- the electronic device 1000 may restore the modified first learning image 151 using the reconstruction function g reg and the STN inverse function g STN -1 . Also, the electronic device 1000 may calculate a difference between the reconstructed first training image 152 and the first training image 150 before transformation using the reconstruction function g reg and the STN inverse function g STN -1 . have. At this time, the electronic device 1000 is calculated The first artificial intelligence model may be verified based on whether the value is below a predetermined threshold. The method for verifying the first artificial intelligence model will be described later.
- the electronic device 1000 After the first learning image 150 is transformed by the STN function g STN , when the modified first learning image 151 passes the restoration function g reg , the electronic device 1000 corresponds to the eyes and nose You can infer the coordinates of the feature points. Also, the electronic device 1000 restores the feature points corresponding to the deduced eye and nose using the STN inverse function g STN -1 and then corresponds to the feature points of the labeled learning image. Can be compared with
- FIG. 3 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a learning image, according to some embodiments.
- the electronic device 1000 may obtain a plurality of sets of learning images respectively corresponding to a plurality of types of target objects.
- the learning image in the training image sets may be labeled with feature points forming a predetermined structure.
- the predetermined structure may be a triangular structure connecting the eyes and nose of the target object in the learning image.
- the electronic device 1000 may generate a first artificial intelligence model for determining a sample structure based on the labeled feature points using the training image in the training image sets. Specifically, the electronic device 1000 may determine the sample structure based on the labeled feature points and the STN function. For example, the electronic device 1000 determines the sample structure based on the average value of the feature points in the learning image, using the above-described [Equation 1] and [Equation 2], and inputs the feature points and the determined You can learn the sample structure so that the difference between the sample structures is minimal.
- the electronic device 1000 may identify the face from the modified learning image based on the sample structure. For example, when the learning image is modified based on the sample structure, the electronic device 1000 may identify the faces of the target object by determining points corresponding to the sample structure as eyes and noses of the target object.
- the electronic device 1000 may train a second artificial intelligence model for verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the learning image before being transformed. Specifically, the electronic device 1000 may restore the modified learning image and verify the first artificial intelligence model based on the difference between the restored image and the learning image. Also, the electronic device 1000 may verify the first artificial intelligence model using a second artificial intelligence model, and update the first artificial intelligence model to change the sample structure based on the verification result. For example, the electronic device 1000 may train the first artificial intelligence model so that the difference between the reconstructed image and the learned image is equal to or less than a preset threshold based on the verification result.
- FIG. 4 is a diagram illustrating a first artificial intelligence model according to some embodiments.
- the first artificial intelligence model is a learning model for recognizing a face of a target object based on a sample structure formed by labeled feature points in a learning image.
- the electronic device 1000 may transform the training image into a sample structure based on the STN function.
- the electronic device 1000 may recognize a face included in the learning image by extracting feature points corresponding to the sample structure from the modified learning image by a detector.
- the electronic device 1000 recognizes the face of the target object based on points corresponding to the sample structure of the STN-converted learning image when STN-converting the training image. You may.
- FIG. 5 is a diagram illustrating a second artificial intelligence model according to some embodiments.
- the second artificial intelligence model is a learning model for verifying the first artificial intelligence model.
- the electronic device 1000 restores the transformed learning image in the regressor, and restores the reconstructed image and the pre-transformed learning image. By comparing, it is possible to verify the first artificial intelligence model.
- the electronic device 1000 may restore the modified learning image based on the reconstruction function and the STN inverse function, and when the difference between the restored image and the learning image is below a predetermined threshold, the first artificial intelligence model is verified You can judge that.
- the electronic device 1000 may determine that the first artificial intelligence model has not been verified. For example, when it is determined that the first artificial intelligence model has not been verified, there is an error in the sample structure determined by the first artificial intelligence model, or when the determined sample structure has no error but the training image is incorrectly deformed. However, it is not limited thereto.
- the electronic device 1000 may verify the first artificial intelligence model based on whether the difference between the restored image and the training image is equal to or less than a predetermined threshold, and change or learn the sample structure determined based on the verification result By re-deforming the image based on the sample structure, it is possible to make the difference between the reconstructed image and the training image less than or equal to a predetermined threshold.
- the electronic device 1000 may verify the first artificial intelligence model using the second artificial intelligence model, and update the first artificial intelligence model to change the sample structure based on the verification result.
- FIG. 6 is a schematic diagram of a system for extracting a face of a target object included in the target image by applying the target image to the artificial intelligence model according to some embodiments.
- the electronic device 1000 may obtain a target image 250 including target objects of a different type from target objects included in the training image set for generating the artificial intelligence model. Specifically, the electronic device 1000 may apply a few-shot adaptation to the target image 250 by using the sample structure determined by the first artificial intelligence model. Accordingly, when the electronic device 1000 extracts a face from the target image 250 including the target object of a different type from the target objects of the learning image, the number of target images 250 required may be less than or equal to a predetermined number. That is, the electronic device 1000 may extract a face of a target object of a different type from the target objects included in the learning image using the target image 250 having a predetermined number or less.
- the electronic device 1000 may target the artificial intelligence model to the artificial intelligence model generated using the learning image including different target objects, such as pig, dog, cat, etc. 250), the face of the target object'bear' can be extracted.
- target objects such as pig, dog, cat, etc. 250
- the electronic device 1000 may transform the target image so that feature points in the target image form a determined sample structure by inputting the acquired target image 250 into the first artificial intelligence model. have.
- the electronic device 1000 may extract the face of the target object based on the modified target image 251. Specifically, feature points in the modified target image 251 may be inferred from a target object in the target image 250. For example, the electronic device 1000 may extract the face of the target object by determining the feature points corresponding to the sample structure in the modified target image 251 with the eyes and nose of the target object.
- the electronic device 1000 faces the face extracted by the first artificial intelligence model by inputting the modified target image 251 and the pre-deformed target image 250 into the second artificial intelligence model. Can be verified. Specifically, the electronic device 1000 is modified in the second artificial intelligence model for verifying the extracted face by comparing the target image 252 reconstructed from the transformed target image 251 and the target image 250 before transformation.
- the target image 251 may be input.
- the electronic device 1000 may restore the modified target image 251 by inputting the modified target image 251 into the second artificial intelligence model, and the restored target image ( The face of the target object may be extracted from 252).
- the electronic device 1000 may verify the face extracted from the reconstructed target image 252 by comparing the reconstructed target image 252 and the target image 250. For example, when the difference between the restored target image 252 and the target image 250 is equal to or less than a predetermined threshold, the electronic device 1000 determines a face extracted from the restored target image 252 as a face of the target object. Can.
- FIG. 7 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a target image according to some embodiments.
- the electronic device 1000 may obtain a target image including a plurality of types of target objects and different types of target objects.
- the electronic device 1000 may extract a face of a target object in a target image including a plurality of target objects included in the learning image and a different type of target object.
- the electronic device 1000 extracts the faces of different types of target objects from the target image, in which feature points in the target image are modified to form a sample structure, by applying the target image to the generated first artificial intelligence model.
- the electronic device 1000 may determine a face of a different target object based on feature points corresponding to the sample structure among feature points in the modified target image.
- the electronic device 1000 may verify the extracted face based on the first artificial intelligence model by inputting the target image before transformation and the modified target image into the second artificial intelligence model. Specifically, the electronic device 1000 restores the deformed target image, extracts faces of different types of target objects from the reconstructed target image, and compares the reconstructed target image and the target image before transformation, thereby generating the first artificial intelligence. The extracted face can be verified based on the model.
- FIG. 8 is a diagram illustrating a method of extracting a face of a target object by applying a target image to an artificial intelligence model according to some embodiments.
- the electronic device 1000 may input a target image into the parasitic first artificial intelligence model based on the learning image. Specifically, when the target image is input to the first artificial intelligence model, the electronic device 1000 transforms the input target image using the STN function, and the face of the target object included in the target image based on the modified target image Can be extracted by a detector.
- STN and Detector are separately illustrated for convenience of description, but it is needless to say that feature points corresponding to the face of the target object may be extracted when the STN function is applied.
- the electronic device 1000 may update the first artificial intelligence model based on feature points extracted from the target image. For example, the electronic device 1000 may update the determined sample structure based on the structure formed by the feature points in the target image.
- the electronic device 1000 may input the deformed target image and the pre-deformed target image into the second artificial intelligence model. Specifically, the electronic device 1000 may restore the target image modified by the regressor. The electronic device 1000 may verify the face of the target object extracted from the target image based on the first artificial intelligence model based on whether the difference between the restored target image and the target image before transformation is equal to or less than a predetermined threshold. If the difference between the restored target image and the target image before transformation is greater than or equal to a predetermined threshold, the electronic device 1000 may change the parasitic first artificial intelligence model. For example, the electronic device 1000 may change the determined sample structure based on the feature points in the acquired target image, or may perform transformation of the target image again based on the determined sample structure.
- FIG. 9 is a block diagram of an electronic device according to some embodiments.
- the electronic device 1000 includes the electronic device 1000 by executing the communication unit 1500, a memory 1700 storing at least one instruction, and at least one instruction. It may include a processor 1300 for controlling the. However, not all of the components illustrated in FIG. 9 are essential components of the electronic device 1000.
- the electronic device 1000 may be implemented by more components than those illustrated in FIG. 9, or the electronic device 1000 may be implemented by fewer components than those illustrated in FIG. 9.
- the processor 1300 typically controls the overall operation of the electronic device 1000.
- the processor 1300 may control operations of the electronic device 1000 in the present disclosure by executing programs stored in the memory 1700.
- the processor 1300 may receive an image from the device 2000 through the communication unit 1500.
- the processor 1300 may control to process the image received from the device 2000 to extract the face of the target object included in the received image.
- the processor 1300 acquires a plurality of sets of learning images corresponding to a plurality of types of target objects, wherein the learning images in the sets of learning images are labeled with feature points forming a predetermined structure.
- To generate a first artificial intelligence model for determining a sample structure based on labeled feature points using the learning image in the training image sets, to identify a face from the modified training image based on the sample structure, and to transform
- a second artificial intelligence model for verifying the first artificial intelligence model may be trained on the basis of the reconstructed image from the learned learning image and the learning image before transformation.
- the processor 1300 may determine the sample structure based on the labeled feature points and the STN function. In addition, the processor 1300 may generate a modified learning image by transforming the learning image so that feature points in the learning image form a sample structure.
- the processor 1300 acquires a target image including a plurality of types of target objects and different types of target objects, and applies the target image to the generated first artificial intelligence model, thereby targeting The first artificial intelligence model by extracting the faces of different types of target objects from the target image in which the feature points in the image are modified to form a sample structure, and inputting the target image before transformation and the modified target image into the second artificial intelligence model. Based on the extracted face can be verified.
- the processor 1300 may receive a target image including a plurality of learning image sets corresponding to a plurality of types of target objects and a target object different from a predetermined number through the communication unit 1500.
- the processor 1300 may transform the target image into a sample structure based on the previously generated first artificial intelligence model and the second artificial intelligence model, and extract faces of different target objects based on the modified target image. That is, the processor 1300 has an advantage in that it is possible to extract a face of a target object included in the target image using only a predetermined number of images or less by using a sample structure, thereby improving data efficiency and face recognition speed.
- the communication unit 1500 may include one or more components for communication with an external device (not shown) for receiving a target image or a learning image. Also, the communication unit 1500 may transmit the face recognition result to an external device (not shown).
- the communication unit 1500 may include a short-range communication unit, a mobile communication unit, and the like, but is not limited thereto.
- the memory 1700 may store a program for processing and controlling the processor 1300, and may store data input to or output from the electronic device 1000.
- the memory 1700 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), RAM (RAM, Random Access Memory) SRAM (Static Random Access Memory), ROM (ROM, Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk , It may include at least one type of storage medium of the optical disk.
- FIG. 10 is a block diagram of a processor in accordance with some embodiments.
- the processor 1300 may include a data learning unit 1310 and a data recognition unit 1320.
- the data learning unit 1310 may learn a criterion for determining a sample structure from a learning image.
- the data learning unit 1310 may learn criteria on which data to use to determine the sample structure and how to transform the learning image using the data. For example, the data learning unit 1310 may use feature points labeled on the learning image.
- the data learning unit 1310 determines the sample structure formed by the feature points based on the labeled feature points, and transforms the learning image based on the sample structure, thereby based on the feature points corresponding to the sample structure. You can learn the criteria for identifying your face.
- the data learning unit 1310 may obtain a modified learning image by applying the determined sample structure to the learning image, and verify the sample structure based on the modified learning image. Specifically, the data learning unit 1310 may learn a criterion for verifying the sample structure by comparing the reconstructed learning image and the pre-deformed learning image by restoring the modified learning image.
- the data learning unit 1310 may acquire a learning image for determining the sample structure.
- the data learning unit 1310 may acquire learning image sets corresponding to a plurality of types of target objects, but the above-described implementations in FIGS. 1 and 2. It is not limited to the example.
- the data learning unit 1310 may preprocess the acquired data to extract data for face recognition from the acquired learning image.
- the data learning unit 1310 may process the acquired data in a preset format so that a triangular structure connecting the eyes and nose of the target object in the learning image can be used.
- the data learning unit 1310 may select data necessary for learning from pre-processed data. Specifically, the data learning unit 1310 may select data necessary for learning from pre-processed data according to preset criteria.
- the data learning unit 1310 may learn criteria for transforming a learning image into a sample structure based on the learning data. In addition, the data learning unit 1310 may also learn the criteria as to which learning data should be used.
- the data learning unit 1310 may train the first artificial intelligence model and the second artificial intelligence model based on the labeling of feature points forming a predetermined structure in the learning image.
- the artificial intelligence model includes both the first artificial intelligence model and the second artificial intelligence model.
- the data learning unit 1310 may generate an artificial intelligence model and train the generated artificial intelligence model.
- the artificial intelligence model may be a learning model forew-shot adaptation.
- the artificial intelligence model may be constructed in consideration of the application field of the recognition model, the purpose of learning, or the computer performance of the device.
- the artificial intelligence model may be, for example, a model based on a neural network.
- a model such as a deep neural network (DNN), a recurrent neural network (RNN), or a bidirectional recurrent deep neural network (BRDNN) may be used as an artificial intelligence model, but is not limited thereto.
- the data learning unit 1310 may determine that the relationship between the input learning image and the learning data is an artificial intelligence model for learning the artificial intelligence model.
- the data learning unit 1310 may train an artificial intelligence model using, for example, a learning algorithm including an error back-propagation or a gradient descent method.
- the data learning unit 1310 may train the artificial intelligence model, for example, through supervised learning using learning data as an input value.
- the data learning unit 1310 for example, through unsupervised learning (unsupervised learning) to discover the criteria for determining the situation by learning the type of data necessary for situation determination without much guidance, for example, artificial intelligence You can train the model.
- the data learning unit 1310 may train the artificial intelligence model through, for example, reinforcement learning using feedback on whether a result of situation determination according to learning is correct.
- the data learning unit 1310 may store the trained artificial intelligence model.
- the data learning unit 1310 may store the learned artificial intelligence model in the memory of the electronic device 1000 including the data recognition unit 1320 to be described later.
- the data learning unit 1310 may store the learned artificial intelligence model in a memory of a server connected to the electronic device 1000 through a wired or wireless network.
- the memory in which the learned artificial intelligence model is stored may store, for example, instructions or data related to at least one other component of the electronic device 1000.
- the memory may store software and/or programs.
- the program may include, for example, a kernel, middleware, application programming interface (API) and/or application program (or "application").
- the data learning unit 1310 inputs the reconstructed learning image and the pre-deformation learning image to the second artificial intelligence model, and based on the difference between the reconstructed learning image and the pre-deformation learning image, the difference value does not satisfy a predetermined criterion. In this case, it may be determined that the first artificial intelligence model has not been verified. In this case, the data learning unit 1310 may train the first artificial intelligence model again.
- the data learning unit 1310 does not satisfy a predetermined criterion when the number or ratio of the evaluation data in which the recognition result is not accurate among the recognition results of the learned artificial intelligence model for the evaluation data exceeds a preset threshold. It can be evaluated as failed. For example, when a predetermined criterion is defined as a ratio of 2%, when the trained artificial intelligence model outputs an incorrect recognition result for evaluation data exceeding 20 out of a total of 1000 evaluation data, the data learning unit 1310 learns It can be evaluated that the artificial intelligence model is not suitable.
- the data learning unit 1310 may be manufactured in the form of at least one hardware chip and mounted on an electronic device.
- the data learning unit 1310 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (eg, CPU or application processor) or graphics-only processor (eg : GPU) and may be mounted on various electronic devices described above.
- AI artificial intelligence
- an existing general-purpose processor eg, CPU or application processor
- graphics-only processor eg : GPU
- the data learning unit 1310 may be implemented as a software module.
- the software module is a computer-readable, non-transitory computer readable medium. media).
- the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Or, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
- OS operating system
- OS operating system
- the data recognition unit 1320 may use a first artificial intelligence model to extract faces of different target objects from the target image.
- the data recognition unit 1320 may modify the target image based on the sample structure by inputting the target image into the first artificial intelligence model.
- the data recognition unit 1320 may extract the face of the target object from the modified target image based on the feature points corresponding to the sample structure.
- the data recognition unit 1320 acquires feature points corresponding to the eye nose of the target object according to a preset criterion by learning, and outputs faces of different target objects extracted from the modified target image based on the acquired feature points It can be provided as data.
- the data recognition unit 1320 may verify the extracted face based on the difference between the restored target image and the pre-deformed target image by inputting the deformed target image and the pre-deformed target image into the second artificial intelligence model. have.
- the data recognition unit 1320 may acquire data related to feature points labeled in the target image, and the data recognition unit 1320 may preprocess the acquired data.
- the data recognition unit 1320 may process the acquired data in a preset format so that data related to feature points included in the target image can be used.
- the data recognition unit 1320 may acquire data in FIGS. 6 to 8, for example, but is not limited thereto.
- the data recognition unit 1320 may select required data from pre-processed data.
- the selected data may be provided to the data learning unit 1310.
- the data recognition unit 1320 may select some or all of the pre-processed data according to a preset criterion. Also, the data recognition unit 1320 may select data according to a preset criterion by learning.
- the data recognition unit 1320 may apply the selected data to the artificial intelligence model and output data for extracting the face of the target object included in the target image.
- the data recognition unit 1320 may apply the selected data to the artificial intelligence model by using the selected data as an input value. Also, the recognition result may be determined by an artificial intelligence model.
- the artificial intelligence model uses the learning image in the training image sets, the first artificial intelligence model for determining the sample structure based on the labeled feature points, and the reconstructed image from the modified training image and the training image before transformation. By comparing, it may include a second artificial intelligence model for verifying the first artificial intelligence model.
- the data recognition unit 1320 may cause the first artificial intelligence model to be updated based on the output result of the second artificial intelligence model. For example, the data recognition unit 1320 may provide the data learning unit 1310 with the recognition result provided by the second artificial intelligence model, so that the data learning unit 1310 updates the first artificial intelligence model. have.
- the data recognition unit 1320 may be manufactured in the form of at least one hardware chip and mounted on the electronic device 1000.
- the data recognition unit 1320 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (eg, CPU or application processor) or graphics-only processor (eg : GPU) and may be mounted on various electronic devices described above.
- AI artificial intelligence
- the data recognition unit 1320 may be mounted on one electronic device, or may be mounted on separate electronic devices, respectively.
- the data recognition unit 1320 may be implemented as a software module.
- the software module is a computer-readable non-transitory computer readable medium. media).
- the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Or, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
- OS operating system
- OS operating system
- At least one of the data learning unit 1310 and the data recognition unit 1320 may be manufactured in the form of at least one hardware chip and mounted on an electronic device.
- at least one of the data learning unit 1310 and the data recognition unit 1320 may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI), or an existing general-purpose processor (for example, a CPU) Alternatively, it may be manufactured as a part of an application processor or a graphics-only processor (for example, a GPU) and mounted on various electronic devices described above.
- AI artificial intelligence
- an existing general-purpose processor for example, a CPU
- it may be manufactured as a part of an application processor or a graphics-only processor (for example, a GPU) and mounted on various electronic devices described above.
- the data learning unit 1310 and the data recognition unit 1320 may be mounted on one electronic device, or may be mounted on separate electronic devices.
- one of the data learning unit 1310 and the data recognition unit 1320 may be included in the electronic device, and the other may be included in the server.
- the data learning unit 1310 and the data recognition unit 1320 may provide the model information constructed by the data learning unit 1310 to the data recognition unit 1320 through wired or wireless communication. Data input to 1320) may be provided to the data learning unit 1310 as additional learning data.
- At least one of the data learning unit 1310 and the data recognition unit 1320 may be implemented as a software module.
- the software module is a computer-readable, non-transitory readable It may be stored in a readable media (non-transitory computer readable media).
- the at least one software module may be provided by an operating system (OS) or may be provided by a predetermined application. Or, some of the at least one software module may be provided by an operating system (OS), and the other may be provided by a predetermined application.
- 11 is a diagram illustrating an example in which a device and an electronic device learn and recognize data by interworking with each other, according to some embodiments.
- the data learning unit 1310 may be included in the electronic device 1000, and the data recognition unit 2300 may be included in the device 2000.
- the electronic device 1000 may be a server.
- the data learning unit 1310 and the data recognition unit 2300 are not limited to the above-described examples, and can be implemented in other forms.
- the data learning unit 1310 may learn a criterion for transforming a learning image into a sample structure for face recognition based on labeling of feature points forming a predetermined structure in the acquired learning image. Also, when the target image is selected from the device 2000, the data recognition unit 2300 may extract the faces of different target objects in the target image using the artificial intelligence model generated by the data learning unit 1310.
- the data learning unit 1320 of the electronic device 1000 is a reference for recognizing the face of the target object by transforming the learning image into a sample structure based on labeling of feature points forming a predetermined structure in the learning image Can learn.
- the data learning unit 1320 may acquire data to be used for learning, and generate an artificial intelligence model for identifying a face of a target object included in the learning image based on the acquired data.
- the data recognition unit 2300 of the device 2000 may provide the result of applying the data selected as the target image to the artificial intelligence model generated by the electronic device 1000.
- the data recognition unit 2300 of the device 2000 transmits the target image to the electronic device 1000, and the electronic device 1000 applies the target image to the artificial intelligence model, and the target included in the target image You can request to extract the object's face.
- the data recognition unit 2300 may receive information related to the face of the extracted target object from the electronic device 1000.
- the data recognition unit 2300 of the device 2000 receives the artificial intelligence model generated by the electronic device 1000 from the electronic device 1000 and extracts a face from the target image using the received artificial intelligence model. In order to do this, you can process the target image.
- the electronic device 1000 and the device 2000 interlock, it has been described as extracting a target object different from a plurality of types of target objects included in a plurality of learning image sets from the target image, but is limited to this. no.
- Computer readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media.
- Computer readable media may include computer storage media.
- Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
- the “part” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
Description
본 개시는 이미지를 처리하기 위한 방법 및 그에 따른 장치에 관한 것으로서, 보다 상세하게는 대상 객체가 포함된 이미지를 표본 구조로 변환하여 대상 객체의 얼굴을 추출하기 위한 방법 및 그에 따른 장치에 관한 것이다.The present disclosure relates to a method and apparatus for processing an image, and more particularly, to a method and apparatus for extracting a face of a target object by converting an image including the target object into a sample structure.
인공 지능(Artificial Intelligence, AI) 시스템은 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.Artificial Intelligence (Artificial Intelligence) system is a system that the machine learns, judges, and becomes smart, unlike the existing Rule-based smart system. As the artificial intelligence system is used, the recognition rate is improved and the user's taste can be more accurately understood, and the existing rule-based smart system is gradually being replaced by a deep learning-based artificial intelligence system.
인공 지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.Artificial intelligence technology is composed of machine learning (deep learning) and elemental technologies utilizing machine learning.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.Machine learning is an algorithm technology that classifies/learns the characteristics of input data by itself, and element technology is a technology that utilizes machine learning algorithms such as deep learning, linguistic understanding, visual understanding, reasoning/prediction, knowledge expression, motion control, etc. It consists of technical fields.
인공 지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.The various fields in which artificial intelligence technology is applied are as follows. Linguistic understanding is a technology that recognizes and applies/processes human language/characters, and includes natural language processing, machine translation, conversation system, question and answer, speech recognition/synthesis, etc. Visual understanding is a technology that recognizes and processes objects as human vision, and includes object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image improvement. Inference prediction is a technique for logically inferring and predicting information by determining information, and includes knowledge/probability-based reasoning, optimization prediction, preference-based planning, and recommendation. Knowledge expression is a technology that automatically processes human experience information into knowledge data, and includes knowledge building (data generation/classification), knowledge management (data utilization), and so on. Motion control is a technique for controlling autonomous driving of a vehicle and movement of a robot, and includes motion control (navigation, collision, driving), operation control (behavior control), and the like.
한편, 멀티미디어 기술 및 네트워크 기술이 발전함에 따라, 사용자는 다양한 디바이스를 통하여 이미지를 획득하고, 획득된 이미지를 처리하고 이용할 수 있게 되었다. 획득된 이미지들은 얼굴 인식 기술에 이용될 수 있으며, 이미지로부터 얼굴을 인식하는 기술은 다양한 분야에서 활용될 수 있다.Meanwhile, with the development of multimedia technology and network technology, users can acquire images through various devices, and process and use the acquired images. The acquired images can be used for face recognition technology, and the technology for recognizing faces from images can be used in various fields.
얼굴 인식 기술에서, 이미지에 포함된 대상 객체의 얼굴은 대상 객체의 특징 점들이 라벨링된 소정 개수 이상의 이미지 데이터로부터 추출되도록 학습될 수 있다. 이 경우, 대상 객체의 얼굴을 인식하기 위한 이미지 데이터는 소정 개수 이상이 필요하다. 또한, 학습된 대상 객체와 상이한 대상 객체의 얼굴을 인식하기 위해서는 상이한 대상 객체의 얼굴이 포함된 소정 개수 이상의 이미지 데이터가 필요하다. 따라서, 얼굴 인식 속도 향상 및 데이터 효율성을 증가시키기 위해 소정 개수 이하의 이미지 데이터들로부터 대상 객체의 얼굴을 인식하기 위한 기술이 요구되고 있다.In the face recognition technology, the face of the target object included in the image may be learned so that feature points of the target object are extracted from a predetermined number or more of labeled image data. In this case, image data for recognizing the face of the target object needs to be a predetermined number or more. In addition, in order to recognize the face of a different target object from the learned target object, more than a predetermined number of image data including faces of different target objects is required. Accordingly, a technique for recognizing a face of a target object from image data having a predetermined number or less is required to improve the speed of face recognition and increase data efficiency.
일부 실시예는, 이미지에 포함된 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법 및 그에 따른 장치의 제공을 목적으로 한다.Some embodiments aim to provide a method for processing an image to recognize a face of a target object included in the image, and a device accordingly.
또한, 일부 실시예는, 대상 객체의 눈 및 코에 의해 형성되는 구조에 기초하여, 이미지들을 공통된 표본 구조로 변형하도록 이미지를 처리하는 방법 및 그에 따른 장치를 제공할 수 있다.In addition, some embodiments may provide a method and apparatus according to which an image is processed to transform images into a common sample structure based on the structure formed by the eyes and nose of the target object.
또한, 일부 실시예는, 대상 객체가 포함된 학습 이미지에 기초하여 상이한 대상 객체가 포함된 타겟 이미지로부터 얼굴을 추출하기 위해 타겟 이미지를 처리하는 방법 및 그에 따른 장치를 제공할 수 있다.Also, some embodiments may provide a method and apparatus according to the target image processing method for extracting a face from a target image including a different target object based on a learning image including the target object.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것인, 동작; 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하는 동작; 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하는 동작; 및 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 상기 학습 이미지에 기초하여 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는 동작;을 포함하는, 전자 장치가 이미지를 처리하는 방법을 제공할 수 있다.As a technical means for achieving the above-described technical problem, a first aspect of the present disclosure acquires a plurality of sets of learning images corresponding to a plurality of types of target objects, wherein the learning images in the sets of learning images have a predetermined structure. The feature points forming the are labeled; Generating a first artificial intelligence model for determining a sample structure based on the labeled feature points using the training image in the training image sets; Identifying a face from the modified learning image based on the sample structure; And learning a second artificial intelligence model for verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image. It can provide a way to handle.
또한, 본 개시의 제2 측면은, 통신부; 적어도 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 적어도 하나 이상의 인스트럭션을 실행함으로써 상기 전자 장치를 제어하는 프로세서;를 포함하며, 상기 프로세서는, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것이고, 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하고, 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하고, 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 학습 이미지에 기초하여, 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는, 전자 장치를 제공할 수 있다.In addition, a second aspect of the present disclosure, a communication unit; A memory storing at least one instruction; And a processor that controls the electronic device by executing the at least one instruction, wherein the processor acquires a plurality of sets of training images corresponding to a plurality of types of target objects, but learns within the sets of training images. The image is labeled with feature points forming a predetermined structure, and using the training image in the set of training images, creates a first artificial intelligence model for determining a sample structure based on the labeled feature points, and A second artifact for identifying a face from the modified learning image based on a sample structure, and verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image It is possible to provide an electronic device that trains an intelligent model.
또한, 본 개시의 제3 측면은, 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 상기 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것인, 동작; 상기 학습 이미지 세트들 내의 상기 학습 이미지를 이용하여, 상기 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하는 동작; 상기 표본 구조에 기초하여 변형된 상기 학습 이미지로부터 얼굴을 식별하는 동작; 및 상기 변형된 학습 이미지로부터 복원된 이미지 및 상기 변형되기 이전의 상기 학습 이미지에 기초하여 상기 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시키는 동작;을 수행하도록 하는 프로그램이 저장된 기록 매체를 포함하는 컴퓨터 프로그램을 제공할 수 있다.In addition, a third aspect of the present disclosure is to acquire a plurality of sets of training images corresponding to a plurality of types of target objects, wherein the training images in the training image sets are labeled with feature points forming a predetermined structure, action; Generating a first artificial intelligence model for determining a sample structure based on the labeled feature points using the training image in the training image sets; Identifying a face from the modified learning image based on the sample structure; And training a second artificial intelligence model for verifying the first artificial intelligence model based on the reconstructed image from the modified learning image and the before-deformed learning image. It is possible to provide a computer program comprising a medium.
도 1은 일부 실시예에 따른 이미지를 처리하기 위한 시스템의 개요도이다.1 is a schematic diagram of a system for processing an image according to some embodiments.
도 2는 일부 실시예에 따른 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하는 방법의 개요도이다.2 is a schematic diagram of a method of generating an artificial intelligence model for recognizing a face of a target object from a learning image according to some embodiments.
도 3은 일부 실시예에 따른 전자 장치가 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.3 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a learning image, according to some embodiments.
도 4는 일부 실시예에 따른 제1 인공 지능 모델을 나타내는 도면이다.4 is a diagram illustrating a first artificial intelligence model according to some embodiments.
도 5는 일부 실시예에 따른 제2 인공 지능 모델을 나타내는 도면이다.5 is a diagram illustrating a second artificial intelligence model according to some embodiments.
도 6은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하는 시스템의 개요도이다.6 is a schematic diagram of a system for extracting a face of a target object included in the target image by applying the target image to the artificial intelligence model according to some embodiments.
도 7은 일부 실시예에 따른 전자 장치가 타겟 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.7 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a target image according to some embodiments.
도 8은 일부 실시예에 따른 타겟 이미지를 인공 지능 학습 모델에 적용하여 대상 객체의 얼굴을 추출하는 방법을 설명하는 도면이다.8 is a diagram illustrating a method of extracting a face of a target object by applying a target image to an artificial intelligence learning model according to some embodiments.
도 9는 일부 실시예에 따른 전자 장치의 블록도이다.9 is a block diagram of an electronic device according to some embodiments.
도 10은 일부 실시예에 따른 프로세서의 블록도이다.10 is a block diagram of a processor in accordance with some embodiments.
도 11은 일부 실시예에 따른 디바이스 및 전자 장치가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.11 is a diagram illustrating an example in which a device and an electronic device learn and recognize data by interworking with each other, according to some embodiments.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art to which the present disclosure pertains can easily implement them. However, the present disclosure may be implemented in various different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present disclosure in the drawings, parts irrelevant to the description are omitted, and like reference numerals are assigned to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with other elements in between. . Also, when a part “includes” a certain component, this means that other components may be further included instead of excluding other components, unless otherwise specified.
본 명세서에서, 대상 객체는 사람뿐만 아니라, 동물, 캐릭터, 이모티콘 등과 같이 얼굴을 포함하는 다양한 객체의 종류를 지칭할 수 있다. 예를 들어, 개와 고양이는 서로 다른 대상 객체이며, 개 이모티콘 및 고양이 이모티콘도 서로 다른 대상 객체일 수 있다.In the present specification, the target object may refer to various types of objects including faces, such as animals, characters, and emoticons, as well as people. For example, dogs and cats are different target objects, and dog emoticons and cat emoticons may be different target objects.
본 개시의 일 실시예에 따르면, 소정 이미지로부터 대상 객체의 얼굴을 추출하기 위한 인공 지능 모델이 제공된다. 이 때, 인공 지능 모델을 생성하기 위해 이용되는 복수 종류의 대상 객체들에 각각 대응되는 이미지를 '학습 이미지'로 지칭한다. 또한, 기학습된 이미지에 포함된 대상 객체와 상이한 대상 객체가 포함된 이미지로부터 상이한 대상 객체의 얼굴을 추출하기 위해, 생성된 인공 지능 모델에 적용하는 이미지를 '타겟 이미지'로 지칭한다. According to an embodiment of the present disclosure, an artificial intelligence model for extracting a face of a target object from a predetermined image is provided. At this time, an image corresponding to each of a plurality of types of target objects used to generate an artificial intelligence model is referred to as a'learning image'. In addition, in order to extract the faces of different target objects from the target object included in the pre-trained image and the different target object, the image applied to the generated artificial intelligence model is referred to as a'target image'.
본 명세서에서, 인공 지능 모델은, 인공 지능 알고리즘으로서, 기계학습, 신경망, 유전자, 딥러닝, 분류 알고리즘 중 적어도 하나를 이용하여 학습된 학습 모델일 수 있다. In the present specification, the artificial intelligence model may be a learning model trained using at least one of a machine learning, neural network, genetic, deep learning, and classification algorithms as an artificial intelligence algorithm.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.
도 1은 일부 실시예에 따른 이미지를 처리하기 위한 시스템의 개요도이다.1 is a schematic diagram of a system for processing an image according to some embodiments.
도 1을 참조하면, 전자 장치(1000)는 이미지에 포함된 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하기 위한 시스템을 제공할 수 있다. 이 때, 전자 장치(1000)는 서버일 수 있으나, 이에 제한되는 것은 아니다.Referring to FIG. 1, the
전자 장치(1000)는 복수 종류의 대상 객체들에 각각 대응되는 복수의 학습 이미지 세트들을 이용하여, 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성할 수 있다. 구체적으로, 전자 장치(1000)는 기설정된 구조를 형성하는 특징점들이 학습 이미지에 레이블링된 것에 기초하여, 전자 장치(1000)는 레블링된 특징점들에 기초한 표본 구조를 결정할 수 있다. The
구체적으로, 전자 장치(1000)는 복수 종류의 대상 객체들의 얼굴 각각에 공통적으로 눈 및 코가 포함되며, 대상 객체의 눈 및 코가 삼각형의 구조를 형성하는 것에 기초하여, 표본 구조를 결정하고 결정된 표본 구조를 검증하기 위한 인공 지능 모델을 생성할 수 있다. 즉, 전자 장치(1000)는 복수 종류의 대상 객체들에 대응되는 학습 이미지를 이용하여, 대상 객체의 종류와 무관한 표본 구조를 결정할 수 있다. 전자 장치(1000)는 표본 구조에 기초하여 학습 이미지를 변형함으로써, 대상 객체의 얼굴을 식별할 수 있다.Specifically, the
또한, 전자 장치(1000)는 변형된 학습 이미지로부터 학습 이미지를 복원하고, 복원된 학습 이미지와 변형되기 이전의 학습 이미지를 비교하여, 생성된 인공 지능 모델을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 학습 이미지를 복원할 때 복원된 학습 이미지 및 학습 이미지 간 차이가 임계 값 이상인지 여부에 기초하여, 표본 구조가 잘못 결정되었는지 여부를 판단할 수 있다. Also, the
또한, 전자 장치(1000)는 인공 지능 모델을 생성하기 위해 이용된 학습 이미지 세트에 포함된 복수 종류의 대상 객체들과 상이한 종류의 대상 객체에 대응되는 타겟 이미지를 외부 디바이스(미도시)로부터 수신할 수 있다. 전자 장치(1000)는 타겟 이미지를 인공 지능 모델에 입력함으로써, 타겟 이미지를 표본 구조로 변형할 수 있고, 변형된 타겟 이미지로부터 상이한 대상 객체의 얼굴을 추출하고, 추출된 얼굴을 검증할 수 있다. Also, the
도 2는 일부 실시예에 따른 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하는 시스템(100)의 개요도이다.2 is a schematic diagram of a system 100 for generating an artificial intelligence model for recognizing a face of a target object from a learning image according to some embodiments.
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 대상 객체의 얼굴을 인식하기 위한 인공 지능 모델을 생성하기 위해 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트(110)들을 획득할 수 있다. 도 2를 참조하면, 전자 장치(1000)는 돼지, 개, 고양이에 각각 대응되는 돼지 이미지 세트(111), 개 이미지 세트(112), 고양이 이미지 세트(113) 등을 학습 이미지 세트(110)로 획득할 수 있다. 이하에서는 설명의 편의 상, 획득되는 학습 이미지 세트의 대상 객체가 '돼지'인 경우에 대해서 설명한다. 구체적으로, 돼지 이미지 세트(111) 내의 제1 학습 이미지(150)을 기준으로 설명되나, 돼지 이미지 세트(111) 내의 제1 학습 이미지(150)와 상이한 돼지 학습 이미지뿐만 아니라, 후술하는 동작들이 대상 객체의 종류와 무관하게 전체 학습 이미지에 적용될 수 있다.According to an embodiment of the present disclosure, the
학습 이미지 세트(110)들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것일 수 있다. 구체적으로, 복수 종류의 대상 객체들에 각각 대응되는 학습 이미지는 대상 객체의 왼쪽 눈, 오른쪽 눈, 및 코에 대응되는 특징점들이 레이블링된 것일 수 있으며, 기설정된 구조는 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조일 수 있다. 예를 들어, 돼지에 대응되는 제1 학습이미지(150)는 왼쪽 눈, 오른쪽 눈, 및 코에 대응하여 삼각형 구조를 형성하는 특징점들이 레이블링된 것일 수 있다. The learning image in the training image sets 110 may be labeled with feature points forming a predetermined structure. Specifically, the learning image corresponding to each of a plurality of types of target objects may be labeled with feature points corresponding to the left eye, right eye, and nose of the target object, and the preset structure includes the target object's eye and It may be a triangular structure connecting the nose. For example, the first learning image 150 corresponding to the pig may be labeled with feature points forming a triangular structure corresponding to the left eye, right eye, and nose.
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 복수의 학습 이미지 세트(110)들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조(120)를 결정하기 위한 제1 인공 지능 모델을 생성할 수 있다. 구체적으로, 표본 구조(120)는 레이블링된 특징점들 및 STN(Spatial Transform Network) 함수에 기초하여 결정될 수 있다. STN 함수는 입력 이미지를 변환 파라미터(θ)에 기초하여 공간 변환할 수 있다. 본 개시의 일 실시예에 따르면, STN 함수는 [수학식 1]에 대응되며, 전자 장치(1000)는 [수학식 1]을 이용하여 학습 이미지 내의 레이블링된 특징점들에 기초한 표본 구조(120)를 결정할 수 있다.According to an embodiment of the present disclosure, the
[수학식 1][Equation 1]
[수학식 1]을 참조하면, 입력
학습 이미지 내의 레이블링된 특징점들을 나타낼 수 있다. 예를 들어 입력
는 학습 이미지 내의 레이블링된 특징점들의 좌표 또는 벡터일 수 있으나 이에 제한되는 것은 아니고, 레이블링된 특징점들을 나타낼 수 있는 형태이면 어느 것이든 가능하다. 전자 장치(1000)는 입력
의 평균 값에 기초하여 표본 구조(120)를 결정할 수 있다. 구체적으로, 전자 장치(1000)는 복수의 학습 이미지 세트(110)들 내의 학습 이미지에 포함된 특징점들의 표본 구조(120)를 STN 함수의 출력 값
에 기초하여 결정할 수 있다. Referring to [Equation 1], input Labeled feature points in the learning image may be indicated. Enter for example May be a coordinate or vector of labeled feature points in the learning image, but is not limited thereto, and may be any type that can represent the labeled feature points. The
한편, 전자 장치(1000)는 [수학식 1]에 의해 결정된 표본 구조(120) 및 STN 함수(g
STN)에 학습 이미지의 레이블링된 특징점에 대응되는
가 입력될 때 출력되는 구조
간 차이가 소정 임계 값 이하가 되도록 표본 구조(120)를 학습할 수 있다. 구체적으로, 전자 장치(1000)는 하기 [수학식 2]를 이용하여, STN 함수에 학습 이미지의 레이블링된 특징점들에 대응되는
가 입력될 때 출력되는 구조
및 표본 구조(120) 및 간 차이
를 계산하고, MAE(Mean Absolute Error) 값이 최소가 되도록 학습(learning)할 수 있다.Meanwhile, the
[수학식 2][Equation 2]
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 STN 함수를 이용하여 결정된 표본 구조(120)에 기초하여 제1 학습 이미지(150)를 변형할 수 있다. 전자 장치(1000)는 변형된 제1 학습 이미지(151)로부터 대상 객체인 돼지의 얼굴을 식별할 수 있다. 설명의 편의상 변형된 제1 학습 이미지(151)를 이미지의 형태로 표현했으나, 실제 획득되는 것은 변형된 제1 학습 이미지(151)의 좌표, 벡터 또는 함수일 수 있다.According to an embodiment of the present disclosure, the
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 제1 학습 이미지(151)로부터 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150)를 비교하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(1000)는 표본 구조(120)에 기초하여 변형된 제1 학습 이미지(151)를 복원하고, 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150) 간 차이에 기초하여, 제1 인공 지능 모델을 검증할 수 있다. 이 때, 전자 장치(1000)는 복원된 제1 학습 이미지(152) 및 제1 학습 이미지(150) 간 차이를 획득하기 위해 하기 [수학식 3]를 이용할 수 있다. According to an embodiment of the present disclosure, the
[수학식 3][Equation 3]
[수학식 3]을 참조하면, 전자 장치(1000)는 복원 함수(g
reg) 및 STN 역함수(g
STN
-1)를 이용하여 변형된 제1 학습 이미지(151)를 복원할 수 있다. 또한, 전자 장치(1000)는 복원 함수(g
reg) 및 STN 역함수(g
STN
-1)를 이용하여 복원된 제1 학습 이미지(152) 및 변형 전 제1 학습 이미지(150) 간 차이를 계산할 수 있다. 이 때, 전자 장치(1000)는 계산된
값이 소정 임계 값 이하인지 여부에 기초하여 제1 인공 지능 모델을 검증할 수 있다. 제1 인공 지능 모델을 검증하는 방법에 대해서는 후술하도록 한다.Referring to [Equation 3], the
제1 학습 이미지(150)가 STN 함수(g
STN)에 의해 변형된 후, 변형된 제1 학습 이미지(151)가 복원 함수(g
reg)를 통과하면 전자 장치(1000)는 눈 및 코에 대응되는 특징점들의 좌표를 추론할 수 있다. 또한, 전자 장치(1000)는 추론된 눈 및 코에 대응되는 특징점들을 STN 역함수(g
STN
-1)를 이용하여 복원시킨 후 레이블링된 학습 이미지의 특징점에 대응되는
와 비교할 수 있다. After the first learning image 150 is transformed by the STN function g STN , when the modified first learning image 151 passes the restoration function g reg , the
도 3은 일부 실시예에 따른 전자 장치가 학습 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다. 3 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a learning image, according to some embodiments.
동작 S310에서, 전자 장치(1000)는 복수 종류의 대상 객체들에 각각 대응되는 복수의 학습 이미지 세트들을 획득할 수 있다. 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것일 수 있다. 기설정된 구조는 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조일 수 있다. In operation S310, the
동작 S320에서, 전자 장치(1000)는 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성할 수 있다. 구체적으로, 전자 장치(1000)는 레이블링된 특징점들 및 STN 함수에 기초하여 표본 구조를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 전술한 [수학식 1] 및 [수학식 2]를 이용하여, 학습 이미지 내의 특징 점들의 평균 값에 기초하여 표본 구조를 결정하고, 입력되는 특징 점들 및 결정된 표본 구조 간 차이가 최소가 되도록 표본 구조를 학습할 수 있다.In operation S320, the
동작 S330에서, 전자 장치(1000)는 표본 구조에 기초하여 변형된 학습 이미지로부터 얼굴을 식별할 수 있다. 예를 들어, 전자 장치(1000)는 표본 구조에 기초하여 학습 이미지를 변형했을 때, 표본 구조에 대응되는 점들을 대상 객체의 눈 및 코로 판단하여 대상 객체의 얼굴을 식별할 수 있다.In operation S330, the
동작 S340에서, 전자 장치(1000)는 변형된 학습 이미지로부터 복원된 이미지 및 변형되기 이전의 학습 이미지에 기초하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로 전자 장치(1000)는 변형된 학습 이미지를 복원하고, 복원된 이미지 및 학습 이미지 간 차이에 기초하여 제1 인공 지능 모델을 검증할 수 있다. 또한, 전자 장치(1000)는 제2 인공 지능 모델을 이용하여 상기 제1 인공 지능 모델을 검증하고, 검증 결과에 기초하여, 표본 구조를 변경하도록 제1 인공 지능 모델을 업데이트 할 수도 있다. 예를 들어, 전자 장치(1000)는 검증 결과에 기초하여 복원된 이미지 및 학습 이미지 간 차이가 기설정된 임계 값 이하가 되도록 제1 인공 지능 모델을 학습시킬 수 있다.In operation S340, the
도 4는 일부 실시예에 따른 제1 인공 지능 모델을 나타내는 도면이다.4 is a diagram illustrating a first artificial intelligence model according to some embodiments.
제1 인공 지능 모델은 학습 이미지 내의 레이블링된 특징 점들이 형성하는 표본 구조에 기초하여 대상 객체의 얼굴을 인식하기 위한 학습 모델이다. 구체적으로, 도 4를 참조하면, 전자 장치(1000)는 학습 이미지가 제1 인공 지능 모델에 입력되면, STN 함수에 기초하여 학습 이미지를 표본 구조로 변형할 수 있다. 또한, 전자 장치(1000)는 변형된 학습 이미지로부터 표본 구조에 대응되는 특징점들을 디텍터(detector)에 의해 추출함으로써, 학습 이미지에 포함된 얼굴을 인식할 수 있다. 설명의 편의 상, STN 및 디텍터의 구조를 분리하여 도시하였으나, 전자 장치(1000)는 학습 이미지를 STN 변환할 때에 STN 변환된 학습 이미지의 표본 구조에 대응되는 점들에 기초하여 대상 객체의 얼굴을 인식할 수도 있다.The first artificial intelligence model is a learning model for recognizing a face of a target object based on a sample structure formed by labeled feature points in a learning image. Specifically, referring to FIG. 4, when the training image is input to the first artificial intelligence model, the
도 5는 일부 실시예에 따른 제2 인공 지능 모델을 나타내는 도면이다.5 is a diagram illustrating a second artificial intelligence model according to some embodiments.
제2 인공 지능 모델은 제1 인공 지능 모델을 검증하기 위한 학습 모델이다. 구체적으로, 도 5를 참조하면, 전자 장치(1000)는 변형된 학습 이미지가 제2 인공 지능 모델에 입력되면 변형된 학습 이미지를 복원부(regressor)에서 복원하고, 복원된 이미지 및 변형 전 학습 이미지를 비교함으로써 제1 인공 지능 모델을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 복원 함수 및 STN 역함수에 기초하여 변형된 학습 이미지를 복원할 수 있으며, 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하인 경우, 제1 인공 지능 모델이 검증된 것으로 판단할 수 있다.The second artificial intelligence model is a learning model for verifying the first artificial intelligence model. Specifically, referring to FIG. 5, when the transformed learning image is input to the second artificial intelligence model, the
한편, 전자 장치(1000)는 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이상인 경우, 제1 인공 지능 모델이 검증되지 못한 것으로 판단할 수 있다. 예를 들어, 제1 인공 지능 모델이 검증되지 못한 것으로 판단되는 경우로는 제1 인공 지능 모델에 의해 결정된 표본 구조에 오류가 있는 경우 또는 결정된 표본 구조에 오류가 없으나 학습 이미지가 잘못 변형된 경우일 수 있으나, 이에 제한되는 것은 아니다. 즉, 전자 장치(1000)는 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하인지 여부에 기초하여, 제1 인공 지능 모델을 검증할 수 있고, 검증 결과에 기초하여 결정된 표본 구조를 변경하거나 학습 이미지를 표본 구조에 기초하여 다시 변형함으로써 복원된 이미지 및 학습 이미지 간 차이가 소정 임계 값 이하가 되도록 할 수 있다. 예를 들어, 전자 장치(1000)는 제2 인공 지능 모델을 이용하여 제1 인공 지능 모델을 검증하고, 검증 결과에 기초하여, 표본 구조를 변경하도록 제1 인공 지능 모델을 업데이트 할 수 있다.Meanwhile, when the difference between the reconstructed image and the learned image is greater than or equal to a predetermined threshold, the
도 6은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하는 시스템의 개요도이다.6 is a schematic diagram of a system for extracting a face of a target object included in the target image by applying the target image to the artificial intelligence model according to some embodiments.
도 6을 참조하면, 전자 장치(1000)는 인공 지능 모델을 생성하기 위한 학습 이미지 세트에 포함된 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지(250)를 획득할 수 있다. 구체적으로, 전자 장치(1000)는 제1 인공 지능 모델에 의해 결정된 표본 구조를 이용함으로써, 타겟 이미지(250)에 대해 소수 시도 학습(few-shot adaptation)을 적용할 수 있다. 이에 따라, 전자 장치(1000)가 학습 이미지의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지(250)로부터 얼굴을 추출하는 경우 필요한 타겟 이미지(250)의 개수는 소정 개수 이하일 수 있다. 즉, 전자 장치(1000)는 소정 개수 이하의 타겟 이미지(250)를 이용하여 학습 이미지에 포함된 대상 객체들과 상이한 종류의 대상 객체의 얼굴을 추출할 수 있다. 예를 들어, 학습 이미지가 대상 객체 '곰'을 포함하지 않더라도, 전자 장치(1000)는 돼지, 개, 고양이 등과 같이 상이한 대상 객체가 포함된 학습 이미지를 이용하여 생성된 인공 지능 모델에 타겟 이미지(250)를 적용함으로써 대상 객체 '곰'의 얼굴을 추출할 수 있다.Referring to FIG. 6, the
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 획득된 타겟 이미지(250)를 제1 인공 지능 모델에 입력함으로써, 타겟 이미지 내의 특징 점들이 결정된 표본 구조를 형성하도록 타겟 이미지를 변형할 수 있다. According to an embodiment of the present disclosure, the
또한, 전자 장치(1000)는 변형된 타겟 이미지(251)에 기초하여 대상 객체의 얼굴을 추출할 수 있다. 구체적으로, 변형된 타겟 이미지(251) 내의 특징점들은, 타겟 이미지(250) 내의 대상 객체로부터 추론된 것일수 있다. 예를 들어, 전자 장치(1000)는 변형된 타겟 이미지(251) 내의 표본 구조에 대응되는 특징 점들을 대상 객체의 눈 및 코로 판단함으로써, 대상 객체의 얼굴을 추출할 수 있다.Also, the
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지(251) 및 변형 전 타겟 이미지(250)를 제2 인공 지능 모델에 입력함으로써, 제1 인공 지능 모델에 의해 추출된 얼굴을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지(251)로부터 복원된 타겟 이미지(252) 및 변형 전 타겟 이미지(250)를 비교하여 추출된 얼굴을 검증하기 위한 제2 인공 지능 모델에 변형된 타겟 이미지(251)를 입력할 수 있다.According to an embodiment of the present disclosure, the
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지(251)를 제2 인공 지능 모델에 입력함으로써, 변형된 타겟 이미지(251)를 복원할 수 있고, 복원된 타겟 이미지(252)로부터 대상 객체의 얼굴을 추출할 수 있다. 이 때, 전자 장치(1000)는 복원된 타겟 이미지(252) 및 타겟 이미지(250)를 비교함으로써, 복원된 타겟 이미지(252)로부터 추출된 얼굴을 검증할 수 있다. 예를 들어, 전자 장치(1000)는 복원된 타겟 이미지(252) 및 타겟 이미지(250) 간 차이가 소정 임계 값 이하인 경우, 복원된 타겟 이미지(252)로부터 추출된 얼굴을 대상 객체의 얼굴로 결정할 수 있다.According to an embodiment of the present disclosure, the
도 7은 일부 실시예에 따른 전자 장치가 타겟 이미지로부터 대상 객체의 얼굴을 인식하기 위해 이미지를 처리하는 방법의 흐름도이다.7 is a flowchart of a method in which an electronic device processes an image to recognize a face of a target object from a target image according to some embodiments.
동작 S710에서, 전자 장치(1000)는 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득할 수 있다. 전자 장치(1000)는 학습 이미지에 포함된 복수의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지 내의 대상 객체의 얼굴을 추출할 수 있다.In operation S710, the
동작 S720에서, 전자 장치(1000)는 타겟 이미지를 생성된 제1 인공 지능 모델에 적용함으로써, 타겟 이미지 내의 특징점들이 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상이한 종류의 대상 객체의 얼굴을 추출할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지 내의 특징 점들 중 표본 구조에 대응되는 특징 점들에 기초하여 상이한 대상 객체의 얼굴을 결정할 수 있다.In operation S720, the
동작 S730에서, 전자 장치(1000)는 제2 인공 지능 모델에 변형 전의 타겟 이미지 및 상기 변형된 타겟 이미지를 입력함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다. 구체적으로, 전자 장치(1000)는 변형된 타겟 이미지를 복원하고, 복원된 타겟 이미지로부터 상이한 종류의 대상 객체의 얼굴을 추출하며, 복원된 타겟 이미지 및 변형 전의 타겟 이미지를 비교함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다.In operation S730, the
도 8은 일부 실시예에 따른 타겟 이미지를 인공 지능 모델에 적용하여 대상 객체의 얼굴을 추출하는 방법을 설명하는 도면이다.8 is a diagram illustrating a method of extracting a face of a target object by applying a target image to an artificial intelligence model according to some embodiments.
도 8을 참조하면, 전자 장치(1000)는 학습 이미지에 기초하여 기생성된 제1 인공 지능 모델에 타겟 이미지를 입력할 수 있다. 구체적으로, 전자 장치(1000)는 타겟 이미지가 제1 인공 지능 모델에 입력되면, STN 함수를 이용하여 입력된 타겟 이미지를 변형하고, 변형된 타겟 이미지에 기초하여 타겟 이미지에 포함된 대상 객체의 얼굴을 디텍터(Detector)에 의해 추출할 수 있다. 본 개시에서는, 설명의 편의상 STN 및 Detector를 분리하여 도시하였으나, STN 함수 적용 시에 대상 객체의 얼굴에 대응되는 특징 점들이 추출될 수 있음은 물론이다. 한편, 전자 장치(1000)는 타겟 이미지로부터 추출된 특징 점들에 기초하여 제1 인공 지능 모델을 업데이트할 수도 있다. 예를 들어, 전자 장치(1000)는 타겟 이미지 내 특징 점들이 형성하는 구조에 기초하여 결정된 표본 구조를 업데이트 할 수도 있다.Referring to FIG. 8, the
본 개시의 일 실시예에 따르면, 전자 장치(1000)는 변형된 타겟 이미지 및 변형 전 타겟 이미지를 제2 인공 지능 모델에 입력할 수 있다. 구체적으로, 전자 장치(1000)는 복원부(regressor)에서 변형된 타겟 이미지를 복원할 수 있다. 전자 장치(1000)는 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이가 소정 임계 값 이하인지 여부에 기초하여 제1 인공 지능 모델에 기초하여 타겟 이미지로부터 추출된 대상 객체의 얼굴을 검증할 수 있다. 만약, 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이가 소정 임계 값 이상인 경우, 전자 장치(1000)는 기생성된 제1 인공 지능 모델을 변경할 수도 있다. 예를 들어, 전자 장치(1000)는 결정된 표본 구조를 획득된 타겟 이미지 내의 특징 점들에 기초하여 변경하거나, 결정된 표본 구조에 기초하여 타겟 이미지의 변형을 다시 수행할 수도 있다.According to an embodiment of the present disclosure, the
도 9는 일부 실시예에 따른 전자 장치의 블록도이다.9 is a block diagram of an electronic device according to some embodiments.
도 9에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 통신부(1500), 적어도 하나 이상의 인스트럭션을 저장하는 메모리(1700), 및 적어도 하나 이상의 인스트럭션을 실행함으로써 전자 장치(1000)를 제어하는 프로세서(1300)를 포함할 수 있다. 그러나, 도 9에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 9에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 9에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.As illustrated in FIG. 9, the
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 본 개시에서의 전자 장치(1000)의 동작을 제어할 수 있다.The
구체적으로, 프로세서(1300)는, 통신부(1500)를 통하여 디바이스(2000)로부터 이미지를 수신할 수 있다. 예를 들어, 프로세서(1300)는, 디바이스(2000)로부터 수신된 이미지를 처리하여 수신된 이미지에 포함된 대상 객체의 얼굴을 추출하도록 제어할 수 있다.Specifically, the
본 개시의 일 실시예에 따르면, 프로세서(1300)는 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트들을 획득하되, 학습 이미지 세트들 내의 학습 이미지는 기설정된 구조를 형성하는 특징점들이 레이블링된 것이고, 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델을 생성하고, 표본 구조에 기초하여 변형된 학습 이미지로부터 얼굴을 식별하고, 변형된 학습 이미지로부터 복원된 이미지 및 변형되기 이전의 학습 이미지에 기초하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 학습시킬 수 있다.According to an embodiment of the present disclosure, the
프로세서(1300)는 레이블링된 특징점들 및 STN 함수에 기초하여 표본구조를 결정할 수 있다. 또한, 프로세서(1300)는 학습 이미지 내의 특징점들이 표본 구조를 형성하도록 학습 이미지를 변형함으로써, 변형된 학습 이미지를 생성할 수 있다. The
본 개시의 일 실시예에 따르면, 프로세서(1300)는 복수 종류의 대상 객체들과 상이한 종류의 대상 객체가 포함된 타겟 이미지를 획득하고, 타겟 이미지를 생성된 제1 인공 지능 모델에 적용함으로써, 타겟 이미지 내의 특징점들이 표본 구조를 형성하도록 변형된 타겟 이미지로부터, 상이한 종류의 대상 객체의 얼굴을 추출하고, 제2 인공 지능 모델에 변형 전의 타겟 이미지 및 변형된 타겟 이미지를 입력함으로써, 제1 인공 지능 모델에 기초하여 추출된 얼굴을 검증할 수 있다.According to an embodiment of the present disclosure, the
구체적으로, 프로세서(1300)는 복수 종류의 대상 객체들에 대응되는 복수의 학습 이미지 세트와 상이한 대상 객체가 포함된 타겟 이미지를 통신부(1500)를 통해 소정 개수 이하로 수신할 수 있다. 프로세서(1300)는 기 생성된 제1 인공 지능 모델 및 제2 인공 지능 모델에 기초하여, 타겟 이미지를 표본 구조로 변형하고, 변형된 타겟 이미지에 기초하여 상이한 대상 객체의 얼굴을 추출할 수 있다. 즉, 프로세서(1300)는 표본 구조를 이용함으로써, 소정 개수 이하의 이미지만으로 타겟 이미지에 포함된 대상 객체의 얼굴을 추출할 수 있어 데이터 효율성 및 얼굴 인식 속도를 향상시킬 수 있다는 이점이 있다.Specifically, the
통신부(1500)는, 타겟 이미지 또는 학습 이미지를 수신하기 위한 외부 디바이스(미도시)와의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 또한, 통신부(1500)는 얼굴 인식 결과를 외부 디바이스(미도시)에 전송할 수 있다. 통신부(1500)는 근거리 통신부, 이동 통신부 등을 포함할 수 있으나 이에 제한되는 것은 아니다.The
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. The
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. The
도 10은 일부 실시예에 따른 프로세서의 블록도이다.10 is a block diagram of a processor in accordance with some embodiments.
도 10을 참조하면, 일부 실시예에 따른 프로세서(1300)는 데이터 학습부(1310) 및 데이터 인식부(1320)를 포함할 수 있다.Referring to FIG. 10, the
데이터 학습부(1310)는 학습 이미지로부터 표본 구조를 결정하기 위한 기준을 학습할 수 있다. 데이터 학습부(1310)는 표본 구조를 결정하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 학습 이미지를 어떻게 변형시킬 지에 관한 기준을 학습할 수 있다. 예를 들어, 데이터 학습부(1310)는 학습 이미지에 레이블링된 특징 점들을 이용할 수 있다. 또한, 데이터 학습부(1310)는 레이블링된 특징 점들에 기초하여 특징 점들이 형성하는 표본 구조를 결정하고, 표본 구조에 기초하여 학습 이미지를 변형함으로써, 표본 구조에 대응되는 특징 점들에 기초하여 대상 객체의 얼굴을 식별하기 위한 기준을 학습할 수 있다.The
또한, 데이터 학습부(1310)는 학습 이미지에 결정된 표본 구조를 적용함으로써, 변형된 학습 이미지를 획득하고, 변형된 학습 이미지에 기초하여 표본 구조를 검증할 수 있다. 구체적으로, 데이터 학습부(1310)는 변형된 학습 이미지를 복원함으로써, 복원된 학습 이미지 및 변형 전 학습 이미지 간 비교를 통해 표본 구조를 검증하기 위한 기준을 학습할 수 있다.In addition, the
구체적으로, 데이터 학습부(1310)는 표본 구조를 결정하기 위한 학습 이미지를 획득할 수 있다. 예를 들어, 데이터 학습부(1310)는 도 1 및 도 2에서 전술한 바와 같이, 복수 종류의 대상 객체들에 각각 대응되는 학습 이미지 세트들을 획득할 수 있으나, 도 1 및 도 2에서 전술된 실시예에 한정되는 것은 아니다.Specifically, the
데이터 학습부(1310)는 획득된 학습 이미지로부터 얼굴 인식을 위한 데이터를 추출할 수 있도록, 획득된 데이터를 전처리할 수 있다. 데이터 학습부(1310)는, 학습 이미지 내의 대상 객체의 눈 및 코를 연결하는 삼각형 구조를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.The
데이터 학습부(1310)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 구체적으로, 데이터 학습부(1310)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. The
데이터 학습부(1310)는 학습 데이터에 기초하여 학습 이미지를 표본 구조로 변형하기 위한 기준을 학습할 수 있다. 또한, 데이터 학습부(1310)는 어떤 학습 데이터를 이용해야 하는 지에 대한 기준을 학습할 수도 있다.The
또한, 데이터 학습부(1310)는 학습 이미지 내에 기설정된 구조를 형성하는 특징점들이 레이블링된 것에 기초하여 제1 인공 지능 모델 및 제2 인공 지능 모델을 학습시킬 수 있다. 이하에서는, 설명의 편의 상 제1 인공 지능 모델 및 제2 인공 지능 모델을 모두 포함하는 것을 인공 지능 모델이라 한다. In addition, the
또는, 데이터 학습부(1310)는 인공 지능 모델을 생성하고, 생성된 인공 지능 모델을 학습시킬 수도 있다. 인공 지능 모델은 소수 시도 학습(few-shot adaptation)을 위한 학습 모델일 수 있다.Alternatively, the
인공 지능 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 인공 지능 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 인공 지능 모델로서 사용될 수 있으나, 이에 한정되지 않는다.The artificial intelligence model may be constructed in consideration of the application field of the recognition model, the purpose of learning, or the computer performance of the device. The artificial intelligence model may be, for example, a model based on a neural network. For example, a model such as a deep neural network (DNN), a recurrent neural network (RNN), or a bidirectional recurrent deep neural network (BRDNN) may be used as an artificial intelligence model, but is not limited thereto.
다양한 실시예에 따르면, 데이터 학습부(1310)는 미리 구축된 인공 지능 모델이 복수 개가 존재하는 경우, 입력된 학습 이미지와 학습 데이터의 관련성이 인공 지능 모델을 학습할 인공 지능 모델로 결정할 수도 있다. According to various embodiments of the present disclosure, when a plurality of pre-built artificial intelligence models exist, the
또한, 데이터 학습부(1310)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 인공 지능 모델을 학습시킬 수 있다.In addition, the
또한, 데이터 학습부(1310)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 인공 지능 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1310)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 인공 지능 모델을 학습시킬 수 있다. 또한, 데이터 학습부(1310)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 인공 지능 모델을 학습시킬 수 있다.Further, the
또한, 인공 지능 모델이 학습되면, 데이터 학습부(1310)는 학습된 인공 지능 모델을 저장할 수 있다. 이 경우, 데이터 학습부(1310)는 학습된 인공 지능 모델을 후술할 데이터 인식부(1320)를 포함하는 전자 장치(1000)의 메모리에 저장할 수 있다. 또는, 데이터 학습부(1310)는 학습된 인공 지능 모델을 전자 장치(1000)와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.In addition, when the artificial intelligence model is trained, the
이 경우, 학습된 인공 지능 모델이 저장되는 메모리는, 예를 들면, 전자 장치(1000)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.In this case, the memory in which the learned artificial intelligence model is stored may store, for example, instructions or data related to at least one other component of the
데이터 학습부(1310)는 제2 인공 지능 모델에 복원된 학습 이미지 및 변형 전 학습 이미지를 입력하고, 복원된 학습 이미지 및 변형 전 학습 이미지 간 차이에 기초하여, 차이 값이 소정 기준을 만족하지 못하는 경우, 제1 인공 지능 모델이 검증되지 못한 것으로 판단할 수 있다. 이 경우, 데이터 학습부(1310)는 다시 제1 인공 지능 모델을 학습할 수 있다. The
예를 들어, 데이터 학습부(1310)는 평가 데이터에 대한 학습된 인공 지능 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 인공 지능 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 데이터 학습부(1310)는 학습된 인공 지능 모델이 적합하지 않은 것으로 평가할 수 있다.For example, the
한편, 데이터 학습부(1310)는 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. Meanwhile, the
또한, 데이터 학습부(1310)는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310)가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.Also, the
데이터 인식부(1320)는 타겟 이미지로부터 상이한 대상 객체의 얼굴을 추출하기 위해 제1 인공 지능 모델을 이용할 수 있다. 데이터 인식부(1320)는 타겟 이미지를 제1 인공 지능 모델에 입력함으로써, 표본 구조에 기초하여 타겟 이미지를 변형할 수 있다. 이 때, 데이터 인식부(1320)는 변형된 타겟 이미지로부터 표본 구조에 대응되는 특징 점들에 기초하여 대상 객체의 얼굴을 추출할 수 있다. 데이터 인식부(1320)는 학습에 의해 기 설정된 기준에 따라 대상 객체의 눈 코에 대응되는 특징 점들을 획득하고, 획득된 특징 점들에 기초하여 변형된 타겟 이미지로부터 추출된 상이한 대상 객체의 얼굴을 출력 데이터로 제공할 수 있다. 또한, 데이터 인식부(1320)는 변형된 타겟 이미지 및 변형 전 타겟 이미지를 제2 인공 지능 모델에 입력함으로써, 복원된 타겟 이미지 및 변형 전 타겟 이미지 간 차이에 기초하여, 추출된 얼굴을 검증할 수 있다.The
데이터 인식부(1320)는 타겟 이미지 내에 레이블링된 특징 점들과 관련된 데이터를 획득할 수 있으며, 데이터 인식부(1320)는 획득된 데이터를 전처리할 수 있다. 데이터 인식부(1320)는 타겟 이미지 내에 포함된 특징 점들과 관련된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 데이터 인식부(1320)는, 예를 들어, 도 6 내지 도 8에서의 데이터를 획득할 수 있으나, 이에 제한되지 않는다.The
데이터 인식부(1320)는 전처리된 데이터 중에서 필요한 데이터를 선택할 수 있다. 선택된 데이터는 데이터 학습부(1310)에게 제공될 수도 있다. 데이터 인식부(1320)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 데이터 인식부(1320)는 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.The
데이터 인식부(1320)는 선택된 데이터를 인공 지능 모델에 적용하여 타겟 이미지에 포함된 대상 객체의 얼굴을 추출하기 위한 데이터를 출력할 수 있다. 데이터 인식부(1320)는 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 인공 지능 모델에 적용할 수 있다. 또한, 인식 결과는 인공 지능 모델에 의해 결정될 수 있다.The
이 때, 인공 지능 모델은, 학습 이미지 세트들 내의 학습 이미지를 이용하여, 레이블링된 특징점들에 기초한 표본 구조를 결정하기 위한 제1 인공 지능 모델 및 변형된 학습 이미지로부터 복원된 이미지 및 변형 전의 학습 이미지를 비교하여, 제1 인공 지능 모델을 검증하기 위한 제2 인공 지능 모델을 포함할 수 있다. At this time, the artificial intelligence model uses the learning image in the training image sets, the first artificial intelligence model for determining the sample structure based on the labeled feature points, and the reconstructed image from the modified training image and the training image before transformation. By comparing, it may include a second artificial intelligence model for verifying the first artificial intelligence model.
데이터 인식부(1320)는 제2 인공 지능 모델의 출력 결과에 기초하여, 제1 인공 지능 모델이 갱신되도록 할 수 있다. 예를 들어, 데이터 인식부(1320)는 제2 인공 지능 모델에 의해 제공되는 인식 결과를 데이터 학습부(1310)에게 제공함으로써, 데이터 학습부(1310)가 제1 인공 지능 모델을 갱신하도록 할 수 있다.The
한편, 데이터 인식부(1320)는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치(1000)에 탑재될 수 있다. 예를 들어, 데이터 인식부(1320)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. 또한, 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. Meanwhile, the
또한, 데이터 인식부(1320)는 소프트웨어 모듈로 구현될 수 있다. 데이터 인식부(1320)가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.Also, the
데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.At least one of the
이 경우, 데이터 학습부(1310) 및 데이터 인식부(1320)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1310) 및 데이터 인식부(1320)는 유선 또는 무선으로 통하여, 데이터 학습부(1310)가 구축한 모델 정보를 데이터 인식부(1320)로 제공할 수도 있고, 데이터 인식부(1320)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1310)로 제공될 수도 있다.In this case, the
한편, 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1310) 및 데이터 인식부(1320) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. Meanwhile, at least one of the
도 11은 일부 실시예에 따른 디바이스 및 전자 장치가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.11 is a diagram illustrating an example in which a device and an electronic device learn and recognize data by interworking with each other, according to some embodiments.
도 11을 참조하면, 데이터 학습부(1310)는 전자 장치(1000)에 포함되고, 데이터 인식부(2300)는 디바이스(2000)에 포함될 수 있다. 이 때, 전자 장치(1000)는 서버일 수 있다. 다만, 데이터 학습부(1310) 및 데이터 인식부(2300)는 전술된 예에 한정되지 않고, 다른 형태로 구현될 수 있음은 물론이다.Referring to FIG. 11, the
데이터 학습부(1310)는 획득된 학습 이미지 내에 기설정된 구조를 형성하는 특징점들이 레이블링 된 것에 기초하여, 얼굴 인식을 위해 학습 이미지를 표본 구조로 변형하기 위한 기준을 학습할 수 있다. 또한, 데이터 인식부(2300)는, 디바이스(2000)로부터 타겟 이미지가 선택되면, 데이터 학습부(1310)에서 생성된 인공 지능 모델을 이용하여 타겟 이미지 내 상이한 대상 객체의 얼굴을 추출할 수 있다.The
이 경우, 전자 장치(1000)의 데이터 학습부(1320)는 기설정된 구조를 형성하는 특징 점들이 학습 이미지 내에 레이블링된 것에 기초하여 학습 이미지를 표본 구조로 변형하여 대상 객체의 얼굴을 인식하기 위한 기준을 학습할 수 있다. 데이터 학습부(1320)는 학습에 이용될 데이터를 획득하고, 획득된 데이터에 기초하여 학습 이미지에 포함된 대상 객체의 얼굴을 식별하기 위한 인공 지능 모델을 생성할 수 있다.In this case, the
또한, 디바이스(2000)의 데이터 인식부(2300)는 타겟 이미지로 선택된 데이터가 전자 장치(1000)에 의해 생성된 인공 지능 모델에 적용된 결과를 제공할 수 있다. 예를 들어, 디바이스(2000)의 데이터 인식부(2300)는 타겟 이미지를 전자 장치(1000)에게 전송하고, 전자 장치(1000)가 타겟 이미지를 인공 지능 모델에 적용하여, 타겟 이미지에 포함된 대상 객체의 얼굴을 추출할 것을 요청할 수 있다. 또한, 데이터 인식부(2300)는 추출된 대상 객체의 얼굴과 관련된 정보를 전자 장치(1000)로부터 수신할 수 있다. Also, the
또는, 디바이스(2000)의 데이터 인식부(2300)는 전자 장치(1000)에 의해 생성된 인공 지능 모델을 전자 장치(1000)로부터 수신하고, 수신된 인공 지능 모델을 이용하여 타겟 이미지로부터 얼굴을 추출하기 위해 타겟 이미지를 처리할 수 있다. 한편, 도 11에서는 전자 장치(1000) 및 디바이스(2000)가 연동함으로써 복수의 학습 이미지 세트에 포함된 복수 종류의 대상 객체들과 상이한 대상 객체를 타겟 이미지로부터 추출하는 것으로 설명하였지만, 이에 제한되는 것은 아니다. Alternatively, the
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. Some embodiments may also be embodied in the form of a recording medium comprising instructions executable by a computer, such as program modules, being executed by a computer. Computer readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. In addition, computer readable media may include computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.In addition, in this specification, the “part” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present disclosure is for illustration only, and those skilled in the art to which the present disclosure pertains can understand that the present invention can be easily modified into other specific forms without changing the technical spirit or essential features of the present disclosure. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present disclosure is indicated by the following claims rather than the above detailed description, and it should be construed that all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts are included in the scope of the present disclosure. do.
Claims (15)
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/427,471 US12056616B2 (en) | 2019-01-30 | 2020-01-30 | Method for processing image, and apparatus therefor |
| US18/737,604 US20240330688A1 (en) | 2019-01-30 | 2024-06-07 | Method for processing image, and apparatus therefor |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201962798672P | 2019-01-30 | 2019-01-30 | |
| US62/798,672 | 2019-01-30 | ||
| KR1020190060230A KR102894409B1 (en) | 2019-01-30 | 2019-05-22 | Method for detecting a face included in an image and a device therefor |
| KR10-2019-0060230 | 2019-05-22 |
Related Child Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| US17/427,471 A-371-Of-International US12056616B2 (en) | 2019-01-30 | 2020-01-30 | Method for processing image, and apparatus therefor |
| US18/737,604 Continuation US20240330688A1 (en) | 2019-01-30 | 2024-06-07 | Method for processing image, and apparatus therefor |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2020159241A1 true WO2020159241A1 (en) | 2020-08-06 |
Family
ID=71842334
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2020/001401 Ceased WO2020159241A1 (en) | 2019-01-30 | 2020-01-30 | Method for processing image, and apparatus therefor |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US12056616B2 (en) |
| WO (1) | WO2020159241A1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113657528A (en) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | Image feature point extraction method and device, computer terminal and storage medium |
| CN114445682A (en) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | Method, device, electronic equipment, storage medium and product for training model |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11741356B2 (en) * | 2019-02-08 | 2023-08-29 | Korea Advanced Institute Of Science & Technology | Data processing apparatus by learning of neural network, data processing method by learning of neural network, and recording medium recording the data processing method |
| KR20210099988A (en) * | 2020-02-05 | 2021-08-13 | 삼성전자주식회사 | Method and apparatus for meta-training neural network and method and apparatus for training class vector of neuarl network |
| CN117063061A (en) * | 2021-03-29 | 2023-11-14 | 雅马哈发动机株式会社 | Learning model generation method and program for checking the number of objects |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6248178B2 (en) * | 1979-06-20 | 1987-10-13 | Ricoh Kk | |
| KR20030073879A (en) * | 2002-03-13 | 2003-09-19 | 주식회사 엘지이아이 | Realtime face detection and moving tracing method |
| US20110142355A1 (en) * | 2003-09-09 | 2011-06-16 | Fujifilm Corporation | Apparatus, method, and program for discriminating subjects |
| KR101254181B1 (en) * | 2012-12-13 | 2013-04-19 | 위아코퍼레이션 주식회사 | Face recognition method using data processing technologies based on hybrid approach and radial basis function neural networks |
| KR20180074565A (en) * | 2016-12-23 | 2018-07-03 | 삼성전자주식회사 | Image display device and operating method for the same |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7050607B2 (en) * | 2001-12-08 | 2006-05-23 | Microsoft Corp. | System and method for multi-view face detection |
| US20080187213A1 (en) * | 2007-02-06 | 2008-08-07 | Microsoft Corporation | Fast Landmark Detection Using Regression Methods |
| GB2518589B (en) * | 2013-07-30 | 2019-12-11 | Holition Ltd | Image processing |
| US10095917B2 (en) * | 2013-11-04 | 2018-10-09 | Facebook, Inc. | Systems and methods for facial representation |
| US9361510B2 (en) * | 2013-12-13 | 2016-06-07 | Intel Corporation | Efficient facial landmark tracking using online shape regression method |
| WO2015128961A1 (en) * | 2014-02-26 | 2015-09-03 | 株式会社日立製作所 | Face authentication system |
| US9639741B2 (en) * | 2014-04-14 | 2017-05-02 | International Business Machines Corporation | Facial recognition with biometric pre-filters |
| US10796480B2 (en) * | 2015-08-14 | 2020-10-06 | Metail Limited | Methods of generating personalized 3D head models or 3D body models |
| JP2019530041A (en) * | 2016-07-06 | 2019-10-17 | フェイスブック,インク. | Combining the face of the source image with the target image based on the search query |
| US10528799B2 (en) * | 2016-12-23 | 2020-01-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
| US10963676B2 (en) * | 2016-12-23 | 2021-03-30 | Samsung Electronics Co., Ltd. | Image processing method and apparatus |
| CN108241821A (en) | 2016-12-23 | 2018-07-03 | 北京三星通信技术研究有限公司 | Image processing equipment and method |
| CN107194341B (en) * | 2017-05-16 | 2020-04-21 | 西安电子科技大学 | Maxout multi-convolutional neural network fusion face recognition method and system |
| US10380788B2 (en) * | 2017-10-12 | 2019-08-13 | Ohio State Innovation Foundation | Fast and precise object alignment and 3D shape reconstruction from a single 2D image |
| TWI651697B (en) * | 2018-01-24 | 2019-02-21 | National Chung Cheng University | Parking space vacancy detection method and detection model establishment method thereof |
| KR102161359B1 (en) | 2018-12-07 | 2020-09-29 | 주식회사 포스코아이씨티 | Apparatus for Extracting Face Image Based on Deep Learning |
-
2020
- 2020-01-30 WO PCT/KR2020/001401 patent/WO2020159241A1/en not_active Ceased
- 2020-01-30 US US17/427,471 patent/US12056616B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6248178B2 (en) * | 1979-06-20 | 1987-10-13 | Ricoh Kk | |
| KR20030073879A (en) * | 2002-03-13 | 2003-09-19 | 주식회사 엘지이아이 | Realtime face detection and moving tracing method |
| US20110142355A1 (en) * | 2003-09-09 | 2011-06-16 | Fujifilm Corporation | Apparatus, method, and program for discriminating subjects |
| KR101254181B1 (en) * | 2012-12-13 | 2013-04-19 | 위아코퍼레이션 주식회사 | Face recognition method using data processing technologies based on hybrid approach and radial basis function neural networks |
| KR20180074565A (en) * | 2016-12-23 | 2018-07-03 | 삼성전자주식회사 | Image display device and operating method for the same |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113657528A (en) * | 2021-08-24 | 2021-11-16 | 湖南国科微电子股份有限公司 | Image feature point extraction method and device, computer terminal and storage medium |
| CN113657528B (en) * | 2021-08-24 | 2024-02-13 | 湖南国科微电子股份有限公司 | Image feature point extraction method and device, computer terminal and storage medium |
| CN114445682A (en) * | 2022-01-28 | 2022-05-06 | 北京百度网讯科技有限公司 | Method, device, electronic equipment, storage medium and product for training model |
Also Published As
| Publication number | Publication date |
|---|---|
| US12056616B2 (en) | 2024-08-06 |
| US20220114836A1 (en) | 2022-04-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2020159241A1 (en) | Method for processing image, and apparatus therefor | |
| KR102894409B1 (en) | Method for detecting a face included in an image and a device therefor | |
| WO2020141907A1 (en) | Image generation apparatus for generating image on basis of keyword and image generation method | |
| WO2019098414A1 (en) | Method and device for hierarchical learning of neural network, based on weakly supervised learning | |
| WO2019182346A1 (en) | Electronic device for modulating user voice using artificial intelligence model and control method thereof | |
| WO2019098449A1 (en) | Apparatus related to metric-learning-based data classification and method thereof | |
| WO2020130747A1 (en) | Image processing apparatus and method for style transformation | |
| US11501482B2 (en) | Anonymization apparatus, surveillance device, method, computer program and storage medium | |
| WO2019098418A1 (en) | Neural network training method and device | |
| CN114358250B (en) | Data processing method, apparatus, computer device, medium, and program product | |
| CN115862136B (en) | Lightweight refueler behavior recognition method and device based on skeletal joints | |
| WO2019050297A1 (en) | Neural network learning method and device | |
| WO2021033872A1 (en) | Validating performance of a neural network trained using labeled training data | |
| WO2020238353A1 (en) | Data processing method and apparatus, storage medium, and electronic apparatus | |
| WO2021101045A1 (en) | Electronic apparatus and method for controlling thereof | |
| KR20180054407A (en) | Apparatus for recognizing user emotion and method thereof, and robot system using the same | |
| WO2022191474A1 (en) | Electronic device for improving quality of image and method for improving quality of image by using same | |
| WO2021256685A1 (en) | Electronic device and control method thereof | |
| WO2018212584A2 (en) | Method and apparatus for classifying class, to which sentence belongs, using deep neural network | |
| WO2023182796A1 (en) | Artificial intelligence device for sensing defective products on basis of product images and method therefor | |
| CN111008622B (en) | Image object detection method and device and computer readable storage medium | |
| US20240330688A1 (en) | Method for processing image, and apparatus therefor | |
| WO2021246645A1 (en) | Image processing algorithm optimization method, and electronic device having same | |
| CN113963400A (en) | Image processing method, image processing device, electronic equipment and storage medium | |
| CN113516182A (en) | Visual question answering model training, visual question answering method and device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20747644 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 20747644 Country of ref document: EP Kind code of ref document: A1 |