[go: up one dir, main page]

WO2019132590A1 - 영상 변환 방법 및 장치 - Google Patents

영상 변환 방법 및 장치 Download PDF

Info

Publication number
WO2019132590A1
WO2019132590A1 PCT/KR2018/016863 KR2018016863W WO2019132590A1 WO 2019132590 A1 WO2019132590 A1 WO 2019132590A1 KR 2018016863 W KR2018016863 W KR 2018016863W WO 2019132590 A1 WO2019132590 A1 WO 2019132590A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
input
feature
classification
present disclosure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2018/016863
Other languages
English (en)
French (fr)
Inventor
김원태
강신욱
이명재
김동민
김필수
김종열
노병필
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jlk Inspection Inc
Republic Of Korea (korea Customs Service)
Original Assignee
Jlk Inspection Inc
Republic Of Korea (korea Customs Service)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jlk Inspection Inc, Republic Of Korea (korea Customs Service) filed Critical Jlk Inspection Inc
Publication of WO2019132590A1 publication Critical patent/WO2019132590A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • G06T11/005Specific pre-processing for tomographic reconstruction, e.g. calibration, source positioning, rebinning, scatter correction, retrospective gating
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to an image conversion method and apparatus. More particularly, this disclosure relates to an image transformation method and apparatus based on image feature classification.
  • the X-ray image is utilized for customs clearance system or enterprise information security system because it can capture hidden product that can not be identified and detected by the image obtained by shooting with a general image pickup device such as CCD camera.
  • the security check through X-ray image is performed by the inspector checking the X-ray image one by one and judging whether or not an inappropriate or dangerous object is included. Therefore, the security test through X-ray image shows a big difference in the test result according to the skill of the examiner who reads the X-ray image.
  • the technical object of the present disclosure is to provide an image conversion method and apparatus.
  • an image conversion method includes an image input step of inputting an image, an object classification step of classifying objects included in the input image, a reference image selection step of selecting a reference image based on the classification result of the object classification step, And an image transformation step of transforming at least one of the input image and the image related to the object to generate a transformed image.
  • an image conversion apparatus includes an image input unit for inputting an image, an object classification unit for classifying objects included in the input image, a reference image selection unit for selecting a reference image based on the classification result of the object classification unit, And an image converting unit converting at least one of the input image and the image related to the object to generate a transformed image.
  • an image conversion method and apparatus can be provided.
  • a method and apparatus for transforming an input image to appear visually similar to an X-ray image can be provided.
  • FIG. 1 is a view for explaining a structure of an image conversion apparatus according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram for explaining the operation of the image conversion apparatus according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram for explaining an image conversion method according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram for explaining context analysis according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining a process of analyzing an image and identifying an object according to an image analysis apparatus according to an embodiment of the present disclosure.
  • FIG. 7 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram for explaining an embodiment of a composite-object neural network for generating a multi-channel feature map.
  • FIG. 9 is a diagram for explaining an embodiment of the pulling technique.
  • first, second, etc. are used only for the purpose of distinguishing one element from another, and do not limit the order or importance of elements, etc. unless specifically stated otherwise.
  • a first component in one embodiment may be referred to as a second component in another embodiment, and similarly a second component in one embodiment may be referred to as a first component .
  • the components that are distinguished from each other are intended to clearly illustrate each feature and do not necessarily mean that components are separate. That is, a plurality of components may be integrated into one hardware or software unit, or a single component may be distributed into a plurality of hardware or software units. Thus, unless otherwise noted, such integrated or distributed embodiments are also included within the scope of this disclosure.
  • the components described in the various embodiments are not necessarily essential components, and some may be optional components. Thus, embodiments consisting of a subset of the components described in one embodiment are also included within the scope of the present disclosure. Also, embodiments that include other elements in addition to the elements described in the various embodiments are also included in the scope of the present disclosure.
  • FIG. 1 is a view for explaining a structure of an image conversion apparatus according to an embodiment of the present disclosure.
  • the image conversion apparatus 100 may receive the image 110 and output the converted image 160.
  • the image transforming apparatus 100 may include a data preprocessing unit 120, an object classifying unit 130, a reference image selecting unit 140, and / or an image transforming unit 150. Some of the components included in the image conversion apparatus 100 may be omitted or their functions may be integrated into other components. Or two or more operations described by the operation of one component may be performed in separate components.
  • the data preprocessing unit 120 may perform pre-processing to improve the quality of the input image 110.
  • An image filtering technique capable of processing Fast Fourier Transform (FFT), histogram equalization, motion artifact removal, and / or noise cancellation can be applied for the pre-processing .
  • FFT Fast Fourier Transform
  • a median filter may be applied to remove small-sized noise that may occur during image capture.
  • the quality of the image 110 may be improved by, for example, performing FFT to emphasize a component corresponding to a specific frequency region.
  • the edge component included in the image 110 can be emphasized by performing the FFT to set the weight of the high frequency component to a high value.
  • the data preprocessing unit 120 may divide the objects included in the image 110 into a single object by applying the object region segmentation technique.
  • the object region segmentation technique may be a segmentation technique using an image characteristic of an object, and may include an artificial intelligence based segmentation technique through neural network structure learning.
  • a single object image may be generated for each object included in the image 110.
  • the data preprocessing unit 120 may be omitted. That is, the image conversion apparatus 100 may include an object classification unit 130, a reference image selection unit 140, and an image conversion unit 150.
  • the object classification unit 130 may classify the object type by receiving a single object image. Morphological features of the object can be used for the classification. A machine learning based classification technique may be applied for the classification. For example, objects can be classified using at least one of Support Vector Machine (SVM), AdaBoost, and Convolutional Neural Network (CNN).
  • SVM Support Vector Machine
  • AdaBoost AdaBoost
  • CNN Convolutional Neural Network
  • SVM is one of the fields of machine learning, and is a map learning model for pattern recognition or data analysis.
  • SVM can be used mainly for classification and regression analysis.
  • the SVM algorithm Given a set of data belonging to one of two categories, the SVM algorithm can generate a non-stochastic binary linear classification model that determines, based on a given set of data, which category the new data belongs to.
  • the generated classification model can be represented as a boundary in the space where data is mapped, and the SVM algorithm is an algorithm for finding the boundary having the largest width.
  • AdaBoost is one of the machine learning meta algorithms and can be used in combination with other types of learning algorithms to improve performance.
  • We can express the final result of the classifier by weighting the results of other learning algorithms (weaker learner), and if the performance of individual learners is poor, and each performance is slightly better than the random estimate, The model can be converged into a strong learning machine.
  • the composite product neural network structure may be used to extract " features " such as borders, line colors, etc. from the input data (image) and may include multiple layers. Each layer can receive input data and process the input data of the layer to generate output data.
  • the composite neural network can output the feature map generated by convoluting the input image or the input feature map with filter kernels as output data.
  • the initial layers of the composite product neural network may be operated to extract low level features such as edges or gradients from the input.
  • the next layers of the neural network can extract gradually more complex features such as eyes, nose, and so on.
  • the composite neural network may also include a pooling layer in which a pooling operation is performed in addition to the convolutional layer in which the convolution operation is performed.
  • the pooling technique is a technique used to reduce the spatial size of data in the pooling layer.
  • the pooling technique includes a max pooling technique for selecting a maximum value in a corresponding area and an average pooling technique for selecting an average value of the corresponding area.
  • a max pooling technique is generally used do.
  • the window size and interval (stride) of the pooling are generally set to the same value.
  • the stride means adjusting the interval to move the filter when applying the filter to the input data, i.e., the interval at which the filter moves, and the stride can also be used to adjust the size of the output data.
  • a composite neural network structure can be learned to classify a single object image. Learning about the composite neural network structure can be performed to more clearly learn the morphological characteristics of the objects included in the image.
  • the reference image selection unit 140 may select one reference image from one or more reference images stored in a reference image storage unit (not shown) based on the classification result of the object classification unit 130.
  • the reference image may be an X-ray image.
  • the reference image may be a raw image taken by an X-ray imaging device or an image in any format for storing or transmitting the image.
  • the image may be obtained by capturing image data captured by an X-ray reading device and transmitting the image data to an output device such as a monitor and then data.
  • the reference images stored in the reference image storage unit may be categorized or stored as a database.
  • the reference image selector 140 can select a reference image associated with the object by categorizing the classification result of the object.
  • the image converting unit 150 may generate a transformed image using the selected reference image and the single object image.
  • the morphological feature of the object can be incrementally updated to follow the X-ray reference image.
  • an optimization function can be designed.
  • the function can be designed as a weighted sum of terms expressing the shape of an object in a single object image and a feature expressing a characteristic of the X-ray reference image.
  • the term can be designed to minimize the loss in order to minimize the difference in the response of the composite neural network filter between the single object image and the final transformed image.
  • the term designed to minimize loss can be regarded as a term designed to restore the image as well as possible.
  • terms can be designed with a loss that minimizes the correlation between filters of each layer of the composite neural network.
  • the term that expresses the features of the X-ray reference image thus designed can be regarded as a term that can express the overall characteristics of the X-ray image rather than the detailed features of the image.
  • the final loss function can be designed using the weighted sum of the two losses, and the minimized image can be obtained as the final transformed image.
  • FIG. 2 is a diagram for explaining the operation of the image conversion apparatus according to an embodiment of the present disclosure.
  • the input image 210 may include as an object, for example, a vitamin bottle and a toothpaste tube.
  • the data preprocessing unit 120 of the image conversion apparatus of the present disclosure can generate a single object image 220, 260 by performing data preprocessing on the input image 210.
  • the object classification unit 130 may classify the objects included in the single object images 220 and 260 and output classification results such as "Vitamin” 230 and "Toothpaste" 270 for each object .
  • the reference image selector 140 can select the reference images 240 and 280 from the reference image storage unit based on the classification results 230 and 270 of the object classification unit 130.
  • the reference images 240 and 280 may be X-ray images.
  • the image converting unit 150 may generate the converted images 250 and 290 by performing image conversion using the single object images 220 and 260 and the reference images 240 and 280.
  • the transformed images 250 and 290 may be images obtained by transforming the single object images 220 and 260 so as to be visually similar to the X-ray images.
  • FIG. 3 is a diagram for explaining an image conversion method according to an embodiment of the present disclosure.
  • step S310 an image to be subjected to image conversion can be input.
  • the input image may undergo a data preprocessing process in step S320.
  • preprocessing can be performed to improve the quality of the image.
  • the objects included in the input image can be separated into a single object.
  • step S320 a single object image including a single object may be generated. If the input image in step S310 is a single object image, the data preprocessing process in step S320 may not be performed.
  • step S330 the types of objects included in the single object image can be classified. For classification, a machine learning based classification technique using the morphological characteristics of the object can be applied.
  • the reference image can be selected based on the classification result of step S330.
  • a transformed image can be generated by transforming a single object image using the selected reference image.
  • a deep running-based model may be a fully convolutional neural network, a convolutional neural network, a recurrent neural network, but is not limited to, at least one of a neural network, a restricted Boltzmann machine (RBM), and a deep belief neural network (DBN).
  • a machine running method other than deep running may be included.
  • a hybrid model combining deep running and machine running For example, a feature of an image may be extracted by applying a deep learning-based model, and a model based on a machine learning may be applied when an image is classified or recognized based on the extracted feature.
  • the machine learning based model may include, but is not limited to, a support vector machine (SVM), an AdaBoost, and the like.
  • the object classifier 130 may perform context analysis to classify object types.
  • FIG. 4 One embodiment of a context analysis method performed by the object classifier 130 will be described with reference to FIGS. 4 to 9.
  • FIG. 4 One embodiment of a context analysis method performed by the object classifier 130 will be described with reference to FIGS. 4 to 9.
  • the image analysis apparatus 400 of FIG. 4 may be an embodiment of the object classification unit 130 of FIG.
  • the image analyzing apparatus 400 of FIG. 4 may be included in the object classifying unit 130 of FIG. 1, or may be a device separately configured to perform context analysis.
  • the image analysis apparatus 400 may include a feature extraction unit 410, a context generation unit 420, and / or a feature and context analysis unit 430. It should be noted, however, that only the components necessary for explaining the present embodiment are shown, and the components included in the image analysis apparatus 400 are not limited to the above-described examples.
  • the image analysis apparatus 400 extracts the characteristics of the input image (analysis target image), generates context information based on the extracted features, and analyzes the analysis target image based on the extracted features and the generated context information have. For example, the image analysis apparatus 400 can classify the image or locate the object of interest using the extracted features and the generated context information.
  • the input image of the image analysis apparatus 400 may be the same as the input image of the object classification unit 130 of FIG.
  • the feature extracting unit 410 may extract an image feature by analyzing the input image.
  • the feature may be a local feature for each region of the image.
  • the feature extraction unit 410 may extract characteristics of an input image using a general convolutional neural network (CNN) technique or a pooling technique.
  • the pooling scheme may include at least one of a max pooling scheme and an average pooling scheme.
  • the pulling technique referred to in the present disclosure is not limited to the max-pulling technique or the average-pulling technique, and includes any technique of obtaining a representative value of an image area of a predetermined size.
  • the representative value used in the pooling technique may be at least one of a variance value, a standard deviation value, a mean value, a most frequent value, a minimum value, a weighted average value, etc., in addition to the maximum value and the average value.
  • the composite neural network of the present disclosure may be used to extract "features" such as borders, line colors, etc. from input data (images) and may include multiple layers. Each layer can receive input data and process the input data of the layer to generate output data. The composite neural network can output the feature map generated by convoluting the input image or the input feature map with filter kernels as output data. The initial layers of the composite product neural network may be operated to extract low level features such as edges or gradients from the input. The next layers of the neural network can extract gradually more complex features such as eyes, nose, and so on. The concrete operation of the composite neural network will be described later with reference to FIG.
  • the composite neural network may also include a pooling layer in which a pooling operation is performed in addition to the convolutional layer in which the convolution operation is performed.
  • the pooling technique is a technique used to reduce the spatial size of data in the pooling layer.
  • the pooling technique includes a max pooling technique for selecting a maximum value in a corresponding area and an average pooling technique for selecting an average value of the corresponding area.
  • a max pooling technique is generally used do.
  • the window size and interval (stride) of the pooling are generally set to the same value.
  • the stride means adjusting the interval to move the filter when applying the filter to the input data, i.e., the interval at which the filter moves, and the stride can also be used to adjust the size of the output data.
  • the specific operation of the pulling technique will be described later with reference to FIG.
  • the feature extraction unit 410 is a pre-processing for extracting a feature of an analysis object image and can apply filtering to the analysis object image.
  • the filtering may be Fast Fourier Transform (FFT), histogram equalization, motion artifact rejection, or noise rejection.
  • FFT Fast Fourier Transform
  • the filtering of the present disclosure is not limited to the methods listed above, and may include any type of filtering that can improve the quality of the image.
  • image enhancement may be performed as a pre-processing.
  • the context generation unit 420 may generate context information of the input image (analysis target image) using the characteristics of the input image extracted from the feature extraction unit 410.
  • the context information may be a representative value indicating all or a part of the region to be analyzed.
  • the context information may be global context information of the input image.
  • the context generation unit 420 according to an embodiment can generate context information by applying the resultant synthesis neural network technique or the pulling technique to the features extracted from the feature extraction unit 410.
  • the pooling technique may be, for example, an average pooling technique.
  • the feature and context analyzer 430 may analyze the image based on the features extracted by the feature extractor 410 and the context information generated by the context generator 420.
  • the feature and context analyzing unit 430 according to an embodiment concatenates the local features of each region of the image extracted by the feature extracting unit 410 and the global context reconstructed in the context generating unit 420, Or the like to classify an input image or use it to find a position of an object of interest included in an input image. Since the information at the specific two-dimensional position in the input image includes not only the local feature information but also the global context information, the feature and context analyzing unit 430 uses these pieces of information so that the local feature information Can more accurately recognize or classify similar input images.
  • the invention according to one embodiment of the present disclosure allows for more accurate and efficient learning and image analysis by using global context information as well as local features used by a general artificial neural network technique do.
  • the neural network to which the invention according to the present disclosure is applied can be referred to as a 'depth neural network through context analysis'.
  • FIG. 5 is a diagram illustrating a process of generating and analyzing context information of an image according to an embodiment of the present disclosure.
  • the feature extraction unit 510, the context generation unit 520, and the feature and context analysis unit 530 shown in FIG. 5 respectively correspond to the feature extraction unit 410, the context generation unit 420, Section 430 of FIG.
  • the feature extraction unit 510 may extract a feature from the input image 512 using the input image 512 and generate a feature image 514 including the extracted feature information.
  • the extracted feature may be a feature of the local region of the input image.
  • the input image 512 may include a feature map in each layer in the input image of the image analyzing apparatus or the composite neural network model.
  • the feature image 514 may include a feature map and / or a feature vector obtained by applying a composite neural network technique and / or a pulling technique to the input image 512.
  • the context generation unit 520 may generate context information by applying a composite neural network technique and / or a pulling technique to the feature image 514 extracted by the feature extraction unit 510.
  • the context generation unit 520 may generate context information of various scales such as the entire image, the quadrant area, the 9th quadrant area, and the like by variously adjusting the stride of the pooling. Referring to FIG.
  • the feature and context analyzer 530 can more accurately analyze a specific region of the analysis target image using both the feature image 514 and the context information images 522, 524, and 526.
  • a characteristic image 514 including a local feature extracted by the feature extraction unit 510 can not accurately determine whether it is a car or a boat. That is, although the feature extraction unit 510 can recognize the shape of the object based on local features, there are cases where it is not possible to correctly identify and classify the object only with the shape of the object.
  • the context generating unit 520 generates context information 522, 524, and 526 based on the analysis target image or the feature image 514 to more accurately identify and classify the objects . For example, if the feature extracted for the whole image is recognized or classified as "natural landscape ", the feature extracted for the quadrant image is recognized or classified as” Quot; natural scenery ", “lake “, and” water "as the context information.
  • the feature and context analyzer 530 can identify the object having the shape of the boat or car as a "boat" by utilizing the context information.
  • the context information for the entire image, the context information for the quadruple image, and the context information for the nine-divided image are generated and utilized.
  • context information for an image having a size other than the image of the above-described size may be generated and utilized.
  • FIG. 8 The resultant artificial neural network technique and pulling according to an embodiment of the present disclosure will be described later with reference to FIGS. 8 and 9.
  • FIG. 8 The resultant artificial neural network technique and pulling according to an embodiment of the present disclosure will be described later with reference to FIGS. 8 and 9.
  • FIG. 6 is a diagram for explaining a process of analyzing an image and identifying an object according to an image analysis apparatus according to an embodiment of the present disclosure.
  • the image analysis apparatus 600 receives the image 610 and generates information about image regions of various sizes, thereby accurately identifying and / or classifying the objects included in the image 610.
  • the input image 610 may be, for example, an X-ray image including a bag.
  • the image analyzing apparatus 600 analyzes the input image 610 according to the above description, extracts features of the entire image, features of a partial region of the image, and accurately identifies the objects included in the image 610 can do.
  • the feature 622 for the whole image may be, for example, a feature of the shape of the bag.
  • the features for some areas of the image may include, for example, a feature 624 for a handle, a feature 626 for a zipper, a feature 628 for a ring, and the like.
  • the image analysis apparatus 600 can accurately identify that the object included in the image 610 is a "bag” by utilizing the generated features 622, 624, 626, and 628 as context information.
  • the image analysis apparatus 600 may determine that the object included in the image 610 can not be identified as a " bag " Can not be identified as " bag ".
  • an abnormality of the object can be output. For example, when an unstructured space that is not related to a normal characteristic of the "bag ", a space of a certain thickness or more is detected, the" bag "
  • context information that is not related to the normal context information when context information that is not related to the normal context information is included, such fact can be output to the readout source, and the readout source can perform close inspection or refinement inspection Can be performed.
  • FIG. 7 is a view for explaining the operation of the image analysis apparatus according to an embodiment of the present disclosure.
  • step S700 the image analysis apparatus can extract the characteristics of the image to be analyzed.
  • the image analysis apparatus can extract characteristics of an input image by using a general artificial neural network technique or a pulling technique.
  • the feature of the analysis object image may be a local feature for each region of the image, and the pooling technique may include at least one of a max pooling technique and an average pooling technique.
  • step S710 the image analysis apparatus may generate context information based on the features extracted in step S700.
  • the image analysis apparatus may generate context information by applying the composite neural network technique and / or the pulling technique to the features extracted in step S700.
  • the context information may be a representative value indicating all or a part of the region of the image to be analyzed.
  • the context information may be global context information of the input image.
  • the pooling technique may be, for example, an average pooling technique.
  • step S720 the image analysis apparatus may analyze the analysis target image based on the feature extracted in step S700 and the context information generated in step S710.
  • the image analyzing apparatus classifies the input image by combining the local features of each region of the image extracted in step S700 and the global context reconstructed in step S710, or locates the object of interest included in the input image have. Therefore, since the information at a specific two-dimensional position in the input image is included from the local information to the global context, it is possible to more accurately recognize or classify input images which are different in actual contents but local information is similar to each other. Or context information that is not related to other context information.
  • FIG. 8 is a diagram for explaining an embodiment of a composite-object neural network for generating a multi-channel feature map.
  • the image processing based on the composite neural network can be applied to various fields.
  • image processing apparatuses for image object recognition image processing apparatuses for image reconstruction, image processing apparatuses for semantic segmentation, image processing for scene recognition, Device or the like.
  • the input image 810 may be processed through the composite neural network 800 to output the feature map image.
  • the outputted feature map image can be utilized in various fields as described above.
  • the composite neural network 800 may be processed through a plurality of layers 820, 830 and 840, and each layer may output multi-channel feature map images 825 and 835.
  • a plurality of layers 820, 830, and 840 may extract a feature of an image by applying a filter having a predetermined size from the upper left end to the lower right end of the input data.
  • the plurality of layers 820, 830, and 840 multiply the weighted values by the weighted upper left NxM pixels of the input data and map them to a neuron at the upper left of the feature map.
  • the weight to be multiplied will also be NxM.
  • the NxM may be, for example, 3x3, but is not limited thereto.
  • the plurality of hierarchies 820, 830, and 840 scans input data from left to right and from top to bottom by k squares, and maps the weights to neurons in the feature map.
  • the k-th column means a stride for moving the filter when performing the product multiplication, and can be set appropriately to adjust the size of the output data.
  • k may be one.
  • the NxM weight is called a filter or filter kernel. That is, the process of applying the filter in the plurality of layers 820, 830, and 840 is a process of performing a convolution operation with the filter kernel. As a result, the extracted result is referred to as a "feature map" Map image ".
  • the layer on which the convolution operation is performed may be referred to as a convolution layer.
  • multiple-channel feature map refers to a set of feature maps corresponding to a plurality of channels, and may be, for example, a plurality of image data.
  • Channel feature maps 825 and 835 may be input at any hierarchy and may be output according to a feature map computation result, such as a convolution operation.
  • 830, and 840 also referred to as " hierarchies "or” convolutional layers. &Quot; Each layer sequentially receives multi-channel feature maps generated in the previous layer, Channel characteristic maps generated in the L-1th layer (not shown) in the L-th layer 840.
  • the multi-channel characteristic maps generated in the L-1th layer Maps can be generated.
  • the feature maps 825 having the channel K1 are outputs according to the feature map operation 820 in the layer 1 for the input image 810 and the feature map operation 830 in the layer 2 ≪ / RTI > Feature maps 835 with channel K2 are outputs according to feature map operation 830 at layer 2 for input feature maps 825 and feature map operations (not shown) at layer 3, ≪ / RTI >
  • the multi-channel feature maps 825 generated in the first layer 820 include feature maps corresponding to K1 (K1 is an integer) channels.
  • the multi-channel feature maps 835 generated in the second layer 830 include feature maps corresponding to K2 (K2 is an integer) channels.
  • K1 and K2 which represent the number of channels, may correspond to the number of filter kernels used in the first layer 820 and the second layer 830, respectively. That is, the number of multi-channel feature maps generated in the Mth layer (M is an integer equal to or greater than 1 and equal to or smaller than L-1) may be equal to the number of filter kernels used in the Mth layer.
  • FIG. 9 is a diagram for explaining an embodiment of the pulling technique.
  • the window size of the pulling is 2x2
  • the stride is 2
  • the output image 990 can be generated by applying the maximum pulling to the input image 910.
  • a 2x2 window 910 is applied to the upper left of the input image 910, and a representative value (here, maximum value 4) among the values in the window 910 area is calculated and output images 990 At the corresponding position 920 of the display device.
  • the window is shifted by stride, that is, by 2, and the maximum value 3 of the values in the window 930 region is input to the corresponding position 940 of the output image 990.
  • the above process is repeated from the left side of the input image by a stride. That is, as shown in FIG. 9C, the maximum value 5 of the values in the window 950 region is input to the corresponding position 960 of the output image 990.
  • the window is moved by stride, and the maximum value 2 of the values in the window 970 region is input to the corresponding position 980 of the output image 990.
  • the exemplary methods of this disclosure are represented by a series of acts for clarity of explanation, they are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order.
  • the illustrative steps may additionally include other steps, include the remaining steps except for some steps, or may include additional steps other than some steps.
  • various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof.
  • one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays A general processor, a controller, a microcontroller, a microprocessor, and the like.
  • the present invention can be used to transform images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

영상에 포함된 객체의 분류 결과에 기초하여 선택된 참조 영상을 이용하여 영상을 변환하는 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 영상 변환 방법은 영상을 입력받는 영상 입력 단계, 상기 입력 영상에 포함된 객체를 분류하는 객체 분류 단계, 상기 객체 분류 단계의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택 단계, 및 상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환 단계를 포함할 수 있다.

Description

영상 변환 방법 및 장치
본 개시는 영상 변환 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 개시는 영상 특성 분류 기반의 영상 변환 방법 및 장치에 대한 것이다.
X-ray 영상은 CCD 카메라와 같은 일반적인 촬상 기기로 촬영하여 취득된 영상으로는 식별 및 검출이 불가능한 은닉된 제품 등을 촬영할 수 있으므로, 통관 시스템 또는 기업의 정보 보안 시스템 등에 활용되고 있다.
X-ray 영상을 통한 보안 검사는 검사자가 X-ray 영상을 일일이 확인하고, 부적합하거나 위험한 객체가 포함되어 있는지 여부를 판단하는 방식으로 수행된다. 따라서, X-ray 영상을 통한 보안 검사는 X-ray 영상을 판독하는 검사자의 숙련도에 따라 검사 결과에 있어 큰 차이를 보이게 된다.
한편, X-ray 영상의 경우, 사람이 일반적으로 보게 되는 이미지와 판이하게 다른 이미지를 보이므로, 검사자가 X-ray 영상을 통한 보안 검사 과정에 숙달되기까지는 많은 시간과 어려움이 수반된다.
본 개시의 기술적 과제는 영상 변환 방법 및 장치를 제공하는 것이다.
본 개시의 다른 기술적 과제는 X-ray 영상과 시각적으로 유사하게 보이도록 입력 영상을 변환하는 방법 및 장치를 제공하는 것이다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 양상에 따르면 영상 변환 방법이 제공될 수 있다. 상기 방법은 영상을 입력받는 영상 입력 단계, 상기 입력 영상에 포함된 객체를 분류하는 객체 분류 단계, 상기 객체 분류 단계의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택 단계, 및 상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환 단계를 포함할 수 있다.
본 개시의 다른 양상에 따르면 영상 변환 장치가 제공될 수 있다. 상기 장치는 영상을 입력받는 영상 입력부, 상기 입력 영상에 포함된 객체를 분류하는 객체 분류부, 상기 객체 분류부의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택부, 및 상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환부를 포함할 수 있다.
본 개시의 또 다른 양상에 따르면 본 개시의 영상 변환 방법을 수행하기 위해 실행가능한 명령들(executable instructions)을 가지는 소프트웨어 또는 컴퓨터-판독가능한 매체(computer-readable medium)가 제공될 수 있다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 영상 변환 방법 및 장치가 제공될 수 있다.
또한, 본 개시에 따르면, X-ray 영상과 시각적으로 유사하게 보이도록 입력 영상을 변환하는 방법 및 장치가 제공될 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시 예에 따른 영상 변환 장치의 구조를 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 영상 변환 장치의 동작을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시 예에 따른 영상 변환 방법을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 맥락 분석을 설명하기 위한 도면이다.
도 5은 본 개시의 일 실시 예에 따른 영상의 맥락 정보를 생성하고 분석하는 과정을 나타내는 도면이다.
도 6는 본 개시의 일 실시 예에 따른 영상 분석 장치가 영상을 분석하여 객체를 식별하는 과정을 설명하기 위한 도면이다.
도 7는 본 개시의 일 실시 예에 따른 영상 분석 장치의 동작을 설명하기 위한 도면이다.
도 8은 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시 예를 설명하기 위한 도면이다.
도 9은 풀링 기법의 일 실시 예를 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예들에 대해서 설명한다.
도 1은 본 개시의 일 실시 예에 따른 영상 변환 장치의 구조를 설명하기 위한 도면이다.
영상 변환 장치(100)는 영상(110)을 입력 받아 변환 영상(160)을 출력할 수 있다. 이를 위해, 영상 변환 장치(100)는 데이터 전처리부(120), 객체 분류부(130), 참조 영상 선택부(140) 및/또는 영상 변환부(150)를 포함할 수 있다. 영상 변환 장치(100)가 포함하는 상기 각 구성부 중 일부는 생략되거나 그 기능이 다른 구성부에 통합되어 수행될 수 있다. 또는 하나의 구성부의 동작으로 설명된 둘 이상의 동작이 별개의 구성부에서 수행될 수도 있다.
데이터 전처리부(120)는 입력 영상(110)의 품질을 개선하기 위해 전처리(pre-processing)를 수행할 수 있다. 상기 전처리를 위해 고속 푸리에 변환 (Fast Fourier Transform, FFT), 히스토그램 평활화 (histogram equalization), 모션 아티팩트(motion artifact) 제거 및/또는 잡음(noise) 제거 등을 처리할 수 있는 영상 필터링 기술이 적용될 수 있다. 예컨대, 미디언 필터(median filter)를 적용하여 영상 촬영 중 발생할 수 있는 작은 크기의 잡음들을 제거할 수 있다. 또는 예컨대, FFT를 수행을 통해 특정 주파수 영역에 해당하는 성분을 강조함으로써 영상(110)의 품질을 개선할 수 있다. 구체적으로, FFT를 수행하여 고주파수 성분의 가중치를 높게 설정함으로써 영상(110)에 포함된 에지 성분을 강조할 수 있다.
데이터 전처리부(120)는 객체 영역 분할 기술을 적용함으로써 영상(110)에 포함된 객체들을 단일 객체로 분리할 수 있다. 상기 객체 영역 분할 기술은 객체의 영상 특성을 이용하는 분할 기술로서, 신경망 구조 학습을 통한 인공지능 기반의 영상 분할 기술(segmentation)을 포함할 수 있다. 데이터 전처리부(120)의 처리 결과로서, 영상(110)에 포함된 객체별로 단일 객체 영상이 생성될 수 있다.
영상 변환 장치(100)에 입력되는 영상(110)이 단일 객체 영상일 경우, 데이터 전처리부(120)는 생략될 수 있다. 즉, 영상 변환 장치(100)는 객체 분류부(130), 참조 영상 선택부(140) 및 영상 변환부(150)로 구성될 수 있다.
객체 분류부(130)는 단일 객체 영상을 입력받아 객체의 종류를 분류(classification)할 수 있다. 상기 분류를 위해 객체의 형태적 특징이 이용될 수 있다. 상기 분류를 위해 기계학습 기반의 분류 기술이 적용될 수 있다. 예를 들어, 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 및 합성곱 신경망 구조(Convolutional Neural Network, CNN) 중 적어도 하나를 이용하여 객체를 분류할 수 있다.
SVM은 기계 학습의 분야 중 하나로 패턴 인식 또는 자료 분석을 위한 지도 학습 모델이다. SVM은 주로 분류와 회귀 분석을 위해 사용될 수 있다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 생성할 수 있다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현될 수 있으며, SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.
에이다부스트는 기계 학습 메타 알고리즘의 하나로서, 성능을 향상시키기 위하여 다른 형태의 학습 알고리즘과 결합하여 사용될 수 있다. 다른 학습 알고리즘(약한 학습기, weak learner)의 결과물들에 가중치를 두어 더하는 방법으로 분류기의 최종 결과물을 표현할 수 있으며, 개별 학습기들의 성능이 떨어지더라도, 각각의 성능이 무작위 추정보다 조금이라도 우수한 경우, 최종 모델은 강한 학습기로 수렴될 수 있다.
합성곱 신경망 구조는 입력 데이터(영상)로부터 테두리, 선 색 등과 같은 “특징들(features)”을 추출하기 위해 이용될 수 있으며, 복수의 계층들(layers)을 포함할 수 있다. 각각의 계층은 입력 데이터를 수신하고, 해당 계층의 입력 데이터를 처리하여 출력 데이터를 생성할 수 있다. 합성곱 신경망은 입력된 영상 또는 입력된 특징맵(feature map)을 필터 커널들(filter kernels)과 컨볼루션하여 생성한 특징맵을 출력 데이터로서 출력할 수 있다. 합성곱 신경망의 초기 계층들은 입력으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 신경망의 다음 계층들은 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다. 합성곱 신경망은 컨볼루션 연산이 수행되는 합성곱 계층 외에도 풀링 연산이 수행되는 풀링 계층도 포함할 수 있다. 풀링 기법은 풀링 계층에서 데이터의 공간적 크기를 축소하는데 사용되는 기법이다. 구체적으로, 풀링 기법에는 해당 영역에서 최대값을 선택하는 맥스 풀링(max pooling) 기법과 해당 영역의 평균값을 선택하는 평균 풀링(average pooling) 기법이 있으며, 이미지 인식 분야에서는 일반적으로 맥스 풀링 기법이 사용된다. 풀링 기법에서는 일반적으로 풀링의 윈도우 크기와 간격(스트라이드, stride)을 같은 값으로 설정한다. 여기서, 스트라이드란 입력 데이터에 필터를 적용할 때 이동할 간격을 조절하는 것, 즉 필터가 이동할 간격을 의미하며, 스트라이드 또한 출력 데이터의 크기를 조절하기 위해 사용될 수 있다. 본 개시의 일 실시 예에 따라, 단일 객체 영상을 분류하기 위해 합성곱 신경망 구조를 학습할 수 있다. 상기 합성곱 신경망 구조에 대한 학습은 영상에 포함된 객체의 형태적 특징을 보다 명확히 학습하도록 수행될 수 있다.
참조 영상 선택부(140)는 객체 분류부(130)의 분류 결과에 기초하여 미도시의 참조 영상 저장부에 저장된 하나 이상의 참조 영상들로부터 하나의 참조 영상을 선택할 수 있다. 상기 참조 영상은 X-ray 영상일 수 있다. 상기 참조 영상은 X-Ray 영상 기기가 촬영한 로(raw) 이미지이거나 상기 로 이미지를 저장 또는 전송하기 위한 임의의 형태(포맷)의 이미지일 수 있다. 상기 영상은 X-Ray 판독 기기가 촬영하여 모니터와 같은 출력 장치로 전송하는 영상 정보를 캡쳐하여 데이터화함으로써 획득될 수도 있다. 참조 영상 저장부에 저장된 참조 영상들은 범주화(categorization)되거나 데이터 베이스화되어 저장될 수 있다. 상기 객체 분류부(130)로부터 객체의 분류 결과를 입력 받으면, 참조 영상 선택부(140)는 객체의 분류 결과를 범주화함으로써 해당 객체와 관련된 참조 영상을 선택할 수 있다.
영상 변환부(150)는 선택된 참조 영상과 단일 객체 영상을 이용하여 변환 영상을 생성할 수 있다. 객체의 형태적 특징은 X-ray 참조 영상을 따르도록 점진적으로 업데이트될 수 있다. 이를 위해, 최적화 함수를 설계할 수 있다. 상기 함수는 단일 객체 영상 내 객체의 형태를 표현하는 항과 X-ray 참조 영상의 특징을 표현하는 항의 가중합으로 설계할 수 있다.
형태를 표현하는 항의 경우, 합성곱 신경망의 필터 응답 간의 차이를 이용하여 구성할 수 있다. 이때, 단일 객체 영상과 최종 변환 영상의 합성곱 신경망 필터 응답의 차이를 최소화할 수 있도록 해당 loss를 최소화하는 방향으로 항을 설계할 수 있다. loss가 최소화되도록 설계된 항은 영상을 최대한 잘 복원할 수 있도록 설계된 항이라고 볼 수 있다.
X-ray 참조 영상의 특징을 표현하는 항의 경우, 합성곱 신경망의 각 레이어의 필터 간 코릴레이션(correlation)을 최소화하는 loss로 항을 설계할 수 있다. 이렇게 설계된 X-ray 참조 영상의 특징을 표현하는 항은 영상의 디테일한 특징이 아닌 X-ray 영상의 전반적인 특징을 표현할 수 있는 항이라고 볼 수 있다.
상기 두 loss의 가중합을 이용하여 최종 loss 함수를 설계하고, 이를 최소화하는 영상을 최종 변환 영상으로 획득할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 영상 변환 장치의 동작을 설명하기 위한 도면이다.
입력 영상(210)은 객체로서 예컨대, 비타민 병과 치약 튜브를 포함할 수 있다. 본 개시의 영상 변환 장치의 데이터 전처리부(120)는 입력 영상(210)에 대해 데이터 전처리를 수행함으로써, 단일 객체 영상(220, 260)을 생성할 수 있다. 객체 분류부(130)는 단일 객체 영상(220, 260)에 포함된 객체에 대해 분류를 수행함으로써 각 객체에 대해 “Vitamin”(230)과 “Toothpaste”(270)라는 분류 결과를 출력할 수 있다. 참조 영상 선택부(140)는 객체 분류부(130)의 분류 결과(230, 270)에 기초하여 참조 영상 저장부로부터 참조 영상(240, 280)을 선택할 수 있다. 참조 영상(240, 280)은 X-ray 영상일 수 있다. 영상 변환부(150)는 단일 객체 영상(220, 260)과 참조 영상(240, 280)을 이용하여 영상 변환을 수행함으로써 변환 영상(250, 290)을 생성할 수 있다. 변환 영상(250, 290)은 X-ray 영상과 시각적으로 유사하게 보이도록 단일 객체 영상(220, 260)을 변환한 영상일 수 있다.
도 3은 본 개시의 일 실시 예에 따른 영상 변환 방법을 설명하기 위한 도면이다.
S310 단계에서, 영상 변환의 대상이 되는 영상이 입력될 수 있다. 입력 영상은 S320 단계의 데이터 전처리 과정을 거칠 수 있다. 데이터 전처리 과정에서는 영상의 품질을 개선하기 위한 전처리가 수행될 수 있다. 또한, 객체 영역 분할 기술을 적용함으로써, 입력 영상에 포함된 객체들을 단일 객체로 분리할 수 있다. S320 단계의 결과로서, 단일 객체를 포함하는 단일 객체 영상이 생성될 수 있다. S310 단계의 입력 영상이 단일 객체 영상인 경우, S320 단계의 데이터 전처리 과정은 수행되지 않을 수 있다. S330 단계에서, 단일 객체 영상에 포함된 객체의 종류를 분류할 수 있다. 상기 분류를 위해 객체의 형태적 특징을 이용한 기계학습 기반의 분류 기술이 적용될 수 있다. S340 단계에서, S330 단계의 분류 결과에 기초하여, 참조 영상을 선택할 수 있다. S350 단계에서, 선택된 참조 영상을 이용하여 단일 객체 영상을 변환함으로써 변환 영상을 생성할 수 있다.
본 개시에 따르면, 검사자가 보다 직관적으로 판독 업무를 수행할 수 있도록 기계 학습 기반으로 영상을 변환해 줌으로써 작업 효율성이 제고될 수 있고, 숙련된 검사자의 부족으로 인해 발생하였던 기존 업무의 난이도를 낮추어 인력 부족 문제를 해소시킬 수 있다.
본 개시에 따르면, 딥러닝 기반의 모델은 완전 합성곱 신경망(완전 컨볼루션 뉴럴 네트워크, fully convolutional neural network), 합성곱 신경망(컨볼루션 뉴럴 네트워크, convolutional neural network), 순환 신경망(회귀 뉴럴 네트워크, recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine, RBM) 및 심층 신뢰 신경망(deep belief neural network, DBN) 중 적어도 하나를 포함할 수 있으나, 이에 제한되지 않는다. 또는, 딥러닝 이외의 머신 러닝 방법도 포함할 수 있다. 또는 딥러닝과 머신 러닝을 결합한 하이브리드 형태의 모델도 포함할 수 있다. 예컨대, 딥러닝 기반의 모델을 적용하여 영상의 특징을 추출하고, 상기 추출된 특징에 기초하여 영상을 분류하거나 인식할 때는 머신 러닝 기반의 모델을 적용할 수도 있다. 머신 러닝 기반의 모델은 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 등을 포함할 수 있으나, 이에 한정되지 않는다.
상기 객체 분류부(130)는 객체의 종류를 분류하기 위해, 맥락 분석을 수행할 수 있다.
이하, 도 4 내지 도 9을 참고하여, 객체 분류부(130)가 수행하는 맥락 분석 방법의 일 실시 예에 대해 설명한다.
도 4의 영상 분석 장치(400)는 도 1의 객체 분류부(130)의 일 실시 예일 수 있다. 또는 도 4의 영상 분석 장치(400)는, 도 1 의 객체 분류부(130)에 포함되거나, 별개로 구성되어 맥락 분석을 수행하는 장치일 수 있다.
도 4를 참조하면, 영상 분석 장치(400)는 특징 추출부(410), 맥락 생성부(420) 및/또는 특징 및 맥락 분석부(430)를 포함할 수 있다. 다만, 이는 본 실시예를 설명하기 위해 필요한 일부 구성요소만을 도시한 것일 뿐, 영상 분석 장치(400)에 포함된 구성요소가 전술한 예에 한정되는 것은 아니다.
영상 분석 장치(400)는 입력 영상(분석 대상 영상)의 특징을 추출하고, 추출된 특징에 기초하여 맥락 정보를 생성하고, 추출된 특징 및 생성된 맥락 정보에 기초하여 분석 대상 영상을 분석할 수 있다. 예컨대, 영상 분석 장치(400)는 추출된 특징 및 생성된 맥락 정보를 이용하여 영상을 분류하거나 관심 객체의 위치를 찾아낼 수 있다.
영상 분석 장치(400)의 입력 영상은 도 1의 객체 분류부(130)의 입력 영상과 동일할 수 있다.
특징 추출부(410)는 입력 영상을 분석하여 영상의 특징을 추출할 수 있다. 예컨대, 상기 특징은 영상의 각 영역마다의 국소적인 특징일 수 있다. 일 실시 예에 따른 특징 추출부(410)는 일반적인 합성곱 신경망(Convolutional Neural Network, CNN) 기법 또는 풀링(pooling) 기법을 이용하여 입력 영상의 특징을 추출할 수 있다. 상기 풀링 기법은 맥스(max) 풀링 기법 및 평균(average) 풀링 기법 중 적어도 하나를 포함할 수 있다. 그러나, 본 개시에서 언급되는 풀링 기법은 맥스 풀링 기법 또는 평균 풀링 기법에 한정되지 않으며, 소정 크기의 영상 영역의 대표값을 획득하는 임의의 기법을 포함한다. 예컨대, 풀링 기법에 사용되는 대표값은 최대값 및 평균값 외에, 분산값, 표준 편차값, 중간값(mean value), 최빈값(most frequent value), 최소값, 가중 평균값 등 중 적어도 하나일 수 있다.
본 개시의 합성곱 신경망은 입력 데이터(영상)로부터 테두리, 선 색 등과 같은 "특징들(features)"을 추출하기 위해 이용될 수 있으며, 복수의 계층들(layers)을 포함할 수 있다. 각각의 계층은 입력 데이터를 수신하고, 해당 계층의 입력 데이터를 처리하여 출력 데이터를 생성할 수 있다. 합성곱 신경망은 입력된 영상 또는 입력된 특징맵(feature map)을 필터 커널들(filter kernels)과 컨볼루션하여 생성한 특징맵을 출력 데이터로서 출력할 수 있다. 합성곱 신경망의 초기 계층들은 입력으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 신경망의 다음 계층들은 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다. 합성곱 신경망의 구체적인 동작에 대해서는 도 8을 참고하여 후술한다.
합성곱 신경망은 컨볼루션 연산이 수행되는 합성곱 계층 외에도 풀링 연산이 수행되는 풀링 계층도 포함할 수 있다. 풀링 기법은 풀링 계층에서 데이터의 공간적 크기를 축소하는데 사용되는 기법이다. 구체적으로, 풀링 기법에는 해당 영역에서 최대값을 선택하는 맥스 풀링(max pooling) 기법과 해당 영역의 평균값을 선택하는 평균 풀링(average pooling) 기법이 있으며, 이미지 인식 분야에서는 일반적으로 맥스 풀링 기법이 사용된다. 풀링 기법에서는 일반적으로 풀링의 윈도우 크기와 간격(스트라이드, stride)을 같은 값으로 설정한다. 여기서, 스트라이드란 입력 데이터에 필터를 적용할 때 이동할 간격을 조절하는 것, 즉 필터가 이동할 간격을 의미하며, 스트라이드 또한 출력 데이터의 크기를 조절하기 위해 사용될 수 있다. 풀링 기법의 구체적인 동작에 대해서는 도 9을 참고하여 후술한다.
본 개시의 일 실시 예에 따른 특징 추출부(410)는 분석 대상 영상의 특징을 추출하기 위한 전처리(pre-processing)로서, 분석 대상 영상에 필터링을 적용할 수 있다. 상기 필터링은 고속 푸리에 변환(Fast Fourier Transform, FFT), 히스토그램 평활화(histogram equalization), 모션 아티팩트(motion artifact) 제거 또는 노이즈(noise) 제거 등일 수 있다. 그러나, 본 개시의 필터링은 상기 열거한 방법으로 제한되지 않으며, 영상의 품질을 개선할 수 있는 모든 형태의 필터링을 포함할 수 있다. 또는 전처리로서 영상의 강화가 수행될 수도 있다.
맥락 생성부(420)는 특징 추출부(410)로부터 추출된 입력 영상의 특징을 이용하여 입력 영상(분석 대상 영상)의 맥락 정보를 생성할 수 있다. 예컨대, 상기 맥락 정보는 분석 대상 영상의 전체 또는 일부 영역을 나타내는 대표값일 수 있다. 또한 상기 맥락 정보는 입력 영상의 전역적인 맥락 정보일 수 있다. 일 실시 예에 따른 맥락 생성부(420)는 합성곱 신경망 기법 또는 풀링 기법을 특징 추출부(410)로부터 추출된 특징에 적용하여 맥락 정보를 생성할 수 있다. 상기 풀링 기법은 예컨대, 평균 풀링(average pooling) 기법일 수 있다.
특징 및 맥락 분석부(430)는 특징 추출부(410)에서 추출된 특징 및 맥락 생성부(420)에서 생성된 맥락 정보에 기초하여 영상을 분석할 수 있다. 일 실시예에 따른 특징 및 맥락 분석부(430)는 특징 추출부(410)에서 추출된 영상의 각 영역마다의 국소적인 특징 및 맥락 생성부(420)에서 재구성된 전역적인 맥락을 결합(concatenate)하는 등의 방식으로 함께 사용하여, 입력 영상을 분류하거나 입력 영상에 포함된 관심 객체의 위치 등을 찾는데 이용할 수 있다. 입력 영상 내 특정 2차원 위치에서의 정보는 국소적인 특징 정보뿐만 아니라 전역적인 맥락 정보까지 포함하게 되므로, 특징 및 맥락 분석부(430)는 이들 정보를 이용함으로써, 실제 내용은 상이하지만 국소적인 특징 정보가 유사한 입력 영상들에 대해 보다 정확한 인식 또는 분류 등이 가능하게 된다.
전술한 바와 같이, 본 개시의 일 실시 예에 따른 발명은, 일반적인 합성곱 신경망 기법이 사용하는 국소적인 특징뿐만 아니라 전역적인 맥락 정보를 함께 사용함으로써, 보다 더 정확하고 효율적인 학습 및 영상 분석이 가능하게 된다. 이러한 관점에서 본 개시에 따른 발명이 적용된 신경망을 '맥락 분석을 통한 심층 신경망'이라 할 수 있다.
도 5은 본 개시의 일 실시 예에 따른 영상의 맥락 정보를 생성하고 분석하는 과정을 나타내는 도면이다.
도 5의 특징 추출부(510), 맥락 생성부(520), 및 특징 및 맥락 분석부(530)는 각각 도 4의 특징 추출부(410), 맥락 생성부(420), 및 특징 및 맥락 분석부(430)의 일 실시 예일 수 있다.
도 5을 참조하면, 특징 추출부(510)는 입력 영상(512)을 이용하여 입력 영상(512)으로부터 특징을 추출하고, 추출된 특징 정보를 포함하는 특징 영상(514)을 생성할 수 있다. 상기 추출된 특징은 입력 영상의 국소 영역에 대한 특징일 수 있다. 상기 입력 영상(512)은 영상 분석 장치의 입력 영상 또는 합성곱 신경망 모델 내의 각 계층에서의 특징맵을 포함할 수 있다. 또한 상기 특징 영상(514)은 입력 영상(512)에 대해 합성곱 신경망 기법 및/또는 풀링 기법을 적용하여 획득된 특징맵 및/또는 특징 벡터를 포함할 수 있다.
맥락 생성부(520)는 특징 추출부(510)에서 추출된 특징 영상(514)에 대해 합성곱 신경망 기법 및/또는 풀링 기법을 적용하여 맥락 정보를 생성할 수 있다. 예컨대, 맥락 생성부(520)는 풀링의 간격(stride)을 다양하게 조절함으로써 영상 전체, 4등분 영역, 9등분 영역 등의 다양한 크기(scale)의 맥락 정보를 생성할 수 있다. 도 5을 참조하면, 영상 전체 크기의 영상에 대한 맥락 정보를 포함하는 전체 맥락 정보 영상(522), 영상 전체를 4등분한 크기의 4등분 영상에 대한 맥락 정보를 포함하는 4등분 맥락 정보 영상(524) 및 영상 전체를 9등분한 크기의 9등분 영상에 대한 맥락 정보를 포함하는 9등분 맥락 정보 영상(526)이 획득될 수 있다.
특징 및 맥락 분석부(530)는 상기 특징 영상(514)과 상기 맥락 정보 영상(522, 524, 526)을 모두 이용하여 분석 대상 영상의 특정 영역에 대한 분석을 보다 정확히 수행할 수 있다.
예컨대, 자동차(car)와 유사한 형태를 갖는 보트(boat)가 포함된 영상이 입력 영상인 경우, 특징 추출부(510)가 추출한 국소적인 특징을 포함하는 특징 영상(514)으로부터는 상기 식별된 객체가 자동차인지 보트인지 정확히 판단할 수 없다. 즉, 특징 추출부(510)는 국소적인 특징에 기초하여 객체의 형상을 인식할 수 있으나, 해당 객체의 형상만 가지고는 정확히 객체를 식별하고 분류할 수 없는 경우가 있다.
본 개시의 일 실시 예에 따른 맥락 생성부(520)는 상기 분석 대상 영상 또는 상기 특징 영상(514)에 기초하여 맥락 정보(522, 524, 526)를 생성함으로써, 보다 정확히 객체를 식별하고 분류할 수 있다. 예컨대, 전체 영상에 대해 추출된 특징이 "자연 경관"으로 인식 또는 분류되고, 4등분 영상에 대해 추출된 특징이 "호수"로 인식 또는 분류되고, 9등분 영상에 대해 추출된 특징이 "물"로 인식 또는 분류되는 경우, 상기 추출된 특징인 "자연 경관", "호수", "물"을 맥락 정보로서 생성하고 활용할 수 있다.
본 개시의 일 실시 예에 따른 특징 및 맥락 분석부(530)는 상기 맥락 정보를 활용함으로써, 상기 보트 또는 자동차의 형상을 갖는 객체를 "보트"로 식별할 수 있다.
도 5을 참조하여 설명한 실시 예에서는 전체 영상에 대한 맥락 정보, 4등분 영상에 대한 맥락 정보, 9등분 영상에 대한 맥락 정보를 생성하고 활용하는 것에 대해 설명하였으나, 맥락 정보를 추출하는 영상의 크기는 이에 한정되지 않는다. 예컨대, 전술한 크기의 영상 이외의 크기를 갖는 영상에 대한 맥락 정보를 생성하고 활용할 수도 있다.
본 개시의 일 실시 예에 따른 합성곱 신경망 기법 및 풀링에 대해서는 도 8 및 도 9을 참조하여 후술한다.
도 6는 본 개시의 일 실시 예에 따른 영상 분석 장치가 영상을 분석하여 객체를 식별하는 과정을 설명하기 위한 도면이다.
예컨대, 영상 분석 장치(600)는 영상(610)을 입력 받고, 다양한 크기의 영상 영역에 대한 정보를 생성함으로써, 영상(610)에 포함된 객체를 정확히 식별 및/또는 분류할 수 있다. 입력 영상(610)은 예컨대, 가방을 포함하는 X-ray 영상일 수 있다. 영상 분석 장치(600)는 전술한 바에 따라 입력 영상(610)을 분석하여, 영상 전체에 대한 특징, 영상의 일부 영역에 대한 특징을 추출하고 이를 이용하여 영상(610)에 포함된 객체를 정확히 식별할 수 있다. 상기 영상 전체에 대한 특징(622)은 예컨대, 가방의 형상에 대한 특징일 수 있다. 상기 영상의 일부 영역에 대한 특징은 예컨대, 손잡이에 대한 특징(624), 지퍼에 대한 특징(626, 고리에 대한 특징(628) 등을 포함할 수 있다.
영상 분석 장치(600)는 상기 생성된 특징들(622, 624, 626, 628)을 맥락 정보로서 활용함으로써, 상기 영상(610)에 포함된 객체가 "가방"이라는 것을 정확히 식별할 수 있다.
만약 상기 생성된 특징들 중 일부가 “가방”과 관련이 없는 특징이라면, 영상 분석 장치(600)는 상기 영상(610)에 포함된 객체가 “가방”이라고 식별할 수 없거나 또는 상기 영상(610)에 포함된 객체를 “가방”으로 식별할 수 없다는 분석 결과를 제공할 수 있다. 또는, 맥락 정보 중 일부가 다른 맥락 정보와 관련이 없는 경우, 해당 객체의 이상을 출력할 수 있다. 예컨대, "가방"에 대한 통상의 특징과는 관련이 없는 비정형의 공간, 일정한 두께 이상의 공간 등이 검출되는 경우, 해당 "가방"은 이상이 있는 가방이라는 신호를 출력할 수 있다.
상기와 같이, 통상의 맥락 정보와는 관련이 없는 맥락 정보가 포함되는 경우, 그러한 사실은 판독원에게 출력될 수 있으며, 판독원은 이에 기초하여 해당 영상의 화물 또는 객체에 대한 정밀 검사 또는 개장 검사를 실시할 수 있다.
도 7는 본 개시의 일 실시 예에 따른 영상 분석 장치의 동작을 설명하기 위한 도면이다.
S700 단계에서 영상 분석 장치는 분석 대상 영상의 특징을 추출할 수 있다.
일 실시 예에 따른 영상 분석 장치는 일반적인 합성곱 신경망 기법 또는 풀링 기법을 이용하여 입력 영상의 특징을 추출할 수 있다. 상기 분석 대상 영상의 특징은 영상의 각 영역마다의 국소적인 특징일 수 있으며, 또한 상기 풀링 기법은 맥스 풀링 기법 및 평균 풀링 기법 중 적어도 하나를 포함할 수 있다.
S710 단계에서 영상 분석 장치는 S700 단계에서 추출된 특징에 기초하여 맥락 정보를 생성할 수 있다.
일 실시 예에 따른 영상 분석 장치는 합성곱 신경망 기법 및/또는 풀링 기법을 S700 단계에서 추출된 특징에 적용하여 맥락 정보를 생성할 수 있다. 상기 맥락 정보는 분석 대상 영상의 전체 또는 일부 영역을 나타내는 대표값일 수 있다. 또한 상기 맥락 정보는 입력 영상의 전역적인 맥락 정보일 수 있다. 또한, 상기 풀링 기법은 예컨대, 평균 풀링 기법일 수 있다.
S720 단계에서 영상 분석 장치는 S700 단계에서 추출된 특징 및 S710 단계에서 생성된 맥락 정보에 기초하여 상기 분석 대상 영상을 분석할 수 있다.
예컨대, 영상 분석 장치는 S700 단계에서 추출된 영상의 각 영역마다의 국소적인 특징 및 S710 단계에서 재구성된 전역적인 맥락을 결합하여 입력 영상을 분류하거나 입력 영상에 포함된 관심 객체의 위치 등을 찾을 수 있다. 따라서, 입력 영상에서 특정 2차원 위치에서의 정보가 국소적인 정보부터 전역적인 맥락까지 포함됨으로써, 실제 내용은 상이하지만 국소적인 정보가 유사한 입력 영상들에 대해 보다 정확한 인식 또는 분류 등이 가능하다. 또는 다른 맥락 정보와 관련이 없는 맥락 정보를 포함하는 객체에 대한 검출이 가능하다.
도 8은 다채널 특징맵을 생성하는 합성곱 신경망의 일 실시 예를 설명하기 위한 도면이다.
합성곱 신경망 기반의 영상 처리는 다양한 분야에 활용될 수 있다. 예컨대, 영상의 객체 인식(object recognition)을 위한 영상 처리 장치, 영상 복원(image reconstruction)을 위한 영상 처리 장치, 시맨틱 세그먼테이션(semantic segmentation)을 위한 영상 처리 장치, 장면 인식(scene recognition)을 위한 영상 처리 장치 등에 이용될 수 있다.
입력 영상(810)은 합성곱 신경망(800)을 통해 처리됨으로써 특징맵 영상을 출력할 수 있다. 출력된 특징맵 영상은 전술한 다양한 분야에 활용될 수 있다.
합성곱 신경망(800)은 복수의 계층들(820, 830, 840)을 통해 처리될 수 있으며, 각 계층은 다채널 특징맵 영상들(825, 835)을 출력할 수 있다. 일 실시예에 따른 복수의 계층들(820, 830, 840)은 입력받은 데이터의 좌측 상단으로부터 우측 하단까지 일정한 크기의 필터를 적용하여 영상의 특징을 추출할 수 있다. 예를 들어, 복수의 계층들(820, 830, 840)은 입력 데이터의 좌측 상단 NxM 픽셀에 가중치를 곱해서 특징맵의 좌측 상단의 한 뉴런에 매핑시킨다. 이 경우, 곱해지는 가중치도 NxM가 될 것이다. 상기 NxM은 예컨대, 3x3일 수 있으나, 이에 한정되지 않는다. 이후, 동일한 과정으로, 복수의 계층들(820, 830, 840)은 입력 데이터를 좌측에서 우측으로, 그리고 상단에서 하단으로 k 칸씩 스캔하면서 가중치를 곱하여 특징맵의 뉴런에 매핑한다. 상기 k 칸은 합성곱 수행시 필터를 이동시킬 간격(stride)을 의미하며, 출력 데이터의 크기를 조절하기 위해 적절히 설정될 수 있다. 예컨대, k는 1일 수 있다. 상기 NxM 가중치는 필터 또는 필터 커널이라고 한다. 즉, 복수의 계층들(820, 830, 840)에서 필터를 적용하는 과정은 필터 커널과의 컨볼루션 연산을 수행하는 과정이며, 그 결과 추출된 결과물을 "특징맵(feature map)" 또는 "특징맵 영상"이라고 한다. 또한, 컨볼루션 연산이 수행된 계층을 합성곱 계층이라 할 수 있다.
“다채널 특징맵(multiple-channel feature map)"의 용어는 복수의 채널에 대응하는 특징맵들의 세트를 의미하고, 예를 들어 복수의 영상 데이터일 수 있다. 다채널 특징맵들은 합성곱 신경망의 임의의 계층에서의 입력일 수 있고, 컨볼루션 연산 등의 특징맵 연산 결과에 따른 출력일 수 있다. 일 실시예에 따르면, 다채널 특징맵들(825, 835)은 합성곱 신경망의 "특징 추출 계층들" 또는 "컨볼루션 계층들"이라고도 불리는 복수의 계층들(820, 830, 840)에 의해 생성된다. 각각의 계층은 순차적으로 이전 계층에서 생성된 다채널 특징맵들을 수신하고, 출력으로서 그 다음의 다채널 특징맵들을 생성할 수 있다. 최종적으로 L(L은 정수)번째 계층(840)에서는 L-1번째 계층(미도시)에서 생성한 다채널 특징맵들을 수신하여 미도시의 다채널 특징맵들을 생성할 수 있다.
도 8을 참조하면, 채널 K1개를 가지는 특징맵들(825)은 입력 영상(810)에 대해 계층 1에서의 특징맵 연산(820)에 따른 출력이고, 또한 계층 2에서의 특징맵 연산(830)을 위한 입력이 된다. 또한, 채널 K2개를 가지는 특징맵들(835)은 입력 특징맵들(825)에 대해 계층 2에서의 특징맵 연산(830)에 따른 출력이고, 또한 계층 3에서의 특징맵 연산(미도시)을 위한 입력이 된다.
도 8을 참조하면, 첫 번째 계층(820)에서 생성된 다채널 특징맵들(825)은 K1(K1은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 또한, 두 번째 계층(830)에서 생성된 다채널 특징맵들(835)은 K2(K2은 정수)개의 채널에 대응하는 특징맵들을 포함한다. 여기서, 채널의 개수를 나타내는 K1 및 K2는, 첫 번째 계층(820) 및 두 번째 계층(830)에서 각각 사용된 필터 커널의 개수와 대응될 수 있다. 즉, M(M은 1 이상 L-1 이하의 정수)번째 계층에서 생성된 다채널 특징맵들의 개수는 M번째 계층에서 사용된 필터 커널의 개수와 동일할 수 있다.
도 9은 풀링 기법의 일 실시 예를 설명하기 위한 도면이다.
도 9에 도시된 바와 같이, 풀링의 윈도우 사이즈는 2x2, 스트라이드는 2이며, 맥스 풀링을 입력 영상(910)에 적용하여 출력 영상(990)을 생성할 수 있다.
도 9의 (a)에서, 입력 영상(910)의 좌측 상단에 2x2 윈도우(910)를 적용하고, 윈도우(910) 영역 내의 값들 중 대표값(여기서는, 최대값 4)을 계산하여 출력 영상(990)의 대응 위치(920)에 입력한다.
이후, 도 9의 (b)에서, 스트라이드만큼, 즉, 2만큼 윈도우를 이동하고, 윈도우(930) 영역 내의 값들 중 최대값 3을 출력 영상(990)의 대응 위치(940)에 입력한다.
더 이상 우측으로 윈도우를 이동시킬 없는 경우, 다시 입력 영상의 좌측에서 스트라이드만큼 아래의 위치부터 상기 과정을 반복한다. 즉, 도 9의 (c)에 도시된 바와 같이, 윈도우(950) 영역 내의 값들 중 최대값 5를 출력 영상(990)의 대응 위치(960)에 입력한다.
이후, 도 9의 (d)에 도시된 바와 같이, 스트라이드만큼 윈도우를 이동하고, 윈도우(970) 영역 내의 값들 중 최대값 2를 출력 영상(990)의 대응 위치(980)에 입력한다.
상기 과정은 입력 영상(910)의 우측 하단 영역에 윈도우가 위치할 때까지 반복적으로 수행됨으로써, 입력 영상(910)에 풀링을 적용한 출력 영상(990)을 생성할 수 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
본 발명은 영상을 변환하는데 이용할 수 있다.

Claims (7)

  1. 영상을 입력받는 영상 입력부;
    상기 입력 영상에 포함된 객체를 분류하는 객체 분류부;
    상기 객체 분류부의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택부; 및
    상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환부를 포함하는 영상 변환 장치.
  2. 제1항에 있어서,
    상기 객체 분류부는 데이터 전처리부를 포함하고,
    상기 데이터 전처리부는,
    상기 입력 영상에 필터링 및 영상 분할(segmentation) 중 적어도 하나를 수행하여 하나의 객체를 포함하는 단일 객체 영상을 출력하고,
    상기 영상 분할은 인공지능 기반 영상 분할 기법을 이용하여 상기 입력 영상에 포함된 단일 객체를 분리함으로써 상기 단일 객체 영상을 생성하는 영상 변환 장치.
  3. 제2항에 있어서,
    상기 객체 분류부는,
    상기 단일 객체 영상에 포함된 객체를 분류하기 위해 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 및 합성곱 신경망 구조(Convolutional Neural Network, CNN) 중 적어도 하나를 이용하는 영상 변환 장치.
  4. 영상을 입력받는 영상 입력 단계;
    상기 입력 영상에 포함된 객체를 분류하는 객체 분류 단계;
    상기 객체 분류 단계의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택 단계; 및
    상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환 단계를 포함하는 영상 변환 방법.
  5. 제4항에 있어서,
    상기 객체 분류 단계는 데이터 전처리 단계를 포함하고,
    상기 데이터 전처리 단계는,
    상기 입력 영상에 필터링 및 영상 분할(segmentation) 중 적어도 하나를 수행하여 하나의 객체를 포함하는 단일 객체 영상을 출력하는 단계를 포함하고,
    상기 영상 분할은 인공지능 기반 영상 분할 기법을 이용하여 상기 입력 영상에 포함된 단일 객체를 분리함으로써 상기 단일 객체 영상을 생성하는 영상 변환 방법.
  6. 제5항에 있어서,
    상기 객체 분류 단계는,
    상기 단일 객체 영상에 포함된 객체를 분류하기 위해 서포트 벡터 머신(Support Vector Machine, SVM), 에이다부스트(AdaBoost) 및 합성곱 신경망 구조(Convolutional Neural Network, CNN) 중 적어도 하나를 이용하는 영상 변환 방법.
  7. 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서,
    상기 프로그램은,
    영상을 입력받는 영상 입력 단계;
    상기 입력 영상에 포함된 객체를 분류하는 객체 분류 단계;
    상기 객체 분류 단계의 분류 결과에 기초하여 참조 영상을 선택하는 참조 영상 선택 단계; 및
    상기 선택된 참조 영상을 이용하여 상기 입력 영상 및 상기 객체에 관한 영상 중 적어도 하나를 변환하여 변환 영상을 생성하는 영상 변환 단계를 수행하는 컴퓨터로 판독 가능한 기록 매체.
PCT/KR2018/016863 2017-12-29 2018-12-28 영상 변환 방법 및 장치 Ceased WO2019132590A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170183859A KR101890538B1 (ko) 2017-12-29 2017-12-29 영상 변환 방법 및 장치
KR10-2017-0183859 2017-12-29

Publications (1)

Publication Number Publication Date
WO2019132590A1 true WO2019132590A1 (ko) 2019-07-04

Family

ID=63453729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/016863 Ceased WO2019132590A1 (ko) 2017-12-29 2018-12-28 영상 변환 방법 및 장치

Country Status (2)

Country Link
KR (1) KR101890538B1 (ko)
WO (1) WO2019132590A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241463A1 (en) * 2020-02-03 2021-08-05 Korea Institute Of Science And Technology Method for supporting x-ray image reading using image transform model and system performing the same

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200109963A1 (en) * 2018-12-06 2020-04-09 Ron Zass Selectively Forgoing Actions Based on Fullness Level of Containers
KR102378742B1 (ko) 2020-07-30 2022-03-28 한국과학기술연구원 사용자의 x-ray 영상 판독을 지원하는 시스템 및 방법
KR102323602B1 (ko) * 2020-07-31 2021-11-10 (주)제이엘케이 보안영상 출력 장치 및 방법
KR102466156B1 (ko) * 2021-01-19 2022-11-14 주식회사 에이아이웨어 컨벌루셔널 신경망 연산 방법
KR102404166B1 (ko) * 2021-07-20 2022-06-02 국민대학교산학협력단 스타일 전이를 활용한 엑스레이 영상의 유체 탐지 방법 및 장치
KR102565480B1 (ko) * 2021-09-03 2023-08-14 도평건기 주식회사 메신저 대화 카메라 촬영 방지 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130066966A (ko) * 2011-12-13 2013-06-21 중앙대학교 산학협력단 주요 밝기 레벨 및 적응적 밝기값 변환에 의한 대비 개선 장치 및 방법
KR20130135315A (ko) * 2011-03-15 2013-12-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 이미지 데이터 변환을 위한 방법 및 장치
KR20140008980A (ko) * 2012-07-05 2014-01-22 연세대학교 산학협력단 다중 레이어 오버랩 블록 기반의 로컬 히스토그램 평활화를 이용한 영상 콘트라스트 향상 방법 및 장치
KR20150111394A (ko) * 2014-03-20 2015-10-06 인하대학교 산학협력단 X-ray 영상을 위한 선명도 및 대비 향상 방법 및 장치
KR20160131848A (ko) * 2015-05-08 2016-11-16 삼성전자주식회사 객체 인식 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130135315A (ko) * 2011-03-15 2013-12-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 이미지 데이터 변환을 위한 방법 및 장치
KR20130066966A (ko) * 2011-12-13 2013-06-21 중앙대학교 산학협력단 주요 밝기 레벨 및 적응적 밝기값 변환에 의한 대비 개선 장치 및 방법
KR20140008980A (ko) * 2012-07-05 2014-01-22 연세대학교 산학협력단 다중 레이어 오버랩 블록 기반의 로컬 히스토그램 평활화를 이용한 영상 콘트라스트 향상 방법 및 장치
KR20150111394A (ko) * 2014-03-20 2015-10-06 인하대학교 산학협력단 X-ray 영상을 위한 선명도 및 대비 향상 방법 및 장치
KR20160131848A (ko) * 2015-05-08 2016-11-16 삼성전자주식회사 객체 인식 장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241463A1 (en) * 2020-02-03 2021-08-05 Korea Institute Of Science And Technology Method for supporting x-ray image reading using image transform model and system performing the same
US11734831B2 (en) * 2020-02-03 2023-08-22 Korea Institute Of Science And Technology Method for supporting X-RAY image reading using image transform model and system performing the same

Also Published As

Publication number Publication date
KR101890538B1 (ko) 2018-08-30

Similar Documents

Publication Publication Date Title
WO2019132590A1 (ko) 영상 변환 방법 및 장치
Shoieb et al. Computer-aided model for skin diagnosis using deep learning
Fiaschi et al. Learning to count with regression forest and structured labels
Kalouche et al. Vision-based classification of skin cancer using deep learning
WO2019132589A1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
CN110288597B (zh) 基于注意力机制的无线胶囊内窥镜视频显著性检测方法
Şengür et al. White blood cell classification based on shape and deep features
Poostchi et al. Malaria parasite detection and cell counting for human and mouse using thin blood smear microscopy
WO2019132588A1 (ko) 영상의 특징 및 맥락에 기초한 영상 분석 장치 및 방법
Salama et al. Enhancing medical image quality using neutrosophic fuzzy domain and multi-level enhancement transforms: A comparative study for leukemia detection and classification
WO2019189972A1 (ko) 치매를 진단을 하기 위해 홍채 영상을 인공지능으로 분석하는 방법
WO2019132592A1 (ko) 영상 처리 장치 및 방법
WO2021137454A1 (ko) 인공지능 기반의 사용자 의료정보 분석 방법 및 시스템
Mohseni et al. Can self-training identify suspicious ugly duckling lesions?
CN116503858B (zh) 一种基于生成模型的免疫荧光图像分类方法及系统
Nandy et al. An incremental feature extraction framework for referable diabetic retinopathy detection
Guefrechi et al. Deepfake video detection using InceptionResnetV2
WO2023182702A1 (ko) 디지털 병리이미지의 인공지능 진단 데이터 처리 장치 및 그 방법
Cai et al. Detecting abnormal behavior in examination surveillance video with 3D convolutional neural networks
Asha An enhanced deep learning algorithms for image recognition and plant leaf disease detection
Sadhana et al. Prediction of skin cancer using convolutional neural network
CN111191620B (zh) 一种人-物交互检测数据集的构建方法
Yong et al. Human motion analysis in dark surrounding using line skeleton scalable model and vector angle technique
Nguyen et al. A new method for splitting clumped cells in red blood images
Ebrahimpour et al. Ww-nets: Dual neural networks for object detection

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18895734

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18895734

Country of ref document: EP

Kind code of ref document: A1