WO2019112084A1 - Method for removing compression distortion by using cnn - Google Patents
Method for removing compression distortion by using cnn Download PDFInfo
- Publication number
- WO2019112084A1 WO2019112084A1 PCT/KR2017/014263 KR2017014263W WO2019112084A1 WO 2019112084 A1 WO2019112084 A1 WO 2019112084A1 KR 2017014263 W KR2017014263 W KR 2017014263W WO 2019112084 A1 WO2019112084 A1 WO 2019112084A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- compression distortion
- compression
- distortion
- patch
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Definitions
- FIG 5 is another example of a compression distortion elimination network structure according to an embodiment.
- FIG. 8 is an example of a transfer learning learning method of a compression distortion elimination network according to an embodiment.
- FIG. 18 shows an example of a compression distortion removal network application method in a coding process under a low delay configuration.
- Multi-modal / multi-scale net which is a subnetwork structure of two different scales, is proposed to remove compression distortion of HEVC compressed image.
- the channel of the input image is increased through the adaptation network using the coding unit (CU) information and the transformation unit (TU) information of the compressed input image.
- CU coding unit
- TU transformation unit
- FIG. 6 is an example of a discrimination network structure according to an embodiment.
- FIG. 8 is an example of a transfer learning learning method of a compression distortion elimination network according to an embodiment.
- FIG. 9 is an example of a learning method of the discrimination network according to an embodiment.
- the network is learned so as to be classified into the previously assigned group.
- FIGS. 11 to 13 show examples of encoders applying the compression-distortion elimination network according to an embodiment
- FIGS. 14 to 16 show examples of decoders applying the compression-distortion elimination network according to an embodiment.
- learning is performed by six compression distortion elimination networks according to the compression distortion degree, and a discrimination network capable of discriminating the compression distortion image is learned. , It is learned not to remove compression distortion for the same QP image but to learn compression distortion for all compressed images.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
아래 실시예들은 CNN을 이용한 압축 왜곡 제거 방법에 관한 것이다.The following embodiments relate to a compression distortion removal method using CNN.
기존 CNN(Convolutional Neural Network)를 이용한 압축 왜곡 제거 방법은 영상을 HEVC 표준 코덱을 이용하여 압축 왜곡이 포함된 영상을 획득한다. 이 과정에서 Quantization Parameter (QP) 값을 조절하여 영상의 압축 정도를 조절하며, 주로 22, 27, 32, 37 QP 값을 사용한다.Conventional CNN (Convolutional Neural Network) compression distortion elimination method obtains images with compression distortion by using HEVC standard codec. In this process, the quantization parameter (QP) is adjusted to control the degree of compression of the image, and the QP values are mainly used as 22, 27, 32 and 37.
압축된 영상과 원본 영상과의 차이를 최소화하는 CNN 네트워크를 구성하여 입력 영상의 압축 왜곡을 제거하는데, QP별 압축 왜곡 제거 네트워크가 각각 존재하는 것이 단점이다. 즉, 압축 영상의 왜곡을 제거함에 있어서, QP 정보를 이용하여 고정된 QP의 압축 왜곡을 제거하는 네트워크를 학습하여 해당 QP의 압축 영상에 대해서만 압축 왜곡 제거가 가능한 문제점이 있다.A disadvantage of the CNN network that minimizes the difference between the compressed image and the original image is that the compression distortion of the input image is removed. That is, there is a problem that the compression distortion can be removed only for the compressed image of the QP by learning the network that removes the compression distortion of the fixed QP by using the QP information in removing the distortion of the compressed image.
입력 QP에 대한 정보가 없다면(예를 들어, 다른 QP 영상이 입력되면), 압축 왜곡을 효과적으로 제거하는 것이 어렵다.If there is no information about the input QP (for example, another QP image is input), it is difficult to effectively remove the compression distortion.
실시예들은 압축 왜곡 제거에 있어서, 압축 영상 QP별 독립된 네트워크를 사용하지 않고, 판별 네트워크를 통하여 입력 영상을 왜곡의 정도에 따라 카테고리를 분류하여 압축 왜곡을 제거하는 기술을 제공할 수 있다.Embodiments can provide a technique of removing compression distortion by classifying categories according to the degree of distortion of an input image through a discrimination network without using an independent network for each compression image QP in compression distortion removal.
이를 위해, 실시예들은 6개의 압축 왜곡 제거 네트워크와 1개의 bypass 모드를 구성하여 압축 왜곡을 학습하며 판별 네트워크를 통해 입력 영상에 대해 최적의 압축 왜곡 제거 네트워크를 선별하여 압축 왜곡을 제거하는 기술을 제공할 수 있다.To this end, the embodiments provide six compression distortion elimination networks and one bypass mode to learn the compression distortion and select the optimum compression distortion elimination network for the input image through the discrimination network to eliminate the compression distortion can do.
일 실시예에 따른 압축 왜곡 제거 방법은 압축 후 복원된 입력 영상을 패치 블록 단위로 분할하는 단계와, 상기 각 패치 블록 내의 압축 왜곡 특성에 따라 각 패치 블록을 압축 왜곡 카테고리로 분류 하는 단계와, 상기 각 패치 블록을 분류된 압축 왜곡 카테고리에 대응되는 딥 뉴럴 네트워크로 입력하여 압축 왜곡이 제거된 패치 블록을 출력하는 단계와, 상기 각 패치 블록 입력에 대해 딥 뉴럴 네트워크를 통해 출력된 패치 블록을 이용하여 복원된 영상을 구성하는 단계를 포함한다.According to another aspect of the present invention, there is provided a compression distortion removing method comprising: dividing an input image restored after compression into patch blocks; classifying each patch block into compression distortion categories according to compression distortion characteristics in each patch block; Outputting a patch block whose compression distortion has been removed by inputting each patch block into a deeper neural network corresponding to a classified compression distortion category and outputting a patch block whose patch distortion is removed by using a patch block output through a deep neural network And reconstructing the reconstructed image.
도 1은 CNN을 이용한 압축 왜곡 제거 방법의 일 예이다.1 is an example of a compression distortion removing method using CNN.
도 2는 CNN을 이용한 압축 왜곡 제거 방법의 다른 예이다.2 is another example of a compression distortion removing method using CNN.
도 3은 CNN을 이용한 압축 왜곡 제거 방법의 또 다른 예이다.3 is another example of a compression distortion removing method using CNN.
도 4는 일 실시예에 따른 압축 왜곡 제거 네트워크 구조의 일 예이다.4 is an example of a compression distortion removal network structure according to an embodiment.
도 5는 일 실시예에 따른 압축 왜곡 제거 네트워크 구조의 다른 예이다.5 is another example of a compression distortion elimination network structure according to an embodiment.
도 6은 일 실시예에 따른 판별 네트워크 구조의 일 예이다.6 is an example of a discrimination network structure according to an embodiment.
도 7은 일 실시예에 따른 압축 왜곡 제거 네트워크의 초기 학습 방법의 일 예이다.7 is an example of an initial learning method of a compression-distortion elimination network according to an embodiment.
도 8은 일 실시예에 따른 압축 왜곡 제거 네트워크의 Transfer learning 학습 방법의 일 예이다.FIG. 8 is an example of a transfer learning learning method of a compression distortion elimination network according to an embodiment.
도 9는 일 실시예에 따른 판별 네트워크의 학습 방법의 일 예이다.FIG. 9 is an example of a learning method of the discrimination network according to an embodiment.
도 10은 입력 영상에 대해 판별 네트워크를 통해 선택된 압축 왜곡 제거 네트워크를 통한 왜곡 제거의 예들을 나타낸다.10 shows examples of distortion elimination through a compression-distortion removal network selected through a discrimination network for an input image.
도 11 내지 도 13은 일 실시예에 따른 압축 왜곡 제거 네트워크를 적용한 인코더의 예들을 나타낸다.11-13 illustrate examples of encoders applying the compression-distortion elimination network according to an embodiment.
도 14 내지 도 16은 일 실시예에 따른 압축 왜곡 제거 네트워크를 적용한 디코더의 예들을 나타낸다.Figs. 14 to 16 show examples of decoders applying a compression-distortion-canceling network according to an embodiment.
도 17은 전 화면내 구조(All Intra Configuration)하에서의 부호화 과정에서 압축 왜곡 제거 네트워크 적용 방법의 일 예를 나타낸다.17 shows an example of a compression distortion removal network applying method in the encoding process under the All Intra Configuration.
도 18은 저지연 구조(Low Delay Configuration)하에서의 부호화 과정에서 압축 왜곡 제거 네트워크 적용 방법의 일 예를 나타낸다.18 shows an example of a compression distortion removal network application method in a coding process under a low delay configuration.
본 명세서에서 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에서 설명된 실시예들에 한정되지 않는다.It is to be understood that the specific structural or functional descriptions of embodiments of the present invention disclosed herein are presented for the purpose of describing embodiments only in accordance with the concepts of the present invention, May be embodied in various forms and are not limited to the embodiments described herein.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Embodiments in accordance with the concepts of the present invention are capable of various modifications and may take various forms, so that the embodiments are illustrated in the drawings and described in detail herein. However, it is not intended to limit the embodiments according to the concepts of the present invention to the specific disclosure forms, but includes changes, equivalents, or alternatives falling within the spirit and scope of the present invention.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.The terms first, second, or the like may be used to describe various elements, but the elements should not be limited by the terms. The terms may be named for the purpose of distinguishing one element from another, for example without departing from the scope of the right according to the concept of the present invention, the first element being referred to as the second element, Similarly, the second component may also be referred to as the first component.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between. Expressions that describe the relationship between components, such as "between" and "between" or "neighboring to" and "directly adjacent to" should be interpreted as well.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어를 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. It will be understood that, in this specification, the terms "comprises ", or" having ", and the like are to be construed as including the presence of stated features, integers, But do not preclude the presence or addition of steps, operations, elements, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning of the context in the relevant art and, unless explicitly defined herein, are to be interpreted as ideal or overly formal Do not.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the patent application is not limited or limited by these embodiments. Like reference symbols in the drawings denote like elements.
도 1은 CNN을 이용한 압축 왜곡 제거 방법의 일 예이다.1 is an example of a compression distortion removing method using CNN.
HEVC intra coding에서 in-loop filter 을 보강하는 VRCNN은 기존의 in-loop filter 과 비교하여 추가적인 bit-rate 증가 없이 HEVC의 visual quality를 강화시키는 모델이다. VRCNN, which enhances in-loop filter in HEVC intra coding, enhances visual quality of HEVC without additional bit-rate increase compared with existing in-loop filter.
두 종류의 컨볼루션 필터를 결합하여 사용한 방법으로 {5x5, 3x3} 컨볼루션 필터와 {3x3, 1x1} 컨볼루션 필터를 결합하여 사용하였다. We used a combination of two types of convolution filters, {5x5, 3x3} convolution filter and {3x3, 1x1} convolution filter.
22, 27, 32, 37 QP 영상에 대해 기존 HEVC 대비 4.6% bit-rate reduction의 향상을 가져온 방법이다.22, 27, 32, and 37. This is a method for improving the bit-rate reduction of 4.6% compared to the conventional HEVC for QP images.
도 2는 CNN을 이용한 압축 왜곡 제거 방법의 다른 예이다.2 is another example of a compression distortion removing method using CNN.
HEVC 코덱을 수정하지 않고, HEVC로 압축된 영상에 적용가능하다.It is applicable to HEVC compressed images without modifying the HEVC codec.
10개의 층으로 구성된 컨볼루션 네트워크 구조이며, 원본 영상과 출력 영상의 차 영상을 학습하는 residual learning를 사용하였다.A convolution network structure consisting of 10 layers is used and residual learning is used to learn the difference image between the original image and the output image.
22, 27, 32, 37 QP 영상에 대해 기존 HEVC 대비 5.0% bit-rate reduction의 향상을 가져온 방법이다.22, 27, 32, 37 This is a method of improving 5.0% bit-rate reduction compared to existing HEVC for QP images.
도 3은 CNN을 이용한 압축 왜곡 제거 방법의 또 다른 예이다.3 is another example of a compression distortion removing method using CNN.
HEVC 압축 영상의 압축 왜곡을 제거하기 위해 두 개의 서로 다른 스케일의 서브 네트워크 구조인 multi-modal/multi-scale net을 제안하였다. Multi-modal / multi-scale net, which is a subnetwork structure of two different scales, is proposed to remove compression distortion of HEVC compressed image.
압축된 입력 영상의 Coding unit(CU)정보와 transformation unit(TU) 정보를 이용하여 adaptation network를 통해 입력 영상의 채널을 증가시켰다.The channel of the input image is increased through the adaptation network using the coding unit (CU) information and the transformation unit (TU) information of the compressed input image.
22, 27, 32, 37 QP 영상에 대해 기존 HEVC 대비 8.5% bit-rate reduction의 향상을 가져온 방법이다.22, 27, 32 and 37 QP images compared to conventional HEVCs.
이하에서는 실시예에 따른 CNN을 이용한 압축 왜곡 방법에 대해서 설명한다.Hereinafter, a compression distortion method using CNN according to an embodiment will be described.
실시예들은 압축된 영상에서 압축 왜곡을 제거하기 위해서, 압축 왜곡 정도에 따라 압축 왜곡 카테고리에 대응되는 딥 뉴럴 네트워크로 학습하고, 이를 분별할 수 있는 판별 네트워크를 학습하여, 입력 영상에 대해 판별 네트워크를 통해 압축 왜곡을 가장 효과적으로 제거할 수 있는 네트워크를 선택한 뒤, 선택된 네트워크로 압축 왜곡을 제거하는 것을 특징으로 한다.In the embodiments, in order to remove compression distortion in a compressed image, it is learned by a deep neural network corresponding to a compression distortion category according to the degree of compression distortion, and a discrimination network capable of distinguishing the discrimination network is learned. Selecting a network that can most effectively remove compression distortion, and then removing compression distortion from the selected network.
또한, 실시예들의 압축 왜곡 제거 과정은, 종래의 방법처럼 특정 QP에서 학습하여 동일 QP 영상에 대한 압축 왜곡을 제거 하는 것이 아니라, 모든 영상 압축 왜곡을 제거할 수 있도록 학습한 것이 특징이다. In addition, the process of removing the compression distortion of the embodiments is characterized in that it is learned not to remove compression distortion for the same QP image but to learn all the image compression distortion by learning in a specific QP as in the conventional method.
실시예들은, 패치 블록 내의 압축 왜곡 특성에 따라 2개 이상의 카테고리로 분류한 뒤, 분류된 압축 왜곡 카테고리에 대응되는 딥 뉴럴 네트워크로 학습한다. 분류된 패치 블록으로 초기 학습을 한 뒤, 모든 패치 블록으로부터 랜덤하게 추출한 패치 블록에 대해 압축 왜곡 제거 네트워크로 압축 왜곡을 제거한 영상과 원본 영상의 차이가 가장 적은 압축 왜곡 카테고리에 해당하는 딥 뉴럴 네트워크로 학습하는 과정을 통해 압축 왜곡 정도에 따라 압축 왜곡 제거 네트워크를 학습하는 특징을 가지고 있다.Embodiments classify into two or more categories according to the compression distortion characteristics in the patch block and then learn with a deep neural network corresponding to the classified compression distortion category. A degenerate neural network corresponding to a compression distortion category having the smallest difference between an image obtained by removing compression distortion from a compression distortion elimination network and an original image for a patch block randomly extracted from all patch blocks after initial learning with a classified patch block And learns the compression distortion cancellation network according to the compression distortion degree through learning process.
도 4는 일 실시예에 따른 압축 왜곡 제거 네트워크 구조의 일 예이다.4 is an example of a compression distortion removal network structure according to an embodiment.
도 4를 참조하면, 압축 왜곡 제거 네트워크는 HEVC 압축된 영상의 압축 왜곡을 제거하는 모델, 6 압축 왜곡 카테고리(SCAR sub-network), 1 압축 왜곡이 없는 카테고리(bypass), 및 1 판별 네트워크 (Selector sub-network)를 포함한다.4, the compression-distortion elimination network includes a model for eliminating compression distortion of an HEVC compressed image, a SCAR sub-network, a category without compression distortion (1), and a discrimination network sub-network).
도 5는 일 실시예에 따른 압축 왜곡 제거 네트워크 구조의 다른 예이다.5 is another example of a compression distortion elimination network structure according to an embodiment.
도 5를 참조하면, 압축 왜곡 제거 네트워크에서, 입력 패치 블록의 크기는 128x128 사이즈이며, 5x5 커널이 4개가 포함된 7개의 residual block을 포함하고 있으며, 총 30개의 층으로 구성된다.Referring to FIG. 5, in the compression distortion elimination network, the size of the input patch block is 128x128, and includes seven residual blocks including four 5x5 kernels, and a total of 30 layers.
출력단은 tanh activation 함수를 사용하여 출력값의 범위를 -1 ~ +1로 한정한다.The output stage uses the tanh activation function to limit the output range to -1 to +1.
컨볼루션 이후에 leaky rectified linear unit (LeakyReLU)를 사용한다.After convolution, use a leaky rectified linear unit (LeakyReLU).
도 6은 일 실시예에 따른 판별 네트워크 구조의 일 예이다.6 is an example of a discrimination network structure according to an embodiment.
도 6을 참조하면, 판별 네트워크의 입력 패치 블록의 크기는 128x128 사이즈이며, 6개의 3x3 컨볼루션 커널과 ReLU activation과 4개의 2x2 max pooling으로 구성된다.Referring to FIG. 6, the size of the input patch block of the discrimination network is 128x128, and consists of six 3x3 convolution kernels, ReLU activation, and four 2x2 max pooling.
마지막 단을 제외하고 max pooling 이후에 feature map의 크기를 2배로 늘려주었다. Except for the last step, we have doubled the size of the feature map after max pooling.
Fully connected layer를 사용하였으며, 마지막 단은 softmax 함수를 사용하여 카테고리를 분별할 수 있도록 하였다.Fully connected layer was used. Finally, the softmax function was used to discriminate the categories.
도 7은 일 실시예에 따른 압축 왜곡 제거 네트워크의 초기 학습 방법의 일 예이다.7 is an example of an initial learning method of a compression-distortion elimination network according to an embodiment.
도 7을 참조하면, 패치 블록내의 압축 왜곡의 양, 압축 왜곡 타입, 패치의 압축 타입 (화면간 예측 부호화, 화면내 예측 부호화), 압축 양자화 파라미터 값 중 적어도 하나 이상의 특성을 이용하여 다수의 128x128 크기의 패치 블록을 추출하여 학습한다.Referring to FIG. 7, a plurality of 128x128 sizes (at least one of 128x128 pixels) can be obtained using at least one of the compression distortion amount in the patch block, the compression distortion type, the compression type (inter picture prediction coding, Is extracted and learned.
도 7은 압축 양자화 파라미터 값을 이용하여 초기 학습하는 방법의 일를 나타낸 것이다.7 shows an example of a method of initial learning using the compression quantization parameter values.
도 8은 일 실시예에 따른 압축 왜곡 제거 네트워크의 Transfer learning 학습 방법의 일 예이다.FIG. 8 is an example of a transfer learning learning method of a compression distortion elimination network according to an embodiment.
도 8을 참조하면, 모든 데이터로부터 랜덤하게 이미지 패치 블록을 샘플링한다.Referring to FIG. 8, an image patch block is randomly sampled from all data.
압축 왜곡 카테고리에 대응되는 딥 뉴럴 네트워크 중에서 압축 왜곡을 가장 잘 제거하는 네트워크로 할당하여 학습한다.Learning is assigned to a network that best removes compression distortion among deep neural networks corresponding to the compression distortion category.
도 9는 일 실시예에 따른 판별 네트워크의 학습 방법의 일 예이다.FIG. 9 is an example of a learning method of the discrimination network according to an embodiment.
도 9를 참조하면, 앞에서 할당된 그룹으로 분류할 수 있도록 네트워크를 학습한다.Referring to FIG. 9, the network is learned so as to be classified into the previously assigned group.
도 10은 입력 영상에 대해 판별 네트워크를 통해 선택된 압축 왜곡 제거 네트워크를 통한 왜곡 제거의 예들을 나타낸다.10 shows examples of distortion elimination through a compression-distortion removal network selected through a discrimination network for an input image.
도 10을 참조하면, 이미지 패치를 selector sub-network로 분류하고, 선택된 SCAR-CNN sub-network를 통해 압축 왜곡을 제거한다.Referring to FIG. 10, an image patch is classified into a selector sub-network, and compression distortion is removed through a selected SCAR-CNN sub-network.
도 11 내지 도 13은 일 실시예에 따른 압축 왜곡 제거 네트워크를 적용한 인코더의 예들을 나타내고, 도 14 내지 도 16은 일 실시예에 따른 압축 왜곡 제거 네트워크를 적용한 디코더의 예들을 나타낸다.FIGS. 11 to 13 show examples of encoders applying the compression-distortion elimination network according to an embodiment, and FIGS. 14 to 16 show examples of decoders applying the compression-distortion elimination network according to an embodiment.
도 17은 전 화면내 구조(All Intra Configuration)하에서의 부호화 과정에서 압축 왜곡 제거 네트워크 적용 방법의 일 예를 나타내고, 도 18은 저지연 구조(Low Delay Configuration)하에서의 부호화 과정에서 압축 왜곡 제거 네트워크 적용 방법의 일 예를 나타낸다.FIG. 17 shows an example of a compression distortion elimination network applying method in a coding process under the All Intra Configuration, and FIG. 18 shows an example of a compression distortion elimination network applying method in a coding process under a low delay configuration Fig.
상술한 바와 같이, 실시예들은 압축된 영상에서 압축 왜곡을 제거하기 위해서, 압축 왜곡 정도에 따라 6개의 압축 왜곡 제거 네트워크로 학습하고, 압축 왜곡 영상을 분별할 수 있는 판별 네트워크를 학습하여, 종래의 방법처럼 특정 QP에서 학습하여 동일 QP 영상에 대한 압축 왜곡을 제거 하는 것이 아니라, 모든 압축 영상에 대한 압축 왜곡을 제거할 수 있도록 학습한 것이 특징이다.As described above, in the embodiments, in order to remove the compression distortion in the compressed image, learning is performed by six compression distortion elimination networks according to the compression distortion degree, and a discrimination network capable of discriminating the compression distortion image is learned. , It is learned not to remove compression distortion for the same QP image but to learn compression distortion for all compressed images.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device , Or may be permanently or temporarily embodied in a transmitted signal wave. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.
Claims (13)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/KR2017/014263 WO2019112084A1 (en) | 2017-12-06 | 2017-12-06 | Method for removing compression distortion by using cnn |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/KR2017/014263 WO2019112084A1 (en) | 2017-12-06 | 2017-12-06 | Method for removing compression distortion by using cnn |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019112084A1 true WO2019112084A1 (en) | 2019-06-13 |
Family
ID=66751066
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2017/014263 Ceased WO2019112084A1 (en) | 2017-12-06 | 2017-12-06 | Method for removing compression distortion by using cnn |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2019112084A1 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110428011A (en) * | 2019-08-06 | 2019-11-08 | 华南理工大学 | A Deep Learning Image Distortion Classification Method Oriented to Video Transmission Quality |
| CN111784580A (en) * | 2020-06-30 | 2020-10-16 | 北京金山云网络技术有限公司 | Super-resolution method and device for image and server |
| WO2023274005A1 (en) * | 2021-06-30 | 2023-01-05 | 北京字跳网络技术有限公司 | Image processing method and apparatus, electronic device, and storage medium |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20110049570A (en) * | 2009-11-05 | 2011-05-12 | 홍익대학교 산학협력단 | Improving Image Quality Using Neural Network Model Based on Borderline Component Classification |
| KR20160131071A (en) * | 2014-03-06 | 2016-11-15 | 프로그레스, 인코포레이티드 | Neural network and method of neural network training |
| KR20160141201A (en) * | 2015-05-29 | 2016-12-08 | 주식회사 칩스앤미디어 | An apparatus for scaling a resolution using an image patch of multi video frames and method for using it |
| KR20170003476A (en) * | 2015-06-30 | 2017-01-09 | 한국과학기술원 | Image converting apparatus and image converting method thereof |
-
2017
- 2017-12-06 WO PCT/KR2017/014263 patent/WO2019112084A1/en not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20110049570A (en) * | 2009-11-05 | 2011-05-12 | 홍익대학교 산학협력단 | Improving Image Quality Using Neural Network Model Based on Borderline Component Classification |
| KR20160131071A (en) * | 2014-03-06 | 2016-11-15 | 프로그레스, 인코포레이티드 | Neural network and method of neural network training |
| KR20160141201A (en) * | 2015-05-29 | 2016-12-08 | 주식회사 칩스앤미디어 | An apparatus for scaling a resolution using an image patch of multi video frames and method for using it |
| KR20170003476A (en) * | 2015-06-30 | 2017-01-09 | 한국과학기술원 | Image converting apparatus and image converting method thereof |
Non-Patent Citations (1)
| Title |
|---|
| PARK, WOON SUNG ET AL.: "CNN (Convolutional Neural Network) Based In-loop Filter in HEVC", THE KOREAN INSTITUTE OF BROADCAST AND MEDIA ENGINEERS SUMMER CONFERENCE, 1 July 2016 (2016-07-01), pages 418 - 421 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110428011A (en) * | 2019-08-06 | 2019-11-08 | 华南理工大学 | A Deep Learning Image Distortion Classification Method Oriented to Video Transmission Quality |
| CN111784580A (en) * | 2020-06-30 | 2020-10-16 | 北京金山云网络技术有限公司 | Super-resolution method and device for image and server |
| WO2023274005A1 (en) * | 2021-06-30 | 2023-01-05 | 北京字跳网络技术有限公司 | Image processing method and apparatus, electronic device, and storage medium |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2018230832A1 (en) | Image processing apparatus and method using multi-channel feature map | |
| WO2019112084A1 (en) | Method for removing compression distortion by using cnn | |
| WO2014030948A1 (en) | System and method for compressing adaptive image | |
| Uddin et al. | Real-time area based traffic density estimation by image processing for traffic signal control system: Bangladesh perspective | |
| WO2019039757A1 (en) | Method and device for generating training data and computer program stored in computer-readable recording medium | |
| WO2024019337A1 (en) | Video enhancement method and apparatus | |
| WO2019083130A1 (en) | Electronic device and control method thereof | |
| WO2021071286A1 (en) | Generative adversarial network-based medical image learning method and device | |
| WO2021095991A1 (en) | Device and method for generating defect image | |
| WO2020027513A1 (en) | Syntax-based image analysis system for compressed image, and interworking processing method | |
| WO2020017829A1 (en) | Method for generating license plate image by using noise pattern and apparatus therefor | |
| CN114863221A (en) | Training method, device, system, equipment and storage medium for detection model | |
| CN114155211A (en) | Image processing method and device, electronic equipment and storage medium | |
| WO2020171388A2 (en) | Method of identifying abnormal motion object in compressed image using motion vector trajectory and pattern | |
| WO2020091259A1 (en) | Improvement of prediction performance using asymmetric tanh activation function | |
| WO2019225799A1 (en) | Method and device for deleting user information using deep learning generative model | |
| US11967121B2 (en) | Difference detection apparatus and difference detection program | |
| WO2021071258A1 (en) | Mobile security image learning device and method based on artificial intelligence | |
| WO2024235021A1 (en) | Image processing method and apparatus, computer-readable storage medium, and electronic device | |
| WO2019124634A1 (en) | Syntax-based method for object tracking in compressed video | |
| CN114756425B (en) | Intelligent monitoring method, device, electronic device and computer readable storage medium | |
| WO2016098943A1 (en) | Image processing method and system for improving face detection capability | |
| WO2015060486A1 (en) | Apparatus and method for diagnosing image | |
| WO2019124636A1 (en) | Syntax-based method for sensing wrong-way driving on road in compressed video | |
| WO2017010642A1 (en) | Method and device for pruning prediction unit for hevc inter prediction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17933865 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 17933865 Country of ref document: EP Kind code of ref document: A1 |