TWI866027B

TWI866027B - 用於視訊編碼之環內神經網路

Info

Publication number: TWI866027B
Application number: TW112101507A
Authority: TW
Inventors: 揚柯; 陳慶曄; 莊子德; 黃毓文
Original assignee: 聯發科技股份有限公司
Priority date: 2022-01-13
Filing date: 2023-01-13
Publication date: 2024-12-11
Also published as: US20250124607A1; TW202337219A; WO2023134731A1; CN119096543A

Abstract

一種用於視訊解碼的方法，包括接收基於從位元流接收的資料重建的視訊幀。該方法還包括從位元流中提取指示用於劃分視訊幀的空間分區是否有效的第一語法元素。該方法還包括響應於指示用於分割視訊幀的空間分區是活動的第一語法元素，確定用於分割視訊幀的空間分區的配置，確定神經網路的多個參數集，以及應用神經網路到視訊幀。基於用於將視訊幀劃分成多個部分的空間分區的確定的配置來空間分區視訊幀，並且根據確定的多個參數集將神經網路應用於多個部分。

Description

用於視訊編碼之環內神經網路

本公開涉及視訊編解碼。更具體地，本公開涉及將神經網路(Neural Networks，簡寫為NNs)應用於視訊編碼和解碼系統中的目標信號。

神經網路，也稱為“人工(Artificial)”神經網路(ANN)，是一種資訊處理系統，具有與生物神經網路相同的某些性能特徵。神經網路系統由許多簡單且高度互連的處理元素組成，通過它們對外部輸入的動態響應來處理資訊。處理元件可以被視為是人腦中的神經元，其中每個感知器接受多個輸入併計算輸入的加權和。在神經網路領域，感知器被認為是生物神經元的數學模型。此外，這些互連的處理元件通常分層組織。對於識別應用程序，外部輸入可能對應於呈現給網路的模式，網路與一個或多個中間層(也稱為“隱藏層”)通信，其中實際處理是通過加權的“連接(connections)”系統完成的。

期望開發一種低複雜度的基於神經網路的迴路濾波器(in-loop filter)以增強傳統編解碼器的性能。

本公開的方面提供了一種用於視訊解碼的方法。該方法包括接收基於從位元流接收的資料重建的視訊幀。該方法還包括從位元流中提取指示用於劃分視訊幀的空間分區是否有效的第一語法元素。該方法還包括響應於指示用於分割視訊幀的空間分區是活動的第一語法元素，確定用於分割視訊幀的空間分區的配置，確定神經網路的多個參數集，以及應用神經網路到視訊幀。基於用於將視訊幀劃分成多個部分的空間分區的確定的配置來空間分區視訊幀，並且根據所確定的多個參數集將神經網路應用於多個部分。

本公開的方面提供了一種用於視訊解碼的裝置。該裝置包括被配置為接收重建的視訊幀的電路，該視訊幀基於從位元流接收的資料重建。該電路還被配置為從位元流中提取指示用於劃分視訊幀的空間分區是否活動的第一語法元素。該電路還被配置為響應於指示用於分割視訊幀的空間分區是活動的第一語法元素，確定用於分割視訊幀的空間分區的配置，確定神經網路的多個參數集，並將神經網路應用於視訊幀。基於所確定的配置將視訊幀空間分區為多個部分，並且根據所確定的多個參數集的每一個將神經網路應用於多個部分之一。

本公開的方面提供了另一種用於視訊編碼的方法。該方法包括接收表示視訊幀的資料。該方法還包括確定用於分割視訊幀的空間分區的配置。該方法還包括確定神經網路的多個參數集。此外，該方法包括將神經網路應用於視訊幀。基於確定的配置將視訊幀空間分區成多個部分，並且根據確定的多個參數集將神經網路應用於多個部分。此外，該方法包括傳訊與用於分割視訊幀的空間分區相關聯的多個語法元素。

請注意，該概述部分並未具體說明本公開或要求保護的發明的每個實施例和/或遞增的新穎方面。相反，該概述僅提供不同實施例和對應新穎點的初步討論。對於本發明和實施例的附加細節和/或可能的觀點，讀者可以參考下面進一步討論的本公開的詳細描述部分和相應的附圖。

110、211:幀內/幀間預測單元

115:減法器

120、230:變換和量化

125:熵編碼單元

130:逆量化和逆變換

135、235:重建單元

140、240:DF

145、245:SAO

150、250:ALF

155、255:幀緩衝器

215:加法器

226:熵解碼單元

500、600:過程

510~550、610~650:步驟

將參考以下附圖詳細描述作為示例提出的本公開的各種實施例，其中相似的數字指代相似的元素，並且其中：第1圖示出了基於通用視訊編解碼(VVC)標準或高效視訊編解碼(HEVC)標準(增加了自適應迴路濾波器(ALF))的視訊編碼器的框圖；第2圖示出了基於VVC標準或HEVC標準(增加了ALF)的視訊解碼器的框圖；第3圖示出了包含複數空間方差分佈(spatial variance distribution)的視訊幀；第4A-4F圖示出了根據本公開實施例的在視訊幀上實現的多個示例性空間分區；第5圖示出了根據本公開的實施例的用於在視訊編碼器中實現基於NN的迴路濾波器的過程的流程圖；第6圖示出了根據本公開的實施例的用於在視訊解碼器中實現基於NN的迴路濾波器的過程的流程圖；第7圖示出了根據本公開的實施例的神經網路的多通道(multi-pass)訓練過程的框圖，其中在多通道中使用單個參數集；第8圖顯示了根據本公開的實施例的神經網路的多通道訓練過程的框圖，其中在多通道中使用了不同的參數集；以及第9圖示出了根據本公開的實施例的神經網路的多通道訓練過程的框圖，其中在多通道中使用了部分不同的參數集。

下面的公開提供了不同的實施例或示例，用於實現所提供的主題的不同特徵。下面描述組件和佈置的具體示例以簡化本公開。當然，這些僅是示例而不是限制性的。

人工神經網路可以使用不同的架構來指定網路中涉及哪些變量及其拓撲關係。例如，神經網路中涉及的變量可能是神經元之間連接的權重，以及神經元的活動。前饋網路是一種神經網路拓撲結構，每一層的節點都被饋送到下一級，並且同一層的節點之間存在連接。大多數ANN包含某種形式的“學習規則”，它根據呈現的輸入模式修改連接的權重。從某種意義上說，ANN與其他生物對應物一樣通過實例學習。反向傳播神經網路是一種更高級的神經網路，它允許權重調整的反向誤差傳播。因此，反向傳播神經網路能夠通過最小化反饋給神經網路的誤差來提高性能。

神經網路可以是深度神經網路(deep neural network，簡寫為DNN)、卷積神經網路(convolutional neural network，簡寫為CNN)、遞歸神經網路(recurrent neural network，簡寫為RNN)或其他NN變體。深度多層神經網路或深度神經網路(DNN)對應於具有多級互連節點的神經網路，允許它們緊湊地表示高度非線性和高度變化的函數。然而，DNN的計算複雜度隨著與大量層相關聯的節點數量的增加而迅速增長。

CNN是最常用於分析視覺圖像的一類前饋人工神經網路。循環神經網路(recurrent neural network，簡寫為RNN)是一類人工神經網路，其中節點之間的連接沿著序列形成有向圖(directed graph)。與前饋神經網路不同，RNN可以使用其內部狀態(記憶)來處理輸入序列。RNN中可能有迴路，以允許資訊持久化。RNN允許對向量序列進行操作，例如輸入、輸出或兩者中的序列。

高效視訊編解碼(HEVC)標準是在ITU-T視訊編解碼專家組(VCEG)和ISO/IEC運動圖像專家組(MPEG)標準化組織的聯合視訊項目下，特別是與稱為視訊編解碼聯合協作團隊(JCT-VC)的伙伴關係開發的。

在HEVC中，一個切片被分割成多個編解碼樹單元(CTU)。CTU被進一步劃分為多個編解碼單元(CU)以適應各種局部特徵。HEVC支持多種幀內預測模式，對於幀內編解碼的CU，傳訊選擇的幀內預測模式。除了編解碼單元的概念，HEVC中還引入了預測單元(PU)的概念。一旦CU分層樹的分裂完成，每個葉子CU根據預測類型和PU分區進一步分裂成一個或多個預測單元(prediction unit，簡寫為PU)。預測後，與CU關聯的殘差被劃分為變換塊，命名為變換單元(transform unit，簡寫為TU)用於變換過程。

HEVC標準規定了兩個迴路濾波器，用於減少塊偽影的去塊濾波器(Deblocking Filter，簡寫為DF)和用於衰減波紋偽影(ringing artifact)和校正局部平均強度變化的樣本自適應偏移(Sample Adaptive Offset，簡寫為SAO)。由於位元率開銷很大，HEVC的最終版本沒有採用自適應迴路濾波(ALF)。

與諸如HEVC的先前視訊編解碼標準相比，由聯合視訊專家組(JVET)開發的通用視訊編解碼(VVC)標準被設計成實現顯著改進的壓縮能力，並且具有高度通用性以有效用於更廣泛的應用範圍。在VVC中，圖片被劃分為編解碼樹單元(CTU)，它們表示基本編解碼處理單元，在HEVC中也有類似指定。CTU由一個或三個編解碼樹塊(Coding Tree Block，簡寫為CTB)組成，具體取決於視訊信號是單色還是包含三色分量。

在VVC中，規定了四種不同的迴路濾波器：DF、SAO、ALF和交叉分量自適應迴路濾波(Cross-Component Adaptive Loop Filtering，簡寫為CC-ALF)，用於基於線性濾波和自適應限幅(adaptive clipping)進一步校正信號。

第1圖示出了視訊編碼器的框圖，其可以基於VVC標準、HEVC標準(添加了ALF)或任何其他視訊編解碼標準來實現。當使用幀間模式時，幀內/幀間預測單元110基於運動估計(ME)/運動補償(MC)產生幀間預測。當使用幀內模式時，幀內/幀間預測單元110生成幀間預測。幀內/幀間預測資料(即，幀內/幀間預測信號)被提供給減法器115，通過從與輸入幀相關聯的信號中減去幀內/幀間預測信號，以形成預測誤差(亦稱為殘差)。生成幀內/幀間預測資料的過程在本公開中被稱為預測過程。預測誤差(即殘差)隨後由變換(T)和量化(Q)(T+Q,120)處理。經變換和量化的殘差然後由熵編碼單元125編解碼以包括在對應於壓縮的視訊資料的視訊位元流中。

然後，與變換係數相關聯的位元流和與圖像區域相關聯的諸如運動、編解碼模式和其他資訊之類的輔助資訊一起打包。輔助資訊也可以通過熵編解碼來壓縮以減少所需的帶寬。由於重建的幀可用作幀間預測的參考幀，因此也必須在編碼器端重建一個或多個參考幀。因此，經過變換和量化的殘差通過逆量化(IQ)和逆變換(IT)(IQ+IT,130)進行處理以恢復殘差。然後在重建單元(REC)135處將重建的殘差添加回幀內/幀間預測資料以重建視訊資料。將重建的殘差添加到幀內/幀間預測信號的過程在本公開中被稱為重建過程。重建過程的輸出幀稱為重建幀。

為了減少重建幀中的偽影，使用迴路濾波器，包括但不限於130。在本公開中，DF、SAO和ALF都被標記為濾波處理。在所有濾波處理的輸出處的濾波的重建幀在本公開中被稱為解碼幀。解碼幀存儲在幀緩衝器155中並用於預測其他幀。

第2圖示出了視訊解碼器的框圖，其可以基於VVC標準、HEVC標準(添加了ALF)或任何其他視訊編解碼標準來實現。由於編碼器包含用於重建視訊資料的本地解碼器，因此除了熵解碼器之外，編碼器中已經使用了許多解碼器組件。在解碼器側，熵解碼單元226用於從位元流中恢復編碼的符號或語法。從輸入位元流生成重建的殘差的過程在本公開中被稱為殘差解碼過程。用於生成幀內/幀間預測資料的預測過程也應用於解碼器側，然而，幀內/幀間預測單元211不同於編碼器側的幀內/幀間預測單元110，因為幀間預測只需要使用從位元流中導出的運動資訊執行運動補償。此外，加法器215用於將重建的殘差添加到幀內/幀間預測資料。

一般來說，本公開的實施例涉及使用神經網路來提高視訊編解碼器的圖像品質。神經網路被部署為編碼器端和解碼器端的濾波過程。神經網路的參數在編碼器處學習，並連同關於如何根據傳輸的參數在解碼器端應用神經網路的各種資訊在位元流中傳輸到解碼器。

神經網路在解碼器中與編碼器中相同的迴路位置處運行。可以在重建過程的輸出處或在其中一個濾波過程的輸出處選擇該位置。採取如第1圖和第2圖所示的視訊編解碼器，神經網路可以應用於來自重建單元135/235的重建的信號，或來自DF 140/240、SAO 145/245、ALF 150/250或任何其他類型的迴路濾波器的濾波的重建信號。神經網路的具體位置可以預先定義，或者可以從編碼器傳訊給解碼器。

注意，第1圖和第2圖中所示的濾波器DF、SAO和ALF的序列不是限制性的。儘管這裡例示了三種類型的濾波器，但是它不限製本公開的範圍，因為可以包括更少或更多的濾波器。

在設計具有神經網路的濾波工具時考慮兩種方差(variance)：時間方差和空間方差。據觀察，時間方差在隨機訪問段(random access segment，簡寫為RAS)中很小；因此，在128幀上訓練一個神經網路可以獲得與在每16幀上訓練1個共8個神經網路幾乎相同的編解碼增益。

相反，空間方差在單個幀內通常很大。第3圖顯示了具有復雜空間方差分佈的典型視訊幀。圖像的上半部分具有各種紋理區域，例如天空、建築物、樹木和人物，而下半部分的內容則相對均勻(homogeneous)。這導致神經網路必須學習不同的重建誤差統計，以便預測圖像每個像素的誤差。

為了考慮到不同空間區域中所需的不同預測子，將幀中的像素分成多個部分並且為各個部分訓練不同的神經網路參數是有益的。由於每個部分都有一個特定的參數集來定義專用於該特定部分內的像素的預測子，因此該參數集非常適合相對較小部分的重建誤差統計。通過這種方法，可以通過具有較低複雜性和較少計算成本的輕量級神經網路來實現較大的編解碼增益。

第4A-4F圖圖示了根據本公開的實施例的用於將幀中的像素劃分成多個部分的多個可能模式。第4A-4C圖顯示了三種固定劃分型樣，即水平分區(4A)、垂直分區(4B)和象限分區(4C)。在第4D-4F圖中示出塊式劃分的非限制性示例。本領域技術人員可以理解，在不脫離本公開範圍的情況下，其他劃分方案也是可行的。

在一個實施例中，編解碼器中使用的劃分型樣可以是預定義的。或者，對於一個幀(例如，I幀)，編碼器可以從一組可用的劃分型樣中選擇一個，並通知解碼器例如為當前幀選擇什麼劃分型樣。

第5圖示出了根據本公開的實施例的用於在視訊編碼器中實現基於NN的迴路濾波器的過程500的流程圖。在步驟510，獲得表示視訊幀的資料。例如，該幀是I幀。如上所述，可以在重建單元REC 135的輸出處或在任何濾波器(包括但不限於DF 140、SAO 145和ALF 150)的輸出處獲得資料。

假定編碼器已決定激活空間分區模式，則在步驟520確定將採用什麼空間分區配置來劃分幀。如上所述，空間分區可以是預定義的；或者，編碼器可以自適應地為不同的幀選擇不同的空間分區。此外，空間分區可以由幀序列中的所有幀共享。例如，在I幀的情況下，編碼器可以從水平分區、垂直分區和象限分區中選擇一個，或者定義特定的塊式分區，以便將幀劃分為所需數量的部分.如果幀是B幀或P幀，編碼器簡單地重複使用為I幀確定的空間分區。

在步驟530，確定神經網路的參數集。也就是說，對於幀的各個部分，編碼器決定使用哪些參數集來構建神經網路。例如，幀的左側部分可以對應於具有參數集θ_l的神經網路，而使用參數集θr開發的神經網路應用於幀的右側部分。參數集θ_l和θ_r可以完全不同。或者，神經網路的某些層、濾波器、權重和/或偏置可以有一些通用參數。同樣，可以為I幀確定新的參數集，如果該幀是P幀或B幀，則參數集是先前為I幀確定的參數集。將參考第7-9圖詳細描述用於學習神經網路參數的訓練過程。

基於在步驟520確定的空間分區和在步驟530確定的神經網路參數集，在步驟540將神經網路應用於幀的部分。由於每個部分都由神經網路使用專門針對該特定部分的一組參數處理，因此神經網路可以通過每個像素的少量操作來擬合相應的錯誤統計資料。

在步驟550，編碼器生成並向解碼器傳輸各種語法元素(標誌)，以指示如何在解碼器側部署神經網路。例如，一語法元素可以指示空間分區模式是活動的還是非活動的，另一語法元素可以指示神經網路在迴路中的位置等。

其他語法元素可以指示空間分區方案、神經網路的參數集以及多個部分與多個參數集之間的對應關係。編解碼器可以使用一種或多種固定劃分型樣和/或一種或多種按塊劃分型樣的任意組合。在這種情況下，對於某個幀，編碼器可以發送一個或多個語法元素來指示哪個劃分型樣是有效的。同樣，空間分區方案可以預定義，而不是由語法元素傳訊。

可選地，可以使用另外的語法元素來指示參數是否以及如何在兩個或更多部分之間共享。此外，當神經網路通過如下參考第9圖描述的多通道(multi-pass)過程進行訓練時，可以使用一組語法元素來指示如何通過替換先前傳輸的參數集的一些參數來為當前幀導出參數集。上述語法元素例如可以在幀級傳輸。語法元素的非限制性示例將在下面的表1和表2中給出。

第6圖示出了根據本公開的實施例的用於在視訊解碼器中實現基於NN的迴路濾波器的過程的流程圖。過程600開始於步驟610，獲得基於從位元流接收的資料重建的視訊幀。視訊幀可以是重建幀(來自REC 235的輸出)或濾波後的重建幀(來自DF 240、SAO 245或ALF 250的輸出)。

在步驟620，從位元流中提取語法元素。例如，語法元素之一可以指示空間分區模式是否有效。其他語法元素可以表示劃分幀的空間分區、神經網路參數、如何用這些參數開發神經網路等。如上所述，一些資訊可以被預定義或重用。例如，對於P幀或B幀，可以重複使用先前確定的空間分區和參數集，因此這些幀不需要語法元素。

基於解析的語法元素(以及可選的預定義資訊和/或重用資訊)，在步驟630確定空間分區配置以將幀劃分成多個部分，並且在步驟640確定多個神經網路參數集。在步驟650，用多個參數集之一開發神經網路並將其應用於幀的多個部分中的每一個。

表1列出了在本公開的非限制性示例中定義的一組語法元素。這些語法元素可以在幀級傳輸，用於通知解碼器各種資訊，包括但不限於空間分區模式是否激活、選擇了一組空間分區候選中的哪一個、新的神經網路參數是否可用，各部分如何共享神經網路參數，以及對於特定部分要應用哪個參數集等。

在表1中，具有較高編號(由“#”指示)的語法元素的存在可以以具有較低編號的語法元素為條件。語法元素#1指示空間劃分模式是否激活。如果空間劃分模式是被激活的，#1之後可以跟兩個Boolean型語法元素#2和#3。語法元素#2指示新的空間劃分配置是否從該幀開始傳輸並有效。語法元素#3指示新的網路參數集是否從該幀開始傳輸並有效。請注意，在I幀之後，語法元素#2和#3可能不是必需的，因為沒有新的分區配置，也沒有要傳輸的新參數集。

如果設置語法元素#2，則語法元素#4指示空間分區的配置，即，使用何種空間劃分型樣。空間劃分型樣可以是固定的空間分區，其中將幀劃分為兩半(上/下或左/右)或大小相等的四個象限。否則，空間劃分型樣指的是塊式劃分，其中每個部分與參數集之一相關聯。如果語法元素#4指示固定劃分，則語法元素#5指示使用哪種分區。從分區中，可以推斷出所需參數集的數量K。另一方面，如果語法元素#4表示按塊劃分，則語法元素#6表示為可用的參數集數量P，其中每個部分選擇一個。此外，語法元素#7然後包含一系列整數，每個部分一個，引用一個參數集，因此每個整數的最大值由P-1給出。

如果設置了語法元素#3，則傳輸新的神經網路參數集並從當前幀開始有效。與不同部分關聯的參數集可以完全不同，但這不是必需的。也就是說，參數集可以在層級別、濾波器級別或濾波器元件級別的部分之間部分共享。

例如，神經網路有5層結構；在水平分區下，幀被分成兩半。用於上半部分的神經網路可以與用於下半部分的神經網路共享相同的第1層和相同的第5層，而兩半部分的第2-4層不同。在這種情況下，關於如何共享神經網路參數集的共享規範可以由一個或多個語法元素指示。

例如，語法元素#8表示神經網路的每一層l是否在參數集之間共享。如果層l不共享，那麼每個參數集p都有一個參數組

。如果l是共享的，則語法元素#9表示用於層l的參數組的總數G _l。每個參數組

需要與一個參數集相關聯。該資訊在語法元素#10中傳訊。對於每一層和每個參數集，都會傳訊一個整數，指示參考哪個G _l參數組來構建參數集。請注意，如果G _l=1，即只有一個參數組，則無需為層l傳訊#10。

根據傳訊的資訊，解碼器將神經網路與參數集θ ^p組裝起來，並將神經網路應用於幀的相關部分。

注意，表1中列出的語法元素集不是限制性的。例如，在一個實施例中，只支持一些固定的劃分，不允許按塊劃分；因此，可以從#2和#3定義具有一個或多個不同類型、取值範圍和含義的語法元素。在另一個實施例中，對於語法元素#8、#9和#10，一層中的參數是否被共享是預先確定的而無需傳訊。在又一實施例中，對於語法元素#7，可以在CTU級別用一個CTU傳訊該選擇以及其他語法元素。在又一個實施例中，空間分區是預定義的並且不需要傳訊。

如上所述，需要在編碼器側進行訓練過程，以導出神經網路的參數。在對一系列幀進行編碼期間或之後訓練基於神經網路的濾波器時，只有沒有神經網路噪聲抑制影響(noise suppressing influence)的解碼幀被用作訓練資料。如果神經網路以迴路後模式(post-loop mode)運行，則訓練資料與測試資料(例如待處理資料或已解碼幀)完全匹配。然而，當用作迴路濾波工具時，神經網路將改變幀f_a，其隨後用作(例如)後續編碼幀f_b的參考。由於神經網路在生成訓練資料的編碼過程中不可用，因此幀f_b與訓練期間使用的幀不同，導致錯誤統計資料不同。為了考慮到在迴路操作期間將經過訓練的神經網路重新應用於其自身的輸出，提出了多通道(multi-pass)訓練過程。

第7圖示出了根據本公開的實施例的神經網路的示例性多通道訓練過程的框圖，其中在多通道中使用單組神經網路參數。在第7圖中，第一通道(first pass)將重建的資料(由重建的Y/Cb/Cr表示)作為輸入，並將其與輔助輸入(例如運動矢量、殘差和/或位置資訊)組合。例如，位置資訊可以將神經網路正在處理的像素的位置告知神經網路。第一個神經網路的輸出被添加到重建的Y/Cb/Cr以產生輸出O ₁。使用輸出O ₁和輔助輸入，使用與第一通道相同的參數計算神經網路的另一通道。再一次，通過將第二個神經網路的輸出添加到重建的Y/Cb/Cr來生成第二個輸出O ₂。這個過程可以繼續任意次數的通道，在第n通道中創建一個新的輸出O _n。

可以通過計算輸出與原始信號Y/Cb/Cr(基本事實(ground truth))之間的誤差，為n個輸出O ₁、O₂、...、O _n中的每一個計算損失。為了使用梯度下降演算法更新神經網路參數，最終損失可以計算為

，其中權重wn可以任意選擇。當最終損失收斂時，可以量化學習到的神經網路參數並將其傳訊給解碼器，在解碼器中，神經網路在迴路中應用於重建的Y/Cb/Cr。請注意，如前所述，可以使用濾波後的重建資料代替重建的Y/Cb/Cr，例如，從DO、SAO和ALF中的任何一個輸出的資料。

在第7圖所示的實施例中，多通道訓練過程模擬神經網路的輸出被同一神經網路連續改進一次或多次。本公開的其他實施例可以模擬神經網路的輸出被一個或多個不同或部分不同的神經網路改進，如第8-9圖所示。

第8圖示出了根據本公開的實施例的神經網路的示例性多通道訓練過程的框圖，其中在多通道中使用了不同的參數集。在每一通道中，神經網路都有一組單獨的參數，因此N通道將有N組參數。在非限制性示例中，僅第一參數集被傳訊給解碼器，其他參數集被丟棄。或者，如果將串聯使用前n(n

N)個神經網路，則可以傳訊前n個參數集。

第8圖所示的實施例模擬在連續幀上訓練的多個神經網路的迴路應用。例如，一組神經網路參數θ₁被訓練並用於第一組幀的編解碼；之後，另一組參數θ₂被訓練並用於第二組幀的編解碼。在這種情況下，可以訓練第一組參數θ₁，同時考慮到當在後續幀中引用內容時，其輸出可能由具有不同第二參數集θ₂的神經網路重新處理。

第9圖示出了根據本公開的實施例的神經網路的示例性多通道訓練過程的框圖，其中在多通道中使用了部分不同的參數集。在此實施例中，神經網路參數集θ ₁、θ ₂、...、θ _n僅部分不同。每個神經網路的一些參數(在第9圖中稱為“共享的NN參數”)是相同的，其他的(例如稱為“NN參數θ ₁”和“NN參數θ ₂”)特定於一個單個神經網路。公共參數和單獨參數之間的區別可以是層級的、濾波器級的或元件級的。使用這種機制，只有參數的個別部分必須為隨後訓練的神經網路傳訊，從而減少了速率開銷。

為了通知解碼器神經網路的哪個部分正在被替換，可以將適當的語法元素插入幀報頭中，如下面的表2所示。

例如，語法元素#1是用於傳訊幀報頭中是否包含新的一組網路參數的Boolean類型值。如果是這種情況，將出現語法元素#2以指示是否傳訊了新的完整參數集(語法元素#2設置為0)或僅部分集。在部分集的情況下，語法元素#2指示哪個網路作為基礎，然後替換其中的某些部分，其中語法元素#2是先前接收到的網路參數集(包括通過部分替換基礎網路參數集創建的網路參數集) 列表中的索引。索引以1開頭，表示最近收到的網路參數集。

如果語法元素#2傳訊替換，則語法元素#3指示替換的類型。如果語法元素#3被設置為0，則它結束替換傳訊。否則，它表示正在替換層(值：1)、濾波器(值：2)、權重(值：3)或偏置(bias)(值：4)。語法元素#4指定替換指的是神經網路的哪一層。如果語法元素#3表示濾波器、權重或偏置，則語法元素#5將指示對應的濾波器，該濾波器要么被完全替換，要么其中的權重或偏置被替換。如果語法元素#3表示權重，則存在語法元素#6以指示要替換哪個權重。

通過提取該資訊，現在可以推斷要從諸如CABAC、VLC等的熵編解碼器提取的資料類型和條目數。資料類型取決於正在讀取的是權重還是偏置，以及先前傳訊的網路使用什麼資料類型來傳輸參數。這些資料類型可以是最多32位元的整數或最多32位元的浮點數。在參數被解碼之後，讀取另一個語法元素#3。如果它等於零，則新網路的參數是完整的，否則該過程如所描述的那樣進行，直到在讀取參數之後讀取到等於0的語法元素#3。

在本公開中，特定的語法和語義已被用於說明示例以實現本發明的實施例。在不脫離本發明的精神的情況下，所述領域具有通常知識者可以通過用等同的語法和語義替換語法和語義來實施本發明。

本公開的方面進一步描述如下。

I.迴路神經網路濾波的多通道訓練

最近的研究結果(參見，例如，參考文獻1和2)已經證明，如果在最多數百幀的有限集合上作為迴路後濾波器(post-loop filter)訓練，並向解碼器傳訊，則每個像素僅需要數百次操作的小型神經網路(NN)可以實現編解碼增益。使用量化的或原始的浮點參數傳訊。

參考文獻1：J. P. Klopp, L.-G. Chen和S.-Y. Chien, Utilising Low Complexity CNNs to Lift Non-Local Redundancies in Video Coding, IEEE Transactions on Image Processing, 2020.

參考文獻2：J. P. Klopp, K.-C. Liu, S.-Y. Chien和L.-G. Chen, Online-trained Upsampler for Deep Low Complexity Video Compression,in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021.

在那些作品中，NN被用作解碼迴路之後的迴路後濾波器，即，NN的輸出不用作另一幀的參考。這限制了NN對降噪和編解碼增益的影響，因為處理過的內容不會被重複使用。將迴路後訓練過程應用於迴路編碼過程會在訓練和測試資料之間產生不匹配，因為NN必須處理通過引用其輸出(例如，運動補償)創建的資料。為了減輕這個缺點，我們提出了一種不同的神經網路迴路應用訓練技術。

所提出的方法使用卷積神經網路(CNN)作為視訊編解碼系統中的圖像恢復方法。例如，如第1圖和第2圖所示，我們可以將CNN應用於ALF輸出圖片，生成最終的解碼圖片。或者CNN可以在SAO、DF或REC之後直接應用，無論在一個視訊編解碼系統中有或沒有其他恢復方法，如第1圖和第2圖所示。

為了考慮到在迴路操作期間將訓練的CNN重新應用到它自己的內容，提出了多通道訓練。在對一系列幀進行編碼期間或之後訓練CNN時，僅將沒有CNN噪聲抑制影響的解碼幀用作訓練資料。在迴路後模式下運行時，該訓練資料與測試資料完全匹配。然而，在迴路模式下，CNN將改變幀f _a，然後將其用作後續編碼幀f _b的參考。因此，幀f _b將不同於訓練期間使用的幀，因為在生成訓練資料的編碼通道中CNN不可用。

在一個實施例中，使用單組參數來連續處理輸出，如第7圖所示。神經網路的第一次執行採用來自解碼器的“重建的Y/Cb/Cr”輸入並將其與例如運動矢量、殘差或位置資訊的“輔助輸入”組合。神經網路的輸出被添加到“重建的Y/Cb/Cr”以產生輸出O ₁。該輸出與輔助輸入一起用於使用與之前相同的參數計算神經網路的另一通道。將第二通道的輸出添加到“重建的Y/Cb/Cr”產生輸出O ₂。這個過程可以繼續任意次數的通道，在第n通道中創建一個新的輸出O _n。對於每個輸出O _n，我們可以通過計算輸出與原始Y/Cb/Cr之間的誤差來計算損失

。為了使用梯度下降更新神經網路參數，一個最終損失計算為

，其中權重w _n可以任意選擇。訓練完成後，可以量化神經網路參數並將其傳訊給解碼器，在解碼器中神經網路在迴路中應用於重建的Y/Cb/Cr。

在另一個實施例中，建議每個通道使用具有一組單獨參數的神經網路，如第8圖所示。對於N個通道，將有N組參數。這模擬了在連續幀上訓練的多個神經網路的迴路應用。在迴路處理中，訓練一組參數，同時考慮到當在後續幀中引用內容時，其輸出可能會被另一組重新處理。只有第一組或前n

N個參數集被發送給解碼器。

在該訓練方案的另一個提議實例中，神經網路參數集θ _n僅部分不同，如第9圖所示。每個神經網路的一些參數是共享的，其他參數特定於單個神經網路。共享參數和單獨參數之間的區別可以是層級的、濾波器級的或元件級的。使用這種機制，只有參數的個別部分必須為隨後訓練的神經網路傳訊，從而減少了速率開銷。為了通知解碼器神經網路的哪一部分正在被替換，適當的標誌被插入到幀報頭中，如表A：用於傳訊參數替換的標誌。標誌#1是Boolean值，若幀報頭中包含新的一組網路參數則傳訊該標誌。如果是這種情況，將出現標誌#2以指示是否傳訊了新的完整參數集(標誌#2設置為0)或僅部分集。在部分集的情況下，標誌#2指示哪個網路作為基礎，然後替換其中的某些部分，其中標誌#2是先前接收到的網路(包括通過部分替換基礎網路創建的網路)列表中的索引。索引以1開頭，表示最近接收到的網路。如果標誌#2表示替換，則標誌#3指示替換的類型。如果標誌#3設置為0，則它結束替換傳訊。否則它表示正在替換層(值：1)、濾波器(值：2)、權重(值：3)或偏置(值：4)。標誌#4指定替換指的是神經網路的哪一層。如果標誌#3表示濾波器、權重或偏置，則標誌#5將指示相應的濾波器，該濾波器要么被完全替換，要么替換了權重或偏置。如果標誌#3表示權重，則標誌#6出現以指示要替換哪個權重。通過提取這些資訊，現在可以推斷資料類型和要從熵編解碼器(例如CABAC、VLC或其他)提取的條目數。資料類型取決於正在讀取的是權重還是偏置，以及先前傳訊的網路使用什麼資料類型來傳輸參數。這些資料類型可以是最多32位的整數或最多32位的浮點數。參數解碼後，讀取另一個標誌#3。如果它等於零，則新網路參數是完整的，否則該過程如所描述的那樣進行，直到在讀取參數之後讀取到等於0的#3標誌。

II.迴路神經網路濾波的空間分區訓練

幀序列的不同區域通常具有不同的內容。這可能會導致CNN必須學習不同的重建誤差統計資料才能預測每個像素的誤差。為了考慮幀序列的不同空間區域所需的不同預測子，提出了空間分區訓練。空間分區訓練將幀中的像素劃分為不同的組。每個組都有一個參數集θ _p，它定義了用於組中像素的預測子。參數集可以但不必是不同的。在濾波器、層或組中組織的參數可以在參數集之間共享。

空間分區可以根據固定的劃分型樣，例如水平或垂直劃分成兩個半幀或塊方式，其中使用的參數集對於每個塊可以不同。

表B列出了用於向解碼器傳訊表示空間分區是否有效，以及用於空間分區和與那些空間分區相關聯的(可能共享的)參數集的配置的標誌。

這些標誌在幀級別傳訊。具有較高編號(由“#”表示)的標誌的存在可能以具有較低編號的標誌為條件。第一個標誌指示空間分區是否處於活動狀態。如果是處於活動狀態，它後面跟著兩個Boolean標誌，第一個指示是否從該幀開始傳輸了新的空間分區配置並且有效。第二個指示是否從該幀開始傳輸了新的網路參數集並且有效。

如果設置了標誌#2，則標誌#4指示使用了哪種空間分區。這可以是固定的空間分區，其中將幀劃分為兩半(上/下或左/右)或大小相等的四個象限。否則，其指的是塊式劃分，其中每個塊與參數集之一相關聯。如果#4指示固定劃分，則#5指示使用哪種分區。從分區中，可以推斷出所需參數集的數量K。另一方面，如果#4表示按塊劃分，則#6表示可用的參數集數量P，其中每個塊選擇一個。此外，#7然後包含一系列整數，每個部分一個，引用一個參數集，因此每個整數的最大值由P-1給出。

如果設置了標誌#3，則標誌#8指示每一層l是否在參數集之間共享。如果層l不共享，那麼每個參數集p都有一個參數組

。如果l是共享的，那麼#9表示層l的參數組總數G _l。每個參數組

需要與一個參數集相關聯。該資訊在標誌#10中傳訊。對於每一層和每個參數集，都會傳訊一個整數，指示參考Gl參數組的哪個來構建參數集。請注意，如果G _l=1，即只有一個參數組，則對於層l，不需要傳訊#10。

請注意，在I幀之後，標誌#2和#3不是必需的，因為沒有分區配置，也沒有可用的參數集。

利用傳訊的資訊，解碼器組裝參數集θ ^p，這決定了CNN的功能。然後將CNN應用於恢復的圖像，例如參考文獻3-5中所述，其中根據正在重建的像素選擇參數集。

參考文獻3：C.-Y. Chen, T.-D. Chuang, Y.-W. Huang及J. P. Klopp, Method and Apparatus of Neural Networks with Grouping for Video Coding, United States of America Patent Application No 16/963,566, 25 February 2021.

參考文獻4：Y.-L. Hsiao, Y.-C. Su, J. P. Klopp, C.-Y. Chen, T.-D. Chuang, C.-W. Hsu及Y.-W. Huang, Method and Apparatus of Neural Network for Video Coding, United States of America Patent Application No 17/047,244, 3 June 2021.

參考文獻5：Y.-C. Su, J. P. Klopp, C.-Y. Chen, T.-D. Chuang，及Y.-W. Huang, Method and Apparatus of Neural Network for Video Coding, United States of America Patent Application No 16/646,624, 6 August 2020.

上面的描述是示例。沒有必要將上述方法中的所有部分一起應用。例如，在一個實施例中，對於標誌#2，僅支持一些固定劃分，而不允許按塊劃分。在另一個實施例中，對於語法#8、#9和#10，一層中的參數共享與否是預先確定的，無需傳訊。在另一個實施例中，對於語法#7，選擇是在CTU級別與一個CTU中的其他語法元素一起傳訊的。

任何前述提出的方法都可以在編碼器和/或解碼器中實現。例如，任何提出的方法都可以在編碼器和/或解碼器的迴路濾波過程中實現。或者，所提出的任何方法都可以實現為耦合到編碼器和/或解碼器的迴路濾波過程的電路，以便提供迴路濾波過程所需的資訊。

所述領域具有通常知識者還將理解，可以對上述技術的操作做出許多變化，同時仍然實現本公開的相同目標。此類變化旨在包含在本公開的範圍內。因此，本公開的實施例的前述描述不旨在限制。相反，對本公開的實施例的任何限制在所附申請專利範圍中提出。

600:過程

610~650:步驟

Claims

一種視訊解碼方法，包括：接收基於從位元流接收的資料重建的視訊幀；從該位元流中提取第一語法元素，該第一語法元素指示用於分割該視訊幀的空間分區是否有效；以及響應於該第一語法元素指示用於分割該視訊幀的該空間分區是有效的：確定用於分割該視訊幀的該空間分區的配置，確定神經網路的多個參數集，以及將該神經網路應用於該視訊幀，其中基於用於將該視訊幀劃分成多個部分的該空間分區的確定的配置來空間分區該視訊幀，並且根據確定的該多個參數集將該神經網路應用於該多個部分。
如請求項1所述之方法，其中確定配置的步驟還包括：從該位元流中提取指示新配置是否可用的第二語法元素，當該第二語法元素指示沒有新配置可用時，使用為先前視訊幀確定的配置作為確定的配置，以及當該第二語法元素指示有新配置可用時，從該位元流中獲取該新配置，並將獲取的配置作為該確定的配置。
如請求項2所述之方法，其中獲取該新配置的步驟還包括：從該位元流中提取指示特定配置的第一組一個或多個另外的語法元素，以及將該特定配置識別為該新配置。
如請求項3所述之方法，其中該特定配置是：水平分區，將該視訊幀分為上部和下部，垂直分區，將該視訊幀分為左部分和右部分，象限分區，將該視訊幀分為左上部分、右上部分、左下部分和右下部分，或者按塊分區，將該視訊幀分為特定數量的部分，該特定數量既不是2也不是4。
如請求項1所述之方法，其中確定配置的步驟進一步包括使用預定義配置作為確定的配置，並且該預定義配置是：水平分區，將該視訊幀分為上部和下部，垂直分區，將該視訊幀分為左部分和右部分，象限分區，將該視訊幀分為左上部分、右上部分、左下部分和右下部分，或者按塊分區，將該視訊幀分為特定數量的部分，該特定數量既不是2也不是4。
如請求項1所述之方法，其中確定該多個參數集的步驟還包括：從該位元流中提取指示新的多個參數集是否可用的第三語法元素，當該第三語法元素指示沒有新的參數集可用時，使用為先前視訊幀確定的多個參數集作為確定的該多個參數集，以及當該第三語法元素指示新的多個參數集可用時，從該位元流中獲取該新的多個參數集，並將獲取的該多個參數集用作確定的該多個參數集。
如請求項6所述之方法，其中獲得該新的多個參數集的步驟還包括：從該位元流中提取指示特定的多個參數集的第二組一個或多個另外的語法元素，以及將該特定的多個參數集識別為該新的多個參數集。
如請求項6所述之方法，其中獲得該新的多個參數集的步驟還包括：從該位元流中提取指示特定先前視訊幀和替換規範的第二組一個或多個另外的語法元素，該替換規範定義對為該特定先前視訊幀確定的多個參數集中的一些參數集的替換，以及基於為該特定先前視訊幀確定的該多個參數集和該替換規範，生成該新的多個參數集。
如請求項8所述之方法，其中，該替換是在該神經網路的層級、濾波器級或濾波器元件級。
如請求項6所述之方法，其中獲得該新的多個參數集的步驟還包括：從該位元流中提取指示特定的多個參數集的第二組一個或多個另外的語法元素，從該位元流中提取指示共享規範的第三組一個或多個另外的語法元素，該共享規範定義該特定的多個參數集中的一些在該多個部分中的兩個或更多部分之間共享，以及根據該共享規範，基於該特定的多個參數集生成該新的多個參數集。
如請求項10所述之方法，其中在該神經網路的層級、濾波器級或濾波器元件級在該多個部分中的該兩個或更多個部分之間共享該特定的多個參數集中的一些參數集。
如請求項6所述之方法，其中獲得該新的多個參數集的步驟還包括：從該位元流中提取指示特定的多個參數集的第二組一個或多個另外的語法元素，以及根據定義該特定的多個參數集中的一些在該多個部分中的兩個或更多個之間共享的預定義共享規範，基於該特定的多個參數集生成該新的多個參數集。
如請求項1所述之方法，其中確定該多個參數集的步驟還包括：從該位元流中提取指示對應規範的第四組一個或多個另外的語法元素，該對應規範定義了該多個部分之一與所確定的該多個參數集的每一個之間的對應關係，應用該神經網路的步驟還包括：基於該對應規範，將具有確定的該多個參數集之一的該神經網路應用到該多個部分中的對應一個。
如請求項1所述之方法，其中從重建單元、自適應迴路濾波器、樣本自適應偏移濾波器或去塊濾波器的輸出接收該視訊幀。
一種用於視訊解碼的裝置，包括被配置為執行下述操作的電路：接收基於從位元流接收的資料重建的視訊幀；從該位元流中提取第一語法元素，該第一語法元素指示用於分割該視訊幀的空間分區是否有效；以及響應於該第一語法元素指示用於分割該視訊幀的該空間分區是有效的：確定用於分割該視訊幀的該空間分區的配置，確定神經網路的多個參數集，以及將該神經網路應用於該視訊幀，其中基於確定的配置將該視訊幀空間劃分成多個部分，並且根據確定的該多個參數集將該神經網路應用於該多個部分。
一種視訊編碼方法，包括：接收表示視訊幀的資料；確定用於分割該視訊幀的空間分區的配置；確定神經網路的多個參數集；以及將該神經網路應用於該視訊幀，其中基於確定的配置將該視訊幀空間分區為多個部分，並且根據確定的該多個參數集將該神經網路應用於該多個部分；以及傳訊與用於分割該視訊幀的該空間分區相關聯的多個語法元素；其中，通過級聯的N個訓練階段來訓練該神經網路，從而學習該多個參數集中的每一個，其中N
2，該N個訓練階段中的神經網路是利用在層級、濾波器級或濾波器元件級在該N個訓練階段之間部分共享的參數集來開發的。
如請求項16所述之方法，還包括：其中每個訓練階段包括要訓練的該神經網路，給定2
n
N，第n個訓練階段的輸入是基於第(n-1)個訓練階段的輸出導出的，表示重建視訊幀的資料被用作輸入到第一訓練階段的訓練資料，表示該重建視訊幀的原始視訊幀的資料被用作基本事實，以及總損失計算為該N個訓練階段損失的加權和。
如請求項16所述之方法，其中，該N個訓練階段的神經網路是用相同的參數集開發的，或者各個訓練階段各有其特定的參數集。
如請求項16所述之方法，其中表示該重建視訊幀的資料是從重建單元、自適應迴路濾波器、樣本自適應偏移濾波器或去塊濾波器的輸出獲得的。