CN111711815B

CN111711815B - 基于集成学习和概率模型的快速vvc帧内预测方法

Info

Publication number: CN111711815B
Application number: CN202010618890.8A
Authority: CN
Inventors: 赵铁松; 黄雨航; 吴陆狄; 徐艺文; 王楷
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-09-28
Anticipated expiration: 2040-06-30
Also published as: CN111711815A

Abstract

本发明涉及一种基于集成学习和概率模型的快速VVC帧内预测方法，包括以下步骤：步骤S1：基于集成学习并利用视频序列的时空域相关性，预测得到不同编码单元的深度信息；步骤S2:使用时空域相邻已编码CU的划分模式对未编码CU的划分模式进行预测,并按概率大小排序得到划分模式排序表；步骤S3:根据得到的不同编码单元的深度信息和划分模式排序表，提前终止CU的划分。本发明在保证视频质量的前提下，有效地节省了视频编码时间，用于目前主流的高清、超高清视频编码时，优势更加明显。

Description

基于集成学习和概率模型的快速VVC帧内预测方法

技术领域

本发明涉及视频编码技术领域，具体涉及一种基于集成学习和概率模型的快速VVC帧内预测方法。

背景技术

视频编码的目的是为了剔除视频中存在的大量冗余信息(如时域冗余，空域冗余，统计冗余，熵冗余等)，以压缩视频文件的占用空间，提高视频在存储及传输时的效率。

VVC是新一代视频编码标准，通过对原有编码框架中的各模块进行算法更新与技术提升来实现更高的压缩效率，例如：在帧内预测中，引入了基于跨分支线性模型的帧内预测技术、基于位置的帧内预测合并技术及更多的角度预测模式；在帧间预测中，引入了仿射运动预测技术、先进时域运动矢量预测技术、自适应运动矢量分辨率技术、基于8×8块的运动补偿技术及高精度(1/16像素值)运动矢量存储及补偿技术；在变换和量化中，引入了多重变换选择技术及变换系数编码时隐藏符号数据的技术，并扩大了的量化参数的取值范围；在CU划分过程中，引入了更为精细的二叉、三叉及四叉树划分方式以提升编码压缩率。然而新技术的引入在提高压缩率的同时也增加了编码时间。

发明内容

有鉴于此，本发明的目的在于提供一种基于集成学习和概率模型的快速VVC帧内预测方法，在保证视频质量的前提下，基于集成学习与概率模型方法，有效地节省了视频编码时间。

为实现上述目的，本发明采用如下技术方案：

一种基于集成学习和概率模型的快速VVC帧内预测方法，包括以下步骤：

步骤S1：基于集成学习并利用视频序列的时空域相关性，预测得到不同编码单元的深度信息；

步骤S2:使用时空域相邻已编码CU的划分模式对未编码CU的划分模式进行预测,并按概率大小排序得到划分模式排序表；

步骤S3:根据得到的不同编码单元的深度信息和划分模式排序表，提前终止CU的划分。

进一步的，所述步骤S1具体为：

步骤S11：选定深度图参考单元，若当前帧领域存在已编码CU，就选定其深度图单元信息作为参考，否则选定前一帧相应位置的深度图单元信息作为参考；

步骤S12：读取数据集，对数据样本进行预处理，并送入三个不同的卷积神经网络进行网络训练，得到基于集成学习的深度预测模型；

步骤S13：将多尺度参考信息分别送入步骤S12训练好的三个卷积神经网络中，得到三个深度图单元预测值U₁、U₂及U₃，使用多数投票法集成三个卷积神经网络的预测结果作为最终的输出；

步骤S14、获得CU预测深度图后，使用预测深度图的平均值作为最终CU的预测深度D_O。

进一步的，所述选定深度图参考单元的函数表达式如下：

其中X(x，y，t)表示第t帧位于(x，y)位置的深度图单元，其中Δx和Δy表示-n到n的整数。

进一步的，所述最终CU的预测深度D_O具体为：

其中：

表示向下取整函数；K和U_k分别表示该CU所包含的深度单元数目及该CU所包含的第k个深度单元的预测值。

进一步的，所述步骤S2具体为：

步骤S21：获取参考CU的信息，选取13个时空域相邻的用于划分模式预测的参考CU构成集合S；

步骤S22：选取集合S中所有参考CU的划分模式构成集合R；

步骤S23：计算属于集合R的划分模式M成为最佳划分模式的概率P(bm＝M|M∈R)；

步骤S24：在获得了所有划分模式M成为最佳划分模式的概率之后，按照概率值大小对属于R的划分模式进行排序，将其余不属于R的模式排在之后，得到最佳划分模式排序表；

步骤S25：使用划分模式排序表进行划分模式决策，若当前划分模式的RD代价值R_cur大于目前获得的最小RD代价值R_min，则跳过其它还未测试的划分模式以减少编码复杂度，否则测试下一个模式并更新R_cur与R_min。

进一步的，所述S的表达式如下：

S＝{S_ref，S_cur}

其中S_ref及S_cur分别表示位于当前帧及前一帧的CU参考集合，S_ref及S_cur的定义分别如下：

S_ref＝{C(x+nw，y+mh，t-1)|-1≤n≤1，-1≤m≤1，n∈Z，m∈Z}

S_cur＝{C(x-w，y-h，t)，C(x，y-h，t)，C(x+w，y-h，t)，C(x-w，y，t)}

其中w和h分别表示CU的像素值长度和宽度。

进一步的，所述集合R具体为：

R＝{M_CU|CU∈S}

其中M_CU表示CU的划分模式。

进一步的，所述佳划分模式的概率具体为：

其中N(*)表示事件*发生的次数。

进一步的，所述步骤S3具体为：

步骤S31：开始当前CU编码，判断该CU的参考深度单元信息是否充足；若不充足则使用原始编码器对该CU进行编码，充足则跳到步骤S32；

步骤S32：获取参考深度单元的信息并预测当前CU的深度值；若当前CU的实际深度值大于预测深度值，结束该CU的编码流程,否则跳到步骤S33；

步骤S33：获取当前CU的参考CU划分模式信息，并使用概率模型对当前CU的划分模式进行排序并跳到步骤S34；

步骤S34：按照排序表对当前划分模式进行编码，并更新R_cur和R_min，之后跳到步骤S35；

步骤S35：如果R_cur>R_min或者所有划分模式都已被编码过，则结束当前CU的编码流程，否则跳到步骤S34，以测试下一个编码模式。

本发明与现有技术相比具有以下有益效果：

本发明基于集成学习与概率模型方法，在保证视频质量的前提下，有效地节省了视频编码时间。

附图说明

图1是本发明一实施例中的整体工作流程图；

图2是本发明实施例中基于集成学习的深度单元预测框架图；

图3是本发明实施例中基于概率模型用于划分模式预测的13个参考CU示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于集成学习和概率模型的快速VVC帧内预测方法，包括以下步骤：

步骤S1：基于集成学习并利用视频序列的时空域相关性，预测得到不同编码单元的深度信息，用于确定CU的最终划分深度；

本实施例中，基于集成学习的深度单元预测框架如图2所示，网络的输入为时空域相邻的深度单元值，输出为预测深度值，具体包括以下步骤：

步骤S11：选定深度图参考单元，若当前帧的领域存在已编码CU，就选定其深度图单元信息作为参考，否则选定前一帧对应位置的深度图单元信息作为参考，具体选定参考单元的函数表达式如下：

其中X(x，y，t)表示第t帧位于(x，y)位置的深度图单元，其中Δx和Δy表示-n到n的整数；n决定了用于预测的相邻CU深度图单元数目，使用不同的n值可以得到不同尺度的参考信息；

步骤S12：读取数据集，对数据样本进行预处理，送入三个不同的卷积神经网络进行网络训练，得到基于集成学习的深度预测模型；

优选的，三个卷积神经网络均采用了3层网络结构设计，包括一层输入层、一层卷积层及一层输出层；网络的输入为时空域相邻的深度单元值，卷积层使用线性整流函数(ReLU)作为激活函数，每个卷积层使用的卷积核数目均为6，输出层采用归一化指数函数(Softmax)作为激活函数，输出每个深度的预测概率值；

步骤S13：将多尺度参考信息分别送入步骤S12训练好的三个卷积神经网络中，得到三个深度图单元预测值U₁、U₂及U₃，使用多数投票法集成三个卷积神经网络的预测结果作为最终预测深度；

步骤S14：获得CU预测深度图后，使用预测深度图的平均值作为最终CU的预测深度(D_O)，函数表达式如下：

其中：

表示向下取整函数；K和U_k分别表示该CU所包含的深度单元数目及该CU所包含的第k个深度单元的预测值。通过预测CU的划分深度，提前终止编码器中CU的划分过程可以节省不必要的编码时间，提高编码效率。

在本实施例中，基于概率模型用于划分模式预测的13个参考CU示意图如图3所述：在本实施例中，使用时空域相邻已编码CU的划分模式对未编码CU的划分模式进行预测，设计一个基于概率模型的划分模式选择算法来预测当前CU选择每种划分模式的概率，并按概率大小排序得到划分模式排序表，具体包括以下步骤：

步骤S21、获取参考CU的信息，选取13个时空域相邻的用于划分模式预测的参考CU构成集合S；这13个参考CU分别位于当前帧预测CU的上方、左方、左上方、右上方，以及预测CU前一帧的相应位置及其上方、下方、左方、右方与左上方、右上方、左下方、右下方，具体位置如图3所述，S的表达式如下：

S＝{S_ref，S_cur}

S_ref＝{C(x+nw，y+mh，t-1)|-1≤n≤1，-1≤m≤1，n∈Z，m∈Z}

S_cur＝{C(x-w，y-h，t)，C(x，y-h，t)，C(x+w，y-h，t)，C(x-w，y，t)}

其中w和h分别表示CU的像素值长度和宽度；

步骤S22：使用参考CU的划分模式构成集合R，其定义如下：

R＝{M_CU|CU∈S}

其中M_CU表示CU的划分模式；

步骤S23：计算属于集合R的划分模式M成为最佳划分模式的概率P(bm＝M|M∈R)，函数表达式如下：

其中N(*)表示事件*发生的次数；

步骤S24：在获得了所有划分模式M成为最佳划分模式的概率之后，按照概率值大小对属于R的划分模式由高到低排序，将其余不属于R的模式排在之后，得到最佳划分模式排序表；

步骤S25：使用划分模式排序表进行划分模式决策，若当前划分模式的RD代价值(R_cur)大于目前获得的最小RD代价值(R_min)，则跳过其它还未测试的划分模式以减少编码复杂度，否则测试下一个模式并更新R_cur与R_min。

在本实施例中，所述步骤S3利用集成学习得到的预测深度信息与概率模型得到的划分模式排序表指导CU划分的提前终止，从而节省视频编码时间，具体包括以下步骤：

步骤S31、开始当前CU编码，判断该CU的参考深度单元信息是否充足；若不充足则使用原始编码器对该CU进行编码，充足则跳到步骤S32。；

步骤S32、获取参考深度单元的信息并基于集成学习预测当前CU的深度值；若当前CU的实际深度值大于预测深度值，则结束该CU的编码流程，否则跳到步骤S33；

步骤S33、获取当前CU的参考CU划分模式信息，并使用概率模型对当前CU的划分模式进行预测，得到划分模式排序表，并跳到步骤S34；

步骤S34、按照划分模式排序表对当前CU的划分模式进行编码，更新R_cur和R_min，并跳到步骤S35；

步骤S35、如果R_cur>R_min或者所有划分模式都已被编码过，则结束当前CU的编码流程，否则跳到步骤S34，以测试下一个编码模式。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，包括以下步骤：

步骤S2：使用时空域相邻已编码CU的划分模式对未编码CU的划分模式进行预测，并按概率大小排序得到划分模式排序表；

步骤S3：根据得到的不同编码单元的深度信息和划分模式排序表，提前终止CU的划分；所述步骤S1具体为：

步骤S14、获得CU预测深度图后，使用预测深度图的平均值作为最终CU的预测深度D_O；

所述选定深度图参考单元的函数表达式如下：

2.根据权利要求1所述基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述最终CU的预测深度D_O具体为：

其中：

3.根据权利要求1所述的基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述步骤S2具体为：

步骤S22：选取集合S中所有参考CU的划分模式构成集合R；

4.根据权利要求3所述的基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述集合S的表达式如下：

S＝{S_ref，S_cur}

其中S_ref及S_cur分别表示位于当前帧及前一帧的参考CU集合，S_ref及S_cur的定义分别如下：

S_ref＝{C(x+iw，y+jh，t-1)|-1≤i≤1，-1≤j≤1，i∈Z，j∈Z}

S_cur＝{C(x-w，y-h，t)，C(x，y-h，t)，C(x+w，y-h，t)，C(x-w，y，t)}

其中w和h分别表示CU的像素值长度和宽度。

5.根据权利要求3所述的基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述集合R具体为：

R＝{M_CU|CU∈S}

其中M_CU表示CU的划分模式，S为步骤S21获取的集合。

6.根据权利要求3所述的基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述佳划分模式的概率具体为：

其中N(*)表示事件*发生的次数。

7.根据权利要求1所述的基于集成学习和概率模型的快速VVC帧内预测方法，其特征在于，所述步骤S3具体为：

步骤S32：获取参考深度单元的信息并预测当前CU的深度值；若当前CU的实际深度值大于预测深度值，结束该CU的编码流程，否则跳到步骤S33；

步骤S35：如果R_cur＞R_min或者所有划分模式都已被编码过，则结束当前CU的编码流程，否则跳到步骤S34，以测试下一个编码模式。