CN113767636B

CN113767636B - 帧内模式编解码的方法和系统

Info

Publication number: CN113767636B
Application number: CN202080032426.9A
Authority: CN
Inventors: 赵亮; 赵欣; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2019-11-27
Filing date: 2020-11-26
Publication date: 2024-04-19
Anticipated expiration: 2040-11-26
Also published as: KR102769678B1; EP4066498A4; US11363295B2; WO2021108734A1; JP7313470B2; CN113767636A; US20220295096A1; JP2022526839A; KR20210128494A; US20210160538A1; EP4066498A1; US11930211B2

Abstract

本公开实施例提供了帧内模式编解码的方法和系统。具体地，提供了一种视频解码的方法。该方法包括：获取视频输入的当前帧；将所述当前视频帧划分成多个编码块；以包括在允许的帧内预测模式(AIPM)集中的帧内预测模式，为每个编码块预测符号级别，其中包括在所述AIPM集中的所述帧内预测模式是不同视频编解码方案的视频编解码格式中的所有可用的帧内预测模式的子集，并且基于编解码效率和压缩性能来确定，包括在所述AIPM集中的所述帧内预测模式中的每一个由索引号来标识；对残差符号级别进行变换和量化；对所述变换和量化后的残差符号级别进行熵编码；以及输出比特流。

Description

帧内模式编解码的方法和系统

相关申请的交叉引用

本申请要求于2020年10月12日提交的、申请号为17/068,522的美国专利申请的优先权，其要求于2019年11月27日提交的、申请号为62/941,350的美国临时专利申请的优先权，两者的内容通过引用整体并入本文。

技术领域

本申请涉及视频编解码技术领域，具体地，涉及帧内模式编解码的方法和系统。

背景技术

AOMedia Video 1(AV1)是为因特网上的视频传输设计的一种开放式视频编解码格式。AV1是由开放媒体联盟(AOMedia)开发的VP9的后续产品，该联盟成立于2015年，包括半导体公司、视频点播提供商、视频内容生产商、软件开发公司和网页浏览器供应商。AV1项目的许多组成部分来源于联盟成员先前的研究工作。个人贡献者早在几年前就开始了实验技术平台：Xiph/Mozilla的Daala已经在2010年发布了代码，谷歌(Google)的实验性VP9进化项目VP10于2014年9月12日发布，思科(Cisco)的Thor于2015年8月11日发布。AV1以VP9的代码库为基础，结合了其他技术，其中一些技术是以这些实验性格式开发的。AV1参考编解码器的第一版0.1.0于2016年4月7日发布。该联盟于2018年3月28日宣布发布AV1比特流规范、以及基于软件的参考编码器和解码器。2018年6月25日，发布了该规范经过验证的版本1.0.0。2019年1月8日，发布了带有规范勘误表1的经过验证的版本1.0.0。AV1比特流规范包括参考视频编解码器。

ITU-T VCEG(Q6/16)和ISO/IEC MPEG(JTC 1/SC 29/WG 11)于2013年(版本1)、2014年(版本2)、2015年(版本3)和2016年(版本4)发布了H.265/HEVC(高效视频编解码)标准。2015年，这两个标准组织共同组建了JVET(联合视频探索组)，以探索开发超越HEVC的下一个视频编解码标准的潜力。2017年10月，他们发布了关于具有超越HEVC能力的视频压缩提案的联合征集(CfP)。截至2018年2月15日，分别提交了22个关于标准动态范围(SDR)的CfP回复、12个关于高动态范围(HDR)的CfP回复和12个关于360视频类别的的CfP回复。2018年4月，在第122MPEG/第10次JVET会议上对所有收到的CfP回复都进行了评估。这次会议的结果是，JVET正式启动了超越HEVC的下一代视频编解码的标准化过程。新标准被命名为通用视频编解码(VVC)，并且JVET被更名为联合视频专家组。

在AV1中，可用的帧内预测模式的数量为62，其中包括56个角度帧内预测模式、5个平滑模式和1个从亮度预测色度(chroma-from-luma)模式。角度帧内预测模式也称为定向(directional)帧内预测模式。对于56个角度帧内预测模式，其中8个被命名为标称角度(nominal angle)，每个标称角度有7个增量(delta)角度(包括具有0delta角度的标称角度本身)，这与VVC中的角度定义不同。此外，基于AV1的视频编解码方案的平滑模式的数量和定义也与基于VVC的视频编解码方案不同。因此，JVET-L0280(VVC提案)中的帧内模式编解码不能直接应用于AV1标准。

所公开的方法和系统旨在解决上述一个或多个问题以及其他问题。

发明内容

本公开的一个方面包括一种视频解码的方法。该方法包括：获取视频输入的当前帧；将所述当前视频帧划分成多个编码块；以包括在允许的帧内预测模式(AIPM)集中的帧内预测模式，为每个编码块预测符号级别，其中包括在所述AIPM集中的所述帧内预测模式是不同视频编解码方案的视频编解码格式中的所有可用的帧内预测模式的子集，并且基于编解码效率和压缩性能来确定，包括在所述AIPM集中的所述帧内预测模式中的每一个由索引号来标识；对残差符号级别进行变换和量化；对所述变换和量化后的残差符号级别进行熵编码；以及输出比特流。

本公开的另一方面包括视频解码的系统。所述系统包括：存储器，用于存储计算机程序指令；以及耦合到所述存储器的处理器，当执行所述计算机程序指令时，被配置为执行：获取视频输入的当前帧；将所述当前视频帧划分成多个编码块；以包括在允许的帧内预测模式(AIPM)集中的帧内预测模式，为每个编码块预测符号级别，其中包括在所述AIPM集中的所述帧内预测模式是不同视频编解码方案的视频编解码格式中的所有可用的帧内预测模式的子集，并且基于编解码效率和压缩性能来确定，包括在所述AIPM集中的所述帧内预测模式中的每一个由索引号来标识；对残差符号级别进行变换和量化；对所述变换和量化后的残差符号级别进行熵编码；以及输出比特流。

根据本公开的说明书、权利要求和附图，本领域技术人员可以理解本公开的其他方面。

附图说明

图1示出了结合本公开某些实施例的运行环境；

图2示出了根据本公开实施例的电子设备；

图3示出了根据本公开实施例的计算机系统；

图4示出了根据本公开实施例的视频编码器；

图5示出了根据本公开实施例的示例性视频编码方法；

图6示出了VVC标准中可用的帧内预测模式；

图7示出了AV1标准中帧内预测模式的8个标称角度；

图8示出了根据本公开实施例的PAETH模式的顶部、左侧和左上位置；

图9示出了根据本公开实施例的递归帧内滤波模式的示例；

图10示出了根据本公开实施例的确定包括在允许的帧内预测模式(AIPM)集中的帧内预测模式的流程图；以及

图11示出了根据本公开实施例的在导出6种MPM的过程中的5个相邻编码块的位置。

具体实施方式

下面结合附图描述本发明实施例的技术方案。在所有附图中，将尽可能使用相同的附图标号表示相同或相似的部件。很显然，所描述的实施例仅仅是本公开的一些实施例，而非全部实施例。基于本公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都属于本公开的保护范围。下面首先解释本公开中使用的某些术语。

通用视频编解码(VVC)：VVC是由联合视频探索组(JVET)开发的一种视频解码标准，以取代HEVC(也称为ITU-T H.265)。VVC规定了一种视频编解码技术，其压缩能力大大超越了此类标准的前几代，并且具有高度通用性，可在更广泛的应用中有效使用。VVC标准通过引用并入本文。

AOMedia视频1(AV1)：AV1是由开放媒体联盟(AOMedia)开发的开源视频编解码标准，用于因特网上的视频传输。AV1标准通过引用并入本文。

允许的帧内预测模式(AIPM)：定义为一个模式集，其模式可用于根据相邻块的帧内预测模式导出的当前块的帧内预测。

不允许的帧内预测模式(DIPM)：定义为一个模式集，其模式不能用信号通知或不能用于根据相邻块的帧内预测模式导出的当前块的帧内预测。

基于上下文的自适应二进制算术编码(CABAC)：CABAC是在各种视频编解码标准中使用的一种熵编码的形式。

通用视频编码测试模型(VTM)：VTM提供了VVC算法和测试程序的编码器侧描述。

Bjontegaard增量率(BDR或BD-rate)：BDR是一种通过测量视频信号的相同峰值信噪比(PSNR)的比特率变化来评估编解码效率的方法。

图1示出了结合本公开某些实施例的运行环境100。如图1所示，运行环境100可以包括具有视频功能的各种设备。例如，运行环境100可以包括移动设备102、相机设备104和物联网(IoT)设备106。运行环境100还可以包括其他类型的设备。

运行环境100还可以包括服务器122、人类视觉应用124、机器视觉应用126、以及将各种设备连接到服务器122的通信链接140。用户130可以使用、访问或控制各种设备中的一个或多个。

终端设备102可以包括任何用户终端，例如个人数字助理(PDA)、移动电话、智能电话、集成消息收发设备(IMD)、平板计算机、笔记本计算机、台式计算机、和其他计算设备。相机设备104可以包括任何图像或视频捕获设备，例如数码相机、摄像机、安全摄像机、车载摄像机、和立体摄像机等。IoT设备106可以包括具有相机功能的任何类型的IoT设备，例如数字门铃、自动驾驶传感器、数字语音助手、智能扬声器、智能家电，和任何工业或商业IoT系统。各种设备102、104和106中的任何一个在被移动的个人携带时可以是静止的或移动的，并且还可以作为运输的一部分或以运输模式来放置，该运输模式包括汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或任何类似的合适运输模式。

图2示出了用于实现各种设备102、104和/或106中的任一个的电子设备。如图2所示，电子设备200可以包括硬件处理器202、存储器204、读卡器206、显示器208、键盘210、射频(RF)接口212、基带214、天线216、编码器222、解码器224、照相机226、扬声器232和麦克风234等。图2所示的组件是说明性的，可以省略某些组件，并且可以添加其他组件。

可以提供处理器202以控制电子设备200。处理器202可以通过一个或多个总线或其他电连接连接到其他组件，以向其他组件发送数据和从其他组件接收数据。处理器202可以包括一个或多个处理核，例如四核处理器或八核处理器。处理器202可以使用数字信号处理(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和可编程逻辑阵列(PLA)的至少一种硬件形式来实现。处理器202还可以包括主处理器和协处理器。主处理器可以是中央处理单元(CPU)，协处理器可以是图形处理单元(GPU)，该图形处理单元被配置为负责渲染和绘制显示屏幕需要显示的内容。在一些实施例中，处理器202可以进一步包括人工智能(AI)处理器。AI处理器被配置为处理与机器学习有关的计算操作。

存储器204可以包括诸如高速随机存取存储器和非易失性存储器的一个或多个计算机可读存储介质，例如，一个或多个磁盘存储设备或闪存设备。存储器204既可以存储图像和音频数据形式的数据，还可以存储用于处理器202的指令。读卡器206可以包括任何类型的便携式卡接口，例如智能卡接口、通信卡接口(例如，近场通信(NFC)卡)、用户识别模块(SIM)卡、或其他用于提供用户信息并适于为用户130的认证和授权提供认证信息的卡接口。

此外，显示器208可以是适于显示图像或视频的任何合适的显示技术。例如，显示器208可以包括液晶显示器(LCD)屏幕、有机发光二极管(OLED)屏幕等，并且可以是触摸屏。键盘210可以包括物理或虚拟键盘，以便用户130输入信息，并且还可以包括其他类型的输入/输出设备。扬声器232和麦克风234可以用于为电子设备200输入和输出音频。

RF接口212(连同天线216)可以包括用于接收和发送RF信号的RF电路。RF接口212可以将电信号转换成用于发送的电磁信号，或者将接收到的电磁信号转换成用于接收的电信号。RF接口212可以通过至少一种无线通信协议与其他电子设备通信。无线通信协议可以包括城域网、各代移动通信网络(2G、3G、4G和5G)、无线局域网(LAN)和/或无线保真(WiFi)网络。在一些实施例中，RF接口212还可以包括与近场通信(NFC)相关的电路。基带214可以包括电路，用于处理去往和来自RF接口212的信号。

此外，照相机226可以包括用于收集图像或视频的任何类型的成像或视频捕获设备。当电子设备200是由用户130携带的便携式设备时，照相机226可以包括前置摄像头和后置摄像头。前置摄像头可以设置在电子设备的前面板上，后置摄像头可以设置在电子设备的后表面上。在一些实施例中，至少有两个后置摄像头，每个摄像头都是主摄像头、景深摄像头、广角摄像头和长焦摄像头中的任何一个，以便通过融合主摄像头与景深摄像头来实现背景模糊功能，并且通过融合主摄像头与广角摄像头来实现全景拍摄和虚拟现实(VR)拍摄功能或其他融合拍摄功能。在一些实施例中，照相机226可以进一步包括闪光灯。

编码器222和解码器224可以被称为电子设备的编解码器电路，该编解码器电路适于执行音频和/或视频数据的编码和解码，或者辅助处理器202执行编码和解码。

图2所示的电子设备200还可以包括与无线通信系统中的移动终端或用户设备类似的结构。然而，可以包括可能需要编码和解码、或者需要编码、或者需要解码视频的任何电子设备或装置。

返回图1，电子设备200(即，各种设备102、104和/或106中的任何一个或多个)可以捕获或收集各种数据(例如，音频数据、环境/操作数据、图像数据和/或视频数据)，并通过通信链接140将数据发送到服务器122。电子设备200可以在将数据发送到服务器122之前处理或预处理数据，或者可以将未处理的数据发送到服务器122。

通信链路140可以包括任何适当类型的通信网络，并且可以包括有线或无线网络的任意组合，包括但不限于无线蜂窝电话网络、无线局域网(WLAN)、蓝牙个域网、以太网局域网、令牌环局域网、广域网和因特网。通信链路140还可以包括用于语音/数据通信的私有或公共云计算平台。当包括因特网或其它类型的网络时，到因特网的连通性可以包括长距离无线连接、短距离无线连接和各种有线连接，包括电话线、电缆线、电力线和类似的通信路径。

服务器122可以包括配置在服务器集群中或分布在不同位置的任何类型的服务器计算机系统或多个计算机系统。服务器122还可以包括云计算平台上的云服务器。图3示出了实现服务器122的某些方面的示例性计算机系统。

如图3所示，计算机系统300可以包括处理器302、存储介质304、监视器306、通信模块308、数据库310和外围设备312。可以省略某些设备，并且可以包括其它设备。

处理器302可以包括任何合适的一个或多个处理器。此外，处理器302可以包括用于多线程或并行处理的多个核。存储介质304可以包括存储器模块，例如只读存储器(ROM)、随机存取存储器(RAM)、闪存模块、可擦除和可重写存储器、以及大容量存储器，例如CD-ROM、U盘和硬盘等。存储介质304可以存储计算机程序，用于在由处理器302执行时实现各种过程。

此外，外围设备312可以包括I/O设备，例如键盘和鼠标。通信模块308可以包括网络设备，用于通过通信网络建立连接。数据库310可以包括一个或多个数据库，用于存储某些数据并对存储的数据执行某些操作，例如数据库搜索。

返回图2，编码器222可以是实现帧内模式编码方法的编码器。在这种情况下，还可以考虑电子设备200来实现帧内模式编码方法。也就是说，编码器222可以被实现为电子设备200中的硬件电路，或者可以被电子设备200实现为软件程序，或者硬件电路和软件程序的组合。图4示出了与本公开所公开的实施例一致的示例性视频编码器。

如图4所示，视频编码器400包括块分区单元410、减法单元420、预测单元430、变换/量化单元440、逆量化/逆变换单元450、加法单元460、环路内滤波器470和熵编码器480。输入视频被输入到编码器400中，作为响应，编码器400输出比特流。

输入视频包括多个图片帧。块分区单元410将每个图片帧划分为编码树单元(CTU)序列。对于具有三个样本阵列的图片帧，CTU由一个N×N亮度样本块以及两个相应的N×N色度样本块组成。块分区单元410通过使用表示为编码树的四叉树结构进一步将CTU分割成多个编码单元(CU)，以适应各种局部特性。在叶CU级别做出是否使用帧间图片(时间)或帧内图片(空间)预测来编码图片区域的决定。根据PU分割类型，每个叶CU可以进一步分割成一个、两个或四个预测单元(PU)。在一个PU内，应用相同的预测过程，并且基于PU将相关信息传输到视频解码器。在通过应用基于PU分割类型的预测过程获得残差块之后，可以根据与CU的编码树类似的另一四叉树结构将叶CU划分成多个变换单元(TU)。

预测单元430支持帧内预测、帧间预测以及组合的帧间和帧内预测。帧内预测也称为帧内模式编码。为了捕获自然视频中呈现的任意边缘方向，除了平面(表面拟合)帧内预测模式和DC(平坦(flat))帧内预测模式之外，预测单元430还支持65个定向(或角度)帧内预测模式。预测单元430还支持基于运动参数的帧间预测样本的生成，运动参数包括运动矢量、参考图片索引和参考图片列表使用索引、以及视频编码特征所需的附加信息。预测单元430还支持变换跳过模式，其中以变换跳过模式或利用变换跳过编码的CU与一个PU相关联，并且没有显著的残差系数，没有编码的运动矢量增量(delta)或参考图片索引。预测单元430还支持合并模式，其中从相邻CU获取当前CU的运动参数，包括空间和时间候选以及附加调度(schedule)。合并模式可以应用于任何帧间预测CU，而不仅仅用于变换跳过模式。预测单元430还通过显式地传输运动参数来支持合并模式的替代方案，其中运动矢量、每个参考图片列表和参考图片列表使用标志的对应参考图片索引、以及其它所需信息针对每个CU显式地发信号通知。

减法单元420将CU和PU之间的差(或残差)输出到变换/量化单元440。

变换/量化单元440支持高达64×64大小的大的块大小变换。对于大小等于64的变换块，高频变换系数被清零，从而只保留低频系数。当以变换跳过模式对大块进行变换时，变换/量化单元440使用整个块而不将任何值清零。变换/量化单元440还支持用于核心变换的多变换选择(MTS)。为了控制MTS，变换/量化单元440在序列参数集(SPS)级别分别使用单独的启用标志进行帧内和帧间预测。当在SPS级别启用MTS时，发信号通知CU级别标志，以指示是否应用MTS。变换/量化单元440还支持VVC和AV1草案标准中描述的其它变换特征，例如低频不可分离变换(LFNST)和子块变换(SBT)。

此外，变换/量化单元440支持最大63个量化参数(QP)。变换/量化单元440还通过在SPS中发信号通知从亮度到色度的映射关系来支持灵活的从亮度到色度的QP映射。变换/量化单元440还支持CU级别的QP自适应，其中用于亮度分量和色度分量的增量QP值可以分别发信号通知。变换/量化单元440还支持VVC和AV1标准中描述的其它量化特征，例如依赖性量化(dependent quantization)。

变换/量化单元440还支持色度残差的联合编码，其由TU级别标志指示。

基于上下文的自适应二进制算术编码(CABAC)可以被描述为熵编码算法。熵编码器480包括CABAC编码引擎，用于对变换/量化单元440输出的语法元素进行编码。CABAC编码引擎支持算术编码算法，例如Golomb-Rice编码算法。熵编码器480支持用于变换块和变换跳过块的单独的残差编码结构。熵编码器480通过使用非重叠系数组(CG或子块)对编码块的变换系数进行编码，并且每个CG包含可变大小的编码块的变换系数。系数组的大小仅基于变换块大小来选择，与信道类型无关。CG的大小可以包括1×16、2×8、8×2、2×4、4×2和16×1。根据预定义的扫描顺序对每个编码块内的CG和每个CG内的变换系数进行编码。

变换单元中的每个编码块被分割成多个子块，并且每个子块被分割成多个像素。多个子块包括4×4或2×2子块。

在算术编码算法中，根据局部邻域中语法元素的绝对级别(absolute level)或语法元素的部分重建的绝对级别，为每个语法元素动态地选择概率模型。

逆量化/逆变换单元450反转变换/量化单元440执行的量化过程和变换过程，并将输出馈送到加法单元460，以重建图片帧。加法单元460还将预测单元430的输出作为另一输入。重建的图片将由环路内滤波器470进行滤波。环路内滤波器470包括去块滤波器、样本自适应偏移(SAO)滤波器和自适应环路滤波器(ALF)，它们按此顺序级联。环路内滤波器470的输出被输入到预测单元430。

本公开提供了一种视频编码和/或解码的方法。图5示出了根据本公开实施例的示例性视频编码和/或解码的方法的流程图。如图5所示，视频编码和/或解码的方法包括获取视频输入的当前帧(在S510)。在获取当前帧之后，可以根据分区树结构将当前帧划分成多个编码块。

在S520，将当前帧划分成多个编码块。当前帧可以被划分成各种方形和矩形分区。方形分区可以进一步被划分成更小的分区。但矩形分区不能进一步划分。

在将当前帧划分成多个编码块之后，以帧内预测模式为每个编码块预测符号级别(在S530)。因为基于不同的视频编解码标准在不同的视频编解码方案的不同视频编解码格式中对帧内预测模式进行了不同的定义，因此确定帧内预测模式以适应基于视频编解码标准(例如AV1标准和VVC标准)的不同视频编解码方案的各种视频编解码格式，以改进编解码效率和压缩性能。基于编解码效率和压缩性能确定的相应帧内预测模式是相应视频编解码方案中定义的所有可用的帧内预测模式的子集。该子集称为可用的帧内预测模式(AIPM)集。包括在AIPM集中的帧内预测模式由视频编码设备(例如图4所示的视频编码器400)发信号通知。因为包括在AIPM集中的帧内预测模式的数量小于相应视频编解码方案中定义的所有可用的帧内预测模式的数量，因此需要较少的比特来发信号通知包括在AIPM集中的帧内预测模式。此外，除了帧内预测模式之外，还可以以帧间预测模式为每个编码块预测符号级别。

在预测符号级别之后，对残差符号级别进行变换和量化。残差符号级别是当前符号级别和预测符号级别之间的差。

如图6所示，VVC标准定义了一个平面帧内预测模式、一个DC帧内预测模式和85个角度帧内预测模式。然而，对于每个编码块，可用的帧内预测模式的数量总是67。为了对帧内预测模式进行编码，使用两个相邻编码块的帧内预测模式来构建大小为3的最可能模式(MPM)列表。首先，发信号通知一个MPM标志，以指示当前模式是否为MPM。然后，如果MPM标志为真，则使用截断一元码来发信号通知MPM索引，否则，使用6位固定长度编码来发信号通知其余模式。

另一方面，AV1标准定义了56个角度帧内预测模式、5个非角度平滑帧内预测模式、一个仅色度帧内预测模式和一些其它帧内预测模式。8个定向(或角度)模式对应45度到207度的角度。为了利用定向纹理中更多种类的空间冗余，将定向帧内预测模式扩展到具有更细粒度的角度集。8个定向模式的角度略有变化，并作为标称角度，这8个标称角度也称为标称帧内角度，并被命名为V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED和D67_PRED，对应于90°、180°、45°、135°、113°、157°、203°和67°，如图7所示。每个标称角度扩展到7个更细的角度。因此总共定义了56个定向角度(也称为帧内角度或预测角度)。每个预测角度由标称帧内角度加上角度增量来表示，即-3～3乘以3度的步长。为了通过通用方式实现定向帧内预测模式，所有56个定向帧内预测模式均使用统一的定向预测器来实现，该统一定向预测器将每个像素投影到参考子像素位置，并通过2抽头双线性滤波器对参考像素进行插值。

帧内预测模式还包括5个非定向和/或平滑帧内预测模式，它们是DC、PAETH、SMOOTH、SMOOTH_V和SMOOTH_H。对于DC预测，使用左侧相邻样本和上方相邻样本的平均值作为待预测块的预测值。对于PAETH预测，首先获取顶部参考样本、左侧参考样本和左上参考样本，然后将最接近(顶部+左侧-左上)的值设置为待预测像素的预测值。图8示出了当前块中一个像素的顶部样本、左侧样本和左上样本的位置。对于SMOOTH、SMOOTH_V和SMOOTH_H模式，它们在垂直方向或水平方向或这两个方向的平均值上使用二次内插来预测块。

为了捕获与边缘上的参考的衰减空间相关性(decaying spatial correlation)，为亮度块设计了滤波器帧内模式。定义了五种滤波器帧内模式。这五种滤波器帧内模式中的每一种都由一组八个7抽头滤波器表示，这一组八个7抽头滤波器反映了4×2补丁(patch)中的像素和7个相邻像素之间的相关性。换句话说，7抽头滤波器的加权因子是位置相关的。以一个8×8块为例，将其分割成8个4×2补丁，如图9所示。这些补丁在图9中用B0、B1、B2、B3、B4、B5、B6和B7表示。对于每个补丁，使用7个相邻的邻居(用R0～R7表示)来预测当前补丁中的像素。对于补丁B0，所有相邻的邻居已经重建。但是对于其它补丁，不是所有相邻的邻居都被重建。相邻邻居的预测值用作参考。例如，补丁B7的所有相邻的邻居都没有重建，因此使用相邻的邻居(即B5和B6)的预测样本代替。

从亮度预测色度(CfL)是一种仅色度帧内预测器，它将色度像素建模为重合重建亮度像素的线性函数。CfL预测表示如下：

CfL(α)＝α×L_AC+DC

其中，L_AC表示亮度分量的AC贡献，α表示线性模型的参数，DC表示色度分量的DC贡献。具体地，将重建的亮度像素子采样为色度分辨率，然后减去平均值，形成AC贡献。为了从AC贡献中近似出色度AC分量，CfL不需要解码器计算缩放参数，而是基于原始色度像素确定参数α，并在比特流中发信号通知它们。该方法降低了解码器的复杂度并产生了更精确的预测。对于色度分量的DC贡献，其使用帧内DC模式来计算，这对于大多数色度内容来说已经足够了，并且具有成熟的快速实施方式。

返回到图5，在S540，对残差符号级别进行变换和量化。大的块大小变换包括高达64×64的大小。对于大小等于64的变换块，高频变换系数被清零，以便仅保留低频系数。当以变换跳过模式对大块进行变换时，使用整个块而不将任何值清零。此外，对于核心变换，支持多变换选择(MTS)。为了控制MTS，在序列参数集(SPS)级别分别使用单独的启用标志进行帧内和帧间预测。当在SPS级别启用MTS时，发信号通知CU级别标志，以指示是否应用MTS。可以支持其它变换特征，例如低频不可分离变换(LFNST)和子块变换(SBT)。

此外，变换和量化过程支持最多63个量化参数(QP)。通过在SPS中发信号通知从亮度到色度的映射关系，还支持灵活的从亮度到色度的QP映射。还可以支持CU级别的QP自适应，其中亮度分量和色度分量的增量QP值可以分别发信号通知。还可以支持其它量化特征，例如依赖性量化。

如图5所示，在S550，对变换和量化后的残差符号级别进行熵编码。熵编码算法可以是基于上下文的自适应二进制算术编码(CABAC)。CABAC编码引擎可用于对变换和量化过程输出的语法元素进行编码。CABAC编码引擎支持算术编码算法，例如Golomb-Rice编码算法。可以为变换块和变换跳过块支持单独的残差编码结构。编码块的变换系数可以使用非重叠系数组(CG或子块)进行编码，并且每个CG包含可变大小的编码块的变换系数。系数组的大小仅基于变换块大小来选择，与信道类型无关。CG的大小可以包括1×16、2×8、8×2、2×4、4×2和16×1。根据预定义的扫描顺序对每个编码块内的CG和每个CG内的变换系数进行编码。

如图5所示，在S560，输出比特流。作为熵编码的结果，输出比特流。可以传输和/或存储比特流。解码器可以执行与本公开的视频编码方法相对应的视频解码方法，以恢复原始视频。

为了适应用于各种视频编解码格式的帧内模式编码，可以为每个编码块定义两个帧内预测模式集，称为允许的帧内预测模式集(AIPM)和不允许的帧内预测模式(DIPM)集。AIPM集定义为一个模式集，其中的模式可用于当前块的帧内预测。DIPM集定义为一个模式集，其中的模式不能用信号通知或不能用于当前块的帧内预测。AIPM集和DIPM集中的每个帧内预测模式由索引号来标识。对于每个块，根据相邻块的帧内预测模式导出这两个模式集中的帧内预测模式。相邻块的帧内预测模式(即，相邻模式)包括在AIPM集中，但不包括在DIPM集中。包括在AIPM集中的模式的数量和包括在DIPM集中的模式的数量对于所有块都是预定义的和固定的。当AIPM集的大小为S并且从相邻模式导出的帧内预测模式的数量小于S时，使用默认模式来填充AIPM集。

可用的帧内预测模式的数量是62，其包括56个角度帧内预测模式、5个平滑模式和一个从亮度预测色度(CfL)模式。对于56个角度帧内预测模式，其中8个被命名为标称角度，并且标称角度中的每一个都具有7个增量角度(包括具有0增量角度的标称角度本身)，这与VVC标准定义的角度不同。此外，AV1标准和VVC标准对平滑帧内预测模式的定义不同。因此，可以确定包括在AIPM集中的帧内预测模式，以适应两种标准中的视频编解码格式。

因此，本公开提供了一种视频编码方法。该方法包括可无缝应用于基于VVC标准和AV1标准的视频编解码方案的帧内模式编码。该方法可以单独使用或以任何顺序组合使用。在本公开中，如果帧内编码模式不是平滑模式，或正在根据给定的预测方向生成预测样本，则帧内编码模式称为角度模式。此外，本公开的编码器和解码器的实施例可以由处理电路(例如，一个或多个处理器或一个或多个集成电路)来实现，该处理电路执行存储在非易失性计算机可读存储介质中的程序指令。

为了使帧内模式编码适用于基于VVC标准和AV1标准的视频编解码方案的视频编解码格式，视频编码方法提供了确定包括在允许的帧内预测模式(AIPM)集中的帧内预测模式的过程。图10示出了根据本公开实施例的确定包括在允许的帧内预测模式(AIPM)集中的帧内预测模式的流程图。如图10所示，在S1010，确定当前视频编解码格式。当前视频编解码格式可以是基于VVC标准、AV1标准及其修订版的视频编解码方案的视频编解码格式中的一种。

当当前视频编解码格式是基于VVC标准的视频编解码方案时，用于基于VVC标准的视频编解码方案的AIPM集包括6个MPM和32个剩余模式，用于每个编码块。如图11所示，6个MPM是从五个相邻块导出的。32个剩余模式通过将偏移值添加到MPM列表中的角度相邻模式来导出。偏移值从offsetList1＝{1,2,3,4,6,8}中选择。对于每个偏移值，如果尚未包括，则将每个角度相邻模式作为剩余模式添加到该偏移。在推导过程完成之后，在剩余模式列表未满的情况下使用默认模式列表。默认模式列表包括{0,1,2,50,18,34,66,10,26,42,58,6,14,22,30,38,46,54,62,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,17,19,49,51}。如果相邻CU在当前CTU行之外，则跳过那些相邻模式以进行MPM推导过程。为了对帧内预测模式进行编码，发信号通知MPM标志。如果MPM标志指示当前模式是MPM，则使用具有旁路编码的截断一元码字来发信号通知MPM索引。否则，使用具有旁路编码的5位固定长度码字来发信号通知剩余模式的模式索引。在VTM AI和RA配置中几乎没有编码时间增加的情况下，实现了0.49％的编码增益和16％的BD率改进。因此，通过减少包括在AIPM集中的、用于基于VVC标准的视频编解码方案的帧内预测模式的数量，提高了编解码效率和压缩性能。

使用具有AI和RA配置的VTM配置在Linux集群上执行仿真，以获得表1所示的编解码性能数据。在JVET通用测试条件和软件参考配置(JVET-K1010)中描述通用测试条件，其通过引用并入本文。

表1：编解码性能

当当前视频编解码格式是基于AV1标准的视频编解码方案时，用于基于AV1标准的视频编解码方案的AIPM集包括八个标称角度的角度帧内预测模式，而与当前块的大小或相邻块的帧内预测模式无关，其中，八个标称角度是45°、67°、90°、113°、135°、157°、180°和203°。用于AV1视频编解码格式的AIPM集还包括某些非定向和/或平滑帧内预测模式，而与相邻块的帧内预测模式无关。可用的非定向和/或平滑帧内预测模式包括DC、PAETH、SMOOTH、SMOOTH_V和SMOOTH_H模式。对于DC模式，左侧相邻样本和上方相邻样本的平均值用作待预测块的预测器。对于PAETH模式，首先获取顶部参考样本、左侧参考样本和左上参考样本，然后将最接近(顶部+左侧-左上)的值设置为待预测像素的预测值。图8示出了当前块中一个像素的顶部样本、左侧样本和左上样本的位置。对于SMOOTH、SMOOTH_V和SMOOTH_H模式，它们在垂直方向或水平方向或这两个方向的平均值上使用二次内插来预测块。

将SMOOTH模式置于AIPM集的第一位置处。将DC模式置于AIPM集的第二位置处。当当前块是非方形块时，仅将SMOOTH_H和SMOOTH_V模式中的一种置于AIPM集中。当当前块是垂直块(块高度大于宽度)时，将SMOOTH_V模式置于AIPM集中，当当前块是水平块(块宽度大于块高度)时，将SMOOTH_H模式置于AIPM集中。或者，当当前块是垂直块时，将SMOOTH_H模式置于AIPM集中，当当前块是水平块时，将SMOOTH_V模式置于AIPM集中。

包括在AIPM集中的帧内预测模式可以被分割成2或3个级别。对于每个级别，模式的数量等于2的幂，例如2^L，其中，L是大于1的正整数。例如，AIPM集中的模式的数量为S，模式包括3个级别，S等于2^L+2^M+2^N，其中，AIPM集中索引号小于2^L的模式称为第一级别模式，索引号等于或大于2^L但小于2^L+2^M的模式称为第二级别模式，等等。

当相邻块的帧内预测模式中的至少一个是角度模式时，具有非零角度增量的至少一个角度模式包括在AIPM集的第一级别。所有标称角度的模式包括在AIPM集的第一级别，所有非定向性模式和/或平滑模式也包括在AIPM集的第一级别。具有非零角度增量的附加角度模式可以包括在AIPM集的第二级别和第三级别中。

当AIPM集中的模式包括两个级别时，发信号通知一个标志，以指示当前模式是属于第一级别还是属于第二级别，并且使用多符号熵编码(或其它合适的熵编码方法)来发信号通知第一级别或第二级别中的当前模式的索引。当AIPM集中的模式包括三个级别时，发信号通知第一标志，以指示当前模式是否属于第一级别。如果当前模式不属于第一级别，则发信号通知第二标志，以指示当前模式是属于AIPM集的第二级别还是第三级别。此外，发信号通知索引号，以指示由上述标志指示的级别中的当前帧内预测模式。

为了降低重建AIPM集的复杂度，最多使用P个相邻角度模式来导出AIPM集中的模式，其中，P是正整数，例如1或2或3。当通过上下文编码的算术编码器发信号通知帧内预测模式时，相邻块中的角度模式的数量被用作上下文指示符。

当相邻角度模式的数量等于0时，使用第一上下文。否则，当相邻角度模式的数量等于1时，使用第二上下文。否则，当相邻角度模式的数量等于2时，使用第三上下文。

或者，当相邻角度模式的数量等于0时，使用第一上下文。否则，当相邻角度模式的数量等于1时，使用第二上下文。否则，当相邻角度模式的数量等于2并且两个角度模式相等时，使用第三上下文。否则，使用第四上下文。

对于色度块，相邻块中的角度模式的数量和同位亮度块中的角度模式的数量被组合起来形成上下文指示符。

此外，用于亮度分量的AIPM集命名为AIPM_Luma集，用于色度分量的AIPM集命名为AIPM_Chroma集。通过使用相邻块的亮度模式来构造AIPM_Luma集，通过使用相邻块的色度模式和/或同位亮度块的亮度模式来构建AIPM_Chroma集。

当亮度分量和色度分量共享相同的AIPM集时，通过使用相邻块的亮度模式来构建AIPM集。色度分量包括附加的交叉分量线性模型模式，例如从亮度预测色度(CfL)模式。例如，当亮度分量的允许模式的数量为S时，色度分量的允许模式的数量为S+1。对于色度分量，发信号通知一个标志，以指示当前模式是否是CfL模式。当当前模式不是CfL模式时，发信号通知一个附加标志，以指示AIPM集中当前模式的索引号。

可替换地或附加地，色度分量的允许模式的数量与亮度分量的允许模式的数量保持相同。然而，AIPM集中的允许模式中的一个被CfL模式取代。

可替换地或附加地，通过使用相邻块的亮度模式来构建AIPM_Luma集，并且AIPM_Chroma集是AIPM_Luma集加上交叉分量线性模型模式(例如从亮度预测色度(CfL)模式)的子集。

可替换地或附加地，仅AIPM_Luma集的第一级别的模式包括在AIPM_Chroma集中，AIPM_Luma集的剩余模式不包括在AIPM_Chroma集中。

可替换地或附加地，通过使用相邻块的亮度模式来构建AIPM_Luma集，通过使用相邻块的色度模式来构建AIPM_Chroma集。

在本公开的实施例中，视频编解码方法支持基于VVC标准和AV1标准的视频编解码方案中的帧内预测模式，以改进编解码效率和压缩性能。

尽管通过说明书中的具体实施例描述了本公开的原理和实施方式，但是前面所述的实施例仅用于帮助理解本公开的方法及其核心思想。同时，本领域普通技术人员可以根据本公开的思想对具体的实施方式和应用范围进行修改。总之，说明书的内容不应解释为对本公开的限制。

Claims

1.一种视频编码的方法，其特征在于，包括：

获取视频输入的当前帧；

将所述当前帧划分成多个编码块；

以包括在允许的帧内预测模式AIPM集中的第一帧内预测模式，为每个编码块预测符号级别，其中所述第一帧内预测模式是相应视频编解码方案中定义的所有可用的帧内预测模式的子集，并且所述第一帧内预测模式基于编解码效率和压缩性能来确定，所述第一帧内预测模式中的每一个由索引号来标识；

对残差符号级别进行变换和量化；

对所述变换和量化后的残差符号级别进行熵编码；以及

输出比特流；

其中，所述第一帧内预测模式通过以下方式确定：

确定所述当前帧的当前视频编解码格式是基于第一标准的视频编解码方案还是基于第二标准的视频编解码方案，所述第一标准是通用视频编解码VVC标准，所述第二标准是开放媒体联盟AOMedia视频1 AV1标准；

当所述当前视频编解码格式是基于所述第一标准的视频编解码方案时，所述AIPM集中包括6个最可能模式MPM和32个剩余模式；其中所述6个MPM从5个相邻编码块导出；所述32个剩余模式通过将偏移值添加到所述6个MPM中的角度相邻模式来导出，以及当所述导出过程生成小于32个剩余模式时，从默认模式列表中选择附加模式，直到达到32个剩余模式；

当所述当前视频编解码格式是基于所述第二标准的视频编解码方案时，所述AIPM集中包括8个标称角度的定向模式和非定向或平滑模式，而与当前编码块的大小或相邻编码块的全部帧内预测模式无关。

2.根据权利要求1所述的方法，其特征在于，

所述偏移值从{1, 2, 3, 4, 6, 8}中选择；

对于每个偏移值，将每个角度相邻模式添加到所述偏移值以生成剩余模式，除非所述剩余模式已经生成；以及

所述默认模式列表包括{0, 1, 2, 50, 18, 34, 66, 10, 26, 42, 58, 6, 14, 22,30, 38, 46, 54, 62, 4, 8, 12, 20, 24, 28, 32, 36, 40, 44, 48, 52, 56, 60, 64,17, 19, 49, 51}。

3.根据权利要求1所述的方法，其特征在于，当所述当前视频编解码格式是基于所述第二标准的视频编解码方案时，

所述AIPM集中的角度帧内预测模式从不超过M个的相邻编码块导出，其中，M是正整数；

所述8个标称角度分别为45°、67°、90°、113°、135°、157°、180°和203°；并且

所述非定向或平滑帧内预测模式包括DC模式、PAETH模式、SMOOTH模式、SMOOTH_V模式和SMOOTH_H模式。

4.根据权利要求3所述的方法，其特征在于，

将所述SMOOTH模式置于所述AIPM集的第一位置处；以及

将所述DC模式置于所述AIPM集的第二位置处。

5.根据权利要求4所述的方法，其特征在于，

当所述当前编码块的高度大于或等于所述当前编码块的宽度时，所述SMOOTH_V模式包括在所述AIPM集中；以及

当所述当前编码块的宽度大于所述当前编码块的高度时，所述SMOOTH_H模式包括在所述AIPM集中。

6.根据权利要求4所述的方法，其特征在于，

当所述当前编码块的宽度大于或等于所述当前编码块的高度时，所述SMOOTH_V模式包括在所述AIPM集中；以及

当所述当前编码块的高度大于所述当前编码块的宽度时，所述SMOOTH_H模式包括在所述AIPM集中。

7.根据权利要求3-6中任一项所述的方法，其特征在于，进一步包括：

将所述AIPM集分割成K个级别，其中K是大于1的整数，并且所述K个级别中的每一个包括2^L个帧内预测模式，其中L是大于1的整数。

8.根据权利要求7所述的方法，其特征在于，

当所述相邻编码块的全部帧内预测模式中的一个是角度帧内预测模式时，所述AIPM集的K个级别中的第一级别包括：

非标称角度的至少一个角度帧内预测模式；或者

所有所述标称角度的角度帧内预测模式；或者

所述非定向或平滑帧内预测模式。

9.根据权利要求7所述的方法，其特征在于，

当K等于2时，所述熵编码发信号通知第一标志，以指示当前帧内预测模式是处于第一级别还是处于第二级别，以及发信号通知在所述指示的级别中所述当前帧内预测模式的索引号。

10.根据权利要求7所述的方法，其特征在于，

当K等于3时，所述熵编码发信号通知第一标志，以指示当前帧内预测模式是否处于第一级别，发信号通知第二标志，以指示所述当前帧内预测模式是处于第二级别还是处于第三级别，以及发信号通知在所述指示的级别中所述当前帧内预测模式的索引号。

11.根据权利要求3-6中任一项所述的方法，其特征在于，

所述相邻编码块的角度帧内预测模式的数量用作上下文指示符，以在熵编码的上下文建模中发信号通知所述第一帧内预测模式。

12.根据权利要求11所述的方法，其特征在于，

当所述相邻编码块的角度帧内预测模式的数量等于0时，使用第一上下文；

当所述相邻编码块的角度帧内预测模式的数量等于1时，使用第二上下文；以及

当所述相邻编码块的角度帧内预测模式的数量等于2时，使用第三上下文。

13.根据权利要求11所述的方法，其特征在于，

当所述相邻编码块的角度帧内预测模式的数量等于1时，使用第二上下文；

当所述相邻编码块的角度帧内预测模式的数量等于2并且两个角度帧内预测模式相等时，使用第三上下文；以及

当所述相邻编码块的角度帧内预测模式的数量等于2并且所述两个角度帧内预测模式不相等时，使用第四上下文。

14.根据权利要求11所述的方法，其特征在于，

当所述当前编码块是色度块时，所述上下文指示符是根据相邻色度块的角度帧内预测模式的数量和同位亮度块的角度帧内预测模式的数量导出的。

15.一种视频编码的系统，其特征在于，包括：

存储器，用于存储计算机程序指令；以及

耦合到所述存储器的处理器，当执行所述计算机程序指令时，被配置为执行权利要求1-14任一项所述的方法。

16.一种非易失性计算机可读存储介质，其特征在于，用于存储计算机程序指令，当所述计算机程序指令由用于视频编解码的计算机执行时，使所述计算机执行权利要求1-14任一项所述的方法。

17.一种计算机设备，其特征在于，所述设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器用于存储计算机程序指令，当所述计算机程序指令由所述一个或多个处理器执行时，使所述一个或多个处理器执行权利要求1-14任一项所述的方法。