CN107564032A

CN107564032A - 一种基于外观网络的视频跟踪对象分割方法

Info

Publication number: CN107564032A
Application number: CN201710780214.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-01-09

Abstract

本发明中提出的一种基于外观网络的视频跟踪对象分割方法，其主要内容包括：外观网络、对象检测网络、边界框滤波和训练，其过程为，先使每个输入帧从获得的类别独立的对象分割的外观网络通过，去除最终的池层和完全连接层，采用跳跃连接，允许多分辨率空间信息从浅层流到网络末端，在网络末端连接这些侧面输出，并通过输出网络预测的融合卷积层，然后使帧通过实例级语义对象检测网络，使用前景外观分割得到外观图像，接着使用滤波器对边界框进行滤波，最终得到分割图像。本发明结合了一次训练的外观网络和语义实例检测网络的输出，同时对结果施加时间约束，提高了外观网络的训练速度，同时提高了检测和分割的精度，使准确性大大提高。

Description

一种基于外观网络的视频跟踪对象分割方法

技术领域

本发明涉及视频对象分割领域，尤其是涉及了一种基于外观网络的视频跟踪对象分割方法。

背景技术

视频对象分割是计算机视觉中的一个基本问题，也是当前视频信号处理研究的前沿与热点之一。视频对象分割是指在时空域上将视频分割为一些视频语义对象的组合，也就是将每一个视频帧分割成一些不同的语义对象区域，从而能够对视频实现灵活处理。视频对象分割具有广阔的应用前景，如视频编码、视频检索、多媒体操作、图像处理、模式识别、视频压缩编码和视频数据库操作等，还可以用于交通流视频监控、工业自动化监控、安防以及网络多媒体交互等实际生产生活中。视频对象分割质量的好坏直接影响后期的工作，所以，视频对象分割技术的研究是重要而又富有挑战性的。传统方法使用的单点网络在当视频包含与注释的对象类似的多个实例时，会错误地识别所有或几个这样的实例作为对象的一部分，使得分割精度下降，准确性不高。

本发明提出了一种基于外观网络的视频跟踪对象分割方法，先使每个输入帧从获得的类别独立的对象分割的外观网络通过，去除最终的池层和完全连接层，采用跳跃连接，允许多分辨率空间信息从浅层流到网络末端，在网络末端连接这些侧面输出，并通过输出网络预测的融合卷积层，然后使帧通过实例级语义对象检测网络，使用前景外观分割得到外观图像，接着使用滤波器对边界框进行滤波，最终得到分割图像。本发明结合了一次训练的外观网络和语义实例检测网络的输出，同时对结果施加时间约束，提高了外观网络的训练速度，同时提高了检测和分割的精度，使准确性大大提高。

发明内容

针对分割精度和准确性不高的问题，本发明的目的在于提供一种基于外观网络的视频跟踪对象分割方法，先使每个输入帧从获得的类别独立的对象分割的外观网络通过，去除最终的池层和完全连接层，采用跳跃连接，允许多分辨率空间信息从浅层流到网络末端，在网络末端连接这些侧面输出，并通过输出网络预测的融合卷积层，然后使帧通过实例级语义对象检测网络，使用前景外观分割得到外观图像，接着使用滤波器对边界框进行滤波，最终得到分割图像。

为解决上述问题，本发明提供一种基于外观网络的视频跟踪对象分割方法，其主要内容包括：

(一)外观网络；

(二)对象检测网络；

(三)边界框滤波；

(四)训练。

其中，所述的外观网络，首先，每个输入帧从获得的类别独立的对象分割的外观网络通过；网络基于VGG16卷积网络架构，转换成一个完全卷积的网络；与全卷积网络不同，为了保持空间分辨率，最终的池层和完全连接层已被完全去除；

采用跳跃连接，允许多分辨率空间信息从浅层流到网络末端，并提高对象轮廓细节上的分割精度；更具体地说，在池层之前采用VGG16各阶段的最终特征图，并将其与单个1×1内核进行卷积，得到与当前下采样阶段相同大小的灰度分割概率图，并用双线性滤波器对原始图像大小进行采样；

最后，在网络末端连接这些侧面输出，并通过输出网络预测的融合卷积层：全幅灰度分割概率图；为了实现像素级分割，softmax分类器由提供二进制分类掩码的类别平衡的S形交叉熵损失层代替。

其中，所述的对象检测网络，此时，帧通过实例级语义对象检测网络；该网络将原始的RGB图像作为输入，并为其发现的任何对象产生一组边界框，这些边界框属于它支持的类别的集合；对象检测网络能够分离同一个对象类的实例，从而允许在视频中选择正确的实例，其中至少有一个同类被外观网络选中。

其中，所述的边界框滤波，包括基于外观的滤波器、时间滤波器和连接组件滤波器。

进一步地，所述的基于外观的滤波器，在通过两个网络传递输入帧之后，得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议；提出一种用于组合两个网络的结果的方法，对视频中的每个帧的最终预测对象分割图进行细化。

进一步地，所述的用于组合两个网络的结果的方法，首先，使用第一个图像标定的真实数据来选择属于注释对象的边界框；然后，通过搜索与外观图像最匹配的边界框建议，并在这些检测中施加时间连续性，继续在后续的帧中选择正确的边界框；

对于第一个图像，选择与由第一帧标定好的真实数据给出的对象分割具有最佳重叠的语义检测(边界框)；将所选择的类别存储在存储器中，以便在后续的帧中进行搜索；

对于后续的所有帧，只有在第一帧中发现的类别才是感兴趣的帧，其余的被删去；在剩余的检测对象建议中，根据每个边界框建议和外观图像之间并集的交界点的大小，选择最适合外观图像预测的检测对象。

进一步地，所述的时间滤波器，在前一帧中选择一个语义对象的正确边界框，可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例；为了进一步确保对边界框的正确选择，仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波，从而对正确的边界框执行时间跟踪；

如果语义对象检测无法检测到第一帧中的任何对象，则改用第一帧注释来定义边界框；然后对于所有的后续帧，找到与先前边界框相交的连接组件，并删除所有其他片段，最后根据所选的连接组件选择一个新的边界框；此步骤结束后，将得到一个外观图像和注释对象的正确语义边界框检测。

进一步地，所述的连接组件滤波器，在算法的最后一步，使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图；使用边界框对外观图像进行滤波，并且去除背景噪声；

为了获得最终预测(即二进制预测)分割掩模，为外观分割图设置两次阈值，即低阈值和高阈值；然后将所获得的每个掩模划分为它们的连接组件。

进一步地，所述的低阈值和高阈值，第一次时，采用高阈值掩码，并删除与先前步骤中选择的边界框不相交的所有组件；这个限制会对与注释对象类似的错误分段实例进行滤波，或者简单地过滤掉噪声；

第二次时，将最终分割掩码从与第一次时获得的掩码相交的低阈值掩码添加到连接组件；

此增强操作在选定的边界框内提供了更宽松的阈值，根据具有强弱边缘的坎尼边缘检测器，仅在与强边缘连接时选择弱边缘；寻找受分割图的选定边界区域限制的强弱(高和低置信度)分割像素，并且当它们的连接组件与强像素相交时选择弱像素。

其中，所述的训练，只选择外观网络进行训练，并且对于离线训练使用动量为0.9的随机梯度下降；使用镜像、旋转和调整大小来扩充数据；同时，不对训练执行深度监督，将每个侧面输出连接到交叉熵分割损失函数。

附图说明

图1是本发明一种基于外观网络的视频跟踪对象分割方法的系统框架图。

图2是本发明一种基于外观网络的视频跟踪对象分割方法的流程示意图。

图3是本发明一种基于外观网络的视频跟踪对象分割方法的时间滤波器。

图4是本发明一种基于外观网络的视频跟踪对象分割方法的连接组件滤波器。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于外观网络的视频跟踪对象分割方法的系统框架图。主要包括外观网络，对象检测网络，边界框滤波和训练。

外观网络，首先，每个输入帧从获得的类别独立的对象分割的外观网络通过；网络基于VGG16卷积网络架构，转换成一个完全卷积的网络；与全卷积网络不同，为了保持空间分辨率，最终的池层和完全连接层已被完全去除；

对象检测网络，此时，帧通过实例级语义对象检测网络；该网络将原始的RGB图像作为输入，并为其发现的任何对象产生一组边界框，这些边界框属于它支持的类别的集合；对象检测网络能够分离同一个对象类的实例，从而允许在视频中选择正确的实例，其中至少有一个同类被外观网络选中。

边界框滤波包括基于外观的滤波器、时间滤波器和连接组件滤波器。

基于外观的滤波器，在通过两个网络传递输入帧之后，得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议；提出一种用于组合两个网络的结果的方法，对视频中的每个帧的最终预测对象分割图进行细化。

首先，使用第一个图像标定的真实数据来选择属于注释对象的边界框；然后，通过搜索与外观图像最匹配的边界框建议，并在这些检测中施加时间连续性，继续在后续的帧中选择正确的边界框；

训练，只选择外观网络进行训练，并且对于离线训练使用动量为0.9的随机梯度下降；使用镜像、旋转和调整大小来扩充数据；同时，不对训练执行深度监督，将每个侧面输出连接到交叉熵分割损失函数。

图2是本发明一种基于外观网络的视频跟踪对象分割方法的流程示意图。先使每个输入帧从获得的类别独立的对象分割的外观网络通过，去除最终的池层和完全连接层，采用跳跃连接，允许多分辨率空间信息从浅层流到网络末端，在网络末端连接这些侧面输出，并通过输出网络预测的融合卷积层，然后使帧通过实例级语义对象检测网络，使用前景外观分割得到外观图像，接着使用滤波器对边界框进行滤波，最终得到分割图像。

图3是本发明一种基于外观网络的视频跟踪对象分割方法的时间滤波器。在前一帧中选择一个语义对象的正确边界框，可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例；为了进一步确保对边界框的正确选择，仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波，从而对正确的边界框执行时间跟踪；

图4是本发明一种基于外观网络的视频跟踪对象分割方法的连接组件滤波器。在算法的最后一步，使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图；使用边界框对外观图像进行滤波，并且去除背景噪声；

第一次时，采用高阈值掩码，并删除与先前步骤中选择的边界框不相交的所有组件；这个限制会对与注释对象类似的错误分段实例进行滤波，或者简单地过滤掉噪声；

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于外观网络的视频跟踪对象分割方法，其特征在于，主要包括外观网络(一)；对象检测网络(二)；边界框滤波(三)；训练(四)。

2.基于权利要求书1所述的外观网络(一)，其特征在于，首先，每个输入帧从获得的类别独立的对象分割的外观网络通过；网络基于VGG16卷积网络架构，转换成一个完全卷积的网络；与全卷积网络不同，为了保持空间分辨率，最终的池层和完全连接层已被完全去除；

3.基于权利要求书1所述的对象检测网络(二)，其特征在于，此时，帧通过实例级语义对象检测网络；该网络将原始的RGB图像作为输入，并为其发现的任何对象产生一组边界框，这些边界框属于它支持的类别的集合；对象检测网络能够分离同一个对象类的实例，从而允许在视频中选择正确的实例，其中至少有一个同类被外观网络选中。

4.基于权利要求书1所述的边界框滤波(三)，其特征在于，包括基于外观的滤波器、时间滤波器和连接组件滤波器。

5.基于权利要求书4所述的基于外观的滤波器，其特征在于，在通过两个网络传递输入帧之后，得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议；提出一种用于组合两个网络的结果的方法，对视频中的每个帧的最终预测对象分割图进行细化。

6.基于权利要求书5所述的用于组合两个网络的结果的方法，其特征在于，首先，使用第一个图像标定的真实数据来选择属于注释对象的边界框；然后，通过搜索与外观图像最匹配的边界框建议，并在这些检测中施加时间连续性，继续在后续的帧中选择正确的边界框；

7.基于权利要求书4所述的时间滤波器，其特征在于，在前一帧中选择一个语义对象的正确边界框，可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例；为了进一步确保对边界框的正确选择，仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波，从而对正确的边界框执行时间跟踪；

8.基于权利要求书4所述的连接组件滤波器，其特征在于，在算法的最后一步，使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图；使用边界框对外观图像进行滤波，并且去除背景噪声；

9.基于权利要求书8所述的低阈值和高阈值，其特征在于，第一次时，采用高阈值掩码，并删除与先前步骤中选择的边界框不相交的所有组件；这个限制会对与注释对象类似的错误分段实例进行滤波，或者简单地过滤掉噪声；

10.基于权利要求书1所述的训练(四)，其特征在于，只选择外观网络进行训练，并且对于离线训练使用动量为0.9的随机梯度下降；使用镜像、旋转和调整大小来扩充数据；同时，不对训练执行深度监督，将每个侧面输出连接到交叉熵分割损失函数。