[go: up one dir, main page]

CN107564032A - 一种基于外观网络的视频跟踪对象分割方法 - Google Patents

一种基于外观网络的视频跟踪对象分割方法 Download PDF

Info

Publication number
CN107564032A
CN107564032A CN201710780214.9A CN201710780214A CN107564032A CN 107564032 A CN107564032 A CN 107564032A CN 201710780214 A CN201710780214 A CN 201710780214A CN 107564032 A CN107564032 A CN 107564032A
Authority
CN
China
Prior art keywords
network
outward appearance
frame
bounding box
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710780214.9A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710780214.9A priority Critical patent/CN107564032A/zh
Publication of CN107564032A publication Critical patent/CN107564032A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于外观网络的视频跟踪对象分割方法,其主要内容包括:外观网络、对象检测网络、边界框滤波和训练,其过程为,先使每个输入帧从获得的类别独立的对象分割的外观网络通过,去除最终的池层和完全连接层,采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层,然后使帧通过实例级语义对象检测网络,使用前景外观分割得到外观图像,接着使用滤波器对边界框进行滤波,最终得到分割图像。本发明结合了一次训练的外观网络和语义实例检测网络的输出,同时对结果施加时间约束,提高了外观网络的训练速度,同时提高了检测和分割的精度,使准确性大大提高。

Description

一种基于外观网络的视频跟踪对象分割方法
技术领域
本发明涉及视频对象分割领域,尤其是涉及了一种基于外观网络的视频跟踪对象分割方法。
背景技术
视频对象分割是计算机视觉中的一个基本问题,也是当前视频信号处理研究的前沿与热点之一。视频对象分割是指在时空域上将视频分割为一些视频语义对象的组合,也就是将每一个视频帧分割成一些不同的语义对象区域,从而能够对视频实现灵活处理。视频对象分割具有广阔的应用前景,如视频编码、视频检索、多媒体操作、图像处理、模式识别、视频压缩编码和视频数据库操作等,还可以用于交通流视频监控、工业自动化监控、安防以及网络多媒体交互等实际生产生活中。视频对象分割质量的好坏直接影响后期的工作,所以,视频对象分割技术的研究是重要而又富有挑战性的。传统方法使用的单点网络在当视频包含与注释的对象类似的多个实例时,会错误地识别所有或几个这样的实例作为对象的一部分,使得分割精度下降,准确性不高。
本发明提出了一种基于外观网络的视频跟踪对象分割方法,先使每个输入帧从获得的类别独立的对象分割的外观网络通过,去除最终的池层和完全连接层,采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层,然后使帧通过实例级语义对象检测网络,使用前景外观分割得到外观图像,接着使用滤波器对边界框进行滤波,最终得到分割图像。本发明结合了一次训练的外观网络和语义实例检测网络的输出,同时对结果施加时间约束,提高了外观网络的训练速度,同时提高了检测和分割的精度,使准确性大大提高。
发明内容
针对分割精度和准确性不高的问题,本发明的目的在于提供一种基于外观网络的视频跟踪对象分割方法,先使每个输入帧从获得的类别独立的对象分割的外观网络通过,去除最终的池层和完全连接层,采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层,然后使帧通过实例级语义对象检测网络,使用前景外观分割得到外观图像,接着使用滤波器对边界框进行滤波,最终得到分割图像。
为解决上述问题,本发明提供一种基于外观网络的视频跟踪对象分割方法,其主要内容包括:
(一)外观网络;
(二)对象检测网络;
(三)边界框滤波;
(四)训练。
其中,所述的外观网络,首先,每个输入帧从获得的类别独立的对象分割的外观网络通过;网络基于VGG16卷积网络架构,转换成一个完全卷积的网络;与全卷积网络不同,为了保持空间分辨率,最终的池层和完全连接层已被完全去除;
采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,并提高对象轮廓细节上的分割精度;更具体地说,在池层之前采用VGG16各阶段的最终特征图,并将其与单个1×1内核进行卷积,得到与当前下采样阶段相同大小的灰度分割概率图,并用双线性滤波器对原始图像大小进行采样;
最后,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层:全幅灰度分割概率图;为了实现像素级分割,softmax分类器由提供二进制分类掩码的类别平衡的S形交叉熵损失层代替。
其中,所述的对象检测网络,此时,帧通过实例级语义对象检测网络;该网络将原始的RGB图像作为输入,并为其发现的任何对象产生一组边界框,这些边界框属于它支持的类别的集合;对象检测网络能够分离同一个对象类的实例,从而允许在视频中选择正确的实例,其中至少有一个同类被外观网络选中。
其中,所述的边界框滤波,包括基于外观的滤波器、时间滤波器和连接组件滤波器。
进一步地,所述的基于外观的滤波器,在通过两个网络传递输入帧之后,得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议;提出一种用于组合两个网络的结果的方法,对视频中的每个帧的最终预测对象分割图进行细化。
进一步地,所述的用于组合两个网络的结果的方法,首先,使用第一个图像标定的真实数据来选择属于注释对象的边界框;然后,通过搜索与外观图像最匹配的边界框建议,并在这些检测中施加时间连续性,继续在后续的帧中选择正确的边界框;
对于第一个图像,选择与由第一帧标定好的真实数据给出的对象分割具有最佳重叠的语义检测(边界框);将所选择的类别存储在存储器中,以便在后续的帧中进行搜索;
对于后续的所有帧,只有在第一帧中发现的类别才是感兴趣的帧,其余的被删去;在剩余的检测对象建议中,根据每个边界框建议和外观图像之间并集的交界点的大小,选择最适合外观图像预测的检测对象。
进一步地,所述的时间滤波器,在前一帧中选择一个语义对象的正确边界框,可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例;为了进一步确保对边界框的正确选择,仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波,从而对正确的边界框执行时间跟踪;
如果语义对象检测无法检测到第一帧中的任何对象,则改用第一帧注释来定义边界框;然后对于所有的后续帧,找到与先前边界框相交的连接组件,并删除所有其他片段,最后根据所选的连接组件选择一个新的边界框;此步骤结束后,将得到一个外观图像和注释对象的正确语义边界框检测。
进一步地,所述的连接组件滤波器,在算法的最后一步,使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图;使用边界框对外观图像进行滤波,并且去除背景噪声;
为了获得最终预测(即二进制预测)分割掩模,为外观分割图设置两次阈值,即低阈值和高阈值;然后将所获得的每个掩模划分为它们的连接组件。
进一步地,所述的低阈值和高阈值,第一次时,采用高阈值掩码,并删除与先前步骤中选择的边界框不相交的所有组件;这个限制会对与注释对象类似的错误分段实例进行滤波,或者简单地过滤掉噪声;
第二次时,将最终分割掩码从与第一次时获得的掩码相交的低阈值掩码添加到连接组件;
此增强操作在选定的边界框内提供了更宽松的阈值,根据具有强弱边缘的坎尼边缘检测器,仅在与强边缘连接时选择弱边缘;寻找受分割图的选定边界区域限制的强弱(高和低置信度)分割像素,并且当它们的连接组件与强像素相交时选择弱像素。
其中,所述的训练,只选择外观网络进行训练,并且对于离线训练使用动量为0.9的随机梯度下降;使用镜像、旋转和调整大小来扩充数据;同时,不对训练执行深度监督,将每个侧面输出连接到交叉熵分割损失函数。
附图说明
图1是本发明一种基于外观网络的视频跟踪对象分割方法的系统框架图。
图2是本发明一种基于外观网络的视频跟踪对象分割方法的流程示意图。
图3是本发明一种基于外观网络的视频跟踪对象分割方法的时间滤波器。
图4是本发明一种基于外观网络的视频跟踪对象分割方法的连接组件滤波器。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于外观网络的视频跟踪对象分割方法的系统框架图。主要包括外观网络,对象检测网络,边界框滤波和训练。
外观网络,首先,每个输入帧从获得的类别独立的对象分割的外观网络通过;网络基于VGG16卷积网络架构,转换成一个完全卷积的网络;与全卷积网络不同,为了保持空间分辨率,最终的池层和完全连接层已被完全去除;
采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,并提高对象轮廓细节上的分割精度;更具体地说,在池层之前采用VGG16各阶段的最终特征图,并将其与单个1×1内核进行卷积,得到与当前下采样阶段相同大小的灰度分割概率图,并用双线性滤波器对原始图像大小进行采样;
最后,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层:全幅灰度分割概率图;为了实现像素级分割,softmax分类器由提供二进制分类掩码的类别平衡的S形交叉熵损失层代替。
对象检测网络,此时,帧通过实例级语义对象检测网络;该网络将原始的RGB图像作为输入,并为其发现的任何对象产生一组边界框,这些边界框属于它支持的类别的集合;对象检测网络能够分离同一个对象类的实例,从而允许在视频中选择正确的实例,其中至少有一个同类被外观网络选中。
边界框滤波包括基于外观的滤波器、时间滤波器和连接组件滤波器。
基于外观的滤波器,在通过两个网络传递输入帧之后,得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议;提出一种用于组合两个网络的结果的方法,对视频中的每个帧的最终预测对象分割图进行细化。
首先,使用第一个图像标定的真实数据来选择属于注释对象的边界框;然后,通过搜索与外观图像最匹配的边界框建议,并在这些检测中施加时间连续性,继续在后续的帧中选择正确的边界框;
对于第一个图像,选择与由第一帧标定好的真实数据给出的对象分割具有最佳重叠的语义检测(边界框);将所选择的类别存储在存储器中,以便在后续的帧中进行搜索;
对于后续的所有帧,只有在第一帧中发现的类别才是感兴趣的帧,其余的被删去;在剩余的检测对象建议中,根据每个边界框建议和外观图像之间并集的交界点的大小,选择最适合外观图像预测的检测对象。
训练,只选择外观网络进行训练,并且对于离线训练使用动量为0.9的随机梯度下降;使用镜像、旋转和调整大小来扩充数据;同时,不对训练执行深度监督,将每个侧面输出连接到交叉熵分割损失函数。
图2是本发明一种基于外观网络的视频跟踪对象分割方法的流程示意图。先使每个输入帧从获得的类别独立的对象分割的外观网络通过,去除最终的池层和完全连接层,采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层,然后使帧通过实例级语义对象检测网络,使用前景外观分割得到外观图像,接着使用滤波器对边界框进行滤波,最终得到分割图像。
图3是本发明一种基于外观网络的视频跟踪对象分割方法的时间滤波器。在前一帧中选择一个语义对象的正确边界框,可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例;为了进一步确保对边界框的正确选择,仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波,从而对正确的边界框执行时间跟踪;
如果语义对象检测无法检测到第一帧中的任何对象,则改用第一帧注释来定义边界框;然后对于所有的后续帧,找到与先前边界框相交的连接组件,并删除所有其他片段,最后根据所选的连接组件选择一个新的边界框;此步骤结束后,将得到一个外观图像和注释对象的正确语义边界框检测。
图4是本发明一种基于外观网络的视频跟踪对象分割方法的连接组件滤波器。在算法的最后一步,使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图;使用边界框对外观图像进行滤波,并且去除背景噪声;
为了获得最终预测(即二进制预测)分割掩模,为外观分割图设置两次阈值,即低阈值和高阈值;然后将所获得的每个掩模划分为它们的连接组件。
第一次时,采用高阈值掩码,并删除与先前步骤中选择的边界框不相交的所有组件;这个限制会对与注释对象类似的错误分段实例进行滤波,或者简单地过滤掉噪声;
第二次时,将最终分割掩码从与第一次时获得的掩码相交的低阈值掩码添加到连接组件;
此增强操作在选定的边界框内提供了更宽松的阈值,根据具有强弱边缘的坎尼边缘检测器,仅在与强边缘连接时选择弱边缘;寻找受分割图的选定边界区域限制的强弱(高和低置信度)分割像素,并且当它们的连接组件与强像素相交时选择弱像素。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于外观网络的视频跟踪对象分割方法,其特征在于,主要包括外观网络(一);对象检测网络(二);边界框滤波(三);训练(四)。
2.基于权利要求书1所述的外观网络(一),其特征在于,首先,每个输入帧从获得的类别独立的对象分割的外观网络通过;网络基于VGG16卷积网络架构,转换成一个完全卷积的网络;与全卷积网络不同,为了保持空间分辨率,最终的池层和完全连接层已被完全去除;
采用跳跃连接,允许多分辨率空间信息从浅层流到网络末端,并提高对象轮廓细节上的分割精度;更具体地说,在池层之前采用VGG16各阶段的最终特征图,并将其与单个1×1内核进行卷积,得到与当前下采样阶段相同大小的灰度分割概率图,并用双线性滤波器对原始图像大小进行采样;
最后,在网络末端连接这些侧面输出,并通过输出网络预测的融合卷积层:全幅灰度分割概率图;为了实现像素级分割,softmax分类器由提供二进制分类掩码的类别平衡的S形交叉熵损失层代替。
3.基于权利要求书1所述的对象检测网络(二),其特征在于,此时,帧通过实例级语义对象检测网络;该网络将原始的RGB图像作为输入,并为其发现的任何对象产生一组边界框,这些边界框属于它支持的类别的集合;对象检测网络能够分离同一个对象类的实例,从而允许在视频中选择正确的实例,其中至少有一个同类被外观网络选中。
4.基于权利要求书1所述的边界框滤波(三),其特征在于,包括基于外观的滤波器、时间滤波器和连接组件滤波器。
5.基于权利要求书4所述的基于外观的滤波器,其特征在于,在通过两个网络传递输入帧之后,得到一个从单一外观网络获得的初始分段预测图和一些语义检测网络已经识别的对象的边界框建议;提出一种用于组合两个网络的结果的方法,对视频中的每个帧的最终预测对象分割图进行细化。
6.基于权利要求书5所述的用于组合两个网络的结果的方法,其特征在于,首先,使用第一个图像标定的真实数据来选择属于注释对象的边界框;然后,通过搜索与外观图像最匹配的边界框建议,并在这些检测中施加时间连续性,继续在后续的帧中选择正确的边界框;
对于第一个图像,选择与由第一帧标定好的真实数据给出的对象分割具有最佳重叠的语义检测(边界框);将所选择的类别存储在存储器中,以便在后续的帧中进行搜索;
对于后续的所有帧,只有在第一帧中发现的类别才是感兴趣的帧,其余的被删去;在剩余的检测对象建议中,根据每个边界框建议和外观图像之间并集的交界点的大小,选择最适合外观图像预测的检测对象。
7.基于权利要求书4所述的时间滤波器,其特征在于,在前一帧中选择一个语义对象的正确边界框,可能会切换到其外观预测与其语义边界框高度重叠的另一个对象实例;为了进一步确保对边界框的正确选择,仅将通过并集阈值的交界点的帧与前一帧中的对象位置进行滤波,从而对正确的边界框执行时间跟踪;
如果语义对象检测无法检测到第一帧中的任何对象,则改用第一帧注释来定义边界框;然后对于所有的后续帧,找到与先前边界框相交的连接组件,并删除所有其他片段,最后根据所选的连接组件选择一个新的边界框;此步骤结束后,将得到一个外观图像和注释对象的正确语义边界框检测。
8.基于权利要求书4所述的连接组件滤波器,其特征在于,在算法的最后一步,使用先前步骤中选择的检测来限制和增强从外观网络获得的分割图;使用边界框对外观图像进行滤波,并且去除背景噪声;
为了获得最终预测(即二进制预测)分割掩模,为外观分割图设置两次阈值,即低阈值和高阈值;然后将所获得的每个掩模划分为它们的连接组件。
9.基于权利要求书8所述的低阈值和高阈值,其特征在于,第一次时,采用高阈值掩码,并删除与先前步骤中选择的边界框不相交的所有组件;这个限制会对与注释对象类似的错误分段实例进行滤波,或者简单地过滤掉噪声;
第二次时,将最终分割掩码从与第一次时获得的掩码相交的低阈值掩码添加到连接组件;
此增强操作在选定的边界框内提供了更宽松的阈值,根据具有强弱边缘的坎尼边缘检测器,仅在与强边缘连接时选择弱边缘;寻找受分割图的选定边界区域限制的强弱(高和低置信度)分割像素,并且当它们的连接组件与强像素相交时选择弱像素。
10.基于权利要求书1所述的训练(四),其特征在于,只选择外观网络进行训练,并且对于离线训练使用动量为0.9的随机梯度下降;使用镜像、旋转和调整大小来扩充数据;同时,不对训练执行深度监督,将每个侧面输出连接到交叉熵分割损失函数。
CN201710780214.9A 2017-09-01 2017-09-01 一种基于外观网络的视频跟踪对象分割方法 Withdrawn CN107564032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710780214.9A CN107564032A (zh) 2017-09-01 2017-09-01 一种基于外观网络的视频跟踪对象分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710780214.9A CN107564032A (zh) 2017-09-01 2017-09-01 一种基于外观网络的视频跟踪对象分割方法

Publications (1)

Publication Number Publication Date
CN107564032A true CN107564032A (zh) 2018-01-09

Family

ID=60978742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710780214.9A Withdrawn CN107564032A (zh) 2017-09-01 2017-09-01 一种基于外观网络的视频跟踪对象分割方法

Country Status (1)

Country Link
CN (1) CN107564032A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784164A (zh) * 2018-12-12 2019-05-21 北京达佳互联信息技术有限公司 前景识别方法、装置、电子设备及存储介质
CN109800657A (zh) * 2018-12-25 2019-05-24 天津大学 一种针对模糊人脸图像的卷积神经网络人脸识别方法
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
WO2020125495A1 (zh) * 2018-12-17 2020-06-25 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN112312203A (zh) * 2020-08-25 2021-02-02 北京沃东天骏信息技术有限公司 视频播放方法、装置和存储介质
CN113421280A (zh) * 2021-05-31 2021-09-21 江苏大学 一种综合精度与速度的强化学习视频对象分割方法
CN114429475A (zh) * 2021-12-24 2022-05-03 北京达佳互联信息技术有限公司 图像处理方法、装置、设备及存储介质
CN118921505A (zh) * 2023-05-08 2024-11-08 安讯士有限公司 稳定视频流中的对象的边界框的系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106682108A (zh) * 2016-12-06 2017-05-17 浙江大学 一种基于多模态卷积神经网络的视频检索方法
US20170228617A1 (en) * 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Video monitoring using semantic segmentation based on global optimization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228617A1 (en) * 2016-02-04 2017-08-10 Nec Laboratories America, Inc. Video monitoring using semantic segmentation based on global optimization
CN106296728A (zh) * 2016-07-27 2017-01-04 昆明理工大学 一种基于全卷积网络的非限制场景中运动目标快速分割方法
CN106682108A (zh) * 2016-12-06 2017-05-17 浙江大学 一种基于多模态卷积神经网络的视频检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GILAD SHARIR ET.AL: "Video Object Segmentation using Tracked Object Proposals", 《ARXIV:1707.06545V1[CS.CV]》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784164B (zh) * 2018-12-12 2020-11-06 北京达佳互联信息技术有限公司 前景识别方法、装置、电子设备及存储介质
CN109784164A (zh) * 2018-12-12 2019-05-21 北京达佳互联信息技术有限公司 前景识别方法、装置、电子设备及存储介质
WO2020125495A1 (zh) * 2018-12-17 2020-06-25 中国科学院深圳先进技术研究院 一种全景分割方法、装置及设备
CN109800657A (zh) * 2018-12-25 2019-05-24 天津大学 一种针对模糊人脸图像的卷积神经网络人脸识别方法
CN110097568B (zh) * 2019-05-13 2023-06-09 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN110097568A (zh) * 2019-05-13 2019-08-06 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法
CN112312203A (zh) * 2020-08-25 2021-02-02 北京沃东天骏信息技术有限公司 视频播放方法、装置和存储介质
CN112312203B (zh) * 2020-08-25 2023-04-07 北京沃东天骏信息技术有限公司 视频播放方法、装置和存储介质
CN113421280A (zh) * 2021-05-31 2021-09-21 江苏大学 一种综合精度与速度的强化学习视频对象分割方法
CN113421280B (zh) * 2021-05-31 2024-05-14 江苏大学 一种综合精度与速度的强化学习视频对象分割方法
CN114429475A (zh) * 2021-12-24 2022-05-03 北京达佳互联信息技术有限公司 图像处理方法、装置、设备及存储介质
CN114429475B (zh) * 2021-12-24 2024-12-24 北京达佳互联信息技术有限公司 图像处理方法、装置、设备及存储介质
CN118921505A (zh) * 2023-05-08 2024-11-08 安讯士有限公司 稳定视频流中的对象的边界框的系统和方法

Similar Documents

Publication Publication Date Title
CN107564032A (zh) 一种基于外观网络的视频跟踪对象分割方法
CN108985169B (zh) 基于深度学习目标检测与动态背景建模的商店跨门经营检测方法
CN110414559B (zh) 智能零售柜商品目标检测统一框架的构建方法及商品识别方法
Diers et al. A survey of methods for automated quality control based on images
CN111104903A (zh) 一种深度感知交通场景多目标检测方法和系统
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
Conde et al. Exploring vision transformers for fine-grained classification
CN111738338B (zh) 基于级联膨胀fcn网络应用于马达线圈的缺陷检测方法
CN110008953A (zh) 基于卷积神经网络多层特征融合的潜在目标区域生成方法
CN113409327B (zh) 一种基于排序与语义一致性约束的实例分割改进方法
Saeedizadeh et al. Cutting‐Edge Deep Learning Methods for Image‐Based Object Detection in Autonomous Driving: In‐Depth Survey
Elgazwy et al. Predicting Pedestrian Crossing Intentions in Adverse Weather With Self-Attention Models
Sumari et al. Towards practical implementations of person re-identification from full video frames
Xiu et al. Dynamic-scale graph convolutional network for semantic segmentation of 3d point cloud
Zhu et al. EMC-YOLO: a feature enhancement and fusion based surface defect detection for hot rolled strip steel
CN114419006A (zh) 一种随背景变化的灰度视频文字类水印去除方法及系统
Poureskandar et al. Improving Object Detection Performance through YOLOv8: A Comprehensive Training and Evaluation Study
CN118982677A (zh) 一种基于Mask R-CNN的高频细节增强遥感影像特征提取改进方法
Amirkhani et al. CrackSight: An Efficient Crack Segmentation Model in Varying Acquisition Ranges and Complex Backgrounds
CN117542073A (zh) 行人重识别模型的预训练方法及装置
Li et al. Global induced local network for infrared: dim small target detection
BUONGIORNO et al. Deep Learning for Automatic Vision-Based Recognition of Industrial Surface Defects: A Survey
Feng Mixed local channel attention-based YOLOv8 for pedestrian detection in infrared images
CN120318503B (zh) 一种多模态目标检测方法、装置、终端及储存介质
CN119131370B (zh) 恶劣天气下轮廓缺失目标特征提取与检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180109

WW01 Invention patent application withdrawn after publication