CN117612059A - 运动目标检测方法、装置、设备及计算机可读存储介质 - Google Patents
运动目标检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117612059A CN117612059A CN202311477475.5A CN202311477475A CN117612059A CN 117612059 A CN117612059 A CN 117612059A CN 202311477475 A CN202311477475 A CN 202311477475A CN 117612059 A CN117612059 A CN 117612059A
- Authority
- CN
- China
- Prior art keywords
- detection
- target
- moving object
- frame
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
一种运动目标检测方法、装置、设备及计算机可读存储介质。该方法包括:针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。通过本实施例,综合多个运动目标检测算法的检测结果,实现了不同运动目标检测算法间的优劣互补,从而实现了在摄像头运动场景下进行运动目标检测,且一定程度上保证了检测准确性。
Description
技术领域
本申请涉及图像检测技术领域,具体涉及一种运动目标检测方法、装置、设备及计算机可读存储介质。
背景技术
常规的运动目标检测方法中,限定了摄像头需保持静止状态,从而基于静止状态下的摄像头采集的视频流检测出运动目标。
当摄像头处于运动状态时,按照常规的运动目标检测方法进行运动目标的检测就显得非常困难。原因在于:
1、摄像头的运动具有很强的随机性,速度、方向随时变化,并且变化频繁,这就导致视频流中的目标运动无规律;
2、随着摄像头的运动,相邻视频帧的背景变化非常大,也存在各种不同的变化方式,包含但不限于平移、缩放、旋转等。
常规的运动目标检测方法无法有效解决这种背景变化大情况下的图像匹配,也无法有效检测到这种无规律变化的运动目标。
发明内容
本申请提供一种运动目标检测方法、装置、设备及计算机可读存储介质,可以解决现有技术中存在的在摄像头运动场景下难以进行运动目标检测的技术问题。
第一方面,本申请实施例提供一种运动目标检测方法,所述运动目标检测方法包括:
针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
结合第一方面,在一种实施方式中,所述多个运动目标检测算法包括ViBe算法以及光流法,针对连续帧图像中的任一帧图像,通过光流法进行运动目标检测,得到检测结果的步骤包括:
基于所述任一帧图像与关键帧图像得到光流结果;
将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
结合第一方面,在一种实施方式中,所述多个运动目标检测算法还包括差分融合算法,针对连续帧图像中的任一帧图像,通过差分融合算法进行运动目标检测,得到检测结果的步骤包括:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;
将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;
分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;
将N+1个特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
结合第一方面,在一种实施方式中,所述多个运动目标检测算法还包括单帧检测算法,针对连续帧图像中的任一帧图像,通过单帧检测算法进行运动目标检测,得到检测结果的步骤包括:
基于目标检测模型得到所述任一帧图像的第一目标检测结果,第一目标检测结果包括目标在所述任一帧图像中的坐标及其置信度;
基于目标检测模型得到前序帧图像的第二目标检测结果,第二目标检测结果包括目标在所述前序帧图像中的坐标及其置信度;
将第一目标检测结果包括的坐标以及第二目标检测结果包括的坐标映射到模板图像上;
若模板图像上对应同一目标的两坐标的距离大于预设距离,则以所述同一目标在所述任一帧图像中所处的区域以及基于目标检测模型得到的所述同一目标对应的置信度为检测结果。
结合第一方面,在一种实施方式中,在所述得到多个检测结果的步骤之后,还包括:
若一检测结果对应的区域与其他检测结果对应的区域的重叠度均小于预设重叠度,则基于所述一检测结果对应的置信度得到第二判定值;
若第二判定值大于或等于阈值,则确定所述一检测结果对应的区域中的目标为运动目标。
第二方面,本申请实施例提供了一种运动目标检测装置,所述运动目标检测装置包括:
检测模块,用于针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
判定模块,用于若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
结合第二方面,在一种实施方式中,所述多个运动目标检测算法包括ViBe算法以及光流法,所述检测模块,用于:
基于所述任一帧图像与关键帧图像得到光流结果;
将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
结合第二方面,在一种实施方式中,所述多个运动目标检测算法还包括差分融合算法,所述检测模块,用于:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;
将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;
分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;
将N+1个特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
第三方面,本申请实施例提供了一种运动目标检测设备,所述运动目标检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的运动目标检测程序,其中所述运动目标检测程序被所述处理器执行时,实现如上所述的运动目标检测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有运动目标检测程序,其中所述运动目标检测程序被处理器执行时,实现如上所述的运动目标检测方法的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例中,针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。通过本实施例,综合多个运动目标检测算法的检测结果,实现了不同运动目标检测算法间的优劣互补,从而实现了在摄像头运动场景下进行运动目标检测,且一定程度上保证了检测准确性。
附图说明
图1为本申请运动目标检测方法第一实施例的流程示意图;
图2为本申请运动目标检测方法一实施例中的检测结果示意图;
图3为本申请运动目标检测方法第二实施例的流程示意图;
图4为本申请运动目标检测装置一实施例的功能模块示意图;
图5为本申请实施例方案中涉及的运动目标检测设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。术语“第一”、“第二”和“第三”等描述,是用于区分不同的对象等,其不代表先后顺序,也不限定“第一”、“第二”和“第三”是不同的类型。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
在本申请实施例描述的一些流程中,包含了按照特定顺序出现的多个操作或步骤,但是应该理解,这些操作或步骤可以不按照其在本申请实施例中出现的顺序来执行或并行执行,操作的序号仅用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作或步骤可以按顺序执行或并行执行,并且这些操作或步骤可以进行组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
第一方面,本申请实施例提供一种运动目标检测方法。
一实施例中,参照图1,图1为本申请运动目标检测方法第一实施例的流程示意图。如图1所示,运动目标检测方法包括:
步骤S10,针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
本实施例中,视频流即通过摄像头采集的图像序列,所述摄像头处于运动状态下。当然,本实施例方法也适用于摄像头处于静止状态的场景。
以多个运动目标检测算法包括运动目标检测算法1、运动目标检测算法2、运动目标检测算法3以及运动目标检测算法4为例,针对任一帧图像(以视频流中的第t帧图像为例),分别通过运动目标检测算法1~运动目标检测算法4进行运动目标检测,即可得到检测结果1~检测结果4。其中,检测结果包括目标为运动目标的置信度以及该目标在第t帧图像中所处的区域。需要说明的是,此处仅为对多个运动目标检测算法的示意性说明,其数量不限于本实施例所举的4个,算法类型根据实际需要进行选择。
例如,检测结果1包括:
目标1的置信度A1,目标1在第t帧图像处于区域1,其中,区域1可以是矩形框,在检测结果中通过矩形框四个角点在第t帧图像中的坐标表征目标1在第t帧图像处于区域1,下文同理。
检测结果2包括:
目标2的置信度B1,目标2在第t帧图像处于区域2。
检测结果3包括:
目标3的置信度C1,目标3在第t帧图像处于区域3。
步骤S20,若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
本实施例中,参照图2,图2为本申请运动目标检测方法一实施例中的检测结果示意图。如图2所示,区域1与区域3重叠,阴影部分即为重叠部分,以重叠部分的面积作为分子,以区域1/区域3的面积作为分母,算出来的值即为重叠度。
若重叠度大于或等于预设重叠度,则确定目标1与目标3对应同一目标,且该目标被运动目标检测算法1和运动目标检测算法3均认定为运动目标。在此基础上,进一步基于置信度A1和置信度C1得到第一判定值。
其中,可以预先为每种运动目标检测算法设置权重,然后对对应的置信度进行加权求和,并以加权求和结果作为第一判定值。例如,运动目标检测算法1的权重为α1,运动目标检测算法3的权重为α3,则在区域1与区域3的重叠度大于或等于预设重叠度时,第一判定值=α1*置信度A1+α3*置信度C1。
步骤S30,若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
本实施例中,若第一判定值大于或等于阈值,则说明目标1与目标3对应的同一目标为运动目标的可能性大,则确定目标1与目标3对应的同一目标为运动目标。相反,若第一判定值小于阈值,则确定标1与目标3对应的同一目标不为运动目标。
本申请实施例中,针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。通过本实施例,综合多个运动目标检测算法的检测结果,实现了不同运动目标检测算法间的优劣互补,从而实现了在摄像头运动场景下进行运动目标检测,且一定程度上保证了检测准确性。
进一步地,一实施例中,所述多个运动目标检测算法包括ViBe算法以及光流法,针对连续帧图像中的任一帧图像,通过光流法进行运动目标检测,得到检测结果的步骤包括:
基于所述任一帧图像与关键帧图像得到光流结果;将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
本实施例中,ViBe算法:属于像素域背景建模的前景检测算法,但该算法与其他传统背景建模前景检测算法不同,主要区别在于背景模型的建立和背景更新策略。
光流法:
以任一帧图像为视频流中第100帧图像为例。
首先,利用图像序列中像素在时间域上的变化以及关键帧之间的相关性,根据关键帧与第100帧图像之间的对应关系,计算得到关键帧与第100帧图像之间物体的运动信息,即光流结果。具体的:初始化关键帧(指第100帧图像前的某一帧,例如第99帧),在关键帧上提取特征,并对每个像素进行采样,以建立背景模型;对第100帧图像提取特征,并与关键帧的特征进行匹配,依据匹配结果计算仿射变换结果,并备份该第100帧图像的特征及仿射变换结果。若匹配点对较少,导致仿射变换结果存在误差较大时,会影响检测效果,因此需要依据备份帧,重新初始化关键帧。依据仿射变换结果,对第100帧图像进行变换,以确保背景一致性。基于变换后的第100帧图像以及关键帧计算光流结果,在光流结果上利用第一深度学习模型进行运动目标检测。其中,第一深度学习模型可能会输出多个检测结果,在此可设置阈值,仅以置信度大于预设置信度的检测结果作为通过光流法得到的检测结果。
其中,第一深度学习模型通过训练得到,训练时的输入为样本的光流结果。
本实施例中,综合ViBe算法、光流法的检测结果进行运动目标识别,相较于使用单一的运动目标检测算法进行运动目标识别,在摄像头处于运动状态的场景下,可有效提高识别准确性。
进一步地,一实施例中,所述多个运动目标检测算法还包括差分融合算法,针对连续帧图像中的任一帧图像,通过差分融合算法进行运动目标检测,得到检测结果的步骤包括:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;将N+1个特征向量进行融合,得到融合特征向量;将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
本实施例中,预处理可以是去噪处理、图像增强,具体根据实际需要设置预处理的具体方案,此处不做限制。
以任一帧图像为视频流中第100帧图像、以N为20为例,则N张连续帧图像即为视频流中第80~99帧图像:
首先,对视频流中第80~100帧图像分别进行预处理,得到新的第80~100帧图像;
然后,将新的第100帧图像分别与新的第99帧图像~新的第80帧图像进行差分处理,即可得到20张差分图像;
再然后,分别对新的第100帧图像以及20张差分图像进行特征提取,从而得到21个特征向量。例如,使用图像处理技术如SIFT、SURF、HOG等提取图像特征,通过VGG模型对提取到的特征进行编码,将编码转换为数值向量,作为特征向量。
再然后,将20张差分图像对应的20个特征向量与新的第100帧图像对应的1个特征向量进行叠加融合,得到融合特征向量。其中,具体操作可以是将RGB图像的三通道维度进行扩充,把差分结果存在扩充后的通道维度上。当然,还可以通过深度学习中进行特征融合的方式将20+1个特征向量进行融合。
最后,将融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。其中,第二深度学习模型可以选用YOLO系列的目标检测模型,需要说明的是,在训练第二深度学习模型时,训练数据的维度与融合特征向量一致。
本实施例中,以多帧图像为基础,再利用深度学习算法模型强大的特征提取能力,提高了在背景变化条件下的运动目标检测能力,在此基础上还结合ViBe算法、光流法的检测结果,实现了不同运动目标检测算法间的优劣互补,从而实现了在摄像头运动场景下进行运动目标检测,且一定程度上保证了检测准确性。
进一步地,一实施例中,所述多个运动目标检测算法还包括单帧检测算法,针对连续帧图像中的任一帧图像,通过单帧检测算法进行运动目标检测,得到检测结果的步骤包括:
基于目标检测模型得到所述任一帧图像的第一目标检测结果,第一目标检测结果包括目标在所述任一帧图像中的坐标及其置信度;基于目标检测模型得到前序帧图像的第二目标检测结果,第二目标检测结果包括目标在所述前序帧图像中的坐标及其置信度;将第一目标检测结果包括的坐标以及第二目标检测结果包括的坐标映射到模板图像上;若模板图像上对应同一目标的两坐标的距离大于预设距离,则以所述同一目标在所述任一帧图像中所处的区域以及基于目标检测模型得到的所述同一目标对应的置信度为检测结果。
本实施例中,以任一帧图像为视频流中第100帧图像为例,则前序帧图像为第100帧图像前的某一帧,例如第99帧、第98帧或第95帧,此处不作限制。
分别将第100帧图像以及前序帧图像输入目标检测模型,得到目标检测模型输出的第一目标检测结果以及第二目标检测结果。其中,目标检测模型的作用是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置。
例如,第一目标检测结果为目标A在第100帧图像中的坐标1及其置信度1、目标B在第100帧图像中的坐标2及其置信度2。第二目标检测结果为目标C在前序帧图像中的坐标3及其置信度3、目标D在前序帧图像中的坐标4及其置信度4。
然后,将坐标1~坐标4映射到模板图像上,其中在映射坐标1和坐标2时,基于第100帧图像与模板图像的仿射变换结果进行;同理,在映射坐标3和坐标4时,基于前序帧与模板图像的仿射变换结果进行。
由于目标检测模型能确定图像中目标的类型,此处将目标A、目标B、目标C、目标D中类型一样的视作同一目标。
例如,目标A与目标D类型一样,则将目标A与目标D视作同一目标,则模板图像上的坐标11与坐标44为对应同一目标的两坐标。其中,坐标11为坐标1映射到模板图像上后的坐标,坐标44为坐标4映射到模板图像上后的坐标。
计算坐标11与坐标44的距离,此处可通过欧式距离计算公式计算。若距离大于预设距离,则说明该同一目标为运动目标,则以目标A在第100帧图像中所处的区域以及基于目标检测模型得到的目标A对应的置信度为通过单帧检测算法得到的检测结果。
本实施例中,采用目标检测模型对单帧进行目标检测,能利用深度学习模型强大的特征提取能力,覆盖最全面的目标检测,将可能的目标全部检测出来,确保最大程度不漏检目标,在此基础上还结合ViBe算法、光流法、差分融合算法的检测结果,实现了不同运动目标检测算法间的优劣互补,从而实现了在摄像头运动场景下进行运动目标检测,且一定程度上保证了检测准确性。
进一步地,一实施例中,在步骤S10之后,还包括:
若一检测结果对应的区域与其他检测结果对应的区域的重叠度均小于预设重叠度,则基于所述一检测结果对应的置信度得到第二判定值;若第二判定值大于或等于阈值,则确定所述一检测结果对应的区域中的目标为运动目标。
本实施例中,继续参照图2,检测结果2对应的区域2不与其他检测结果对应的区域重叠,则其满足与其他检测结果对应的区域的重叠度均小于预设重叠度的情况,此处基于检测结果2对应的置信度B1得到第二判定值。
其中,可以直接以置信度B1作为第二判定值。还可以是,按照运动目标检测算法2的权重对置信度B1进行加权处理,并以加权处理结果作为第二判定值。
若第二判定值大于或等于阈值,则确定区域2中的目标为运动目标。相反,若第二判定值小于阈值,则确定区域2中的目标不为运动目标。
进一步地,一实施例中,参照图3,图3为本申请运动目标检测方法第二实施例的流程示意图。如图3所示,针对视频流中的任一帧图像,分别通过ViBe算法、光流法、差分融合算法以及单帧检测算法进行运动目标检测,得到检测结果1~检测结果4,然后综合检测结果1~检测结果4进行运动目标识别。
第二方面,本申请实施例还提供一种运动目标检测装置。
一实施例中,参照图4,图4为本申请运动目标检测装置一实施例的功能模块示意图。如图4所示,运动目标检测装置包括:
检测模块10,用于针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
判定模块20,用于若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
进一步地,一实施例中,所述多个运动目标检测算法包括ViBe算法以及光流法,所述检测模块10,用于:
基于所述任一帧图像与关键帧图像得到光流结果;
将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
进一步地,一实施例中,所述多个运动目标检测算法还包括差分融合算法,所述检测模块10,用于:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;
将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;
分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;
将N+1个特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
进一步地,一实施例中,所述多个运动目标检测算法还包括单帧检测算法,所述检测模块10,用于:
基于目标检测模型得到所述任一帧图像的第一目标检测结果,第一目标检测结果包括目标在所述任一帧图像中的坐标及其置信度;
基于目标检测模型得到前序帧图像的第二目标检测结果,第二目标检测结果包括目标在所述前序帧图像中的坐标及其置信度;
将第一目标检测结果包括的坐标以及第二目标检测结果包括的坐标映射到模板图像上;
若模板图像上对应同一目标的两坐标的距离大于预设距离,则以所述同一目标在所述任一帧图像中所处的区域以及基于目标检测模型得到的所述同一目标对应的置信度为检测结果。
进一步地,一实施例中,判定模块20,还用于:
若一检测结果对应的区域与其他检测结果对应的区域的重叠度均小于预设重叠度,则基于所述一检测结果对应的置信度得到第二判定值;
若第二判定值大于或等于阈值,则确定所述一检测结果对应的区域中的目标为运动目标。
其中,上述运动目标检测装置中各个模块的功能实现与上述运动目标检测方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
第三方面,本申请实施例提供一种运动目标检测设备,运动目标检测设备可以是个人计算机(personal computer,PC)、笔记本电脑、服务器等具有数据处理功能的设备。
参照图5,图5为本申请实施例方案中涉及的运动目标检测设备的硬件结构示意图。本申请实施例中,运动目标检测设备可以包括处理器、存储器、通信接口以及通信总线。
其中,通信总线可以是任何类型的,用于实现处理器、存储器以及通信接口互连。
通信接口包括输入/输出(input/output,I/O)接口、物理接口和逻辑接口等用于实现运动目标检测设备内部的器件互连的接口,以及用于实现运动目标检测设备与其他设备(例如其他计算设备或用户设备)互连的接口。物理接口可以是以太网接口、光纤接口、ATM接口等;用户设备可以是显示屏(Display)、键盘(Keyboard)等。
存储器可以是各种类型的存储介质,例如随机存取存储器(randomaccessmemory,RAM)、只读存储器(read-only memory,ROM)、非易失性RAM(non-volatileRAM,NVRAM)、闪存、光存储器、硬盘、可编程ROM(programmable ROM,PROM)、可擦除PROM(erasable PROM,EPROM)、电可擦除PROM(electrically erasable PROM,EEPROM)等。
处理器可以是通用处理器,通用处理器可以调用存储器中存储的运动目标检测程序,并执行本申请实施例提供的运动目标检测方法。例如,通用处理器可以是中央处理器(central processing unit,CPU)。其中,运动目标检测程序被调用时所执行的方法可参照本申请运动目标检测方法的各个实施例,此处不再赘述。
本领域技术人员可以理解,图5中示出的硬件结构并不构成对本申请的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
第四方面,本申请实施例还提供一种计算机可读存储介质。
本申请计算机可读存储介质上存储有运动目标检测程序,其中所述运动目标检测程序被处理器执行时,实现如上述的运动目标检测方法的步骤。
其中,运动目标检测程序被执行时所实现的方法可参照本申请运动目标检测方法的各个实施例,此处不再赘述。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种运动目标检测方法,其特征在于,所述运动目标检测方法包括:
针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
2.如权利要求1所述的运动目标检测方法,其特征在于,所述多个运动目标检测算法包括ViBe算法以及光流法,针对连续帧图像中的任一帧图像,通过光流法进行运动目标检测,得到检测结果的步骤包括:
基于所述任一帧图像与关键帧图像得到光流结果;
将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
3.如权利要求2所述的运动目标检测方法,其特征在于,所述多个运动目标检测算法还包括差分融合算法,针对连续帧图像中的任一帧图像,通过差分融合算法进行运动目标检测,得到检测结果的步骤包括:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;
将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;
分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;
将N+1个特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
4.如权利要求3所述的运动目标检测方法,其特征在于,所述多个运动目标检测算法还包括单帧检测算法,针对连续帧图像中的任一帧图像,通过单帧检测算法进行运动目标检测,得到检测结果的步骤包括:
基于目标检测模型得到所述任一帧图像的第一目标检测结果,第一目标检测结果包括目标在所述任一帧图像中的坐标及其置信度;
基于目标检测模型得到前序帧图像的第二目标检测结果,第二目标检测结果包括目标在所述前序帧图像中的坐标及其置信度;
将第一目标检测结果包括的坐标以及第二目标检测结果包括的坐标映射到模板图像上;
若模板图像上对应同一目标的两坐标的距离大于预设距离,则以所述同一目标在所述任一帧图像中所处的区域以及基于目标检测模型得到的所述同一目标对应的置信度为检测结果。
5.如权利要求1至4中任一项所述的运动目标检测方法,其特征在于,在所述得到多个检测结果的步骤之后,还包括:
若一检测结果对应的区域与其他检测结果对应的区域的重叠度均小于预设重叠度,则基于所述一检测结果对应的置信度得到第二判定值;
若第二判定值大于或等于阈值,则确定所述一检测结果对应的区域中的目标为运动目标。
6.一种运动目标检测装置,其特征在于,所述运动目标检测装置包括:
检测模块,用于针对视频流中的任一帧图像,分别通过多个运动目标检测算法进行运动目标检测,得到多个检测结果,其中,检测结果包括目标为运动目标的置信度以及所述目标在所述任一帧图像中所处的区域;
判定模块,用于若至少两个检测结果对应的区域的重叠度大于或等于预设重叠度,则基于所述至少两个检测结果对应的置信度得到第一判定值;
若第一判定值大于或等于阈值,则确定所述至少两个检测结果对应的区域中的目标为运动目标。
7.如权利要求6所述的运动目标检测装置,其特征在于,所述多个运动目标检测算法包括ViBe算法以及光流法,所述检测模块,用于:
基于所述任一帧图像与关键帧图像得到光流结果;
将光流结果输入第一深度学习模型,得到第一深度学习模型输出的检测结果。
8.如权利要求7所述的运动目标检测装置,其特征在于,所述多个运动目标检测算法还包括差分融合算法,所述检测模块,用于:
对所述任一帧图像以及N张连续帧图像进行预处理,得到新的任一帧图像以及新的N张连续帧图像,其中,N张连续帧图像中的最后一帧图像与所述任一帧图像相邻,N为大于或等于2的正整数;
将所述新的任一帧图像分别与新的N张连续帧图像进行差分处理,得到N张差分图像;
分别对所述新的任一帧图像以及N张差分图像进行特征提取,得到N+1个特征向量;
将N+1个特征向量进行融合,得到融合特征向量;
将所述融合特征向量输入第二深度学习模型,得到第二深度学习模型输出的检测结果。
9.一种运动目标检测设备,其特征在于,所述运动目标检测设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的运动目标检测程序,其中所述运动目标检测程序被所述处理器执行时,实现如权利要求1至5中任一项所述的运动目标检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有运动目标检测程序,其中所述运动目标检测程序被处理器执行时,实现如权利要求1至5中任一项所述的运动目标检测方法的步骤。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311477475.5A CN117612059A (zh) | 2023-11-07 | 2023-11-07 | 运动目标检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202311477475.5A CN117612059A (zh) | 2023-11-07 | 2023-11-07 | 运动目标检测方法、装置、设备及计算机可读存储介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN117612059A true CN117612059A (zh) | 2024-02-27 |
Family
ID=89958810
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202311477475.5A Pending CN117612059A (zh) | 2023-11-07 | 2023-11-07 | 运动目标检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN117612059A (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119006841A (zh) * | 2024-08-08 | 2024-11-22 | 华诺星空技术股份有限公司 | 泥石流监测方法、系统、设备、存储介质及产品 |
-
2023
- 2023-11-07 CN CN202311477475.5A patent/CN117612059A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119006841A (zh) * | 2024-08-08 | 2024-11-22 | 华诺星空技术股份有限公司 | 泥石流监测方法、系统、设备、存储介质及产品 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111860670B (zh) | 域自适应模型训练、图像检测方法、装置、设备及介质 | |
| CN109977912B (zh) | 视频人体关键点检测方法、装置、计算机设备和存储介质 | |
| CN107564034A (zh) | 一种监控视频中多目标的行人检测与跟踪方法 | |
| CN108229301B (zh) | 眼睑线检测方法、装置和电子设备 | |
| CN112634288A (zh) | 设备区域图像分割方法及装置 | |
| Moujahid et al. | Visual object tracking via the local soft cosine similarity | |
| Boulmerka et al. | Foreground segmentation in videos combining general Gaussian mixture modeling and spatial information | |
| CN113762027B (zh) | 一种异常行为的识别方法、装置、设备及存储介质 | |
| WO2017135120A1 (en) | Computationally efficient frame rate conversion system | |
| CN112101386A (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
| Wibowo et al. | Collaborative learning based on convolutional features and correlation filter for visual tracking | |
| CN117612059A (zh) | 运动目标检测方法、装置、设备及计算机可读存储介质 | |
| CN110889432B (zh) | 特征点匹配方法、装置、计算机设备和存储介质 | |
| CN116523959A (zh) | 一种基于人工智能的运动目标检测方法及系统 | |
| Du et al. | Automatic foreground detection at 784 FPS for ultra-high-speed human–machine interactions | |
| Zheng et al. | Hand segmentation based on improved gaussian mixture model | |
| CN115345902A (zh) | 基于机器学习的红外图像弱小目标检测跟踪方法及系统 | |
| Tsai et al. | Image co-saliency detection via locally adaptive saliency map fusion | |
| CN112652004A (zh) | 一种图像处理方法、装置、设备及介质 | |
| CN118982854A (zh) | 一种基于深度学习的动态人脸识别方法及系统 | |
| CN111695524A (zh) | 一种遥感图像海面舰船检测方法 | |
| CN119234259A (zh) | 图像处理方法及装置 | |
| Wang et al. | Oil tank detection via target-driven learning saliency model | |
| Caseiro et al. | Foreground segmentation via background modeling on Riemannian manifolds | |
| CN114820718A (zh) | 一种视觉动态定位跟踪算法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |