[go: up one dir, main page]

CN108399435B - 一种基于动静特征的视频分类方法 - Google Patents

一种基于动静特征的视频分类方法 Download PDF

Info

Publication number
CN108399435B
CN108399435B CN201810237226.1A CN201810237226A CN108399435B CN 108399435 B CN108399435 B CN 108399435B CN 201810237226 A CN201810237226 A CN 201810237226A CN 108399435 B CN108399435 B CN 108399435B
Authority
CN
China
Prior art keywords
frame
video
motion
dynamic
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810237226.1A
Other languages
English (en)
Other versions
CN108399435A (zh
Inventor
陈志�
周传
岳文静
陈璐
刘玲
掌静
李争彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810237226.1A priority Critical patent/CN108399435B/zh
Publication of CN108399435A publication Critical patent/CN108399435A/zh
Application granted granted Critical
Publication of CN108399435B publication Critical patent/CN108399435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于动静特征的视频分类方法,解决视频分类准确度不够高的问题。本发明首先对视频中的动态特征和静态特征进行处理,利用Cholesky变换对这些信息融合后,使用GRU神经网络完成视频的分类;接着通过DT算法捕获每个视频帧的动态特征,再通过DBSCAN聚类算法将每个视频帧隔离,在每个视频片段的每个帧里构建运动框并连接每个视频片段相邻帧之间的运动框,完成动态特征的捕获和跟踪;然后通过HoG和BoW方法将动态特征生成动态信息直方图与通过CNN神经网络生成的静态信息直方图利用Cholesky变换相融合;最后利用GRU神经网络实现视频的分类。本发明通过对动态和静态信息的分开处理,能够提升视频分类的准确性,具有良好的实施性和鲁棒性。

Description

一种基于动静特征的视频分类方法
技术领域
本发明涉及一种基于动静特征的视频分类方法,属于行为识别、机器学习等交叉技术领域。
背景技术
近年来,视频中的行为识别和分类计算机视觉领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。
随着我国经济社会的发展和科技的进步,对视频中任务的识别分析和理解已经成为社会科学和自然科学领域的重要内容,在安防监控、智慧城市建设、体育项目和生命健康等诸多领域都具有广泛的应用。与静态图片中的行为识别相比较而言,视频中背景的变化、动态对象的跟踪和高维度的数据处理等更加复杂,因而具有更大的挑战性。
对于视频中的人物行为识别主要分为两个部分,一是对于类似背景之类的静态信息的处理,二是对于动态对象的跟踪和识别。就视频分类来说,如何使视频中的静态信息和动态信息互不影响特征提取的同时又能保持这两者可以相互结合,以及结合的过程中动态特征向量和静态特征向量的贡献律是多少是需要确定的。
目前常用的跟踪方法主要是光流法,而常用的神经网络包括RNN神经网络,LSTM神经网络等。光流法的优点是在不需要知道场景任何信息的情况下,能够检测出运动目标,但是计算复杂度高,实时性差,对硬件有较高的要求。而训练标准的RNN来解决需要学习长期时间依赖性的问题是不理想的。
目前为止,对于视频中的行为和识别的分类的方法,还需要进行大量的研究工作。
发明内容
技术问题:发明所要解决的技术问题是视频中动态特征和静态特征的提取并完成二者信息的融合,以有效的提高对视频中行为分类的准确度。
技术方案:本发明的一种基于动静特征的视频分类方法包括以下步骤:
步骤1)输入1个视频,所述视频是用户输入的视频,将该视频分解成具有l帧的视频片段,其中每个视频片段的间隔为5帧;
步骤2)通过密集轨迹跟踪算法即DT算法对步骤1)输入视频中运动的对象进行跟踪,并使用基于密度的噪声空间聚类算法(DBSCAN聚类算法)对来隔离每帧视频,实现对上述视频中动态信息的捕获和跟踪;所述的DT算法是通过网格划分的方式在图片的多个尺度上分别密集采样特征点;DBSCAN聚类算法是从某个选定的核心点出发,不断向密度可达的区域扩张,得到一个包含核心点和边界点的最大化区域;
步骤3)在每个视频片段的每一帧图像中构建运动框,通过增加和删除运动管中运动框的数量使每帧图像中包含的运动框的数量一致,通过步骤2)中跟踪的运动轨迹,将每帧中的运动框连接,生成运动管;
步骤4)通过计算运动管中的光流矢量,利用方向梯度直方图HoG特征的方法为每个运动管统计运动管运动的方向,再通过k均值聚类法即k-means聚类法选取100000个描述方向的向量,从而生成对动态信息的描述;HoG特征是是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;k-means聚类法是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
步骤5)处理静态特征的步骤如下:在数据集ImageNet上训练一个卷积神经网络即CNN神经网络,所述CNN神经网络包括5层卷积层,2层完全链接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数;将此CNN神经网络应用到最初的分解的视频片断的每个帧,从中检索到深度特征后从CNN中的softmax层输出静态特征向量;输出的静态特征向量为每个视频片段建立一个静态描述,产生的静态特征的时间序列为:C=[ct0,ct1,...,ctn-1];其中n代表视频的片段;
步骤6)通过乔里斯基变换即Cholesky变换将静态描述和动态描述进行融合,然后将融合的向量通过门控循环单元GRU神经网络,完成视频的分类;所述Cholesky变换是指通过代数的变换找到两个未知关系的变量之间的数学关系,通过矩阵的变换找到另外一个向量使得这个向量与动态描述向量和静态描述向量都用联系,从而就用这个向量来表示静态描述向量和动态描述向量;
其中,
所述步骤2)具体如下:
步骤21)采用步长为5*5的采样框对每帧中的关键点进行采样,设置第t帧关键点的坐标为Pt(xt,yt),则t+1帧的坐标为
Figure GDA0002568511390000021
所述P为关键点,M为中值滤波的内核,ω为光流磁场中的滤波中值,
Figure GDA0002568511390000022
为(xt,yt)的四舍五入的值;
步骤22)在步骤21)中5*5的采样框没有包括特征点,则手动增加这个特征点到跟踪的轨迹中;
步骤23)记录每个视频片段中每帧的关键点的坐标,得到序列S=(ΔPt,ΔPt+1,...ΔPt+l-1);产生的矢量通过位移矢量的大小之和来归一化得到
Figure GDA0002568511390000031
所述l为步骤1中的帧片段数,ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt);
步骤24)分离帧内的每一个区域,选取领域半径ε和核心点MinPoints;去除离集群中最远的20%的点保证DT算法作用在整个区域。
所述步骤3)具体如下:
步骤31)以关键点P为中心,建立运动框,用向量b=(x,y,r,f)表示关键点P的运动框;所述x、y是这个运动框的左上角的横坐标和纵坐标,r是这个运动框的边长,f表示这个帧;
步骤32)计算每个视频片段中帧内的平均动作框数量n,假设从第一帧到第w帧的动作框的数达到了n,舍弃w帧内的其余动作框,从w+1帧开始重新找到包含n个动作框的某帧,重复这个步骤,直到每帧包含的动作框数一样;通过一个序列表示:
g(vi,t)={[bt,1,1,bt,1,2,...,bt,1,k],[bt,2,1,bt,2,2,...,bt,2,k],...,[bt,n,1,bt,n,2,...,bt,n,k]};
其中bt,j,k是第t个视频片段中第j帧中的第k个动作框;通过步骤32)使每个帧包含的动作框数都为k;
步骤33)在保证每帧包含的运动框数一致后,开始建立运动管;设置每个视频片段的距离矩阵:
Figure GDA0002568511390000032
所述Di,j是第k帧的第i个动作框与第k+1帧的第j个动作框之间的欧几里得距离;此距离矩阵选出在相邻帧中两个距离最短的运动框,每帧之间最短的动作框通过运动管连接这些帧;为每个运动管构造一个包含帧数、运动框数、运动框坐标和运动框大小的5列的矩阵Mi
Figure GDA0002568511390000033
所述距离矩阵表示为第Mi个视频片段的第k帧视频的动作框信息,所述n代表动作框的个数,x、y代表动作框的左上角坐标信息,r代表动作框的边长,z表示与第k帧相连的下一帧。
所述步骤4)具体如下:
步骤41)识别每个视频片段的每个运动管并计算运动管的光流矢量,创建HoG特征后取一个合适的bin值,统计运动管运动的方向在每个角度区域的数量,为每一个运动管建立直方图;上述HoG方法是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;
步骤42)在所有视频中选取100000个HoG向量,使用k-means聚类法对这100000个向量进行聚类,对每个视频片段使用以下公式:
p=argmin(Tj-hn,k),j={1,2,...1000};
所述hn,k为第n个视频片段的第k个HoG向量,Tj是第j个簇头整个动态信息在时间上的序列;得直方图H=[Ht0,Ht1,...,Htn-1],其中n代表视频片段。
所述步骤6)具体如下:
步骤61)设置H代表静态向量,M代表动态向量;使用Cholesky变换将动态和静态矢量融合,得到动态和静态特征描述的融合时间序列C=[ct0,ct1,...ctn-1];
步骤62)设置参数Ct,表示每个视频片段的融合矢量,使用GRU神经网络中的更新门和重置门处理输入的数据信息;将生成的时间序列C=[ct0,ct1,...ctn-1]输入到GRU神经网络中完成最后的视频分类。
所述步骤1)中,l按照经验取15。
所述步骤24)中,ε和MinPoints按照经验取8和10。
所述步骤41)中,bin按照经验取100。
所述步骤42)中,k按照经验取1000。
有益效果:本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明使用DT跟踪算法和DBSCAN算法对视频帧的关键点进行跟踪和聚类,通过光流法构造运动管对视频帧进行连接,并利用Cholesky变换对动态描述信息和静态描述信息进行融合,采用GRU神经网络完成最后的视频分类。通过这些方法的应用能够对视频中的运动对象完成分类,具有良好的准确性和有效性,具体来说:
(1)本发明通过使用DT跟踪算法和DBSCAN算法,可以有效的排除视频背景的干扰,对所需要跟踪的关键点进行跟踪,增加了对于关键点捕获的准确性。
(2)本发明通过找出相邻帧中关键点的最短欧几里得距离,连接距离最短的两个帧,从而将视频片段里面的所有帧连接起来,更准确的完成了对关键运动物体运动轨迹的跟踪
(3)本发明通过使用随机Cholesky变换,将静态和动态特征描述向量融合,找出最佳的融合精度后,提高了视频分类的准确性。
附图说明
图1是基于动静特征的视频分类方法流程。
图2是HoG生成动态信息直方图。
图3是GRU神经网路示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的一种基于动静特征的视频分类方法包括以下步骤:
步骤1)输入1个视频,所述视频是用户输入的视频,将该视频分解成具有l帧的视频片段,其中每个视频片段的间隔为5帧;
步骤2)通过密集轨迹跟踪算法即DT算法对步骤1)输入视频中运动的对象进行跟踪,并使用基于密度的噪声空间聚类算法(DBSCAN聚类算法)对来隔离每帧视频,实现对上述视频中动态信息的捕获和跟踪;所述的DT算法是通过网格划分的方式在图片的多个尺度上分别密集采样特征点;DBSCAN聚类算法是从某个选定的核心点出发,不断向密度可达的区域扩张,得到一个包含核心点和边界点的最大化区域;
步骤3)在每个视频片段的每一帧图像中构建运动框,通过增加和删除运动管中运动框的数量使每帧图像中包含的运动框的数量一致,通过步骤2)中跟踪的运动轨迹,将每帧中的运动框连接,生成运动管;
步骤4)通过计算运动管中的光流矢量,利用方向梯度直方图HoG特征的方法为每个运动管统计运动管运动的方向,再通过k均值聚类法即k-means聚类法选取100000个描述方向的向量,从而生成对动态信息的描述;HoG特征是是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;k-means聚类法是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
步骤5)处理静态特征的步骤如下:在数据集ImageNet上训练一个卷积神经网络即CNN神经网络,所述CNN神经网络包括5层卷积层,2层完全链接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数;将此CNN神经网络应用到最初的分解的视频片断的每个帧,从中检索到深度特征后从CNN中的softmax层输出静态特征向量;输出的静态特征向量为每个视频片段建立一个静态描述,产生的静态特征的时间序列为:C=[ct0,ct1,...,ctn-1];其中n代表视频的片段;
步骤6)通过乔里斯基变换即Cholesky变换将静态描述和动态描述进行融合,然后将融合的向量通过门控循环单元GRU神经网络,完成视频的分类;所述Cholesky变换是指通过代数的变换找到两个未知关系的变量之间的数学关系,通过矩阵的变换找到另外一个向量使得这个向量与动态描述向量和静态描述向量都用联系,从而就用这个向量来表示静态描述向量和动态描述向量;
其中,
所述步骤2)具体如下:
步骤21)采用步长为5*5的采样框对每帧中的关键点进行采样,设置第t帧关键点的坐标为Pt(xt,yt),则t+1帧的坐标为
Figure GDA0002568511390000061
所述P为关键点,M为中值滤波的内核,ω为光流磁场中的滤波中值,
Figure GDA0002568511390000062
为(xt,yt)的四舍五入的值;
步骤22)在步骤21)中5*5的采样框没有包括特征点,则手动增加这个特征点到跟踪的轨迹中;
步骤23)记录每个视频片段中每帧的关键点的坐标,得到序列S=(ΔPt,ΔPt+1,...ΔPt+l-1);产生的矢量通过位移矢量的大小之和来归一化得到
Figure GDA0002568511390000071
所述l为步骤1中的帧片段数,ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt);
步骤24)通过DBSCAN聚类算法分离帧内的每一个区域,选取领域半径ε和核心点MinPoints;通过边界噪音移除算法去除离集群中最远的20%的点保证DT算法作用在整个区域。
所述步骤3)具体如下:
步骤31)以关键点P为中心,建立运动框,用向量b=(x,y,r,f)表示关键点P的运动框;所述x、y是这个运动框的左上角的横坐标和纵坐标,r是这个运动框的边长,f表示这个帧;
步骤32)计算每个视频片段中帧内的平均动作框数量n,假设从第一帧到第w帧的动作框的数达到了n,舍弃w帧内的其余动作框,从w+1帧开始重新找到包含n个动作框的某帧,重复这个步骤,直到每帧包含的动作框数一样;通过一个序列表示:
g(vi,t)={[bt,1,1,bt,1,2,...,bt,1,k],[bt,2,1,bt,2,2,...,bt,2,k],...,[bt,n,1,bt,n,2,...,bt,n,k]};其中bt,j,k是第t个视频片段中第j帧中的第k个动作框;通过步骤32)使每个帧包含的动作框数都为k;
步骤33)在保证每帧包含的运动框数一致后,开始建立运动管;设置每个视频片段的距离矩阵:
Figure GDA0002568511390000072
所述Di,j是第k帧的第i个动作框与第k+1帧的第j个动作框之间的欧几里得距离;此距离矩阵选出在相邻帧中两个距离最短的运动框,每帧之间最短的动作框通过运动管连接这些帧;为每个运动管构造一个包含帧数、运动框数、运动框坐标和运动框大小的5列的矩阵Mi
Figure GDA0002568511390000081
所述距离矩阵表示为第Mi个视频片段的第k帧视频的动作框信息,所述n代表动作框的个数,x、y代表动作框的左上角坐标信息,r代表动作框的边长,z表示与第k帧相连的下一帧。
所述步骤4)具体如下:
步骤41)识别每个视频片段的每个运动管并计算运动管的光流矢量,创建HoG特征后取一个合适的bin值,统计运动管运动的方向在每个角度区域的数量,为每一个运动管建立直方图;上述HoG方法是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;
步骤42)在所有视频中选取100000个HoG向量,使用k-means聚类法对这100000个向量进行聚类,对每个视频片段使用以下公式:
p=argmin(Tj-hn,k),j={1,2,...1000};
所述hn,k为第n个视频片段的第k个HoG向量,Tj是第j个簇头整个动态信息在时间上的序列;得直方图H=[Ht0,Ht1,...,Htn-1],其中n代表视频片段。
所述步骤6)具体如下:
步骤61)设置H代表静态向量,M代表动态向量;使用Cholesky变换将动态和静态矢量融合,得到动态和静态特征描述的融合时间序列C=[ct0,ct1,...ctn-1];
步骤62)设置参数Ct,表示每个视频片段的融合矢量,使用GRU神经网络中的更新门和重置门处理输入的数据信息。将生成的时间序列C=[ct0,ct1,...ctn-1]输入到GRU神经网络中完成最后的视频分类。
在具体实施中,图1是基于动静特征的视频分类的方法流程。首先用户输入1个视频,然后将该视频分成帧数为15帧的片段。
通过DT跟踪算法和DBSCAN聚类算法对每帧视频的特征点进行捕获和跟踪,所述的DT算法是通过网格划分的方式在图片的多个尺度上分别密集采样特征点。DBSCAN算法是从某个选定的核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,区域中任意两点相连。
为了对运动对象构造运动管,这里需要用到欧几里得距离矩阵,找出相邻帧间欧几里得距离最短的两个运动框,从而在每个视频片段中通过构造运动管来连接每一帧。这样就可以做到跟踪每个视频片段的特征点的运动轨迹。
接下来需要对这些视频片段里面运动管中的运动框的坐标进行记录,为每个运动管构造了一个包含帧数,运动框数,运动框坐标和运动框大小的5列的矩阵Mi
Figure GDA0002568511390000091
其中矩阵内各参数的意义为:第Mi个视频片段的第k帧视频的动作框信息如上所示,其中n代表动作框的个数,x,y代表动作框的左上角坐标信息,r代表动作框的边长。
识别了每个视频片段的每个运动管后,计算运动管的光流矢量。如图2所示创建HoG,取bin=100,每个区域的角度为3.6度,统计运动管运动的方向在每个角度区域的数量,所以对于每一个运动管都可以建立直方图。上述HoG方法是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征。然后选取100000个HoG向量,使用k-means聚类法对这100000个向量进行聚类,取k=1000(这是为了和融合静态信息所取得)。上述k-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。通过对每个视频片段使用以下公式
p=argmin(Tj-hn,k),j={1,2,...1000}可以得到直方图。其中hn,k为第n个视频片段的第k个HoG向量,Tj是第j个簇头整个动态信息在时间上的序列就可以得到了:H=[Ht0,Ht1,...,Htn-1];
在ImageNet上训练一个深度CNN神经网络,将静态特征也通过时间序列表示出来,I=[it0,it1,...,itn-1];其中n代表视频的片段。使用Cholesky变换将动态和静态矢量融合,得到动态描述和静态描述融合的时间序列C=[ct0,ct1,...ctn-1],将生成的时间序列C=[ct0,ct1,...ctn-1]输入到GRU神经网络中完成最后的视频分类。
图3是GRU神经网络每个cell单元的具体构造,序列中前一个向量分别通过重置门rt和更新门zt后,得到rt=σ(Wr·[ht-1,ct])和zt=σ(Wt·[ht-1,ct]);重置门r和前一次结果ht-1再连接这次输入的序列ct进行卷积通过权值
Figure GDA0002568511390000101
再经过tanh可以得到
Figure GDA0002568511390000102
而最终的输出
Figure GDA0002568511390000103
其中Wr,Wz,
Figure GDA0002568511390000104
是权重都是拼接的,在学习时需要分割出来。即:
Figure GDA0002568511390000105
通过最后的GRU网络,就完成了视频的分类。

Claims (8)

1.一种基于动静特征的视频分类方法,其特征在于,包括以下步骤:
步骤1)输入1个视频,所述视频是用户输入的视频,将该视频分解成具有l帧的视频片段,其中每个视频片段的间隔为5帧;
步骤2)通过密集轨迹跟踪算法即DT算法对步骤1)输入视频中运动的对象进行跟踪,并使用基于密度的噪声空间聚类算法(DBSCAN聚类算法)对来隔离每帧视频,实现对上述视频中动态信息的捕获和跟踪;所述的DT算法是通过网格划分的方式在图片的多个尺度上分别密集采样特征点;DBSCAN聚类算法是从某个选定的核心点出发,不断向密度可达的区域扩张,得到一个包含核心点和边界点的最大化区域;
步骤3)在每个视频片段的每一帧图像中构建运动框,通过增加和删除运动管中运动框的数量使每帧图像中包含的运动框的数量一致,通过步骤2)中跟踪的运动轨迹,将每帧中的运动框连接,生成运动管;
步骤4)通过计算运动管中的光流矢量,利用方向梯度直方图HoG特征的方法为每个运动管统计运动管运动的方向,再通过k均值聚类法即k-means聚类法选取100000个描述方向的向量,从而生成对动态信息的描述;HoG特征是是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;k-means聚类法是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则;
步骤5)处理静态特征的步骤如下:在数据集ImageNet上训练一个卷积神经网络即CNN神经网络,所述CNN神经网络包括5层卷积层,2层完全链接层和一个softmax模型的输出层,线性整流函数即ReLU函数作为激活函数;将此CNN神经网络应用到最初的分解的视频片断的每个帧,从中检索到深度特征后从CNN中的softmax层输出静态特征向量;输出的静态特征向量为每个视频片段建立一个静态描述,产生的静态特征的时间序列为:C=[ct0,ct1,...,ctn-1];其中n代表视频的片段;
步骤6)通过乔里斯基变换即Cholesky变换将静态描述和动态描述进行融合,然后将融合的向量通过门控循环单元GRU神经网络,完成视频的分类;所述Cholesky变换是指通过代数的变换找到两个未知关系的变量之间的数学关系,通过矩阵的变换找到另外一个向量使得这个向量与动态描述向量和静态描述向量都用联系,从而就用这个向量来表示静态描述向量和动态描述向量;
其中,
所述步骤2)具体如下:
步骤21)采用步长为5*5的采样框对每帧中的关键点进行采样,设置第t帧关键点的坐标为Pt(xt,yt),则t+1帧的坐标为
Figure FDA0002568511380000021
所述P为关键点,M为中值滤波的内核,ω为光流磁场中的滤波中值,
Figure FDA0002568511380000022
为(xt,yt)的四舍五入的值;
步骤22)在步骤21)中5*5的采样框没有包括特征点,则手动增加这个特征点到跟踪的轨迹中;
步骤23)记录每个视频片段中每帧的关键点的坐标,得到序列S=(ΔPt,ΔPt+1,...ΔPt+l-1);产生的矢量通过位移矢量的大小之和来归一化得到
Figure FDA0002568511380000023
所述l为步骤1中的帧片段数,ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt);
步骤24)分离帧内的每一个区域,选取领域半径ε和核心点MinPoints;去除离集群中最远的20%的点保证DT算法作用在整个区域。
2.根据权利要求1所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤3)具体如下:
步骤31)以关键点P为中心,建立运动框,用向量b=(x,y,r,f)表示关键点P的运动框;所述x、y是这个运动框的左上角的横坐标和纵坐标,r是这个运动框的边长,f表示这个帧;
步骤32)计算每个视频片段中帧内的平均动作框数量n,假设从第一帧到第w帧的动作框的数达到了n,舍弃w帧内的其余动作框,从w+1帧开始重新找到包含n个动作框的某帧,重复这个步骤,直到每帧包含的动作框数一样;通过一个序列表示:g(vi,t)={[bt,1,1,bt,1,2,...,bt,1,k],[bt,2,1,bt,2,2,...,bt,2,k],...,[bt,n,1,bt,n,2,...,bt,n,k]};其中bt,j,k是第t个视频片段中第j帧中的第k个动作框;通过步骤32)使每个帧包含的动作框数都为k;
步骤33)在保证每帧包含的运动框数一致后,开始建立运动管;设置每个视频片段的距离矩阵:
Figure FDA0002568511380000031
所述Di,j是第k帧的第i个动作框与第k+1帧的第j个动作框之间的欧几里得距离;此距离矩阵选出在相邻帧中两个距离最短的运动框,每帧之间最短的动作框通过运动管连接这些帧;为每个运动管构造一个包含帧数、运动框数、运动框坐标和运动框大小的5列的矩阵Mi
Figure FDA0002568511380000032
所述距离矩阵表示为第Mi个视频片段的第k帧视频的动作框信息,所述n代表动作框的个数,x、y代表动作框的左上角坐标信息,r代表动作框的边长,z表示与第k帧相连的下一帧。
3.根据权利要求1所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤4)具体如下:
步骤41)识别每个视频片段的每个运动管并计算运动管的光流矢量,创建HoG特征后取一个合适的bin值,统计运动管运动的方向在每个角度区域的数量,为每一个运动管建立直方图;上述HoG方法是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征;
步骤42)在所有视频中选取100000个HoG向量,使用k-means聚类法对这100000个向量进行聚类,对每个视频片段使用以下公式:
p=argmin(Tj-hn,k),j={1,2,...1000};
所述hn,k为第n个视频片段的第k个HoG向量,Tj是第j个簇头整个动态信息在时间上的序列;得直方图H=[Ht0,Ht1,...,Htn-1],其中n代表视频片段。
4.根据权利要求1所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤6)具体如下:
步骤61)设置H代表静态向量,M代表动态向量;使用Cholesky变换将动态和静态矢量融合,得到动态和静态特征描述的融合时间序列C=[ct0,ct1,...ctn-1];
步骤62)设置参数Ct,表示每个视频片段的融合矢量,使用GRU神经网络中的更新门和重置门处理输入的数据信息;将生成的时间序列C=[ct0,ct1,...ctn-1]输入到GRU神经网络中完成最后的视频分类。
5.根据权利要求1所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤1)中,l按照经验取15。
6.根据权利要求2所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤24)中,ε和MinPoints按照经验取8和10。
7.根据权利要求3所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤41)中,bin按照经验取100。
8.根据权利要求3所述的一种基于动静特征的视频分类方法,其特征在于,所述步骤42)中,k按照经验取1000。
CN201810237226.1A 2018-03-21 2018-03-21 一种基于动静特征的视频分类方法 Active CN108399435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810237226.1A CN108399435B (zh) 2018-03-21 2018-03-21 一种基于动静特征的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810237226.1A CN108399435B (zh) 2018-03-21 2018-03-21 一种基于动静特征的视频分类方法

Publications (2)

Publication Number Publication Date
CN108399435A CN108399435A (zh) 2018-08-14
CN108399435B true CN108399435B (zh) 2020-09-25

Family

ID=63091556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810237226.1A Active CN108399435B (zh) 2018-03-21 2018-03-21 一种基于动静特征的视频分类方法

Country Status (1)

Country Link
CN (1) CN108399435B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446872B (zh) * 2018-08-24 2022-04-19 南京理工大学 一种基于递归神经网络的群体动作识别方法
CN109522937B (zh) * 2018-10-23 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN109523993B (zh) * 2018-11-02 2022-02-08 深圳市网联安瑞网络科技有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
US11593581B2 (en) 2019-02-28 2023-02-28 Stats Llc System and method for calibrating moving camera capturing broadcast video
CN109903339B (zh) * 2019-03-26 2021-03-05 南京邮电大学 一种基于多维融合特征的视频群体人物定位检测方法
CN111309035B (zh) * 2020-05-14 2022-03-04 浙江远传信息技术股份有限公司 多机器人协同移动与动态避障方法、装置、设备及介质
CN112308306A (zh) * 2020-10-27 2021-02-02 贵州工程应用技术学院 一种多模态输入的煤与瓦斯突出危险预测方法
CN112633261A (zh) * 2021-03-09 2021-04-09 北京世纪好未来教育科技有限公司 图像检测方法、装置、设备及存储介质
CN113221694B (zh) 2021-04-29 2023-08-01 苏州大学 一种动作识别方法
CN117173605B (zh) * 2023-07-21 2025-10-10 赣州职业技术学院 一种基于Farneback-GRU的稀土熔盐反应状态识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778854B (zh) * 2016-12-07 2019-12-24 西安电子科技大学 基于轨迹和卷积神经网络特征提取的行为识别方法
CN107169415B (zh) * 2017-04-13 2019-10-11 西安电子科技大学 基于卷积神经网络特征编码的人体动作识别方法
CN107346414B (zh) * 2017-05-24 2020-06-12 北京航空航天大学 行人属性识别方法和装置
CN107330362B (zh) * 2017-05-25 2020-10-09 北京大学 一种基于时空注意力的视频分类方法
CN107316005B (zh) * 2017-06-06 2020-04-14 西安电子科技大学 基于稠密轨迹核协方差描述子的行为识别方法

Also Published As

Publication number Publication date
CN108399435A (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN112200111B (zh) 一种全局与局部特征融合的遮挡鲁棒行人重识别方法
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
Si et al. Skeleton-based action recognition with spatial reasoning and temporal stack learning
CN108898620B (zh) 基于多重孪生神经网络与区域神经网络的目标跟踪方法
CN107767405B (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN106056628B (zh) 基于深度卷积神经网络特征融合的目标跟踪方法及系统
CN102930302B (zh) 基于在线序贯极限学习机的递增式人体行为识别方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN108764308A (zh) 一种基于卷积循环网络的行人重识别方法
CN109948561A (zh) 基于迁移网络的无监督图像视频行人重识别的方法及系统
CN108960140A (zh) 基于多区域特征提取和融合的行人再识别方法
CN110781790A (zh) 基于卷积神经网络与vlad的视觉slam闭环检测方法
CN107067410B (zh) 一种基于增广样本的流形正则化相关滤波目标跟踪方法
CN109801311B (zh) 一种基于深度残差网络特征的视觉目标跟踪方法
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN106296734B (zh) 基于极限学习机和boosting多核学习的目标跟踪方法
CN111242003B (zh) 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
Su et al. Transfer learning for video recognition with scarce training data for deep convolutional neural network
CN105989369A (zh) 基于度量学习的行人再识别方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
Wang et al. Hierarchical spatiotemporal context-aware correlation filters for visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No.66 xinmodel Road, Gulou District, Nanjing City, Jiangsu Province

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: No. 9, Wen Yuan Road, Xincheng, Ya Dong, Nanjing, Jiangsu

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180814

Assignee: Hongzhen Technology Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2020980007073

Denomination of invention: A video classification method based on dynamic and static features

Granted publication date: 20200925

License type: Common License

Record date: 20201023

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Hongzhen Technology Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2020980007073

Date of cancellation: 20220304