CN113516080A

CN113516080A - 一种行为检测方法和装置

Info

Publication number: CN113516080A
Application number: CN202110807248.9A
Authority: CN
Inventors: 钟虹; 韦立庆
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-10-19

Abstract

本申请实施例提供了一种行为检测方法和装置，涉及图像处理技术领域，方法包括：获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧；获取第一监控视频帧的图像特征，作为第一图像特征，并缓存；对已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征进行特征融合，得到待处理融合图像特征；基于待处理融合图像特征，以及预设的目标行为的特征，生成表示目标人员是否存在目标行为的检测结果。如此，能够提高检测结果的准确度，且提高行为检测的效率。

Description

一种行为检测方法和装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种行为检测方法和装置。

背景技术

随着图像处理技术的快速发展，在很多场景中，可以基于图像处理技术，对人员的行为进行检测。例如，在驾驶汽车的场景中，驾驶员在驾驶过程中打电话、吃东西，会分散驾驶员的注意力，带来安全隐患。另外，驾驶员疲劳驾驶等行为，也有可能导致交通事故，因此，可以基于图像处理技术对驾驶员的行为进行检测，以保证驾驶的安全性。

相关技术中，当需要确定驾驶员是否存在异常行为时，可以采集当前包含驾驶员人脸的图像帧，进而，基于该图像帧的图像特征，确定驾驶员当前是否存在异常行为。

然而，该图像帧并不能有效地体现驾驶员当前真实的驾驶状态，因此，仅仅基于该图像帧对驾驶员的行为进行检测，会导致检测结果的准确度并不高。

发明内容

本申请实施例的目的在于提供一种行为检测方法和装置，以提高检测结果的准确度，且能够提高行为检测的效率。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种行为检测方法，所述方法包括：

获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧；

获取所述第一监控视频帧的图像特征，作为第一图像特征，并缓存；

对已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

基于所述待处理融合图像特征，以及预设的目标行为的特征，生成表示所述目标人员是否存在所述目标行为的检测结果。

可选的，所述获取所述第一监控视频帧的图像特征，作为第一图像特征，并缓存，包括：

将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征，并缓存至特征缓存池；其中，所述目标行为检测网络模型为基于包含所述目标行为的样本视频图像进行训练得到的，所述目标行为检测网络模型还包括特征融合网络和第一全连接层；

所述对已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征，包括：

通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

所述基于所述待处理融合图像特征，以及预设的目标行为的特征，生成表示所述目标人员是否存在所述目标行为的检测结果，包括：

将所述待处理融合图像特征输入至所述第一全连接层，得到所述目标人员存在所述目标行为的概率。

可选的，所述通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征，包括：

通过所述特征融合网络，得到所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重；

根据各自的权重，对所述第二图像特征和所述第一图像特征进行特征融合，得到待处理融合图像特征。

可选的，所述特征融合网络包括卷积层；

所述通过所述特征融合网络，得到所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重，包括：

将所述卷积层的卷积核的元素，确定为所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重。

可选的，所述通过所述特征融合网络，得到所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重，包括：

通过所述特征融合网络，分别对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行池化处理，得到各自的权重。

可选的，所述特征融合网络包括SENet(Squeeze-and-Excitation Networks，压缩和激活网络)、第二全连接层、第一激活函数层、第三全连接层和第二激活函数层；

所述通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行池化处理，得到各自的权重，包括：

针对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征中的每一图像特征，通过所述SENet，对该图像特征进行池化处理，得到第一池化图像特征；

通过所述第二全连接层对所述第一池化图像特征进行卷积处理，得到第一卷积图像特征；

将所述第一卷积图像特征输入至所述第一激活函数层，得到映射图像特征；

通过所述第三全连接层对所述映射图像特征进行卷积处理，得到第二卷积图像特征；

将所述第二卷积图像特征输入至所述第二激活函数层，得到对应的权重。

可选的，所述特征融合网络包括ECA-Net(Efficient Channel Attention forDeep Convolutional Neural Networks，有效通道注意力-深度卷积神经网络)、一维卷积层和第三激活函数层；

针对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征中的每一图像特征，通过所述SENet，对该图像特征进行池化处理，得到第二池化图像特征；

通过所述一维卷积层对所述第二池化图像特征进行卷积处理，得到第三卷积图像特征；

将所述第三卷积图像特征输入至所述第三激活函数层，得到对应的权重。

可选的，所述根据各自的权重，对所述第二图像特征和所述第一图像特征进行特征融合，得到待处理融合图像特征，包括：

按照各自的权重，对所述第一图像特征和第二图像特征进行池化处理，得到待处理融合图像特征；

或者，

按照各自的权重，对所述第一图像特征和第二图像特征进行拼接处理，得到待处理融合图像特征。

可选的，在所述将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征之前，所述方法还包括：

基于目标检测算法，获取所述第一监控视频帧中人脸的指定五官的位置信息；其中，所述指定五官包括眼睛和/或嘴巴；

所述将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征，包括：

将所述第一监控视频帧，以及所述第一监控视频帧中人脸的指定五官的位置信息，输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征。

可选的，所述目标行为检测网络模型采用如下步骤训练获得：

获得目标样本视频图像；其中，所述目标样本视频图像包括：包含人脸的原始样本视频图像，以及对所述原始样本视频图像进行数据增强处理得到的视频图像；所述原始样本视频图像包含所述目标行为；

将所述目标样本视频图像输入至待训练的目标行为检测网络模型，得到所述目标样本视频图像包含所述目标行为的概率，作为预测概率；

基于所述预测概率，调整所述目标行为检测网络模型的模型参数，继续训练，直到所述目标行为检测网络模型收敛。

可选的，在所述将所述目标样本视频图像输入至待训练的目标行为检测网络模型，得到所述目标样本视频图像包含所述目标行为的概率，作为预测概率之后，所述方法还包括：

若所述预测概率对应的损失值大于预设损失值，将所述目标样本视频图像确定为难例样本视频图像，以对所述目标行为检测网络模型进行训练。

可选的，所述目标人员为驾驶室内的驾驶人员，所述目标行为表示异常驾驶行为。

第二方面，为了达到上述目的，本申请实施例公开了一种行为检测装置，所述装置包括：

第一监控视频帧获取模块，用于获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧；

第一图像特征获取模块，用于获取所述第一监控视频帧的图像特征，作为第一图像特征，并缓存；

图像特征融合模块，用于对已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

行为检测模块，用于基于所述待处理融合图像特征，以及预设的目标行为的特征，生成表示所述目标人员是否存在所述目标行为的检测结果。

可选的，所述第一图像特征获取模块，具体用于将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征，并缓存至特征缓存池；其中，所述目标行为检测网络模型为基于包含所述目标行为的样本视频图像进行训练得到的，所述目标行为检测网络模型还包括特征融合网络和第一全连接层；

所述图像特征融合模块，具体用于通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

所述行为检测模块，具体用于将所述待处理融合图像特征输入至所述第一全连接层，得到所述目标人员存在所述目标行为的概率。

可选的，所述图像特征融合模块，包括：

权重获取子模块，用于通过所述特征融合网络，得到所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重；

图像特征融合子模块，用于根据各自的权重，对所述第二图像特征和所述第一图像特征进行特征融合，得到待处理融合图像特征。

可选的，所述特征融合网络包括卷积层；

所述权重获取子模块，具体用于将所述卷积层的卷积核的元素，确定为所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重。

可选的，所述权重获取子模块，具体用于通过所述特征融合网络，分别对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行池化处理，得到各自的权重。

可选的，所述特征融合网络包括压缩和激活网络SENet、第二全连接层、第一激活函数层、第三全连接层和第二激活函数层；

所述权重获取子模块，具体用于针对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征中的每一图像特征，通过所述SENet，对该图像特征进行池化处理，得到第一池化图像特征；

可选的，所述特征融合网络包括有效通道注意力-深度卷积神经网络ECA-Net、一维卷积层和第三激活函数层；

所述权重获取子模块，具体用于针对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征中的每一图像特征，通过所述SENet，对该图像特征进行池化处理，得到第二池化图像特征；

可选的，所述图像特征融合子模块，具体用于按照各自的权重，对所述第一图像特征和第二图像特征进行池化处理，得到待处理融合图像特征；

或者，

可选的，所述装置还包括：

位置信息获取模块，用于在所述将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征之前，基于目标检测算法，获取所述第一监控视频帧中人脸的指定五官的位置信息；其中，所述指定五官包括眼睛和/或嘴巴；

所述第一图像特征获取模块，具体用于将所述第一监控视频帧，以及所述第一监控视频帧中人脸的指定五官的位置信息，输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征。

可选的，所述装置还包括：

目标样本视频图像获取模块，用于获得目标样本视频图像；其中，所述目标样本视频图像包括：包含人脸的原始样本视频图像，以及对所述原始样本视频图像进行数据增强处理得到的视频图像；所述原始样本视频图像包含所述目标行为；

处理模块，用于将所述目标样本视频图像输入至待训练的目标行为检测网络模型，得到所述目标样本视频图像包含所述目标行为的概率，作为预测概率；

训练模块，用于基于所述预测概率，调整所述目标行为检测网络模型的模型参数，继续训练，直到所述目标行为检测网络模型收敛。

可选的，所述装置还包括：

难例样本视频图像确定模块，用于在所述将所述目标样本视频图像输入至待训练的目标行为检测网络模型，得到所述目标样本视频图像包含所述目标行为的概率，作为预测概率之后，若所述预测概率对应的损失值大于预设损失值，将所述目标样本视频图像确定为难例样本图像，以对所述目标行为检测网络模型进行训练。

在本申请实施的另一方面，为了达到上述目的，本申请实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的行为检测方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的行为检测方法。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的行为检测方法。

本申请实施例有益效果：

本申请实施例提供的行为检测方法，可以获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧；获取第一监控视频帧的图像特征，作为第一图像特征，并缓存；对已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征进行特征融合，得到待处理融合图像特征；基于待处理融合图像特征，以及预设的目标行为的特征，生成表示目标人员是否存在目标行为的检测结果。

基于上述处理，相对于某一监控视频帧的图像特征，待处理融合图像特征结合了多个监控视频帧各自的图像特征，因此，能够有效地体现目标人员真实的行为状态，进而，基于待处理融合图像特征确定检测结果，能够提高检测结果的准确度，且可以实时对采集的每一监控视频帧进行特征提取，并进行缓存，而不是在采集到所有监控视频帧后，再进行特征提取，能够提高获取图像特征的效率，进而，提高行为检测的效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的一种行为检测方法的流程图；

图2为本申请实施例提供的另一种行为检测方法的流程图；

图3为本申请实施例提供的一种目标行为检测网络模型的结构图；

图4为本申请实施例提供的另一种行为检测方法的流程图；

图5为本申请实施例提供的一种基于SENet进行特征融合的示意图；

图6为本申请实施例提供的一种基于ECA-Net进行特征融合的示意图；

图7为本申请实施例提供的一种行为检测的原理示意图；

图8为本申请实施例提供的一种训练目标行为检测网络模型的流程图；

图9为本申请实施例提供的一种行为检测装置的结构图；

图10为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，通常基于某一视频帧对人员的行为进行检测。例如，当需要确定驾驶员是否存在异常行为时，可以采集当前包含驾驶员人脸的图像帧，进而，基于对该图像帧的图像特征进行分析，确定驾驶员当前是否存在异常行为。然而，该图像帧并不能有效地体现驾驶员当前真实的驾驶状态，因此，仅仅基于该图像帧对驾驶员的行为进行检测，会导致检测结果的准确度并不高。

为了解决上述问题，本申请实施例提供了一种行为检测方法，参见图1，图1为本申请实施例提供的一种行为检测方法的流程图，该方法可以包括以下步骤：

S101：获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧。

S102：获取第一监控视频帧的图像特征，作为第一图像特征，并缓存。

S103：对已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征进行特征融合，得到待处理融合图像特征。

S104：基于待处理融合图像特征，以及预设的目标行为的特征，生成表示目标人员是否存在目标行为的检测结果。

本申请实施例提供的行为检测方法，相对于某一监控视频帧的图像特征，待处理融合图像特征结合了多个监控视频帧各自的图像特征，因此，能够有效地体现目标人员真实的行为状态，进而，基于待处理融合图像特征确定检测结果，能够提高检测结果的准确度，且可以实时对采集的每一监控视频帧进行特征提取，并进行缓存，而不是在采集到所有监控视频帧后，再进行特征提取，能够提高获取图像特征的效率，进而，提高行为检测的效率。

本申请实施例提供的行为检测方法，可以应用于不同的场景中，相应的，目标行为可以基于具体应用的场景确定。

例如，针对驾驶汽车的场景，可以对驾驶人员的行为进行检测，以确定驾驶人员是否存在异常驾驶行为。异常驾驶行为可以为驾驶时吃东西、疲劳驾驶或驾驶时打电话等。相应的，目标人员可以为驾驶室内的驾驶人员，目标行为表示异常驾驶行为。

针对驾驶汽车的场景，可以在车辆前方的中控台、仪表盘或者A柱等安装图像采集设备，进而，可以从驾驶人员的前方采集包含驾驶员的人脸的监控视频帧。另外，图像采集设备可以具有补光功能。例如，图像采集设备可以包含红外补光灯。当检测到光照强度低于预设强度时，则可以打开红外补光灯，进而，能够提高采集到的图像的清晰度。

在一个实施例中，针对驾驶汽车的场景，还可以基于车速确定预设历史时间段。例如，当车速大于预设车速时，可以获取监控视频帧，用于进行检测。预设车速可以为5千米/小时，或者，也可以为10千米/小时，但并不限于此。也就是说，可以在车速大于预设车速时，基于采集的监控视频帧对驾驶员的行为进行检测，确定是否存在异常行为。或者，也可以在车速持续大于预设车速的时长达到预设时长时，基于采集的监控视频帧对驾驶员人员的行为进行检测，确定是否存在异常行为。

又例如，针对客服人员服务评价的场景，可以对客服人员的行为进行检测，以确定客服人员是否存在异常服务行为。异常服务行为可以为服务时吃东西、服务时间睡觉或服务态度恶劣等。相应的，目标人员可以为服务人员，目标行为表示异常服务行为。

针对步骤S101，第一监控视频帧也就是当前采集的目标人员的监控视频帧，且包含目标人员的人脸。

针对步骤S102，在一个实施例中，获取的第一图像特征可以是第一监控视频帧对应的，或，获取的第一图像特征也可以是第一监控视频帧中包含人脸的图像区域对应的。

针对步骤S103，多个历史监控视频帧也就是在第一监控视频帧之前采集的视频帧，同样，历史监控视频帧也包含目标人员的人脸，且，针对每一历史监控视频帧，也可以在采集到该历史监控视频帧时，提取其图像特征，并缓存。

针对步骤S104，目标行为的特征可以用包含目标行为的视频图像的图像特征表示。

在一个实施例中，可以预先获取目标行为的特征，进而，可以比较待处理融合图像特征与目标行为的特征的相似度，确定目标人员是否存在目标行为。

在另一个实施例中，也可以预先基于包含目标行为的样本视频图像，对网络模型进行训练，相应的，该网络模型能够体现目标行为的特征。通过该网络模型，对待处理融合图像特征进行处理，则可以确定目标人员是否存在目标行为。

针对步骤S102，在一个实施例中，参见图2，在图1的基础上，上述步骤S102可以包括以下步骤：

S1021：将第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征，并缓存至特征缓存池。

其中，目标行为检测网络模型为基于包含目标行为的样本视频图像进行训练得到的。目标行为检测网络模型还包括特征融合网络和第一全连接层。

相应的，上述步骤S103可以包括以下步骤：

S1031：通过特征融合网络，对特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征进行特征融合，得到待处理融合图像特征。

步骤S104可以包括以下步骤：

S1041：将待处理融合图像特征输入至第一全连接层，得到目标人员存在目标行为的概率。

在本申请实施例中，可以设置缓存空间(即特征缓存池)，用于缓存提取的图像特征。当采集到每一监控视频帧，可以实时获取该监控视频帧的图像特征，并缓存至特征缓存池。

进而，当需要生成待处理融合图像特征时，可以从特征缓存池中获取已缓存的第二图像特征，以及第一图像特征，并进行特征融合。

在一个实施例中，可以基于网络模型提取视频帧的图像特征，以及对图像特征进行融合，并确定检测结果。

在本申请实施例中，目标行为可以为一种行为，也可以为多种行为。如果目标行为为多种行为，则可以得到目标人员存在每一目标行为的概率。

特征提取网络可以为轻量化网络，例如，可以为2D卷积网络，或者，也可以为MobileNet(移动网络)，但并不限于此。

在通过图像采集设备实时获取每一监控视频帧后，可以通过特征提取网络对该监控视频帧进行特征提取，得到该监控视频帧的图像特征。然后，可以将该监控视频帧的图像特征存储在特征缓存池中，得到的图像特征也可以称为特征图。

基于上述处理，可以实时对采集的每一监控视频帧进行特征提取，并进行缓存，而不是在采集到所有监控视频帧后，再进行特征提取，能够提高行为检测的效率。

参见图3，图3为本申请实施例提供的一种目标行为检测网络模型的结构图。图3所示，目标行为检测网络模型可以包括轻量化网络301、特征融合网络302和第一全连接层303。

在实时获取每一监控视频帧后，通过轻量化网络301对该监控视频帧进行特征提取，得到该监控视频帧的图像特征，并存储至特征缓存池。

当需要生成待处理融合图像特征时，可以从特征缓存池中获取各个监控视频帧的图像特征。通过特征融合网络302，对获取的各图像特征进行特征融合，得到待处理融合图像特征。

将待处理融合图像特征输入至第一全连接层303，得到目标人员存在目标行为的概率。可以理解的是，如果目标行为为多个，则第一全连接层303可以输出目标人员存在每一目标行为的概率。

在一个实施例中，参见图4，在图3的基础上，上述步骤S1031可以包括以下步骤：

S10311：通过特征融合网络，得到特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征各自的权重。

S10312：根据各自的权重，对第二图像特征和第一图像特征进行特征融合，得到待处理融合图像特征。

在本申请实施例中，可以基于特征融合网络，先确定第一图像特征和第二图像特征各自的权重，进而，基于权重进行特征融合。一个图像特征的权重表示：该图像特征能够体现目标人员的行为的概率。

基于特征融合网络确定第一图像特征和第二图像特征各自的权重，至少有如下两种方式实现：

方式一：特征融合网络包括卷积层，相应的，上述步骤S10311包括；

将卷积层的卷积核的元素，确定为特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征各自的权重。

在本申请实施例中，该卷积层的卷积核的大小可以为M×1，M表示预设数目，也就是第一监控视频帧和多个历史监控视频帧的总数目。相应的，在目标行为检测网络模型完成训练后，可以获取该卷积层的卷积核的元素，分别作为第一图像特征，以及第二图像特征各自的权重，用于进行特征融合。例如：卷积核的大小可以为5×1，卷积核的元素为[0.2、0.3、0.1、0.3、0.1]，则第一图像特征，以及第二图像特征各自的权重分别是0.2、0.3、0.1、0.3、0.1。

方式二：上述步骤S10311可以包括以下步骤：

步骤一：通过特征融合网络，分别对特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征进行池化处理，得到各自的权重。

在本申请实施例中，还可以通过特征融合网络对图像特征进行池化处理，得到图像特征的权重。

在一个实施例中，特征融合网络包括SENet、第二全连接层、第一激活函数层、第三全连接层和第二激活函数层。

相应的，上述用于确定权重的步骤一，可以包括：

针对特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征中的每一图像特征，通过SENet，对该图像特征进行池化处理，得到第一池化图像特征；通过第二全连接层对第一池化图像特征进行卷积处理，得到第一卷积图像特征；将第一卷积图像特征输入至第一激活函数层，得到映射图像特征；通过第三全连接层对映射图像特征进行卷积处理，得到第二卷积图像特征；将第二卷积图像特征输入至第二激活函数层，得到对应的权重。

参见图5，图5为本申请实施例提供的一种基于SENet进行特征融合的示意图。

X表示监控视频帧，大小为W’×H’×C’，W’表示监控视频帧的宽度，H’表示监控视频帧的高度，C’表示监控视频帧的通道的数目，例如，监控视频帧为RGB图像，则通道的数目为3；Ftr表示进行卷积处理；U表示卷积处理得到的监控视频帧的图像特征(可以称为特征图)，大小为W×H×C，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道的数目。

然后，可以对特征图进行全局平均池化处理。具体的，全局平均池化处理可以参考公式(1)。

F_sq(μ)表示对特征图进行全局平均池化处理的处理结果(即第一池化图像特征)，μ(i,j)表示特征图中坐标为(i,j)的特征值。

然后，可以将F_sq(μ)输入至第二全连接层，并将第二全连接层的输出结果(第一卷积图像特征)输入第一激活函数层，进而，将第一激活函数层的输出结果(即映射图像特征)输入至第三全连接层，并将第三全连接层的输出结果(即第二卷积图像特征)输入至第二激活函数层，得到F_ex，作为该图像特征的权重。其中，第一激活函数层可以为ReLU层，第二激活函数层可以sigmoid函数层。

具体的，可以基于公式(2)和F_sq(μ)计算该图像特征的权重。

F_ex＝σ(W₂δ(W₁F_sq(μ))) (2)

F_ex表示该图像特征的权重，W₁表示第二全连接层的参数，W₂表示第三全连接层的参数，δ表示第一激活函数层、σ表示第二激活函数层。

然后，可以基于公式(3)计算加权后的图像特征。

表示加权后的图像特征，即待处理融合图像特征，F_scale表示基于F_sq对U进行加权。

在另一个实施例中，特征融合网络包括ECA-Net、一维卷积层和第三激活函数层，相应的，上述用于确定权重的步骤一，可以包括：

针对特征缓存池中已缓存的包含人脸的多个历史监控视频帧的第二图像特征，以及第一图像特征中的每一图像特征，通过SENet，对该图像特征进行池化处理，得到第二池化图像特征；通过一维卷积层对第二池化图像特征进行卷积处理，得到第三卷积图像特征；将第三卷积图像特征输入至第三激活函数层，得到对应的权重。

参见图6，图6为本申请实施例提供的一种基于ECA-Net进行特征融合的示意图。

χ表示监控视频帧的图像特征(即特征图)，大小为W×H×C，W表示特征图的宽度，H表示特征图的高度，C表示特征图的通道大小。可以基于上述公式(1)对特征图进行全局平均池化处理，得到F_sq(μ)。

然后，通过大小为K的1D卷积核(即一维卷积层)对F_sq(μ)进行卷积处理，K的值可以由技术人员根据经验进行设置，例如，K可以为5，或者，也可以为6，但并不限于此。

然后，可以将卷积处理结果(即第三卷积图像特征)输入第三激活函数层，得到ω，作为该图像特征的权重。其中，第三激活函数层可以为sigmoid函数层。

具体的，基于公式(4)和F_sq(μ)计算该图像特征的权重。

ω＝σ(W₃F_sq(μ)) (4)

ω表示该图像特征的权重，W₃表示1D卷积层的元素，卷积核的大小可以为K×1，σ表示第三激活函数层。

然后，可以基于确定出的权重，计算加权后的图像特征

即待处理融合图像特征。

在一个实施例中，可以采取不同的方式，对第二图像特征和第一图像特征进行特征融合。

方式一：按照各自的权重，对第一图像特征和第二图像特征进行池化处理，得到待处理融合图像特征。

在本申请实施例中，可以按照各自的权重，对第一图像特征和第二图像特征进行池化(pooling)处理，实现特征融合。例如，可以基于双线性池化(Bilinear Pooling)，按照各自的权重，计算第一图像特征和第二图像特征的向量外积，得到待处理融合图像特征。

方式二：按照各自的权重，对第一图像特征和第二图像特征进行拼接处理，得到待处理融合图像特征。

例如，也可以按照各自的权重，对第一图像特征和第二图像特征进行拼接(concat)，实现特征融合。即，将第一图像特征和第二图像特征分别与各自的权重相乘，并将各乘积在维度上进行拼接。

参见图7，图7为本申请实施例提供的一种行为检测的原理示意图。

图7中，单帧图片指采集到的每一监控视频帧，N+1、N、N-1…N-M分别表示采集到的M+2个监控视频帧的序号。

在采集到每一监控视频帧后，可以将该监控视频帧输入至BaseNet(基本网络，即本申请实施例中的特征融合网络)，得到高阶特征(即图像特征)，并存储到特征缓存池。

后续，当需要生成待处理融合图像特征时，可以从特征缓存池中获取各个监控视频帧的图像特征。

将各个图像特征输入至FusionNet(融合网络，即本申请实施例中的特征融合网络)，得到待处理融合图像特征。

将待处理融合图像特征输入至Predicition(预测层，即本申请实施例中的全连接层)，得到表示目标人员存在目标行为的概率。

在一个实施例中，在上述步骤S1021之前，该方法还可以包括以下步骤：基于目标检测算法，获取第一监控视频帧中人脸的指定五官的位置信息。

其中，指定五官包括眼睛和/或嘴巴。

相应的，步骤S1021可以包括以下步骤：将第一监控视频帧，以及第一监控视频帧中人脸的指定五官的位置信息，输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征。

一种实现方式中，在获取每一监控视频帧后，还可以基于目标检测算法(例如，人脸关键点检测算法)，确定该监控视频帧中的人脸关键点，进而，可以基于确定出的人脸关键点，确定眼睛、嘴巴的位置信息。

也就是说，在对目标行为检测网络模型进行训练时，可以将样本视频图像中的人脸的指定五官的位置信息，以及样本视频图像中的视频帧，输入至待训练的目标行为检测网络模型中的特征提取网络。相应的，训练好的特征提取网络则可以将注意力集中在指定五官处，而指定五官能够更好地体现人员的行为，相应的，也就能够提高目标行为检测网络模型的检测准确度。

在一个实施例中，参见图8，图8为本申请实施例提供的一种训练目标行为检测网络模型的流程图。该方法可以包括以下步骤：

S801：获得目标样本视频图像。

S802：将目标样本视频图像输入至待训练的目标行为检测网络模型，得到目标样本视频图像包含目标行为的概率，作为预测概率。

S803：基于预测概率，调整目标行为检测网络模型的模型参数，继续训练，直到目标行为检测网络模型收敛。

其中，目标样本视频图像包括：包含人脸的原始样本视频图像，以及对原始样本视频图像进行数据增强处理得到的视频图像。原始样本视频图像包含所述目标行为。包含目标行为的目标样本视频图像可以称为目标正样本视频图像。目标正样本视频图像包含多个视频帧，每一视频帧包含目标行为。

另外，目标样本视频图像还可以包括目标负样本视频图像。目标负样本视频图像可以包含多个视频帧，每一视频帧中不包含目标行为。

目标正样本视频图像和目标负样本视频图像可以具体对应的标签。例如，目标正样本视频图像包含目标行为，则表示目标正样本视频图像包含目标行为的概率的标签可以为1；目标负正样本视频图像不包含目标行为，则表示目标正样本视频图像包含目标行为的概率的标签可以为0。

如果目标行为为多个，则针对每一目标行为，目标样本视频图像均具有对应的，表示包含该目标行为的概率的标签。

一种实现方式中，可以将目标样本视频图像(包括目标正样本视频图像和目标负样本视频图像)包含的视频帧，作为初始结构的目标行为检测网络模型的输入数据，将表示目标样本视频图像包含目标行为的概率的标签作为输出数据，对初始结构的目标行为检测网络模型的模型参数进行调整，直至收敛，得到训练好的目标行为检测网络模型。

相应的，针对每一目标行为，目标行为检测网络模型可以输出目标样本视频图像包含该目标行为的概率(即预测概率)。

基于预测概率和对应的标签，可以计算损失值，并基于损失值调整目标行为检测网络模型的模型参数。例如，可以采用预设损失函数计算损失值，并采用梯度下降法调整模型参数。预设损失函数可以为交叉熵损失函数、加权交叉熵损失函数，或者，也可以为其他损失函数，并不限于此。

在一个实施例中，可以基于视频帧的维度和/或视频帧序列的维度，对原始样本视频图像进行数据增强处理。

基于视频帧的维度进行数据增强处理：对原始样本视频图像中的视频帧，进行几何变换、颜色变换或视频帧混合等处理，得到新的视频帧，以得到包含新的视频帧的样本视频图像。

基于视频帧序列的维度进行数据增强处理：对原始样本视频图像中的视频帧进行采样，得到新的样本视频图像；或者，对原始样本视频图像中视频帧的视频画面进行翻转，得到新的样本视频图像。

假设一个原始样本视频图像包含S个视频帧，则基于该原始样本视频图像，可以得到f(S)个数据增强处理后的样本视频图像。

f(S)＝S^Q+g(S)

其中，Q表示对每个视频帧进行数据增强处理的方式的数目，g(S)表示基于视频帧序列的维度进行数据增强处理的方式的数目。

可见，在获取原始样本视频图像后，对原始样本视频图像进行数据增强处理。进而，结合原始样本视频图像和数据增强得到的视频图像，可以得到目标样本视频图像，用于对目标行为检测网络模型进行训练，能够丰富训练样本，提高目标行为检测网络模型的检测精确度。

在一个实施例中，在上述步骤S802之后，该方法还可以包括以下步骤：

若预测概率对应的损失值大于预设损失值，将目标样本视频图像确定为难例样本视频图像，以对目标行为检测网络模型进行训练。

在本申请实施例中，在得到预测概率后，可以计算预测概率与目标样本视频图像对应的标签之间的差值，得到损失值。

若该损失值大于预设损失值，表明针对该目标样本视频图像，当前目标行为检测网络模型的检测结果的准确度较低，也就是说，当前目标行为检测网络模型并不能有效地对该目标样本视频图像进行检测，则可以确定该目标样本视频图像为难例样本视频图像。

后续，则可以提高难例样本视频图像在所有训练样本中所占的比例，例如，增加基于难例样本视频图像对目标行为检测网络模型进行训练的次数。

或者，在训练过程中，若基于一个Batch(批次)中的各个样本视频图像的总损失值，对目标行为检测网络模型的模型参数进行调整。相应的，针对难例样本视频图像所在的批次，可以调高该难例样本视频图像对应的损失值的权重，以计算该批次的样本视频图像的总损失值。

基于上述处理，使得目标行为检测网络模型能够有效地学习到难例样本视频图像的图像特征，以有效地对难例样本视频图像进行检测，提高目标行为检测网络模型的检测精确度。

在一个实施例中，还可以基于目标检测算法，对监控视频帧中的对象进行检测，并结合检测出的对象，确定检测结果。

例如，若检测出监控视频帧中包含手机，且基于目标行为检测网络模型确定目标人员存在打电话的行为，则可以确定最终的检测结果为目标人员在打电话。

又例如，若检测出监控视频帧中包含食物，且基于目标行为检测网络模型确定目标人员存在吃东西的行为，则可以确定最终的检测结果为目标人员在吃东西。

基于相同的发明构思，本申请实施例还提供了一种行为检测装置，参见图9，图9为本申请实施例提供的一种行为检测装置的结构图，该装置可以包括：

第一监控视频帧获取模块901，用于获取当前包含目标人员的人脸的监控视频帧，作为第一监控视频帧；

第一图像特征获取模块902，用于获取所述第一监控视频帧的图像特征，作为第一图像特征，并缓存；

图像特征融合模块903，用于对已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

行为检测模块904，用于基于所述待处理融合图像特征，以及预设的目标行为的特征，生成表示所述目标人员是否存在所述目标行为的检测结果。

可选的，所述第一图像特征获取模块902，具体用于将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征，并缓存至特征缓存池；其中，所述目标行为检测网络模型为基于包含所述目标行为的样本视频图像进行训练得到的，所述目标行为检测网络模型还包括特征融合网络和第一全连接层；

所述图像特征融合模块903，具体用于通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征；

所述行为检测模块904，具体用于将所述待处理融合图像特征输入至所述第一全连接层，得到所述目标人员存在所述目标行为的概率。

可选的，所述图像特征融合模块903，包括：

可选的，所述特征融合网络包括卷积层；

或者，

可选的，所述装置还包括：

所述第一图像特征获取模块902，具体用于将所述第一监控视频帧，以及所述第一监控视频帧中人脸的指定五官的位置信息，输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征。

可选的，所述装置还包括：

本申请实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一行为检测方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一行为检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种行为检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一监控视频帧的图像特征，作为第一图像特征，并缓存，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述特征融合网络，对所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征进行特征融合，得到待处理融合图像特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征融合网络包括卷积层；

5.根据权利要求3所述的方法，其特征在于，所述通过所述特征融合网络，得到所述特征缓存池中已缓存的包含所述人脸的多个历史监控视频帧的第二图像特征，以及所述第一图像特征各自的权重，包括：

6.根据权利要求5所述的方法，其特征在于，所述特征融合网络包括压缩和激活网络SENet、第二全连接层、第一激活函数层、第三全连接层和第二激活函数层；

7.根据权利要求5所述的方法，其特征在于，所述特征融合网络包括有效通道注意力-深度卷积神经网络ECA-Net、一维卷积层和第三激活函数层；

8.根据权利要求3所述的方法，其特征在于，所述根据各自的权重，对所述第二图像特征和所述第一图像特征进行特征融合，得到待处理融合图像特征，包括：

或者，

9.根据权利要求2所述的方法，其特征在于，在所述将所述第一监控视频帧输入至预先训练的目标行为检测网络模型中的特征提取网络，得到第一图像特征之前，所述方法还包括：

10.根据权利要求2所述的方法，其特征在于，所述目标行为检测网络模型采用如下步骤训练获得：

11.根据权利要求10所述的方法，其特征在于，在所述将所述目标样本视频图像输入至待训练的目标行为检测网络模型，得到所述目标样本视频图像包含所述目标行为的概率，作为预测概率之后，所述方法还包括：

12.根据权利要求1所述的方法，其特征在于，所述目标人员为驾驶室内的驾驶人员，所述目标行为表示异常驾驶行为。

13.一种行为检测装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12任一所述的方法步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12任一所述的方法步骤。