CN116682137A

CN116682137A - 训练静态人体检测模型的方法、滞留检测方法及存储介质

Info

Publication number: CN116682137A
Application number: CN202310539900.2A
Authority: CN
Inventors: 钟贞炎
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-01

Abstract

本申请实施例涉及智能监测技术领域，公开了一种训练静态人体检测模型的方法，通过获取若干个静态热源样本，对静态热源样本进行差分处理，得到差分样本，并将静态热源样本中每帧红外图像和该红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本。采用若干个训练样本，对预先设置的神经网络进行迭代训练，直至神经网络收敛，得到静态人体检测模型。神经网络包括编码器和解码器，编码器包括卷积神经网络，解码器包括循环神经网络。在此实施例中，将差分样本和静态热源样本拼接合并后，作为训练集进行训练，使得训练得到的静态人体检测模型也具备通过分析帧间温度变化和位置变化等特征检测静态人体的能力，使得检测准确度更高。

Description

训练静态人体检测模型的方法、滞留检测方法及存储介质

技术领域

本申请实施例涉及智能监测技术领域，尤其涉及一种训练静态人体检测模型的方法、滞留检测方法及存储介质。

背景技术

当今中国已正式步入老龄社会，居家养老与机构养老是当前的主流养老模式，而伴随着老人生活起居方面存在的安全隐患也日趋明显，比如老人在卫生间容易发生意外跌倒、久坐难起等异常风险行为，而监护人员往往无法及时发现，进而导致老人未能得到及时救治而引发严重后果。伴随着信息技术的更新迭代，智能化养老服务已成为面对老龄化问题日趋严重之下的智慧之选，通过实时监测老人在室内区域发生的异常风险行为并将相应告警信息及时下发给监护人员是实现智能化养老需迈出的关键一步。

其中，通过智能感应的方式实时检测老人是否出现在卫生间等目标区域，并监测老人是否在卫生间发生长时间坐马桶未起身或无法起身以及跌倒等行为类型的超时滞留，做到提前感知异常行为风险并将异常告警信息及时下发到监护人员，对提升新时代养老事业的智能化程度具有重要价值与意义。然而，目前的监测方法大多依靠传感器，例如佩戴运动传感器进行监测或基于毫米波多普勒雷达进行监测，容易受环境或使用影响，检测不准确，容易出现漏检误检。

发明内容

本申请实施例主要解决的技术问题是提供一种训练静态人体检测模型的方法、滞留检测方法及存储介质，训练出的静态人体检测模型能够准确检测出静态的人体，采用静态人体检测模型进行人体滞留检测，能够准确检测出人体滞留，有效避免发生滞留而漏检误检带来的风险。

第一方面，本申请一些实施例中提供了一种训练静态人体检测模型的方法，包括：

获取若干个静态热源样本，静态热源样本包括具有时序性的k帧红外图像，各静态热源样本均标注有真实标签，真实标签反映静态热源样本中的静态热源属于静态人体热源或干扰热源，其中，k为大于1的整数；

对静态热源样本进行差分处理，得到差分样本，并将静态热源样本中的每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本，其中，所述差分样本包括与k帧红外图像对应的k帧差分图像；

采用若干个训练样本，对预先设置的神经网络进行迭代训练，直至神经网络收敛，得到静态人体检测模型；

其中，神经网络包括编码器和解码器，编码器包括卷积神经网络，该卷积神经网络用于提取静态热源样本中的静态热源在单帧图像层面上的特征；解码器包括循环神经网络，该循环神经网络用于提取静态热源样本中的静态热源在时间维度上的特征，并输出预测标签。

在一些实施例中，前述对静态热源样本进行差分处理，得到差分样本，包括：

将静态热源样本中的k帧红外图像均依次与第1帧红外图像做差分计算，得到k帧差分图像；

将k帧差分图像中的负差分设置为0、保留正差分，得到k帧正差分图像；以及，将k帧差分图像中的正差分设置为0、保留负差分，得到k帧负差分图像，其中，负差分为差分图像中为负数的像素值，正差分为差分图像中为正数的像素值；

将k帧正差分图像和k帧负差分图像分别进行通道拼接，得到差分样本。

在一些实施例中，卷积神经网络包括用于提取静态热源的形状大小特征的第一构建层和用于提取静态热源的温度分布特征的第二构建层；

其中，第一构建层包括卷积层和至少一个第一逆残差模块，卷积层后配置有批量标准化层和激活层，第一构建层被配置为对通道进行扩展，不对分辨率进行降维；

第二构建层包括多个交叉堆叠设置的第一逆残差模块和第二逆残差模块，第二构建层被配置为对分辨率进行降维，对通道进行扩展。

在一些实施例中，第一逆残差模块包括级联的第一逐点卷积层、第一深度卷积层和第二逐点卷积层，各逐点卷积层后均配置有批量标准化层和激活层；其中，第一逐点卷积层用于通道扩展，第一深度卷积层用于特征提取，第二逐点卷积层用于通道压缩。

在一些实施例中，第二逆残差模块包括级联的第三逐点卷积层、第二深度卷积层和第四逐点卷积层，各逐点卷积层后均配置有批量标准化层和激活层；第三逐点卷积层的输入还与第二逆残差模块中最后一层的输出跳跃连接；其中，第三逐点卷积层用于通道扩展，第二深度卷积层用于特征提取，第四逐点卷积层用于通道压缩。

在一些实施例中，循环神经网络包括至少一个长短期记忆网络和至少一个全连接层；

其中，至少一个长短期记忆网络用于学习静态热源样本中的静态热源在时域上的差异性和关联性；至少一个全连接层用于将特征映射至二分类空间。

第二方面，本申请一些实施例中提供了一种滞留检测方法，包括：

获取红外视频，红外视频是采用红外摄像头对目标区域进行采集得到的具有时序性的红外图像序列；

根据红外视频，确定目标区域内是否存在热源；

若存在热源，根据红外视频，确定热源是否发生移动；

若发生移动，则确定目标区域内存在人体，并累计人体的滞留时长；

若未发生移动，则对红外视频进行差分处理，得到差分样本，并将红外视频中的每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本，其中，所述差分样本包括与每帧红外图像对应的差分图像；

采用预先训练好的静态人体检测模型对测试样本进行检测，若检测出目标区域内存在人体，则累计人体的滞留时长，其中，静态人体检测模型是采用如第一方面的方法训练得到的；

若滞留时长大于或等于预设的时长阈值，则确定人体发生滞留。

在一些实施例中，该方法还包括：

若静态人体检测模型的检测结果和前m个检测结果一致，则将静态人体检测模型的检测结果作为最终检测结果；其中，前m个检测结果是位于红外视频之前的m个红外视频对应的检测结果；

若静态人体检测模型的检测结果和前m个检测结果不一致，则将上一个检测结果作为最终检测结果，其中，上一个检测结果是位于红外视频之前的相邻的红外视频对应的检测结果。

第三方面，本申请一些实施例中提供了一种电子设备，其特征在于，包括：

至少一个处理器；和

与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面的方法。

第四方面，本申请一些实施例中提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机设备执行如第一方面或第二方面的方法。

本申请一些实施例提供的训练静态人体检测模型的方法，通过获取若干个静态热源样本，对静态热源样本进行差分处理，得到差分样本，并将静态热源样本中每帧红外图像和该红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本。采用若干个训练样本，对预先设置的神经网络进行迭代训练，直至神经网络收敛，得到静态人体检测模型。其中，静态热源样本包括具有时序性的k帧红外图像(k为大于1的整数)，各静态热源样本均标注有真实标签，真实标签反映静态热源样本中的静态热源属于静态人体热源或干扰热源。神经网络包括编码器和解码器，编码器包括卷积神经网络，该卷积神经网络用于提取静态热源样本中静态热源在单帧图像层面上的特征；解码器包括循环神经网络，该循环神经网络用于提取静态热源样本中的静态热源在时间维度上的特征，并输出预测标签。

在此实施例中，将差分样本和静态热源样本拼接合并后，作为训练集进行训练。由于差分样本能够反映热源的帧间温度变化和位置变化，从而，神经网络能够学习到帧间温度变化和位置变化等特征，基于干扰热源在连续帧中会发生温度变化、位置不变，静态人体热源温度相对稳定、身体某些部位(例如头部和四肢)可能发生轻微晃动的特点，通过分析帧间温度变化和位置变化等特征预测静态热源的类别。从而，训练得到的静态人体检测模型也具备通过分析帧间温度变化和位置变化等特征检测静态人体的能力，使得检测准确度更高。此外，通过设置卷积神经网络和循环神经网络，使得神经网络能够从单帧和时间维度两方面，提取静态热源的形状特征、温度分布特征和其在时间维度上的帧间差异特征，基于这些特征对静态热源进行分类，有利于提高分类结果的准确性。从而，能够加快神经网络收敛，得到检测准确的静态人体检测模型。

本申请一些实施例提供的滞留检测方法、电子设备及存储介质，通过获取红外视频，根据红外视频，确定目标区域内是否存在热源。若存在热源，根据红外视频，确定热源是否发生移动。若发生移动，则确定目标区域内存在人体，并累计人体的滞留时长。若未发生移动，对红外视频进行差分处理，得到差分样本，并将红外视频中每帧红外图像和该红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本。则采用预先训练好的静态人体检测模型对测试样本进行检测，若检测出目标区域内存在人体，则累计人体的滞留时长。若滞留时长大于或等于预设的时长阈值，则确定该人体发生滞留。

在此实施例中，通过对红外视频进行热源移动检测和采用静态人体检测模型检测人体，不仅能够发现移动的人体，还能够发现处于静态下的人体，对移动的人体或静态的人体都能进行滞留计时检测，从而，有效解决了因静态的干扰热源易误判为有人、静态人体存在而漏判，而导致滞留检测不准确的难点问题。此外，结合移动检测和静态人体检测模型，发现人体并进行滞留检测，一方面，对阳光、热水、加热物体等热源引起的干扰具有较高的鲁棒性，检测准确率高，另一方面，能够有效规避用户隐私暴露问题。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例中训练静态人体检测模型的系统示意图；

图2为本申请一些实施例中采集红外视频的示意图；

图3为本申请一些实施例中红外图像的示意图；

图4为本申请一些实施例中电子设备的结构示意图；

图5为本申请一些实施例中训练静态人体检测模型的方法的流程示意图；

图6为本申请一些实施例中神经网络的结构示意图；

图7为本申请一些实施例中第一逆残差模块的结构示意图；

图8为本申请一些实施例中第二逆残差模块的结构示意图；

图9为本申请一些实施例中滞留检测方法的流程示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为便于对本申请实施例提供的方法进行理解，首先对本申请实施例中涉及的名词进行介绍：

(1)红外热成像技术

红外热成像技术运用光电技术检测物体热辐射的红外线特定波段信号，将该信号转换成可供人类视觉分辨的红外成像图，并可以进一步计算出温度值。红外成像图中每个像素点的值为对应世界坐标系中物体的温度值。从而，红外热成像技术使人类超越了视觉障碍，由此人们可以“看到”物体表面的温度分布状况。

例如，将红外摄像头安装在室内的天花板上，对室内的人体进行拍摄采集得到红外视频，可以理解的是，红外视频包括连续的多帧红外图像。

(2)分位数

对于一串数量为N的数字x₁、x₂…、x_n-1、x_n，定义有0-100％分位数，0％分位数就是这串数字的最小值，100％分位数就是这串数字的最大值。而中间分位数，比如50％分位数Q₅₀，则表示这串数字里面有50％的数字都小于等于Q₅₀，同理75％分位数Q₇₅，则这串数字中75％的数都小于等于Q₇₅。可以理解的是，Q₅₀不一定是这串数字从小到大排名中间的那个数，可能是接近中间数的一个数，分位数的具体求取方法有现成算法，这里不做赘述。

QL：下四分位数，即25％分位数，表示全部数值中有四分之一的数值比QL小。

QU：上四分位数，即75％分位数，表示全部数值中有四分之一的数值比QU大。

IQR：四分位间距，即QU-QL＝75％分位数-25％分位数，期间包含了全部数值的一半。

红外热成像设备按一定的频率采集红外成像图，在保障隐私的前提下，可以捕捉和分析目标人体的动态行为。红外成像图中各像素点反映对应空间中物体的温度，在对人体进行监护时，需要从红外成像图中检测出人体，以方便监护。

为介绍本申请实施例前，先对本申请发明人所知晓的相关方法进行简单介绍，使得后续便于理解本申请实施例。

在一些方案中，基于毫米波多普勒雷达技术对室内人体存在进行检测。首先，通过毫米波雷达发射电磁波信号并获取该信号遇到空间内的目标物反射回来的回波信号；其次，依据回波信号确定所反射信号的目标物相对于设备的距离信息和方位信息，并基于距离信息和方位信息确定回波信号功率谱；最后，依据功率谱从回波信号中筛选出由人体反射回来的目标回波信号，并基于此确定人体是否存在于目标空间内。

在此方案中，毫米波雷达技术主要依靠目标移动、心跳等波动信号进行人体存在检测，对环境中存在的扰动信息较为敏感，例如动态的窗帘、风扇、掉落物体等易识别为人体移动，从而容易导致人体离开后仍然检测为有人，进而导致误报人体在目标区域超时滞留的情况；另外，毫米波雷达受多径效应影响较大，对于非波束范围内的目标容易丢失，即出现区域内有人而感应为无人，最终引起人体在目标区域发生超时滞留而遗漏告警的情况。

在一些方案中，基于搭载运动传感器的可穿戴设备进行数据获取并监测老人异常行为。该方案在手环装置内设有运动传感器，用以实现老人身体部位实时运动数据的采集与传输，并通过分析运动传感器数据判断老人是否出现长时间未动的情况，若出现长时间未动则将告警信息下发到监护人。

在此方案中，首先，可穿戴式运动传感器的使用相对老年人来说便利性较差，并且老人时常会忘记佩戴设备而出现无法实时监测的情况。其次，通过佩戴运动传感器装置监测老人超时滞留行为风险存在较大的漏洞，例如老人发生超时滞留但佩戴手环装置的身体部位仍在大幅移动时，将导致无法监测到超时滞留行为风险。最后，通过佩戴运动传感器的方式监测超时滞留无法锁定目标区域，即无法实现只针对卫生间等区域的监测，例如老人在卧床休息时容易引起超时滞留的误报。

针对上述问题，本申请实施例提供了一种滞留检测方法、电子设备及存储介质，通过获取红外视频，根据红外视频，确定目标区域内是否存在热源。若存在热源，根据红外视频，确定热源是否发生移动。若发生移动，则确定目标区域内存在人体，并累计人体的滞留时长。若未发生移动，对红外视频进行差分处理，得到差分样本，并将红外视频中每帧红外图像和该红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本。则采用预先训练好的静态人体检测模型对测试样本进行检测，若检测出目标区域内存在人体，则累计人体的滞留时长。若滞留时长大于或等于预设的时长阈值，则确定该人体发生滞留。

本申请一些实施例还提供了一种训练静态人体检测模型的方法，通过获取若干个静态热源样本，对静态热源样本进行差分处理，得到差分样本，并将静态热源样本中每帧红外图像和该红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本。采用若干个训练样本，对预先设置的神经网络进行迭代训练，直至神经网络收敛，得到静态人体检测模型。其中，静态热源样本包括具有时序性的k帧红外图像(k为大于1的整数)，各静态热源样本均标注有真实标签，真实标签反映静态热源样本中的静态热源属于静态人体热源或干扰热源。神经网络包括编码器和解码器，编码器包括卷积神经网络，该卷积神经网络用于提取静态热源样本中静态热源在单帧图像层面上的特征；解码器包括循环神经网络，该循环神经网络用于提取静态热源样本中的静态热源在时间维度上的特征，并输出预测标签。

下面说明本申请实施例提供的用于训练静态人体检测模型或用于滞留检测的电子设备的示例性应用。本申请实施例提供的电子设备可以是服务器，例如部署在云端的服务器。本申请一些实施例提供的电子设备可以是笔记本电脑、台式计算机或移动设备等各种类型的终端。

作为示例，参见图1，图1是本申请实施例提供的滞留检测系统的应用场景示意图。终端10通过网络连接服务器20，其中，网络可以是广域网或者局域网，又或者是二者的组合。

终端10可以被用来获取训练数据和构建神经网络，例如，本领域技术人员在终端上下载准备好的训练数据，以及，搭建神经网络的网络结构。其中，训练数据包括若干个静态热源样本。可以理解的是，终端10也可以被用来获取测试样本，例如，红外摄像头将采集到的测试样本发送给终端10，从而，终端10获取到测试样本。在一些实施例中，终端10可以与红外摄像头集成在一起。

在一些实施例中，终端10本地执行本申请实施例提供的训练静态人体检测模型的方法来完成采用训练数据对设计好的神经网络进行训练，确定最终的模型参数，从而神经网络配置该最终的模型参数，即可得到静态人体检测模型。在一些实施例中，终端10也可以通过网络向服务器20发送本领域技术人员在终端上存储的训练数据和构建好的神经网络，服务器20接收该训练数据和神经网络，采用训练数据对神经网络进行训练，确定最终的模型参数，然后将该最终的模型参数发送给终端10，终端10保存该最终的模型参数，使得神经网络配置该最终的模型参数，即可得到静态人体检测模型。

下面说明本申请实施例提供的用于实现上述训练静态人体检测模型的方法、滞留检测方法的电子设备。可以理解的是，电子设备具有计算处理能力，本申请实施例中的电子设备可以是用于现场监测的监测设备，也可以是与监测设备通信连接的终端或服务器等。

在一些实施例中，监测设备是红外摄像头，如图2所示，红外摄像头安装在室内目标区域对应的天花板上，距离地面高h，红外摄像头正对目标区域。红外摄像头与电子设备通信连接。

其中，红外摄像头是通过非接触探测红外能量(热量)，并将其转换为电信号，进而生成反映目标区域内各个物体温度的红外图像。红外图像相当于一个温度数据阵列，每个像素点的像素值即为该像素点对应空间物体的温度值。

请参阅图3，在一些实施例中，红外摄像头所拍摄的红外图像的分辨率是24*32，每采集一次输出一帧大小为24*32的红外图像。基于红外图像中每个像素点的值为对应世界坐标系中物体的温度值，从而，可以从红外图像中得到热量的分布范围、大致形状以及具体的温度值等信息。如图3所示，图中左上方的高亮区域为加热马桶产生的干扰热源，右下方的高亮区域为卫生间内老人形成的人体热源。

在一些实施例中，红外摄像头采集频率为每秒f帧(1≤f≤32)，并缓存近t秒(1≤t≤60)时间内的红外图像，即得到k＝f*t帧红外图像，作为一个红外视频输出。这k帧红外图像为时序性图像。其中，采集频率f与缓存时间t可根据设备的算力进行动态调整。

请参阅图4，电子设备100包括通信连接的处理器101和存储器102。这里，通信连接可以通过总线连接，图4中以总线连接进行了示例性说明。可以理解的是，图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

基于电子设备与红外摄像头通信连接，从而，当红外摄像头采集到红外视频后，将红外视频发送给电子设备。从而，处理器能够获取到红外视频。

其中，处理器101被配置为支持该电子设备100执行训练静态人体检测模型的方法或滞留检测方法中相应的功能。该处理器101可以是中央处理器(central processingunit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器102作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本申请实施例中训练静态人体检测模型的方法或滞留检测方法对应的程序指令/模块。处理器101通过运行存储在存储器102中的非暂态软件程序、指令以及模块，可以实现下述任意一个方法实施例中的训练静态人体检测模型的方法或滞留检测方法。

存储器102可以包括易失性存储器(volatile memory，VM)，例如随机存取存储器(random access memory，RAM)；存储器1002也可以包括非易失性存储器(non-volatilememory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器102还可以包括上述种类的存储器的组合。

可以理解的是，电子设备还包括其它支持运行的硬件和软件。硬件可以包括天线、各种传感器、麦克风等。软件可以包括操作系统等，操作系统是管理和控制电子设备硬件与软件资源的程序。软件还可以包括各种应用程序(application,app)。在此，对未涉及本申请实施例的改进的电子设备其它部分不再进行说明。

值得说明的是，在一些实施例中，电子设备也可以与红外摄像头集成在一起，作为监测设备。在一些实施例中，电子设备也可以是终端或服务器等。本申请实施例中，不对电子设备的形式做任何限制，能够获取到红外图像序列，具有计算处理能力即可。

根据上文可以理解，本申请实施例提供的滞留检测方法可以由各种类型具有处理能力的电子设备实施，例如由电子设备的处理器实施执行或由其它具有计算处理能力的设备实施执行等。其它具有计算处理能力的设备可以是与电子设备通信连接的智能终端或服务器等。

根据上文可以理解，本申请实施例提供的训练静态人体检测模型的方法可以由各种类型具有处理能力的电子设备实施，例如由电子设备的处理器实施执行或由其它具有计算处理能力的设备实施执行等。其它具有计算处理能力的设备可以是与电子设备通信连接的智能终端或服务器等。

下面结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的训练静态人体检测模型的方法。请参阅图5，图5是本申请实施例提供的训练静态人体检测模型的方法的流程示意图。可以理解的是，该训练方法的执行主体可以是电子设备的一个或多个处理器。

请再次参阅图5，该方法S100具体可以包括如下步骤：

S10：获取若干个静态热源样本。

静态热源样本包括具有时序性的k帧红外图像(k为大于1的整数)，各静态热源样本均标注有真实标签，该真实标签反映静态热源样本中的静态热源属于静态人体热源或干扰热源。

可以理解的是，静态热源样本是红外摄像头对某一区域内进行采集得到的k帧按时间顺序排列的红外图像。在一些实施例中，k＝f*t,其中，f为红外摄像头的采集频率，t为时间(秒)。在一些实施例中，1≤t≤60，1≤f≤32。

在这些若干个静态热源样本中，一部分静态热源样本仅包括干扰热源，例如一盆热水、取暖器或发热马桶等，不包括人体；另一部分静态热源样本包括干扰热源和静态人体，其中，静态人体是指未发生大幅移动的人体。

每个静态热源标注有反映热源类别的真实标签。在一些实施例中，可以采用热编码标注标签，例如，干扰热源用0表示，静态人体热源用1表示，则只包括干扰热源的静态热源样本标注0，包括静态人体热源的静态热源样本标注1。

在一些实施例中，将红外摄像头安装在室内目标区域对应天花板中心位置，设备正对下方目标区域，且距离地面高度h为2.0至3.0米。红外摄像头采集目标区域内的外视频数据，在数据采集期间，人员自行进入目标区域，人员在目标区域内可能静止或移动，也可以制造静态干扰热源，例如在目标区域内放置一盆热水、热毛巾或取暖器等，一段时间后离开。数据采集期间可以反复进入或离开目标区域，并在目标区域内制造不同的静态干扰热源。在一些实施例中，数据采集可在真实应用场景中进行，例如将红外摄像头安装在卫生间天花板中央，对卫生间场景进行实时数据采集，以24小时为周期进行数据采集与存储。

红外摄像头每采集并缓存到一定时长(例如60s)的红外视频数据后，将缓存的红外视频数据发送给电子设备(例如电脑或服务器等)，然后清空当前缓存，并继续进行数据采集与缓存。在一些实施例中，所采集单个时间周期内的红外视频数据的时长远大于静态热源样本所需要的t秒。通过观看红外数据视频记录人员进入与离开目标区域时对应的数据帧编号，根据该数据帧编号即可标注红外视频数据中某一段数据序列是否有人体热源。根据记录的人员进入、离开目标区域对应数据帧编号即可从采集的单个时间周期内的红外视频数据中提取出有人的数据片段和无人的数据片段。再分别将有人和无人的数据片段分割为固定时长t秒(即k帧)的备选样本。

在一些实施例中，可通过检测人体移动的算法筛选出人体存在移动的备选样本，剔除人体存在移动的备选样本，从而，剩余的有效备选样本包括只含有干扰热源的静态热源样本(负样本)和含有静态人体热源的静态热源样本(正样本)。

电子设备获取到若干个有效备选样本后，可以通过人工或标签工具，对这些有效备选样本标注标签，从而，得到若干个静态热源样本，每个静态热源样本均标注有反映是干扰热源还是静态人体热源的真实标签。

可以理解的是，上述采集数据的实施例中，静态热源样本是模仿真实居家场景中获取的，如固定的干扰热源或者人体长时间在一个位置站立或静坐时，会产生重复性样本。为了使用于训练的数据尽可能保证样本的多样性，在一些实施例中，通过对样本进行筛选，丢弃重复性样本，使得训练得到的静态人体检测模型具有更好的泛化性。

具体地，先从上述若干个静态热源样本中选取至少一个已选样本，剩余的作为待选样本，通过抽取待选样本的中间帧imge2和已选样本的中间帧imge1做差值处理，得到差值帧diff_imge＝imge2-imge1，采用第三温度阈值将差值帧中不小于该第三温度阈值的像素点进行单独分割，若被分割出的最大连通区域面积达到设定的第三面积阈值，则将该待选样本作为已选样本。若被分割出的最大连通区域面积未达到该第三面积阈值，则丢弃当前的待选样本。

在一些实施例中，对丢弃重复样本后的若干个静态热源样本进行数据增强处理，例如对静态热源样本的每帧红外图像分别进行上下镜面翻转、左右镜面翻转或180°旋转等处理。在一些实施例中，为了增加包括静态人体热源的样本的数量，对包括静态人体热源的静态热源样本进一步进行数据增强处理，例如以静态人体热源的质心为参考，对静态人体热源进行平移后，使其质心位置会随之移动。

在一些实施例中，在样本输入神经网络之前先进行异常值处理，对温度值为空值或温度值偏高与偏低的异常像素点进行处理，针对像素点对应温度值为空值的情况，采用当前样本数据中所有像素点温度值的中值进行填充处理；而针对像素点对应温度值偏高与偏低的情况，通过设定温度数值的上下限阈值进行截断处理。

由于各季节对应环境温度值差异性较大，从而红外摄像头在不同季节获取到的相同热源温度分布数据差异性也较大，为了能使得模型训练时更快收敛且保证模型的鲁棒性，对静态热源样本数据进行归一化处理，即将每个静态热源样本数据映射到固定区间范围：

其中，imges₀为当前进行归一化处理的静态热源样本，T_min与T_max分别为静态热源样本imges₀中的温度最大值与最小值，imges₁为归一化后的静态热源样本。

通过上述丢弃重复样本、数据增强、异常值处理和/或数据增强处理后的若干个静态热源样本，作为输入神经网络的训练数据，不仅能让神经网络学习到丰富的样本，还能加速神经网络收敛，提高模型的鲁棒性和泛化能力。

S20：对静态热源样本进行差分处理，得到差分样本，并将静态热源样本中的每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本，其中，差分样本包括与k帧红外图像对应的k帧差分图像。

可以理解的是，在一些实施例中，这里的静态热源样本可以是丢弃重复样本、数据增强、异常值处理和/或数据增强处理后的静态热源样本。

其中，差分处理是指将两个红外图像按对应像素点进行像素值相减运算。可以采用如下公式进行差分处理：

D_(i,j)＝P_(i,j)-H_(i,j)

其中，P_(i,j)是静态热源样本中一个红外图像中第i行第j列的像素点的像素值，H_(i,j)是静态热源样本中另一个红外图像中第i行第j列的像素点的像素值，D_(i,j)是差分图像中第i行第j列的像素点的像素值(即差分值)。

对静态热源样本进行差分处理，例如，若静态热源样本包括k帧红外图像，将这k帧红外图像分别与某一帧红外图像(如k帧红外图像中的某一帧)进行差分计算，得到k帧差分图像。从而，这k帧差分图像构成该差分样本。

可以理解的是，静态热源样本的两幅红外图像中未发生重合部分的像素区域对应的差分值较大，发生重合部分的像素区域的差分值接近于0。从而，差分样本能够反映热源的帧间温度变化和位置变化。

将静态热源样本中每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本。例如，k帧红外图像和k帧差分图像按帧号顺序一一对应，将1帧红外图像与1帧差分图像进行通道拼接，得到1帧2通道的图像。从而，训练样本包括k帧2通道的图像。

可以理解的是，若差分样本中差分样本的通道大于或等于2，则训练样本中的图像是一个多通道的图像。

在一些实施例中，前述步骤S20具体包括：

S21：将静态热源样本中的k帧红外图像均依次与第1帧红外图像做差分计算，得到k帧差分图像。

S22：将k帧差分图像中的负差分设置为0、保留正差分，得到k帧正差分图像；以及，将k帧差分图像中的正差分设置为0、保留负差分，得到k帧负差分图像。

S23：将k帧正差分图像和k帧负差分图像分别进行通道拼接，得到差分样本。

在此实施例中，采用如下公式对静态热源样本进行差分计算：

diff_i＝imge_i-imge_1,i＝1,2,......,k-1,k

其中，imge_i为静态热源样本中的第i(1≤i≤k)帧红外图像，imge_1为静态热源样本中的第1帧红外图像。diff_i是第i帧红外图像对应的差分图像。若红外图像imge_i的分辨率大小为24*32，则其对应的差分图像diff_i是为24*32大小的差值帧数据。

可以理解的是，在k帧差分图像中，第1帧差分图像中差值为0，从第2帧差分图像开始，每帧差分图像记录有热源相对于第1帧的变化，这种变化包括温度变化和/或位置变化。

将k帧差分图像中的负差分设置为0、保留正差分，得到k帧正差分图像D₀₊。将k帧差分图像中的正差分设置为0、保留负差分，得到k帧负差分图像D_0-。其中，负差分是指差分图像中为负数的像素值(差值)，正差分是值差分图像中为正数的像素值(差值)。

然后，将k个正差分图像D₀₊和k个负差分图像D_0-进行通道拼接，例如正差分图像DP₀₊的数据维度为k×24×32，负差分图像DP_0-的数据维度为k×24×32，将正差分图像DP₀₊和负差分图像DP_0-进行通道拼接，得到差分样本DP的维度为k×24×32×2。也即，差分样本即包括k个正差分图像，也包括k个负差分图像。

在此实施例中，通过将正差分图像和负差分图像拼接通道，使得差分样本包括k个正差分图像和k个负差分图像，从而，使得后续神经网络能够综合正差分图像和负差分图像去学习热源的帧间温度变化和位置变化等特征。

基于干扰热源在连续帧中会发生温度变化、位置不变，静态人体热源温度相对稳定、身体某些部位(例如头部和四肢)可能发生轻微晃动的特点，通过分析帧间温度变化和位置变化等特征预测静态热源的类别。从而，训练得到的静态人体检测模型也具备通过分析帧间温度变化和位置变化等特征检测静态人体的能力，使得检测准确度更高。

S30：采用若干个训练样本，对预先设置的神经网络进行迭代训练，直至神经网络收敛，得到静态人体检测模型。

将若干个训练样本作为输入神经网络的训练数据，对预先设置的神经网络进行训练，不断调整神经网络的参数，在损失函数的约束下，神经网络输出的预测标签会越来越接近真实标签。当由损失函数计算的损失在一定范围内波动或达到某一值时，神经网络收敛，将收敛时的参数作为模型参数，得到静态人体检测模型。

在此实施例中，将差分样本和静态热源样本拼接合并后，作为训练集进行训练。由于差分样本能够反映热源的帧间温度变化和位置变化，从而，神经网络能够学习到帧间温度变化和位置变化等特征，基于干扰热源在连续帧中会发生温度变化、位置不变，静态人体热源温度相对稳定、身体某些部位(例如头部和四肢)可能发生轻微晃动的特点，通过分析帧间温度变化和位置变化等特征预测静态热源的类别。从而，训练得到的静态人体检测模型也具备通过分析帧间温度变化和位置变化等特征检测静态人体的能力，使得检测准确度更高。从而，训练得到的静态人体检测模型具备准确区分静态人体和干扰热源的能力，准确检测出未发生移动的人体，有效解决了决干扰热源易误判为有人、静态人体存在而漏判的难点问题。

其中，神经网络包括编码器和解码器，编码器包括卷积神经网络，卷积神经网络用于提取静态热源样本中静态热源在单帧图像层面上的特征。解码器包括循环神经网络，循环神经网络用于提取静态热源样本中静态热源在时间维度上的特征，并输出预测标签。

可以理解的是，卷积神经网络(Convolutional Neural Networks，简称CNN)是一种具有局部连接、权值共享等特点的前馈神经网络(Feedforward Neural Networks)。卷积神经网络的基本结构大致包括：输入层、隐藏层和输出层等。层与层之间是全连接的，每层之间的节点是无连接的，因此，前馈神经网络不考虑数据之间的关联性，网络的输出只和当前时刻网络的输入相关。因此，卷积神经网络能够对训练样本中的每帧图像数据进行特征提取，学习静态热源在单帧内的形状特征、温度分布特征。

循环神经网络(Recurrent Neural Network,RNN)的基本结构大致包括：输入层、隐藏层和输出层等。在循环神经网络中，隐藏层之间的节点是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。从而，循环神经网络会对前面的信息进行记忆并应用于当前输出的计算中。这使得循环神经网络具有时序性，对时序数据具有记忆功能。从而，循环神经网络能够学习到训练样本中静态热源在时序上的特征及其变化，即静态热源在连续的多帧中形状特征、温度分布特征的变化。并基于这些特征变化，输出预测标签。预测标签即为训练样本中静态热源的预测类别。

在此实施例中，通过设置卷积神经网络和循环神经网络，使得神经网络能够从单帧和时间维度两方面，提取静态热源的形状特征、温度分布特征和其在时间维度上的帧间差异特征，基于这些特征对静态热源进行分类，有利于提高分类结果的准确性。从而，能够加快神经网络收敛，得到检测准确的静态人体检测模型。

在一些实施例中，卷积神经网络包括用于提取静态热源的形状大小特征的第一构建层和用于提取静态热源的温度分布特征的第二构建层。

其中，第一构建层包括卷积层和至少一个第一逆残差模块，卷积层后配置有批量标准化层和激活层，第一构建层被配置为对通道进行扩展，不对分辨率进行降维。

请参阅图6，卷积层(Conv 3*3,F＝8，S＝1)后配置有批量标准化层(Batchnorm)和激活层(Activation(‘ReLU6’))。激活层后连接有1个第一残差模块。则输入的训练样本依次经过卷积层进行卷积处理、批量标准化层进行归一化处理、激活层进行激活处理以及第一逆残差模块(Bottleneck_1)进行特征提取后，再输入第二构建层。图6仅以1个第一残差模块Bottleneck_1)进行示例性说明，可以理解的是，在其它实施例中，第一构建层包括2个或多个第一逆残差模块。

请再次参阅图6，将包括k帧大小为24*32、通道为3的图像的训练样本作为输入，其维度为(k，24，32，3)，第一维度k是训练样本中图像的帧数，第二维度24和第三维度32是单帧图像的大小，第四维度3是图像的通道数。

图6中，配置参数F为做卷积时输出的滤波器数量(即第四维度通道数转化后的值)，配置参数S是在卷积运算时卷积核的移动步长，c是逆残差模块输出的滤波器数量(即第四维度通道数转化后的值)。

在此实施例中，基于为了用户隐私采用分辨率较低的训练样本，即第二维度与第三维度较小，在至少一个第一逆残差模块中不对样本数据的分辨率大小进行降维，而是在第1个卷积层对通道进行扩展，即对通道数进行升维，从而，能够有利于神经网络学习到热源的形状大小等基础性特征。

请参阅图7，输入的数据先通过第一逐点卷积层(Conv 1*1)进行通道扩展，然后连接第一深度卷积层(DwConv 3*3)提取特征，最后再通过第二逐点卷积层(Conv 1*1)进行通道压缩。通道先扩展，提取特征后再压缩，能够实现大幅度降低参数量和计算量。

其中，每个逐点卷积层后面都配置有批量标准化层(BatchNorm)和激活层(Activat ion)，且第一逐点卷积层和第一深度卷积层后的激活层采用的激活函数均为ReLU6＝min(6,max(0,x))。该激活函数ReLU6用于将特征数据中小于0的值置为0、大于6的值置为6，而介于0至6之间的值不变。采用ReLU6可以使得模型在低精度计算下具有更强的鲁棒性。第二逐点卷积层后激活层采用的激活函数为线性函数Linear＝a·x，系数a的取值一般为1，此处使用线性激活函数Linear可以使得低维空间下的特征不被破坏。

图7中，配置参数F为做卷积时输出的滤波器数量(即第四维度通道数转化后的值)，配置参数S是在卷积运算时卷积核的移动步长，c是逆残差模块输出的滤波器数量(即第四维度通道数转化后的值)，m是输入数据通道数c1的扩展因子。第一深度卷积层对输入数据的每个通道单独用一个卷积核进行卷积映射，卷积核的滑动步长s取值为1或2。第一逆残差模块输入与输出数据的通道数不一致。

相比于残差网络模块一般是先通过逐点卷积层(Conv 1*1)进行通道压缩，然后中间连接卷积层(Conv 3*3)进行特征提取，最后再通过逐点卷积层(Conv1*1)进行通道数扩展，此实施例中第一逆残差模块对输入的数据先进行通道扩展，采用第一深度卷积层提取特征时通道不变，提取特征后再进行通道压缩，在有效提取特征的同时能够实现大幅度降低参数量和计算量。

请再次参阅图6，第二构建层包括多个交叉堆叠设置的第一逆残差模块和第二逆残差模块，第二构建层被配置为对分辨率进行降维，对通道进行扩展。

可以理解的是，第二逆残差模块是一个与第一逆残差模块不同的逆残差模块。在一些实施例中，第二逆残差模块包括级联的第三逐点卷积层、第二深度卷积层和第四逐点卷积层，各逐点卷积层后均配置有批量标准化层和激活层；第三逐点卷积层的输入还与第二逆残差模块中最后一层的输出跳跃连接；其中，第三逐点卷积层用于通道扩展，第二深度卷积层用于特征提取，第四逐点卷积层用于通道压缩。

如图8所示，输入的数据先通过第三逐点卷积层(Conv 1*1)进行通道扩展，然后连接第二深度卷积层(DwConv 3*3)提取特征，最后再通过第四逐点卷积层(Conv 1*1)进行通道压缩。通道先扩展，提取特征后再压缩，能够实现大幅度降低参数量和计算量。此外，第二逆残差模块中各逐点卷积层后配置的批量标准化层和激活层与第一逆残差模块中的相同，在此不再赘述。

图8中，配置参数F为做卷积时输出的滤波器数量(即第四维度通道数转化后的值)，配置参数S是在卷积运算时卷积核的移动步长，c是逆残差模块输出的滤波器数量(即第四维度通道数转化后的值)，m是输入数据通道数c的扩展因子。第二深度卷积层对输入数据的每个通道单独用一个卷积核进行卷积映射，卷积核的滑动步长s取值为1。第二逆残差模块输入与输出数据的通道数一致。

此外，与第一逆残差模块的不同处还包括：第三逐点卷积层的输入还与第二逆残差模块中最后一层的输出跳跃连接。即第二逆残差模块的输入数据与最后一个激活层输出的数据进行相加处理，输出最终的特征图。从而，使得第二逆残差模块输出的特征图能够保留输入数据的特征，使得训练样本在特征提取的过程中能够减少失真。

在此实施例中，通过在第二构建层将多个第一逆残差模块和第二逆残差模块交叉堆叠设置，将输入数据的分辨率逐渐进行降维，通道数逐渐扩展，能够有利于神经网络学习到静态热源的温度分布特征。也即，有利于神经网络学习静态人体热源与干扰热源的温度分布差异性等深层特征。

在一些实施例中，循环神经网络包括至少一个长短期记忆网络和至少一个全连接层。

其中，至少一个长短期记忆网络用于学习静态热源样本中静态热源在时域上的差异性和关联性；至少一个全连接层用于将特征映射至二分类空间。

请再次参阅图6，循环神经网络包括2个长短期记忆网络(Recurrent NeuralNetwork，LSTM)。长短期记忆网络是机器学习领域的现有网络，在此不对其结构进行详细介绍。本领域技术人员可以理解的是，长短期记忆网络是一种用于处理序列数据的神经网络。相比一般的神经网络来说，其能够处理序列变化的数据。因此，在此实施例中，长短期记忆网络的主要作用是聚合训练样本中k帧图像的隐层特征，并学习时序帧之间的帧间差异特征和关联性特征，例如人体存在时的身体轻微晃动、干扰热源的升温与降温等造成的帧间差异特性和关联性特征。

在一些实施例中，请再次参阅图6，最后一个长短期记忆网络后连接有两个全连接层，这两个全连接层之间设置有Dropout层，Dropout层用于在训练当中随机减掉一些神经元，有利于避免模型训练时过拟合，从而增强模型的鲁棒性。第2个全连接层后配置有softmax函数。

其中，全连接层用于将输入的特征图展平成一维的向量。第一个全连接层生成一个长度为32的一维向量，其作用是特征加权。第二个全连接层生成一个长度为2的一维向量，其作用是将训练样本特征空间映射到静态热源二分类标记空间。最后，通过softmax函数输出目标区域的静态热源被划分为静态人体热源的概率和属于所述干扰热源的概率。

在一些实施例中，通过比较输出的概率值p₁与预先设定的阈值p₀的大小判断目标区域中的静态热源是否为人体热源，即：

其中，presence为目标区域人体存在状态值，presence为0表示目标区域内的静态热源为干扰热源，presence为1表示目标区域中的静态热源为人体热源。

在此实施例中，通过设置包括至少一个长短期记忆网络和至少一个全连接层的循环神经网络，一方面，能够帮助神经网络学习时序帧之间的帧间差异特征和关联性特征，还能对数据进行递进式降维，避免过拟合，增加模型的鲁棒性。

在一些实施例中，训练过程中所采用的损失函数包括：

其中，Loss为损失和，N为训练样本数量，w_i为第i个训练样本中检测到存在热源的帧数占比，为第i个训练样本对应的预测标签，y_i为第i个训练样本对应的真实标签。y_i的取值为0或1，取值为0时表示该训练样本中的静态热源为干扰热源，取值为1时表示该训练样本中存在人体热源。

在此实施例中，将每个训练样本中检测到存在热源的帧数占比作为预测标签和真实标签之间差异的加权系数，一方面，能够有效避免训练过程中难以学习的困难样本所产生的损失被简单样本所稀释而导致困难样本未被充分学习的问题；另一方面，能够有效避免热源无法被分割的红外图像造成的干扰。

下面结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的滞留检测方法。请参阅图9，图9是本申请实施例提供的滞留检测方法的流程示意图。可以理解的是，该滞留检测方法的执行主体可以是电子设备的一个或多个处理器。

如图9所示，该方法S200具体可以包括以下步骤：

S201：获取红外视频。

其中，红外视频是采用红外摄像头对目标区域进行采集得到的具有时序性的红外图像序列。可以理解的是，该红外视频是由上述实施例中红外摄像头在t秒内对目标区域按一定的频率进行拍摄采样，采集到的。例如，t为5秒，采集频率f为20，则红外视频中有100张按采集时间顺序排列的红外图像序列。目标区域是用户居住场所中需要进行监控的区域，例如卫生间或客厅等。

S202：根据红外视频，确定目标区域内是否存在热源。

可以理解的是，红外图像中每个像素点反应对应区域的温度值，若目标区域内存在热源，则红外图像中热源所在位置区域的温度值将高于无热源区域的温度值。因此，可以依据红外图像中的温度分布，确定目标区域内是否存在热源。

考虑到单帧红外图像的信息有限，可能存在少数帧红外图像无法明显反映热源的情况，使得基于单帧的检测具有偶发性，误差较大，因此，采用红外视频中的多个红外图像，确定目标区域内是否存在热源，能够使得热源检测更加准确。

在一些实施例中，前述步骤S202具体包括：

(1)遍历红外视频，确定每一帧红外图像对应的第一温度阈值。

(2)针对红外图像中的像素点，筛选出温度大于或等于第一温度阈值的像素点，构成热斑区域，若热斑区域的最大连通面积大于或等于第一面积阈值，则确定红外图像存在热源。

(3)当红外视频遍历完成后，若存在热源的红外图像的数量大于或等于第一数量阈值，则确定所述目标区域内存在热源。

可以理解的是，第一温度阈值是判断像素点是否属于热源的温度临界值。对于任意一帧红外图像，对应有自己的第一温度阈值。也就是说，红外视频中的各个红外图像，采用的第一温度阈值不是完全相同的。可以理解的是，目标区域中温度受环境、物体种类、传感器自身影响，每一红外图像中温度分布不同，例如，同样的场景(同样的温度分布)在两个红外图像中温度分布不同。若采用统一的绝对阈值，会造成一些红外图像的阈值不合理，影响热斑区域的提取。因此，在此实施例中，每帧红外图像，对应有自己的第一温度阈值，有益于后续准确分割提取热斑区域。

在一些实施例中，可以对红外图像中各像素点的温度进行统计，例如，将红外图像中各像素点的温度按从小到大排序，形成温度序列。根据位于温度序列上四分位数位置的温度值和位于温度序列下四分位数位置的温度值，计算第一温度阈值。在一些实施例中，可以采用如下公式计算第一温度阈值：

threshold_1＝Q3+α*(Q3-Q1)

其中，threshold_1为第一温度阈值，α为参数因子，例如α∈[0.5,2.0]。Q1为每帧红外图像对应的温度值的下四分位数；Q3为每帧红外图像对应的温度值的上四分位数。

在此实施例中，根据红外图像中各像素点的温度分布，确定第一温度阈值，使得第一温度阈值能够与该红外图像相匹配，准确分割提取出热斑区域。

将红外图像中的各个像素点对应的温度值，分别与第一温度阈值进行比较，若某一像素点的温度值大于或等于第一温度阈值，则将该像素点划分至热斑区域。可以理解的是，当对红外图像中的各个像素点完成筛选后，得到热斑区域。

然后，计算热斑区域的最大连通面积，即最大连通区域中像素点的个数。第一面积阈值为判断红外图像是否包括热源的临界值，可以排除异常像素块。在一些实施例中，第一面积阈值可以基于面积较小的热源确定，能够大致区分热源和异常像素块。

由此，若热斑区域的最大连通面积大于或等于第一面积阈值，可以有效排除异常像素块，区分热源。从而，可以确定红外图像中存在热源。

可以理解的是，考虑到单帧红外图像进行热源检测的偶发误差，这里，采用红外视频进行热源检测。即，当红外视频遍历完成后，若红外视频中存在热源的红外图像的数量大于或等于第一数量阈值M1，则确定红外视频中存在热源。

其中，第一数量阈值M1可以根据红外视频中红外图像的总帧数确定，在一些实施例中，第一数量阈值M1＝β*k，其中，β取值为[0.4,0.8]),k为红外视频的总帧数。

在此实施例中，通过上述方式，能够规避采用单帧红外图像进行热源检测的偶发误差，使得热源检测准确。

S203：若存在热源，根据红外视频，确定热源是否发生移动。

若存在热源，该热源可能是静态干扰热源，也可能是人体热源。为了进一步区分，根据红外视频，确定热源是否发生移动。可以理解的是，若发生移动，说明目标区域内存在人体。若未发生移动，则热源可能是静态干扰热源，也有可能是静态的人体热源，即目标区域内可能存在人体。

在一些实施例中，前述步骤S203具体包括：

(1)对红外视频进行差分处理，得到差分序列。

(2)遍历差分序列，确定每一帧差分图像分别对应的第二温度阈值。

(3)针对差分图像中的像素点，筛选出差值不小于第二温度阈值的像素点，构成移动区域，若移动区域的最大连通面积大于或等于第二面积阈值，则确定差分图像中热源存在移动。

(4)当差分序列遍历完成后，若差分序列中存在热源移动的差分图像的数量大于或等于第二数量阈值，则确定该热源发生移动。

其中，差分处理是指将两个图像按对应像素点位置进行像素值相减运算。可以理解的是，红外视频的两幅图像中未发生重合部分的像素区域对应的差分值较大，发生重合部分的像素区域的差分值接近于0。由于红外视频中每帧红外图像中的静态热源的位置近乎不会发生变化，从而，差分计算可以消除红外视频中的静态热源。

在一些实施例中，从第2帧起依次计算每帧红外图像与第1帧红外图像的差值，即得到包括k-1帧差分图像的差分序列。

可以理解的是，第二温度阈值是判断差分图像中像素点是否属于未发生重合部分的像素区域的温度临界值。对于任意一帧差分图像，对应有自己的第二温度阈值threshold_2。在一些实施例中，也可以采用公式threshold_2＝Q3′+β*(Q3′-Q1′)计算第二温度阈值threshold_2。其中，β∈[0.5,2.0]为参数因子，Q1′为每帧差分图像对应的温度值的下四分位数；Q3′为每帧差分图像对应的温度值的上四分位数。

筛选出差值不小于温度阈值的像素点，构成移动区域，若移动区域的最大连通面积大于或等于第二面积阈值，则确定差分图像中热源存在移动。

将差分图像中的各个像素点对应的温度值，分别与第二温度阈值threshold_2进行比较，若某一像素点的温度值大于或等于第二温度阈值threshold_2，则将该像素点划分至移动区域。可以理解的是，当对差分图像中的各个像素点完成筛选后，得到移动区域。

然后，计算移动区域的最大连通面积，即最大连通区域中像素点的个数。第二面积阈值为判断差分图像中热源发生移动的临界值，可以排除异常像素点。

由此，若移动区域的最大连通面积大于或等于第二面积阈值，则说明热源发生移动。若移动区域的最大连通面积小于第二面积阈值，则说明热源未发生移动。

可以理解的是，考虑到运动在时间上的连续性以及单帧差值图像进行移动检测的偶发误差，这里，采用包括k-1帧差分图像的差分序列进行移动检测。即，当遍历完成后，若差分序列中存在热源移动的差分图像的数量大于或等于第二数量阈值，说明运动存在持续性，则确定热源发生了移动，否则，确定热源未发生移动。其中，第二数量阈值可以根据移动特性确定，例如，在一些实施例中，第二数量阈值可以是1或者2。

在此实施例中，通过对红外视频进行差分计算，计算各个差分图像中移动区域的面积，筛选出移动区域的最大连通面积大于或等于第二面积阈值的差分图像，基于筛选出的差分图像的数量大于或等于第二数量阈值，能够准确确定热源是否发生移动。

若热源发生移动，说明热源是人体，目标区域内存在人体。若热源未发生移动，则热源可能是静态干扰热源，也有可能是静态的人体热源，需要进一步检测。

S204：若发生移动，则确定目标区域内存在人体，并累计人体的滞留时长。

可以理解的是，若热源发生移动，说明目标区域内存在人体。在确定目标区域内存在人体后，获取下一个红外视频进行人体检测，并累计人体的滞留时长。在一些实施例中，若检测到当前的红外视频中存在人体，则将红外视频对应的时间t累计入滞留时长，若在下一个红外视频中未检测到人体，则将滞留时长清零，若在下一个红外视频中检测到人体，则将时间t累计入滞留时长。

S205：若未发生移动，则对红外视频进行差分处理，得到差分样本，并将红外视频中的每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本，其中，差分样本包括与每帧红外图像对应的差分图像。

该步骤S205的具体实现过程请参照步骤S20中的描述，在此不再重复赘述。差分样本能够反映热源的帧间温度变化和位置变化。将红外视频中每帧红外图像和红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本。

S206：采用预先训练好的静态人体检测模型对所述测试样本进行检测，若检测出所述目标区域内存在人体，则累计所述人体的滞留时长，其中，所述静态人体检测模型是上述任意一项实施例中训练静态人体检测模型的方法训练得到的。

若热源未发生移动，则热源可能是静态干扰热源，也有可能是静态的人体热源，则采用预先训练好的静态人体检测模型对红外视频进行检测，若检测出目标区域内存在人体，则累计人体的滞留时长。在一些实施例中，若检测到当前的红外视频中存在人体，则将红外视频对应的时间t累计入滞留时长，若在下一个红外视频中未检测到人体，则将滞留时长清零，若在下一个红外视频中检测到人体，则将时间t累计入滞留时长。

其中，静态人体检测模型是采用大量的训练样本对神经网络进行训练，得到的模型。也就是说，采用大量丰富的训练样本对神经网络进行训练，使得神经网络能够学习静态人体热源和干扰热源的单帧特征及时域特征，从而，训练得到的静态人体检测模型具备准确区分静态人体和干扰热源的能力，准确检测出未发生移动的人体。

S207：若滞留时长大于或等于预设的时长阈值，则确定人体发生滞留。

通过比较人体在目标区域的滞留时长stay_time与预先设置的时长阈值stay_time_threshold之间的大小，能够准确确定人体发生滞留异常行为风险，并依此决定在当前时刻上报人体在目标区域超时滞留的告警信息，能够满足看护需求。

在一些实施例中，采用以下公式确定是否发生滞留异常行为；

其中，alarm表示当前时刻人体在目标区域是否发生滞留行为，即当前时刻是否需要上报滞留告警信息到终端用户。若alarm值为1，表示当前时刻人员在目标区域发生滞留行为，需要进行告警；若alarm值为0，表示当前时刻人员在目标区域还未发生滞留行为，无需告警。

由上可知，在一些实施例中，通过对红外视频进行热源移动检测和采用静态人体检测模型检测人体，不仅能够发现移动的人体，还能够发现处于静态下的人体，对移动的人体或静态的人体都能进行滞留计时检测，从而，有效解决了因静态的干扰热源易误判为有人、静态人体存在而漏判，而导致滞留检测不准确的难点问题。此外，结合移动检测和静态人体检测模型，发现人体并进行滞留检测，一方面，对阳光、热水、加热物体等静态热源引起的干扰具有较高的鲁棒性，检测准确率高，另一方面，能够有效规避用户隐私暴露问题。

在一些实施例中，为了减小静态人体检测模型的检测误差对后续滞留检测的影响，对静态人体检测模型输出的检测结果进行校验。具体地，取位于当前的红外视频之间的m个红外视频对应的检测结果，作为参考对象，确定静态人体检测模型的最终检测结果。

可以理解的是，对于静态热源，在短时间内存在延续性。采用当前时刻前的m个检测结果，确定静态人体检测模型的最终检测结果，使得检测结果更加平稳准确。

在一些实施例中，该方法S200还包括：

S208：若静态人体检测模型的检测结果和前m个检测结果一致，则将静态人体检测模型的检测结果作为最终检测结果；其中，前m个检测结果是位于红外视频之前的m个红外视频对应的检测结果。

S209：若静态人体检测模型的检测结果和前m个检测结果不一致，则将上一个检测结果作为最终检测结果，其中，上一个检测结果是位于红外视频之前的相邻的红外视频对应的检测结果。

可以理解的是，前m个检测结果中的至少一个也可能是通过检测热源是否移动确定的，在前m个检测结果为无人体的情况下，静态人体检测模型的检测结果和前m个检测结果一致，说明检测结果稳定，符合实际情况。在前m个检测结果为存在人体的情况下，静态人体检测模型的检测结果和前m个检测结果一致，说明人体确实处于静止状态，检测结果稳定准确。因此，在静态人体检测模型的检测结果和前m个检测结果一致的情况下，则将静态人体检测模型的检测结果作为最终检测结果。

在前m个检测结果为无人体的情况下，静态人体检测模型的检测结果和前m个检测结果不一致，说明静态人体检测模块可能将静态干扰热源误判为人体，出现误检。因此，将上一个检测结果作为最终检测结果，即最终检测结果延续之间的检测结果，使得最终检测结果更加准确。

在前m个检测结果为存在人体的情况下，静态人体检测模型的检测结果和前m个检测结果不一致，说明静态人体检测模块可能将静态下的人体误判为静态干扰热源，出现误检。因此，将上一个检测结果作为最终检测结果，即最终检测结果延续之间的检测结果，使得最终检测结果更加准确。

在此实施例中，通过上述校对方式，使得最终检测结果更加准确，能够避免检测结果出现频繁波动，同时降低了人体在目标区域发生滞留而出现漏检漏报的情况。

综上所述，本申请一些实施例提供的滞留检测方法，通过对红外视频进行热源移动检测和采用静态人体检测模型检测人体，不仅能够发现移动的人体，还能够发现处于静态下的人体，对移动的人体或静态的人体都能进行滞留计时检测，从而，有效解决了因静态的干扰热源易误判为有人、静态人体存在而漏判，而导致滞留检测不准确的难点问题。此外，结合移动检测和静态人体检测模型，发现人体并进行滞留检测，一方面，对阳光、热水、加热物体等静态热源引起的干扰具有较高的鲁棒性，检测准确率高，另一方面，能够有效规避用户隐私暴露问题。

本申请实施例还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的训练静态人体检测模型的方法或滞留检测方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CDROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括一条或多条程序代码，该程序代码存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，以完成上述实施例中提供的训练静态人体检测模型的方法的步骤或滞留检测方法的步骤。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种训练静态人体检测模型的方法，其特征在于，包括：

获取若干个静态热源样本，所述静态热源样本包括具有时序性的k帧红外图像，各所述静态热源样本均标注有真实标签，所述真实标签反映所述静态热源样本中的静态热源属于静态人体热源或干扰热源，其中，k为大于1的整数；

对所述静态热源样本进行差分处理，得到差分样本，并将所述静态热源样本中的每帧红外图像和所述红外图像在差分样本中对应的差分图像进行通道拼接，得到训练样本，其中，所述差分样本包括与k帧红外图像对应的k帧差分图像；

采用若干个所述训练样本，对预先设置的神经网络进行迭代训练，直至所述神经网络收敛，得到所述静态人体检测模型；

其中，所述神经网络包括编码器和解码器，所述编码器包括卷积神经网络，所述卷积神经网络用于提取所述静态热源样本中的静态热源在单帧图像层面上的特征；所述解码器包括循环神经网络，所述循环神经网络用于提取所述静态热源样本中的静态热源在时间维度上的特征，并输出预测标签。

2.根据权利要求1所述的方法，其特征在于，所述对所述静态热源样本进行差分处理，得到差分样本，包括：

将所述静态热源样本中的k帧红外图像均依次与第1帧红外图像做差分计算，得到k帧差分图像；

将所述k帧差分图像中的负差分设置为0、保留正差分，得到k帧正差分图像；以及，将所述k帧差分图像中的正差分设置为0、保留负差分，得到k帧负差分图像，其中，所述负差分为所述差分图像中为负数的像素值，所述正差分为所述差分图像中为正数的像素值；

将所述k帧正差分图像和所述k帧负差分图像分别进行通道拼接，得到所述差分样本。

3.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括用于提取所述静态热源的形状大小特征的第一构建层和用于提取所述静态热源的温度分布特征的第二构建层；

其中，所述第一构建层包括卷积层和至少一个第一逆残差模块，所述卷积层后配置有批量标准化层和激活层，所述第一构建层被配置为对通道进行扩展，不对分辨率进行降维；

所述第二构建层包括多个交叉堆叠设置的所述第一逆残差模块和第二逆残差模块，所述第二构建层被配置为对分辨率进行降维，对通道进行扩展。

4.根据权利要求3所述的方法，其特征在于，所述第一逆残差模块包括级联的第一逐点卷积层、第一深度卷积层和第二逐点卷积层，各逐点卷积层后均配置有批量标准化层和激活层；其中，所述第一逐点卷积层用于通道扩展，所述第一深度卷积层用于特征提取，所述第二逐点卷积层用于通道压缩。

5.根据权利要求4所述的方法，其特征在于，所述第二逆残差模块包括级联的第三逐点卷积层、第二深度卷积层和第四逐点卷积层，各逐点卷积层后均配置有批量标准化层和激活层；所述第三逐点卷积层的输入还与所述第二逆残差模块中最后一层的输出跳跃连接；其中，所述第三逐点卷积层用于通道扩展，所述第二深度卷积层用于特征提取，所述第四逐点卷积层用于通道压缩。

6.根据权利要求1所述的方法，其特征在于，所述循环神经网络包括至少一个长短期记忆网络和至少一个全连接层；

其中，所述至少一个长短期记忆网络用于学习所述静态热源样本中的静态热源在时域上的差异性和关联性；所述至少一个全连接层用于将特征映射至二分类空间。

7.一种滞留检测方法，其特征在于，包括：

获取红外视频，所述红外视频是采用红外摄像头对目标区域进行采集得到的具有时序性的红外图像序列；

根据所述红外视频，确定所述目标区域内是否存在热源；

若存在热源，根据所述红外视频，确定所述热源是否发生移动；

若发生移动，则确定所述目标区域内存在人体，并累计所述人体的滞留时长；

若未发生移动，则对所述红外视频进行差分处理，得到差分样本，并将所述红外视频中的每帧红外图像和所述红外图像在差分样本中对应的差分图像进行通道拼接，得到测试样本，其中，所述差分样本包括与每帧红外图像对应的差分图像；

采用预先训练好的静态人体检测模型对所述测试样本进行检测，若检测出所述目标区域内存在人体，则累计所述人体的滞留时长，其中，所述静态人体检测模型是采用如权利要求1-6中任意一项所述方法训练得到的；

若所述滞留时长大于或等于预设的时长阈值，则确定所述人体发生滞留。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

若所述静态人体检测模型的检测结果和前m个检测结果一致，则将所述静态人体检测模型的检测结果作为最终检测结果；其中，所述前m个检测结果是位于所述红外视频之前的m个红外视频对应的检测结果；

若所述静态人体检测模型的检测结果和所述前m个检测结果不一致，则将上一个检测结果作为最终检测结果，其中，所述上一个检测结果是位于所述红外视频之前的相邻的红外视频对应的检测结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；和

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行如权利要求1-8任一项所述的方法。