CN104933436B

CN104933436B - 具有动态完整性评分的基于视觉的多摄像头工厂监测

Info

Publication number: CN104933436B
Application number: CN201410275796.1A
Authority: CN
Inventors: J.W.威尔斯; K.金; S.梅达萨尼; Y.奥维可科
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-03-19
Filing date: 2014-06-19
Publication date: 2018-09-14
Anticipated expiration: 2034-06-19
Also published as: CN104933436A

Abstract

本发明公开了一种具有动态完整性评分的基于视觉的多摄像头工厂监测。人监视系统包括视觉处理器和多个摄像头。多个摄像头绕工作空间区域布置，其中每一个摄像头配置为捕获视频馈送，视频馈送包括多个图像帧，且多个图像帧在相应摄像头之间是时间同步的。视觉处理器配置为从多个基于视觉的成像装置接收多个图像帧且确定用于每一个相应图像帧的完整性评分。处理器可以随后将前景部分从两个或更多视图分离，确定用于每一个相应前景部分的主本体轴线，且根据各主本体轴线中的加权的最小二乘函数确定位置点。

Description

具有动态完整性评分的基于视觉的多摄像头工厂监测

技术领域

本发明总体涉及用于追踪人的视觉监视系统。

背景技术

在许多组装环境下使用工厂自动化。为了实现更灵活的制造过程，需要能允许机器人和人自然地且有效地协作，以执行不必重复的任务的系统。人-机器人互动需要新的机器认知水平，其超越了其中所有部件在已知位置开始的通常的记录/回放式的控制。以这种方式，机器人控制系统必须理解人的位置和行为，且随后必须基于人的动作调整机器人的行为。

发明内容

一种人监视系统，包括多个摄像头和视觉处理器。多个摄像头绕工作空间区域布置，其中每一个摄像头配置为捕获视频馈送，该视频馈送包括多个图像帧，且多个图像帧在相应摄像头之间是时间同步的。

视觉处理器配置为从多个基于视觉的成像装置接收多个图像帧且从使用在输入图像上执行的模式匹配而从多个图像帧中的至少一个检测人的存在。用于模式匹配的输入图像是图像帧的滑动窗部分，其与校正坐标系对准，从而工作空间区域中的垂直轴线与输入图像的垂直轴线对准。

如果检测到人靠近自动可动设备，则系统可以提供警告和/或改变自动可动设备的行为。在一种构造中，系统/系统处理器可以配置为构造位于工作空间中的物体/人的概率图示。

在工作空间中构造物体位置的概率图示的方法可包括获得工作空间的多个2D图像，每一个相应2D图像从布置在工作空间中不同位置处的摄像头获取。系统可以确定用于每一个摄像头的完整性评分，所述评分与图像的视觉清楚性相关。更具体地，完整性评分与绝对像素差、全局或局部直方图差、和相应2D图像与来自同一摄像头的在先2D图像之间的绝对边缘差中的至少一个有关。

在多个2D图像的至少两个内识别前景部分。系统可以确定用于每一个识别前景部分的主本体轴线。主本体轴线是相应前景部分的平均中线且与图像的消失点对准。一旦被确定，则系统可以将每一个被检测的主本体轴线映射到地面平面，所述地面平面与工作空间的地面重合。在各种映射的主本体轴线的位置处观察，系统可以确定地面平面中的代表物体的位置的位置点。如果线不以单个位置相交，则该位置点可以被选择以使得每一个映射主本体轴线中的加权最小二乘函数最小化。加权可以根据用于一视图的完整性评分进行，每一个相应主本体轴线从所述视图映射。

在又一种构造中，每一个前景部分被投影到多个平行间隔开的平面的每一个。多个平面中的每一个内识别一区域，多个投影前景部分在该区域中重叠。这些识别区域被组合以形成物体的3D边界包络。

系统可以执行控制动作，如果边界包络重叠预定体积空间。控制动作可以例如包括修改邻近机器人的行为，调整自动机械的性能，或通过声音或光照发出警报。

在一种构造中，处理器可以使用边界包络以验证确定的位置点。例如，如果位置点在边界包络中，则系统可以记录该位置点的坐标。

系统可以进一步配置为组合运动轨迹，所述运动轨迹代表一段时间段上位置点的位置。在该运动轨迹中，系统可以进一步识别位置点在工作空间中运动的一部分时间段，和识别位置点在工作空间中静止的一部分时间段。在位置点静止的该一部分时间段期间，系统可以配置为确定物体执行的动作。

在另一构造中，系统可以将地面平面与多个平面融合以形成平面概率图。另外，系统可以确定边界包络的主轴线，所述主轴线代表人/物体的垂直轴线。边界包络的主轴线被选择为与地面平面相交且限定第二位置点。一旦确定，则第二位置点可以与经由映射的本体轴线确定的位置点融合，以形成细化的位置点。

为了形成细化的对象原型，边界包络可以进一步与工作空间的立体像素图示或立体深度图示融合。系统例如可以监视细化的物体原型的一部分的速度和加速度中的至少一个，且可以基于速度和加速度中的所述至少一个改变自动装置的行为。

根据本发明的一方面，提供一种识别工作空间中物体位置的方法，该方法包括:

获得工作空间的多个2D图像，每一个相应2D图像从布置在工作空间中不同位置处的摄像头获取；

确定用于每一个相应2D图像的完整性评分，完整性评分与绝对像素差、全局或局部直方图差、和相应2D图像与来自同一摄像头的在先2D图像之间的绝对边缘差中的至少一个有关；

识别多个2D图像中至少三个内的前景部分；

确定用于每一个识别的前景部分的主本体轴线，主本体轴线是相应前景部分的平均中线且与相应图像的消失点对准；

将确定的主本体轴线从每一个相应2D图像映射到共同的地面平面，所述共同的地面平面与工作空间的地面重合；

确定地面平面中的位置点，其中该位置点使得每一个映射的主本体轴线中的最小二乘函数最小化，且其中根据用于每一个相应2D图像的完整性评分对最小二乘函数加权；和

其中该位置点代表工作空间中物体的点位置。

优选地，所述方法进一步包括:

将前景部分从每一个相应的2D图像投影到多个平行间隔开的平面中的每一个；

识别多个平面中每一个内的多个投影的前景部分在其中重叠的区域；

将来自多个平面中的每一个的识别区域组合，以形成物体的3D边界包络；和

其中边界包络为工作空间中物体位置的3D概率图示。

优选地，所述方法进一步包括如果边界包络与预定体积空间重叠，则执行控制动作。

优选地，所述方法进一步包括如果位置点在边界包络中，则记录该位置点的坐标。

优选地，所述方法进一步包括组合运动轨迹，其中运动轨迹代表在一段时间上的位置点的位置；和

识别位置点在工作空间中运动的一部分时间段，和识别位置点在工作空间中静止的一部分时间段。

优选地，所述方法进一步包括确定位置点在工作空间中静止的该一部分时间段期间物体执行的动作。

优选地，所述方法进一步包括:

确定边界包络的主轴线，其中边界包络的主轴线与地面平面相交，以限定第二位置点；和

将地面平面中经确定的位置点与第二位置点融合，以形成进一步完善的位置点。

优选地，所述方法进一步包括将边界包络与工作空间的立体像素图示融合，以形成进一步完善的物体原型。

优选地，所述方法进一步包括确定进一步完善的物体原型的一部分的速度和加速度中的至少一个。

优选地，所述方法进一步包括基于速度和加速度中的至少一个对自动装置的行为发出警告。

优选地，其中多个平行间隔开的平面包括至少三个平面；并且

其中至少三个平面中的一个包括地面平面。

根据本发明的另一方面，提供一种系统，包括：

多个摄像头，布置在工作空间内的不同位置处，并且每一个配置用于将工作空间从不同的视角2D成像，其中多个摄像头中的每一个相应的摄像头配置为捕获工作空间的2D图像；

处理器，与多个摄像头中的每一个通讯，且配置用于从多个摄像头中的每一个接收捕获的2D图像，该处理器进一步配置用于：

识别多个2D图像中的至少两个内的前景部分；

确定每一个相应的2D图像的完整性评分，该完整性评分与绝对像素差、全局或局部直方图差、和相应2D图像与来自同一摄像头的在先2D图像之间的绝对边缘差中的至少一个有关；

确定用于每一个识别的前景部分的主本体轴线，该主本体轴线是相应前景部分的平均中线且与相应图像的消失点对准；

将每一个检测到的主本体轴线映射到地面平面，所述地面平面与工作空间的地面重合；

其中该位置点代表工作空间中物体的点位置。

优选地，其中处理器进一步配置为将来自每一个相应2D图像的前景部分投影到多个平行间隔开的平面中的每一个；

识别多个平面中的每一个内的多个投影的前景部分在其中重叠的区域；

将来自多个平面中的每一个的识别的区域组合，以形成物体的3D边界包络；和

其中边界包络为工作区内的物体位置的3D概率图示。

优选地，其中处理器进一步配置为如果位置点在边界包络内，则记录该位置点的坐标。

优选地，其中处理器进一步配置为：

组合运动轨迹，其中该运动轨迹代表在一段时间上的位置点的位置；和

识别位置点在工作空间中运动的一部分时间段，以及位置点在工作空间中静止的一部分时间段。

优选地，其中处理器进一步配置为确定位置点在工作空间中静止的一部分时间段期间物体执行的动作。

优选地，其中处理器进一步配置为将地面平面与多个平面融合，以形成平面概率图。

优选地，其中处理器进一步配置为：

将所确定的地面平面中的位置点与第二位置点融合，以形成进一步完善的第二位置点。

当结合附图进行时，本发明的特征和优点以及其他的特征和优点可通过下面对实施本发明的较佳模式做出的详尽描述容易地理解。

附图说明

图1是人监视系统的示意性框图。

图2是关于工作空间区域定位的多个成像装置的示意图。

图3是活动监视过程的示意性框图。

图4是使用关于工作空间区域定位的多个成像装置检测人的运动的示意性处理流程图。

图5A是图像帧的示意性图示，其包括模型匹配算法的滑动窗输入，所述滑动窗输入横过图像坐标空间中的图像帧。

图5B是图像帧的示意性图示，其包括模型匹配算法的滑动窗输入，所述滑动窗输入横过校正坐标空间中的图像帧。

图5C是图5B的图像帧的示意性图示，其中滑动窗输入从具体感兴趣区域选择。

图6是显示了将被检测的人的多个图示融合到共同坐标系中的方式的示意图，所述被检测的人的多个图示每一个来自不同摄像头。

图7是使用人监视系统执行活动序列监视的方法的高度示意性流程图。

图8是使用人监视系统的执行活动序列监视的方法的示意性详细流程图。

图9是在多个工作空间区域上使用的人监视系统的示意图。

图10是使用多个传感器视图的三维定位的示意图。

具体实施方式

参见附图，其中在各种附图中相同的附图标记用于表示相同的部件，图1示意性地示出了人监视系统10的方框图，其用于监视组装、制造或类似过程的工作空间区域。人监视系统10包括多个基于视觉的成像装置12，用于捕获指定工作空间区域的视觉图像。多个基于视觉的成像装置12(如图2示出的)定位在自动可动设备周围的各种位置和高度处。优选地，广角透镜或类似的宽视野装置用于可视地覆盖更多工作空间区域。每一个基于视觉的成像装置基本上彼此偏开，以用于从相应的观察点捕获工作空间区域的图像，所述观察点基本上与其他的相应成像装置的不同。这允许从工作空间区域周围的不同观察点捕获各种视频流图像，以用于将人与周围设备区分开。由于工作空间区域中物体和设备的视觉阻碍(即遮蔽)，在工作空间区域中存在遮蔽时，多个观察点提高了在一个或多个图像中捕获人的可能性。

如图2所示，第一基于视觉的成像装置14和第二基于视觉的成像装置16基本上在高架位置彼此间隔开，从而每一个捕获高角度视图。成像装置14和16提供高角度规范视图(canonical view)或参考视图。优选地，成像装置14和16提供基于立体的三维情景分析和追踪。成像装置14和16可以包括视觉成像、LIDAR检测、红外线检测和/或可以用于检测区域中的实体的任何其他类型的成像。额外成像装置可以高架地定位，并且与第一和第二基于视觉的成像装置14和16间隔开，用于获得额外的高架视图。为了便于描述，成像装置14和16可以一般地称为“摄像头”，但是应理解，这样的摄像头不必是可见光谱摄像头，除非另有描述。

各种其他基于视觉的成像装置17(“摄像头”)定位到被监视工作空间区域的侧部或虚拟角落，以用于捕获中角度的视图和/或低角度的视图。应理解，由于系统可与任何数量的成像装置一起工作，因此基于视觉的成像装置的数量可重构，因而可以使用比图2所示的更多或更少的成像装置；然而，需要指出的是，随着冗余成像装置数量的增大，完整性和冗余可靠性的水平提高。每一个基于视觉的成像装置12彼此间隔开，用于从基本上彼此不同的观察点捕获图像，以产生工作空间区域中一个或多个人的三维追踪。通过多个基于视觉的成像装置12捕获的各种视图共同提供工作空间区域的可选视图，其使人监视系统10能识别工作空间区域中的每一个人。这些不同的观察点提供在三维空间中在整个工作空间区域内对每一个人的追踪机会且增强在每一个人运动通过工作空间区域时对每一个人的追踪和定位，以检测在工作空间区域中每一个相应人和运动的自动设备之间的潜在的不期望的相互作用。

再次参见图1，由多个基于视觉的成像装置12捕获的图像经由通信介质20传递到处理单元18。通信介质20可以是通信总线、以太网或其他通信链路(包括无线的)。

处理单元18优选是由商用组件(没有与个人计算机不同)实现的主机计算机或是被适当地封装以用于其操作环境的类似的装置其。处理单元18可以进一步包括图像获取系统(可能地包括图帧抓帧器和/或网络图像获取软件)，其用于捕获图像流，以用于处理和记录图像流为时间同步数据。使用确保消息完整性的协议(例如以太网-安全协议(Ethernet-Safe)),多个处理单元可在数据网络上互连。表明被其他处理单元监控的毗邻空间的状态的数据可以以可靠的方式交换，该可靠的方式包括针对从区域到区域(跨过多个系统的片区)运动的人、物体的警告、信号和追踪状态数据传递。处理单元18利用主处理程序和多个子处理程序(即用于每一个基于视觉的成像装置的一个子处理程序)。每一个相应子处理程序专用于相应成像装置，用来处理被相应成像装置捕获的图像。主处理程序基于累积的捕获图像(通过每一个子处理程序处理的)执行多视图整合，以执行工作空间区域的实时监视。

在图1中，工作空间区域中工人的检测由使用多个数据库22的子处理程序促进，所述数据库22在其他可动设备存在情况下共同检测和识别工作空间区域中的人。多个数据库存储用于在工作空间区域中检测物体、从被检测的物体识别人和追踪被识别的人的数据。各种数据库包括但不限于校准数据库24、背景数据库25、分类数据库26、消失点数据库27、追踪数据库28、和单应数据库(homography database)30。包含在这些数据库中的数据被子处理程序使用，以检测、识别和追踪工作空间区域中的人。

校准数据库24基于模式提供摄像头校准参数(固有的和外在的)，以使得失真的物体去失真。在一种构造中，可以使用例如棋盘的规则模式确定校准参数，，该规则模式显示为与摄像头的视野正交。校准程序随后使用棋盘以估计估计固有和未失真参数，所述参数可以用于使由于广角透镜造成的桶形畸变去失真。

背景数据库25存储用于不同视图的背景模块，且背景模块用于将图像分成其构成的背景和前景区域。背景模块可以在安装任何自动机械装置或将任何动态物体置于工作空间中之前通过捕获图像/视频获得。

分类数据库26含有用于自动地将人和非人物体分类的级联(cascade)的分类器和有关的参数。

消失点数据库27含有用于每一个摄像头视野的消失点信息，且用于进行消失点校正，从而使人在校正图中直立显现。

追踪数据库28保持用于每一个被监视的人的轨迹，在新的人进入该场景时，新的轨迹被添加到数据库，且在他们离开该场景时，这些轨迹删除。追踪数据库还具有用于每一个人的外观模型的信息，从而现有的轨迹可容易地与在不同时间步处的轨迹相关。

单应数据库30含有跨不同视图和规范视图的单应变换参数。在人行进进入该区域时，来自数据库(一个或多个)的适当数据可传递到监视毗邻区域的系统，从而实现对跨多个系统从区域到区域的人的追踪的无缝过渡。

每一个上述数据库可以包含作为各种初始化程序结果的参数，所述初始化程序在系统的安装和/或维护期间执行。这些参数例如可以存储为在操作期间易于被处理器访问的格式，例如XML文件格式。在一种构造中，在初始设置/初始化程序期间，系统可以执行透镜校准程序，例如通过将棋盘图像置于每一个摄像头的视野中。使用棋盘图像，透镜校准程序可以确定需要除去任何鱼眼失真所需的校正量。这些校正参数可以存储在校准数据库24中。

在透镜校准程序之后，系统可以随后确定单应变换参数，其可以记录在单应数据库30中。该程序可以包括将基准物体置于工作空间中，从而它们可被多个摄像头观察到。通过将各种视图之间物体的位置进行关联(且同时得知摄像头或物体的固定位置)，不同的二维图像可以映射到3D空间。

另外，每一个摄像头的消失点可以通过将多个垂直参考标记置于工作空间中的不同位置处，并且通过分析这些标记在每一个摄像头视图中如何图示而确定。摄像头的透视特点可以使得相应垂直标记的图示会聚到共同的消失点，该消失点可以被记录在消失点数据库27中。

图3示出了包括动态系统完整性监视的工厂监视处理流程的高度概括的方框图。

在图框32中，从基于视觉的成像装置12收集数据流，所述成像装置12捕获时间同步的图像数据。在图框33中，执行系统完整性监视。视觉处理单元针对部件失效和将阻止监视系统正确运行和完成其预期目的的条件而检测系统的完整性。该“动态完整性监视”将检测这些劣变或失效的条件，且在系统可能不能进行安全模式的情况下触发一种模式，而除了进行修理所需的停机时间外没有任何不期望的结果，在安全模式下系统完整性可随后被恢复且过程相互作用可返回到正常。

在一种构造中，基准目标可用于几何校准和完整性。基准目标中的一些可启用，例如传感器(一个或多个)视野中的闪烁IR信号灯。在一种构造中，例如，IR信号灯可以以相应速率闪烁。监视系统可以随后确定图像中信号灯检测实际上与IR信号灯实际上闪烁的期望频率相符。如果不相符，则自动设备可能不能进行安全模式，错误的视图会被忽视或停用，或设备可被改变以运行在安全模式。

基准目标行为的意外改变也可能使得将设备改变以工作在安全模式操作下。例如，如果基准目标是被追踪的运动目标，且其在系统检测到它从期望离开位置离开工作空间区域之前消失，则可以采取相似的预防措施。运动的基准目标的意外改变的另一例子是当基准目标以无法解释的快速速率(即距离对时间的比超过预定极限)在第一位置出现，且随后在第二位置再次出现时。在图3的图框34中，如果视觉处理单元确定存在完整性问题，则系统进入故障自驱安全(fail-to-safe)模式，在该模式中警告被发起且系统被关闭。如果视觉处理单元确定不存在完整性问题则按顺序开始图框35-39。

在一种构造中，系统完整性监视33可以包括以动态的方式定量地评估每一个基于视觉的成像装置的完整性。例如，完整性监视可以连续分析每一个视频馈送(video feed)，以测量馈送中的噪声量或识别图像中随时间的不连续性。在一种构造中，系统可以使用绝对像素差、全局和/或局部直方图差和/或绝对边缘差中的至少一个，以对图像的完整性定量(即确定从0.0(无可靠性)到1.0(完全可靠)的范围的相对“完整性评分”)。所提到的差可以关于预建立的参考帧/图像(例如在初始化程序选择期间获取的一个)或紧在被测量的帧之前获取的帧中之任一确定。在与预建立的参考帧/图像比较时，该算法可以特别地关注图像背景的一个或多个部分(而不是动态改变的前景部分)。

在图框35中执行背景减除，且形成的图像为前景区域。背景减除使得系统能够识别图像的能运动的那些部分。图像帧的这些部分随后被传递到后序的模块，以用于进一步分析。

在图框36中，执行人的确认，用于从捕获图像中检测出人。在该步骤中，识别的前景图像被处理以检测/识别前景的最可能是人的部分。

在图框37中，执行如前所述的外观匹配和追踪，外观匹配和追踪使用其各种数据库从检测的物体识别人，且追踪在工作空间区域中所识别的人。

在图框38中，三维处理被应用到捕获的数据，以获得用于工作空间区域中的物体的3D范围信息。3D范围信息允许我们形成减少假警报的3D占用网格(occupancy grid)和体素化(voxelizations)，且允许我们以3D形式追踪物体。3D度量处理可以例如使用立体高架摄像头(例如摄像头14、16)被执行，或可以使用来自每一个成角度摄像头17的投影的立体像素构造技术来执行。

在图框39中，匹配的轨迹被提供给多视图融合和物体定位模块。多视图融合模块39可以将各种视图融合在一起，以形成工作空间中每一个人的位置的概率图。此外，来自基于视觉的成像装置的三维处理(如图10所示)被提供给多视图融合和物体定位模块，用于确定工作空间区域中每一个人的位置、方向、速度、占有率和密度。针对与工作空间区域中与可动设备的潜在相互作用而追踪被识别的人。

图4示出了使用人监视系统来检测、识别和追踪人的过程流程图。在图框40中，通过主处理程序对系统初始化，用于执行被监视的工作空间区域中的多视图整合。主处理程序初始化且开始子处理程序。相应子处理程序被设置为用于处理通过相应成像装置捕获的数据。每一个子处理程序并行运行。如在本文所述的，以下的处理图框被主处理程序同步，以确保捕获的图像彼此时间同步。主处理程序在执行多视图整成之前等待每一个子处理程序完成其相应捕获数据的处理。用于每一个相应子处理程序的处理时间优选不大于100-200毫秒。在系统初始化时还执行系统完整性检查(见图3，图框33)。如果确定系统完整性检查故障，则系统立即发出警告且进入故障自驱安全模式，其中系统被关闭直到执行校正动作。

再次参见图4，在图框41中，流式图像数据被每一个基于视觉的成像装置捕获。被每一个成像装置捕获的数据是(或转换为)像素形式。在图框42中，捕获的图像数据被提供到其中图像等候处理的图像缓冲器，用于在工作空间区域从运动的自动设备中检测出物体，且更具体地检测出人。每一个被捕获的图像被赋以时间标记，从而每一个被捕获的图像被同步以用于同时处理。

在图框43中，自动校准被应用于捕获的图像，以将在捕获的图像中的物体去失真。校准数据库提供基于用于使失真物体去失真的模式的校准参数。由广角透造成的镜图像失真需要通过应用摄像头校准来使得图像去失真。这是需要的，因为图像的任何大的失真会使得图像装置的视图和外观模块之间的单应映射功能不准确。成像校准是一次性处理过程；然而，在成像装置设置改变时需要重新校准。图像校准还被动态完整性监视子系统周期性地检查，以检测成像装置从其校准视野略微运动的情况。

在图框44和45中，背景模拟和前景检测被分别启动。背景训练用于将背景图像从前景图像区别开。结果被存储在背景数据库中，用于被每一个子处理程序使用，以区分背景和前景。所有失真的图像经背景滤波以在数字化的图像中获得前景像素。为了在捕获的图像中区别背景，应使用空的工作空间观察区域的图像来训练背景参数，从而在存在运动物体时背景像素可易于区别出来。背景数据应随时间更新。在捕获的图像中检测和追踪人时，从成像数据过滤背景像素，以检测前景像素。检测到的前景像素通过使用噪声过滤和区块尺寸过滤的连接部分分析(connected component analysis)转换为区块(blob)。

在图框46中，区块分析被启动。在相应工作空间区域中，不仅可检测运动的人，而且可以检测其他运动的物体，例如机器人臂、拖车或箱体。因此，区块分析涉及检测所有前景像素且确定哪些前景图像(例如区块)是人而哪些是非人运动物体。

区块可以限定为连接像素的区域(例如接触像素)。区块分析涉及捕获的图像中像素的相应区域的识别和分析。图像将按照值来区分像素。像素随后被识别为前景或背景。具有非零值的像素被认为是前景且具有零值的像素被认为是背景。区块分析通常考虑各种因素，所述因素可以包括但不限于区块位置、区块面积、区块周边(例如边缘)、区块形状、区块直径、长度或宽度和取向。用于图像或数据分段的技术并不限于2D图像，而是还可以利用来自其他类型传感器(其提供IR图像和/或3D体积数据)的输出数据。

在图框47中，作为区块分析的一部分执行人检测/验证，以从人区块过滤掉非人区块。在一种构造中，这种验证可以使用群集域分类技术(swarming domain classifiertechnique)执行。

在另一构造中，系统可以使用模式匹配算法，例如支持向量机(SVM)或神经网络，以将前景区块与经训练的人姿态模形进行模式匹配。并非试图作为单个整体处理整个图像，系统可以相反地使用局部的滑动窗62来扫描图像帧60，例如大致在图5A示出的。这可以降低处理的复杂度且提高检测的鲁棒性和具体性。滑动窗62可以随后出于确认目的用作到SVM的输入。

执行人检测的模块可以使用以不同姿态(即站立、弯腰、屈膝等)定位且面向不同方向的不同人的图像进行训练。在训练模型时，代表性的图像可以设置为使得人大体与图像的垂直轴线对准。但是，如图5A所示，被成像的人64的本体轴线可以根据图像的透视和消失点成角度，其不必是垂直的。如果检测模型的输入是与图像坐标系对准的窗口，则成角度的图示的人会不利地影响检测的准确性。

为了考虑图像中的人的歪斜本质，滑动窗62可以从校正空间获得而不是从图像坐标空间获得。校正空间可将透视图映射到与地面对准的正交视图。换句话说，校正空间可以将工作空间区域中的垂直线映射在调整图像中垂直地对准。这示意性地显示在图5B中，其中校正窗口66扫描图像帧60，且可将成角度的人64映射到设置在正交空间70中的垂直对准的图示68。在使用SVM分析时，该垂直对准的图示68可以随后针对更高可信度的检测提供。在一种构造中，校正的滑动窗66可以由相关矩阵促进，所述矩阵例如可在极坐标系和矩形坐标系之间进行映射。

尽管在一个构造中系统可以使用上述滑动窗搜索策略在整个图像帧上执行穷举搜索，但是该策略可能涉及搜索完全不会有人的图像区域。因此，在另一构造，系统可以仅将搜索空间限制到感兴趣的特定区域72(ROI)，例如图5C所示的。在一种构造中，ROI72可以代表图像帧60中看得见的地面空间加上边缘容限，以计入站在地面空间的极限边缘处的人。

在又一种构造中，通过使得期望发现人区块的ROI72的部分周围搜索的优先，甚至可以进一步减小计算需求。在该构造中，系统可以使用线索以基于可用于图像处理器的补充信息来限制搜索或使得搜索优先。该补充信息可以包括在图像帧中的运动检测、来自之前识别的人区块的轨迹信息，和来自多摄像头阵列的其他摄像头的数据融合。例如，在融合的地面帧上确认人的位置之后，追踪算法形成人的轨迹且在随后的帧中保持轨迹历史。如果在一种情况下环境障碍使得人定位失败，则通过将之前追踪的人位置的轨迹推算，系统可以快速恢复人的定位，以将校正搜索集中于ROI72中。如果在几个帧中不能再次识别该区块，则系统可以报告目标人已经消失。

再次参见图4，一旦在各种视图中检测到人区块，则针对每一个被检测的人区块在图框48中执行本体轴线估计。使用图像中的消失点(从消失点数据库获得)确定用于每一个人区块的主本体轴线。在一种构造中，本体轴线可以通过两个关注点限定。第一点是被识别的人区块的形心点，而第二点(即消失点)是本体底部附近的相应点(即并不一定是区块底部，并且可能在区块的外部)。更具体地，本体轴线是将形心点连接到消失点的虚拟线。在每一个相应摄像头视图中，针对每一个人区块确定相应的垂直本体轴线，如在图6的大致80、82和84处示出的。通常，该线将横切人的图像在从头到脚趾的线上。人检测评分可以用于辅助相应的本体轴线的确定。评分提供已经与人配对并且相应的本体轴线应该被使用的置信度水平。每一个垂直本体轴线将经由单应映射而被用以确定人的定位，且将在后文详细描述。

再次参见图4，在图框49中执行颜色配置。颜色外观模型被设置，以用于在每一个视图匹配同一人。颜色配置在每一个捕获的图像中辨别和保持相应人的同一性。在一种构造中，颜色配置是具有区块边界框的本体轴线的平均颜色值的向量。

在图框50和51中，单应映射和多视图整合程序被执行，以分别协调各视图，且将人的位置映射到共同平面。单应(如本文使用的)是数学概念，其中可逆变换将物体从一个坐标系映射到线或平面。

单应映射模块50可以包括本体轴线子模块和协同子模块中的至少一个。通常，本体轴线子模块可以使用单应，以将检测的/计算的本体轴线映射到从高架角度观察的共同平面。在一种构造中，该平面是地面平面，其与工作空间的地面重合。该映射经由图6中86处的地面平面图示出。一旦被映射到共同地面平面，则各本体轴线可以在地面平面中的单个位置点87处或附近相交。在本体轴线不理想地相交的情况下，系统可以使用最小均方差或最小二乘中位数方法识别位置点87的最佳拟合近似值。该位置点可以代表对工作空间中人的地面平面位置的一种估计。在另一实施例中，位置点87可以通过加权最小二乘法确定，其中每一个线可以使用完整性评分而被单独地加权，所述完整性评分针对用于确定直线的帧/视图确定。

协同子模块可以类似于本体轴线子模块操作，因为其使用单应来将内容从不同图像视图映射到从高架透视角度观察的每一个平面。但是，代替映射单条线(即本体轴线)，协同子模块相反地将整个被检测的前景区块映射到所述平面。更具体地，协同子模块使用单应以将前景区块映射到协同图88。该协同图88是全部都平行的多个平面，且每一个平面相对于工作空间的地面处于不同高度。来自每一个视图的检测区块可以使用单应被映射到每一个相应平面中。例如，在一个构造中，协同图88可以包括地面平面、中间平面和头平面。在其他构造中，可以使用更多或更少的平面。

在来自每一个相应视图的前景区块到共同平面的映射过程中可以存在多个区块映射重叠的区域。换句话说，在一个视图中的被观察区块的像素被映射到一平面时，原始视图的每一个像素在该平面中具有相应的像素。在多个视图全被投射到该平面时，它们可能会在一区域相交，从而平面中的来自相交区域中的像素可以映射到多个原始视图。一平面中的重合区域反映了在该位置和高度处人存在的高的概率。以与本体轴线子模块相似的方式，完整性评分可以用于对区块从每一个视图到协同图88的投影进行加权。从而，原始图像的透明度可能影响高概率区域的具体边界。

一旦来自每一个视图的区块被映射到相应平面，则高概率区域可以被分离且沿共同垂直轴线的区域可以被组合在一起。通过将在不同高度处的这些高概率的区域分离，系统可以构造出包封被检测的人形式的边界包络。该边界包络的位置、速度和/或加速度可以随后用于改变邻近自动设备的行为，例如组装机器人，或例如如果人走入或达到被限定的保护区域则提供警告。例如，如果边界包络与指定的有限体积空间重叠或与侵犯该有限体积空间，则系统可以改变有限体积空间中自动装置的性能(例如可以减慢或停止机器人)。另外，系统可以通过监视物体的速度和/或加速度而预期物体的运动，且可以在碰撞或相互作用被预期时改变自动装置的行为。

除了仅仅识别边界包络之外，该包络整体(和/或每一个平面的整体)可以被向下映射到地面平面，以确定被占据的可能地面区域。在一种构造中，该被占据的地面区域可以用于验证通过本体轴线子模块确定的位置点87。例如，如果其位于高概率被占据地面区域的话(如通过协同子模块确定的)，则位置点87可以被验证。相反地，如果点87位于该区域以外，则系统可以识别误差或拒绝位置点87。

在另一构造中，主轴线可以穿过边界包络绘出，从而轴线基本上在工作空间中是垂直的(即基本上垂直于地面平面)。主轴线可以在边界包络中的平均位置绘出，且可以在第二位置点与地面平面相交。该第二位置点可以与经由本体轴线子模块确定的位置点87融合。

在一种构造中，多视图整合51可以将多种不同类型的信息融合在一起，以提高准确检测的概率。例如，如图6所示，地面平面图86中的信息和协同图88中的信息可以融合在一起，以形成合并的概率图92。为了进一步细化概率图92，系统10可以将工作空间的3D立体图或所构造的立体像素图示94另外融合到概率估计中。在该构造中，3D立体图可以使用尺度不变特征变换(SIFT)以首先获得特征和其对应关系。系统可以随后对基于已知摄像头固有参数和特征对应关系的立体图配对执行极线校正。视差(景深)图可以随后使用块匹配方法(例如在OpenCV中提供的)实时地获得。

类似地，立体像素图示使用从背景减除获得的图像轮廓(image silhouettes)以产生景深图示。系统将3D立体像素投影到(被使用的多个的摄像头的)所有图像平面，且确定投影是否与大多数图像中的轮廓(前景像素)重叠。因为某些图像可能由于机器人或工厂设备而被挡住，因此系统可以使用表决方案，其不直接要求来自所有图像的重叠协议(overlapping agreement)。3D立体图和立体像素提供与物体如何占据3D空间有关的信息，该信息可以用于增强概率图92。

通过将各种类型的数据融合在一起而开发概率图92可以以几种不同方式实现。最简单的是“简单加权平均整合(simple weighted mean integration)”方法，其将加权系数应用于每一种数据类型(即本体轴线投影、协同图88、3D立体景深投影和/或立体像素图示)。而且，本体轴线投影可以进一步包括关于每一条本体轴线的高斯分布，其中每一个高斯分布代表区块像素关于相应本体轴线的分布。在被投影到地面平面时，这些分布可重叠，这可以有助于确定位置点87或这可以与协同图结合。

进行融合的第二方法可以与前景区块投影一起使用3D立体图和/或立体像素图示景深图，以预过滤图像。一旦预过滤，则系统可以在那些经过滤的区域中执行多平面本体轴线分析，以提供每一个视图中本体轴线的更高置信度的提取。

再次参见图4，在图框52中，一个或多个运动轨迹可以基于确定的多视图单应信息和颜色轮廓组合。这些运动轨迹可以图示工作空间中被检测人的有序运动。在一种构造中，使用Kalman滤波来对运动轨迹滤波。在Kalman滤波中，状态变量是人的在地面的位置和速度。

在图框53中，系统可以确定用户轨迹是否匹配用于具体程序的期望或可接受轨迹。另外，系统也可以试图“预期”人继续沿一定方向行进的意图。该意图信息可用在其他模块，以计算人和检测区域之间的时间和距离的接近速率(closing rate of time，这对于改善具有动态检测区域的区域检测潜在因素来说是尤其重要的，所述动态检测区域跟随设备的运动，例如机器人、传送机、叉车和其他可移动设备)。这也是一种重要的信息，其可预期进入毗邻监视区域的人的运动，人的数据可被传递到该毗邻监视区域中，且在该毗邻监视区域中，接收系统可准备注意机构，以快速获得在该被进入的监视区域中的各个人的追踪。

如果人的经确定的活动未被验证或在可接受过程外，或如果人被预期离开预定的“安全区域”，则在图框54中系统可以提出警告，将警示传达给用户。例如，警告可以在人步行通过工作空间区域的预定安全区域、警示区域和危险区域时显示在显示装置上。警示区域和危险区域(以及期望配置在系统中的任何其他区域，包括动态区域)是这样的操作区域：在人已经进入相应区域且使得设备减慢、停止或以其他方式避开人时提供警告，该警告如在图框54中被启动。警示区域是人首先被警告人已经进入一区域且足够靠近可动设备以及可能造成设备停止的区域。危险区域是设计在警示区域中的位置(例如包络)。当人处于危险区域中时，更危险的警示可被发出，从而人得知其位置在危险区域中或被请求离开该危险区域。这些警告设置为通过防止麻烦的设备关机而提高处理系统的生产率，其中所述设备关机是因不知道其接近警告区域的人偶然进入到警告区域造成的。这些警告也可以在例如从该过程常规加载或卸载部件的期望相互作用间隔期间被系统消除。还可能的是，暂时静止的人将在沿他的方向运动的动态区域的路径上被检测到。

除了向在相应区域中时的人发出警告，警告可以根据工作空间区域中人(或可能的动态区域)的预测行进路径来修改或改变靠近的自动设备的运动(例如设备可以被停止、加速、或减速)。即自动设备的运动将在设定的程序下运行，该设定的程序具有预定速度下的预定运动。通过追踪和预测工作空间区域中人的运动，自动设备的运动可以被改变(即被减速或加速)，以避免与工作空间区域中的人的任何可能接触。这允许设备保持运行，而不必关闭组装/制造过程。当前的故障保护操作通过基于风险评估的任务的结果管理，且通常在危险区域中检测到人时需要工厂自动设备完全停止。启动过程需要设备的操作者重新设定控制以重新起动组装/制造过程。该过程中这种意外停止通常造成停机和生产率的损失。

活动顺序监视

在一种构造中，上述系统可以用于监视通过用户执行的一系列操作，且验证被监视的过程是否被正确执行。除了仅仅分析视频馈送，系统可以进一步监视例如扭矩枪、螺母扳手或螺钉起子等辅助设备的使用和时间选择。

图7大致示出了使用上述系统执行活动顺序监视的方法100。如所示的，输入的视频在102被处理，以产生内部图示104，其捕获不同种类的信息，例如场景运动、活动等。所述图示用于在106处学习分类器，分类器产生动作标记和动作相似度评分。在108处该信息被整理在一起且转换成为语义描述，其随后在110处与已知的活动模板相比较，以产生差错预防评分。语义和视频概要被存档，以用于将来参考。如果与模板的匹配产生低评分(其表明被执行的顺序与期望的工作任务进程不相似)，则在112给出警告。

该过程可以用于通过确定某些动作在何时何地被执行以及其执行顺序以验证操作者的活动。例如，如果系统识别出操作者手伸入到具体定位的箱中、朝向组装线上车辆的角部行走、屈膝并促动螺帽扳手，则系统可以确定存在操作者将车轮固定到车辆的高概率。但是，如果该顺序仅以三个车轮被固定而结束，则可以指示/警告该过程未完成，因为需要第四个车轮。以相似的方式，系统可以将动作与车辆清单进行匹配，以确保所需用于具体车辆的硬件选项都被安装。例如，如果系统检测到操作者伸手拿具有不正确的颜色的框板，则系统可以在继续行动之前警告用户查证该部件。以这种方式，人监视系统可以用作差错预防工具，以确保在组装过程期间执行所需的动作。

系统可以具有足够的灵活性，以适应执行一系列任务的多种不同方式，且可以验证该过程，只要在预定车辆位置处最终的人轨迹和活动列表完成了预定目标即可。尽管效率可能不被认为是一系列动作是否正确满足用于组装工作站的目标的因素，但是其可以被单独记录。以这种方式，实际的运动轨迹和活动日志可以与优化的运动轨迹相比较，以对总偏差进行定量，这可以用于建议过程效率改善(例如通过显示或打印活动报告)。

图8提供了活动监视方案的更详细的框图120。如所示的，在图框32中从摄像头收集视频数据流。在33处，这些数据流通过系统完整性监视模块传送，其检验图像处于正常操作状态。如果视频馈送不处于正常操作状态，则错误被发出且系统无法进入安全模式。在系统完整性监视之后的下一个步骤是人检测器-追踪模块122，其在上面总体描绘在图4中。该模块122获取每一个视频馈送且检测该场景中运动的人。一旦候选的运动区块可得，则系统可以使用分类器处理和过滤掉非运动的情况。该模块的最终输出为3D人轨迹。下一个步骤涉及在124处从3D人轨迹提取合适的图示。该图示方案是补充的且包括用于活动表象模拟图像像素126、代表场景运动的时空兴趣点(STIP)128、将动作者从背景分离的轨迹130、和整合多个视图中信息的立体像素132。这些图示方案中每一个在下文详细描述。

一旦在104处以所述补充形式提取和图示了该信息，则系统提取某些特征且让它们经过相应的一组预训练分类器。暂时的SVM分类器134对STIP特征128进行操作且产生例如站立、曲膝、行走、弯腰等动作标记136，空间SVM分类器138对原始图像像素126操作且产生动作标记140，提取的轨迹信息130以及动作标记一起用于动态时间配准142，以将轨迹与典型的期望轨迹进行比较，且产生动作相似度评分144。人姿态估计分类器146被训练，从而其可采取立体像素图示132作为输入且产生姿态估计148作为输出。产生的时间、空间、轨迹比较的组合与基于立体像素的姿态被放入时空标签框150，所述标签框成为用于语描述模块152的构建框。该信息随后用于将任何活动序列分解为构成基元动作且产生AND-OR图表154。在156提取的AND-OR图表154随后与预定的活动卷轴(activity scroll)比较且产生匹配评分。低匹配评分用于发出表明所观察动作不是典型的且是反常的警告。在158处产生语义和视觉概要且将其存档。

用于图示动作的时空兴趣点(STIP)

STIP128是被检测的特征，其在空间和/或时间上呈现图像特点的重要局部改变。许多这些兴趣点在通过人执行动作期间产生。使用STIP128，系统可试图确定在被观察的视频序列中会发生什么动作。每一个提取的STIP特征128在134被传递通过SVM分类器组，且表决机构确定特征最可能与哪个动作相关。滑动窗口随后基于时间窗口中被检测的STIP的分类而确定每一个帧中被检测的动作。因为存在多个视图，所以该窗口将考虑来自所有视图的所有被检测特征。每帧中动作形式的最终信息可被精简为显示了被检测动作序列的图表。最后，该图表可以与SVM训练阶段期间产生的图表匹配，以验证被检测动作序列的正确性。

在一个例子中，在观察运动经过平台以在小汽车的具体区域使用扭矩枪的人时，STIP128可以被产生。该动作可以涉及人从步行姿态转变为许多钻孔姿态中的一个，保持该姿态短暂时间，且转变回到步行姿态。因为STIP是基于兴趣点的运动，所以进入和离开每一个姿态产生的STIP可将一个动作与另一动作区分开。

动态时间配准

动态时间配准(DTW)(在142执行)是用于测量时间或速度变化的两个序列之间相似度的算法。例如，经由DTW可在一个观察过程中检测两个轨迹之间步行样式的相似度，即使在一个序列中人慢慢地步行且在另一序列中他是快速步行的，或即使存在加速、减速或多个短暂停止，或即使两个序列沿时间线变换。DTW可以可靠地发现两个给定序列(例如时间序列)之间的最佳匹配。序列在时间尺度下被非线性地配准，以独立于时间尺度下某些非线性变量而测量其相似度。DTW算法使用动态编程技术以解决该问题。第一步骤是将一个信号中的每一个点与第二信号中的每一个点比较，产生矩阵。第二步骤是运行通过该矩阵，在左下角处(对应于两序列的开始)开始，且在右上角结束(两序列的终点)。对于每一个单元，通过选取矩阵中左方或下方具有最低累积距离的邻近单元计算累积距离，且将该值填加到中间单元。在该过程完成时，右上方单元中的值代表根据通过矩阵的最有效路径的两个序列信号之间的距离。

DTW可仅使用轨迹或使用轨迹加位置标记来测量相似度。在车辆组装的情况下，可以使用六个位置标记：FD、MD RD、RP、FP和步行，其中F、R、M代表小汽车的前部、中间和后部，且D和P分别代表司机侧和乘客侧。DTW的距离成本计算如下:

cost＝αE+(1-α)L,0≤α≤1

其中，E为两个轨迹上两个点之间的欧式距离，且L是一定的时间窗口中位置的直方差；α是加权数，且如果轨迹和位置标记都用于DTW测量的话，则设定为0.8。否则，对于仅轨迹测量，则α等于1。

使用空间分类器的动作标记

单个图像辨识系统可以用于在数据中可见的许多可能的全部动作中进行区分：例如步行、弯腰、蹲下和伸手。这些动作标记可以使用尺度不变特征变换法(SIFT)和SVM分类器确定。处于大多数分类技术的最低水平下的是这样一种方法，其以对各种烦扰行为不敏感的方式对图像编码，所述烦扰行为会在图像形成过程中出现(照明、姿态、观察点和堵塞)。SIFT描述符是本领域已知的对照明不敏感的，对姿态和观察点的小的变化稳定，且不因尺度和取向变化而变化。在一点周围的圆形图像区域中以一具体尺度计算SIFT描述符，该尺度确定了域半径和所需的图像模糊度。在使得图像模糊之后，找出梯度方向和大小，且空间箱体网格覆盖圆形图像域。最终的描述符是由空间箱体分隔的通过大小加权(自中心递减的高斯加权)的梯度方向的标准化直方图。因此，如果空间箱体网格为4x4且存在8个取向的箱体，则描述符具有的尺寸是4*4*8＝128个箱体。尽管SIFT描述符的位置、尺度和取向可以对姿态和观察点不变的方式选择，但是最新分类技术使用固定尺度和取向，且将描述符布置在重叠域的网格中。这不仅提高性能，而且允许非常快速地计算图像中的所有描述符。

为了使得视觉类别可概括，类别的成员之间必须具有一些视觉相似性，并且和非成员相比时必须具有一些特殊性。另外，任何大的图像组将具有各种冗余数据(墙壁、地面等)。这导致“视觉关键词”的概念——小组原型描述符，其使用向量量子化技术(例如k均值聚类法)从训练描述符的整个集合获得。一旦视觉关键词组被计算——被称为编码本——则图像可以该关键词在何处以及以何种频率发生而被唯一地描述。使用k均值聚类法形成编码本。该算法在数据空间中寻找k中心，每一个中心代表在该空间最靠近其的数据点集合。在从训练SIFT描述符得知k聚类中心(编码本)之后，任何新的SIFT描述符的视觉关键词简单地为最靠近它的聚类中心。

在图像被分解为SIFT描述符和视觉关键词之后，视觉关键词可用于形成用于整个图像的描述符，其简单地是图像中所有视觉关键词的直方图。可选地，图像可被分解到空间箱体中，且这些图像直方图可以与计算SIFT描述符相同的方式被空间分隔。这对从原始像素信息获知动作的过程来说增加了一些零散的几何结构。

用于获知视觉分类的过程的最后步骤是训练支持向量机(SVM)，以在其图像直方图的分类给定例子中进行区分。

在本发明的情况下，基于图像的技术可以用于识别一些人动作，例如弯腰、蹲下和伸手。每一个“动作”可以涉及组合在一起的连续帧的集合，且系统可以仅使用图像的其中存在感兴趣的人的部分。在获得了多个同时发生的视图时，系统可以对每个视图训练一个SVM，其中每一个视图的SVM评估动作的每一个帧(或用该帧训练)。可以随后对针对具体动作的所有视图范围的所有SVM帧计算表决票数。该动作被分类为具有最高总票数的类别。

系统可以随后使用人追踪器模块以在任何时间在任何视图中确定人以及决定哪些帧与分类处理相关。首先，地面轨迹可以用于确定帧中的人何时执行感兴趣的动作。因为人可能显著运动的唯一方式是通过步行，所以假定对应于地面上大的动作的任何帧都包含人步行的图像。因此不需要将这些帧使用基于图像的分类器分类。

在分析运动轨迹时，在运动时间段中间的长时间段的小运动表明人执行并非步行的动作的帧。对应于长时间段小运动的帧被分为一些组，每一组构成未知的动作(或带标记的动作，如果用于训练的话)。在这些帧中，人追踪器提供边界框，其指定图像的什么部分包含人。如上所述，边界框可以被指定在校正图像空间中，以有助于更精确的训练和辨识。

一旦通过人追踪器找到感兴趣帧和边界框，则用于SVM训练的过程非常类似于传统的情况。在每一个动作图像边界框中计算SIFT描述符——针对所有帧和所有视图。在每一个视图中，属于一动作的那些图像(即暂时分组在一起的)用手做标记，以用于SVM训练。k均值聚类法构建编码本，其随后用来形成用于每一个边界框的图像直方图。从一视图获得的图像直方图用于训练其SVM。在例如具有六个摄像头的系统中，存在六个SVM，其每一个分类为三个可能的动作。

给定新的序列，以如上所述的方式提取未标记的动作数量。使用适当的基于视图的SVM而对这些帧和边界框一一分类。SVM中的每一个产生用于动作序列的每一个帧的评分。这些评分加在一起以计算用于所有帧和所有视图的动作的累积评分。具有最高评分的动作(类别)被选择作为用于动作序列的标记。

在许多时候，人可能在特定视图中被遮蔽，但是在其他视图中可见。对所有分类来说，被遮蔽的视图的投票等于零。使用一个序列用于被标记的训练，4个不同序列用于测试，以实现提高的准确性。重要的是，应注意，在测试时使用在训练期间开发的同一编码本，否者SVM将不能将所得的图像直方图分类。

系统可以使用基于立体像素的重构方法，该重构方法通过将3D立体像素投影到每一个图像平面上且通过确定投影是否与前景物体的相应轮廓重叠从而使用来自多个视图的前景运动物体来重构3D体积空间。一旦3D重构完成，则系统例如可以将柱状模型拟合到不同部分且使用参数来训练用于估计人姿态的分类器。

图6的框图中的图示和学习步骤随后与任何外部信号组合，所述外部信号例如可以从一个或多个辅助工具输出(例如扭矩枪、螺母扳手或螺钉起子等)，以形成时空标签。该组合信息随后用于在154处构建AND-OR图表。通常，AND-OR图表可描述比简单的树状图表更复杂的情形。该图表包括两类节点；“或”节点，其为与典型的树状图表中的相同的节点，以及“和”节点，其允许沿树向下的路径分为多个同时发生的路径。使用该结构来描述一场景中发生的可接受的动作序列。在这种情况下的“和”节点允许描述例如动作A发生，然后动作B和C一起发生，或D发生等标准树状图不能描述的事情。

在另一构造中，代替在154处的AND-OR图表，系统可以使用有限状态机来描述用户的活动。有限状态机通常用于描述具有几个状态的以及具有状态之间转变的条件的系统。在活动辨识系统暂时将一个序列分段为基元动作(elemental actions)之后，系统可以评价该序列以确定其是否符合一组经核准的动作序列。经核准的序列组也可以从数据得知，例如通过从训练数据构造有限状态机(FSM)，且通过将任何序列通过FSM来测试该任何序列。

形成代表有效动作序列的整个组的FSM是直接的。给定训练序列组(已经使用动作辨识系统分类)，首先通过找出所有训练序列上的所有独特动作标记的集合而形成FSM节点。一旦形成节点，则系统可以从节点A向节点B放置定向的边缘，如果在任何训练序列中节点B位于节点A紧后面。

测试给定序列同样地是直接的：让序列经过所述有限状态机，以确定其是否达到离开状态。如果是，则序列是有效的，否则序列不是有效的。

因为系统得知每一个活动执行时人的位置，所以其也可以在FSM结构中包括空间信息。这增加了额外的细节，以及从位置方面而不仅是从事件的序列方面评价活动的可能性。

视频概要

图8的该视频概要模块158采用输入视频序列且以非常高效且紧凑的形式图示动态活动，以用于说明和存档。通过同时地显示多个活动，最终的概要使得信息最大化。在一种方法中，背景视图被选择且来自选择帧的前景物体被提取且被并入基础视图。帧选择是基于通过系统获得的动作标记的，且允许选择那些其中一些感兴趣的动作正在发生的子序列。

多个工作空间

如在本文所述的人监视系统从多个不同观察点完全检测和监视工作空间区域中的人，从而在一个或多个观察点处人的遮蔽不会影响对人的追踪。而且，人监视系统可调整和动态地重构自动可动工厂设备，以避免与工作空间区域中人的潜在的相互作用，而不必停止自动设备。这可以包括确定和否认用于自动可动设备的新行进路径。人监视系统可追踪工作空间中的多个人，将追踪情况传递到负责监视毗邻区域的其他系统，各个区可被限定为用于工作空间区域中的多个位置。

图9显示了多个工作空间区域的视图。用于相应工作空间区域的传感装置12联接到专用于相应工作空间区域的相应处理单元18。每一个相应处理单元识别和追踪在其相应工作空间区域中运动的人的接近，且在网络链路170上彼此通信，从而个体可在其从一个工作空间区域转移到另一工作空间区域时被追踪。结果，多个视觉监视系统可被联接以用于追踪个体(在其在各种工作空间区域中相互作用时)。

应理解，如在本文所述的工厂环境中视觉监视系统的使用仅是一个例子，其中视觉监视系统可被利用且该视觉监视系统具有可应用于工厂环境以外的任何应用中的能力，在该工厂环境中，区域中人的活动被追踪且运动和活动被记录。

视觉监视系统用于活动的自动时间和运动研究，其可用于监视性能且提供用于改善工作单元活动效率和生产率的数据。该能力还可实现预定序列中的活动监视，其中序列中的偏差可被识别、记录，且警告可被产生，以用于人任务错误的检测。该“防错”能力可用于防止任务错误传播到下游操作且由于序列中或用于预定任务的适当材料的错误选择而造成质量和生产率问题。

还应理解，如在本文所述的该系统的人监视能力的变形形式是监视限制区域，该限制区域可以具有重要的自动或其他设备活动，所述设备活动仅需要周期性的维护或访问。该系统将监视对这种区域的访问控制的完整性，且由于未授权的访问而触发警告。因为在该区域中的维护或日常维修需要开关切换或其他停机时间，因此系统将监视授权的人(或一些人)的访问和操作，且如果由于事故或紧急医疗情况而意外地停止活动，则将通过本地或通过远程监视工作站触发警告。这种能力可提高这些类型任务的生产率，其中系统可被认为是“伙伴系统”的一部分。

尽管已经对执行本发明的较佳模式进行了详尽的描述，但是本领域技术人员可得知在所附的权利要求的范围内的用来实施本发明的许多替换设计和实施例。目的是上述和在附图中所示的所有内容应被理解为仅是示例性的而不是限制性的。

Claims

1.一种识别工作空间中物体位置的方法，该方法包括:

识别多个2D图像中至少三个内的前景部分；

其中该位置点代表工作空间中物体的点位置；

其中边界包络为工作空间中物体位置的3D概率图示。

2.如权利要求1所述的方法，进一步包括如果边界包络与预定体积空间重叠，则执行控制动作。

3.如权利要求1所述的方法，进一步包括如果位置点在边界包络中，则记录该位置点的坐标。

4.如权利要求3所述的方法，进一步包括组合运动轨迹，其中运动轨迹代表在一段时间上的位置点的位置；和

5.如权利要求4所述的方法，进一步包括确定位置点在工作空间中静止的该一部分时间段期间物体执行的动作。

6.如权利要求1所述的方法，进一步包括:

7.如权利要求1所述的方法，进一步包括将边界包络与工作空间的立体像素图示融合，以形成进一步完善的物体原型。

8.如权利要求7所述的方法，进一步包括确定进一步完善的物体原型的一部分的速度和加速度中的至少一个。

9.如权利要求8所述的方法，进一步包括基于速度和加速度中的至少一个对自动装置的行为发出警告。