CN115335828A

CN115335828A - 分层机器学习模型中的时域滤波

Info

Publication number: CN115335828A
Application number: CN202080098609.0A
Authority: CN
Inventors: 埃里尔·凯塞尔曼; 哈伊姆·穆什卡特尔; 多若·米兹拉奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2022-11-11
Also published as: WO2021185448A1; EP4121903A1

Abstract

本发明公开了一种用于使用具有多个退出点的分层机器学习模型进行推理的设备和方法，使得能够对输入进行时域滤波。所述方法包括：根据推理和模型的中间层生成的值设置推理规则。当从之前数据记录生成的存储值和从之后数据记录生成的之后比较值的比较表示变化不大时，可以根据所述存储的推理规则进行推理。所述方法可以在计算机系统以及智能手机或物联网设备等电池供电的设备上实现。

Description

分层机器学习模型中的时域滤波

技术领域

在一些实施例中，本发明涉及一种用于使用分层机器学习模型从数据记录进行推理的设备和方法，更具体地但不排他性地涉及神经网络，所述神经网络的内存、带宽和处理功率使用受到限制。

背景技术

基于神经网络的架构实现了分类、识别、检测、超分辨率、面部识别、分割等计算机视觉任务的突破。此外，类似的技术也应用于越来越多的领域，包括文本、声音和时间序列。然而，越来越深入的神经网络需要数十亿次计算，这给内存、处理能力和能耗带来了沉重的负担。已经应用了几种策略来缓解这一问题，限制了先进神经网络的应用，特别是在嵌入式系统上。一些实现方式量化、编码或精简权重或滤波器，对网络推理的置信水平的贡献较低。

发明内容

在一些实施例中，本发明涉及使用分层机器学习模型从数据记录中推理的设备和方法的实现方式，所述分层机器学习模型包括一个主分支和具有退出点的一个或多个侧分支。所述分层机器学习模型可以处理顺序数据记录，并在与处理记录的一个或多个距离度量符合与之前处理的数据记录关联的退出值时执行时域滤波。

根据本发明一些实施例的第一方面，提供了一种从数据记录进行推理的设备，包括：

处理器，用于：

在第一馈送迭代中，将第一数据记录馈送到分层机器学习模型以获取第一推理，其中，所述分层机器学习模型具有主分支和侧分支，所述主分支具有在所述分层机器学习模型的输出层上的主分支退出点，所述侧分支具有在所述分层机器学习模型的中间层上的侧分支退出点；

根据作为所述第一馈送迭代的结果获取的所述中间层的第一迭代值，为所述侧分支退出点设置退出值；

根据所述第一推理设置推理规则；

在第二馈送迭代中，将第二数据记录馈送到所述分层机器学习模型，以获取所述中间层的第二迭代值作为所述第二馈送迭代的结果；

计算所述第一迭代值和所述第二迭代值之间的至少一个距离度量；

根据所述第一迭代值和所述第二迭代值之间的至少一个距离度量和所述推理规则，生成第二推理。根据本发明一些实施例的第二方面，提供了一种从数据记录进行推理的计算机实现方法，包括：

根据所述第一推理设置推理规则；

根据所述第一迭代值和所述第二迭代值之间的至少一个距离度量和所述推理规则，生成第二推理。

在所述第二方面和/或其其它实现方式中，提供了一种其上存储有指令的计算机可读介质，所述指令由计算机执行时使所述计算机执行其计算机实现方法。

在所述第一方面和/或所述第二方面的另一种实现方式中，所述第一数据记录和所述第二数据记录之间的至少一个距离度量可以根据所述退出值的希尔伯特度量和测试值计算，其中，所述测试值是通过将所述第二数据记录馈送到所述分层机器学习模型获取的。

在所述第一方面和/或所述第二方面的另一种实现方式中，所述分层机器学习模型的至少一个层可以至少部分由所述至少一个侧分支和所述主分支共享，所述测试值包括所述至少一个层中的值。

在所述第一方面和/或所述第二方面的另一种实现方式中，阈值可以应用于所述第一迭代值和所述第二迭代值之间的至少一个距离度量的非递减函数。

在所述第一方面和/或所述第二方面的另一种实现方式中，所述分层机器学习模型可以是包括多个卷积层的神经网络。

除非另有定义，否则本文所用的所有技术和/或科学术语都具有与本发明普通技术人员公知的含义相同的含义。虽然与本文描述的方法和材料类似或等效的方法和材料可以用于本发明实施例的实践或测试，但下文描述了示例性方法和/或材料。如有冲突，以包括定义的专利说明书为准。此外，这些材料、方法和示例仅是说明性的，并不一定具有限制性。

根据本发明的方法和/或设备的实施例，几个选定的任务可以通过硬件、软件、固件或其组合使用操作系统来实现。

例如，根据本发明的实施例，用于执行选定任务的硬件可以实现为芯片或电路。作为软件，根据本发明实施例的选定任务可以实现为由使用任何合适操作系统的计算机执行的多个软件指令。在本发明的示例性实施例中，根据本文所述的方法和/或设备的示例性实施例的一个或多个任务由数据处理器执行，例如用于执行多个指令的计算平台。可选地，所述数据处理器包括用于存储指令和/或数据的易失性存储器和/或用于存储指令和/或数据的非易失性存储器，例如磁性硬盘和/或可移动介质。可选地，还提供网络连接。可选地还提供显示器和/或键盘或鼠标等用户输入设备。

附图说明

本文仅通过示例，结合附图描述了本发明的一些实施例。现在具体结合附图，需要强调的是所示的细节只是举例说明和为了本发明实施例的说明性讨论的目的。在这点上，根据附图说明，如何实践本发明的实施例对本领域技术人员而言是显而易见的。

在附图中：

图1为本发明的一些实施例提供的通过时域滤波从数据记录进行推理的示例性设备的示意图；

图2为本发明的一些实施例提供的用于通过时域滤波训练设备以从数据记录进行推理的示例性过程的流程图；

图3为本发明的一些实施例提供的通过时域滤波从数据记录中进行推理的示例性过程的流程图；

图4为本发明的一些实施例提供的通过时域滤波从数据记录进行推理的示例性过程的序列图；

图5为本发明的一些实施例提供的通过时域滤波从数据记录中进行推理的示例性过程的序列图；

图6为本发明的一些实施例提供的通过时域滤波训练设备以从数据记录进行推理的计算机实现方法的图；

图7为本发明的一些实施例提供的通过时域滤波从数据记录中进行推理的示例性计算机实现方法的图；

图8A描述了本发明一些实施例提供的示例性推理设备通过时域滤波处理的示例性时间序列，以及激活设备的主分支时的相应指示；

图8B描述了本发明一些实施例提供的示例性推理设备通过时域滤波处理的示例性图像序列，以及激活设备的主分支时的相应指示。

具体实施方式

在一些实施例中，本发明涉及一种待应用于分层机器学习模型中的技术，更具体地但不排他性地涉及神经网络，所述神经网络的计算机资源、内存、带宽和处理功率使用受到限制。

本发明的一些实施例可用于在具有有限计算能力的计算单元中，例如在具有有限内存、计算能力和/或有限能源的计算单元中进行推理，以从声音中去除噪声、对事件分类、跟踪代理、检测对象、分段图像等。

一些实现方式是以训练和/或执行分层机器学习模型为基础，例如神经网络，该模型具有通过支持早期决策中断而增强的网络架构。所述增强包括一个或多个具有退出点的其它分支，即多分支架构。其它退出点，即侧分支，可以基于存储推理结果，以及从中间层或从中间层分支的较小层中选择的点处的值。在比较点生成的以下值可以与之前的存储值进行比较。为支持这些增强而存储的值可以来自分支的退出点、可以由分支共享的中间层的点和/或特定于分支的点。

本文所使用的术语“第一”和“之前”可互换使用，并且应解释为包括在同一上下文中提到的一个或多个“第二”、“之后”或“连续”数据记录、处理周期、馈送迭代、值等之前的数据记录、处理周期、值等。此外，如本文所使用的，术语“第二”、“之后”和“连续”可互换使用，并且应被解释为包括除第一之外并在同一上下文中提到的“第一”或“之前”数据记录、处理周期、值等之后的数据记录、处理周期、馈送迭代、值等。类似地，术语“第一迭代值”是指通过处理存储为“退出值”的之前数据记录生成的值，术语“第二迭代值”是指通过处理之后数据记录生成的测试值。

本文所使用的术语“退出点”是指支持在不执行其它层的情况下结束推理的选项的代码、逻辑等。可以使用基于之前推理(如第一推理)的推理规则来结束推理。术语“先退出”、“侧分支退出点”和“侧分支退出”可以互换使用。类似地，术语“主分支退出点”和“主分支退出”可以互换使用。

当从连续数据记录进行推理时，这些点的值可以与之前评估的数据记录进行比较。当这些点的变化与之前记录相比微不足道时，可能有足够的置信度，即数据记录符合之前数据记录的推理。这些点的值对于许多数据记录的推理(如分类)具有足够的信息性。这允许在分层机器学习模型的早期层实现推理，如分类。这些早期决策可能有助于减少平均计算时间、数据带宽和/或分类等推理消耗的能量，特别是当机器学习模型是深度的，具有几十甚至数百层时。

在详细解释本发明的至少一个实施例之前，应理解，本发明在应用时并不一定限于以下描述和/或附图和/或示例中阐述的组件和/或方法的结构和设置的细节。本发明能够有其它实施例，或者能够以各种方式实践或执行。

现参考附图，图1为本发明的一些实施例提供的通过时域滤波从数据记录进行推理的示例性设备的示意图。示例性推理设备100可以执行过程，例如过程200和/或300，这些过程将在图2和图3中描述，并且可以分别通过时域滤波训练系统或设备从数据记录进行推理，和/或使用系统或设备进行推理。

推理设备100可以包括输入接口112、输出接口115、处理器111和用于存储程序代码114和/或数据的存储介质116。处理器111可以执行程序代码114，可以包括执行过程，例如过程200和/或过程300，这会在图2和图3中描述。推理设备100可以物理上位于站点上，和/或在移动设备、物联网(internet of things，IOT)设备上、作为分布式系统、虚拟地在云服务上、在也用于其它功能的机器上和/或通过几个其它选项实现。在一些实现方式中，系统的部分，例如与侧分支关联的早期层和中间层，可以在蜂窝电话、IOT模块、安全摄像头、电池供电的麦克风等设备上实现。然而，其它部分，例如主分支，可以在个人计算机上、云上和/或类似设备上实现。

设备，特别是电池供电有限的移动设备，受益于早期分类，节省了其它层的执行时间和功率。机器学习模型可以有许多层，例如19个、35个、50个层，一些架构包括一个以上的神经网络和/或数百层。此外，层可以包括尺寸为256×256×128或64×64×512的张量、三维以上的张量等等。因此，深度分层机器学习模型的使用可能对内存、处理能力和能耗等计算资源要求很高，特别是在紧凑型电池供电设备预算紧张的情况下。使用时域滤波可以仅使用这些层的一部分对一些数据记录进行处理，从而节省计算资源。

当延迟、功率、CPU使用和内存使用存在严格限制时，设备可以包括专用硬件、FPGA、边缘计算机和/或类似设备。需要说明的是，应用专用硬件可能会提高速度并且功耗更低，但是，在设计过程中，它可能需要额外的资源，并限制系统更新的灵活性。当精度是关键因素时，系统可以在专用服务器、计算机场、云和/或类似设备上实现。此外，电池供电、低功耗、低CPU边缘设备可以被设计或配置成执行与设备或一个或多个侧分支关联的代码。在这些示例中，代码可以针对较少的功耗操作、内存使用和/或类似操作进行优化。

输入接口112和输出接口115可以包括一个或多个有线和/或无线网络接口，用于连接到一个或多个网络，例如局域网(local area network，LAN)、广域网(wide areanetwork，WAN)、城域网、蜂窝网络、互联网等。输入接口112和输出接口115还可以包括一个或多个有线和/或无线互连接口，例如通用串行总线(universal serial bus，USB)接口、串行端口、控制器局域网(controller area network，CAN)总线接口等。此外，输出接口115可以包括用于扬声器、显示器、医疗设备等的一个或多个无线接口，以及执行后处理的其它处理器。输入接口112可以包括一个或多个无线接口，用于从一个或多个设备接收信息。此外，输入接口112可以包括用于与一个或多个传感器设备122通信的特定装置，例如相机、麦克风、医疗传感器、天气传感器等。类似地，输出接口115可以包括用于与一个或多个显示设备125通信的特定装置，例如扬声器、显示器、与医疗设备的直接接口等。此外，显示设备可以包括模型、设备等，其对由系统生成的推理执行进一步处理。

本文所使用的术语“数据记录”应被解释为包括一个或多个数据记录，例如音频样本、视频样本、图像、时间序列样本、生物医学指标等。数据记录可以是单峰的或多峰的，并且还可以包括单词、句子、符号、字母等词汇信息。

可以通过输入接口112、从存储介质116等接收数据记录。需要强调的是，还包括成批的数据记录，如在一些应用程序中引入到机器学习模型。

处理器111可以是同质的或异质的，并且可以包括布置用于并行处理的一个或多个处理节点，作为集群和/或作为一个或多个多核处理器。存储介质116可以包括一个或多个非瞬时性持久存储设备，例如硬盘、闪存阵列、可移动介质等。存储介质116还可以包括一个或多个易失性设备，例如随机存取存储器(random access memory，RAM)组件等等。存储介质116还可以包括一个或多个网络存储资源，例如，存储服务器、网络附属存储(networkattached storage，NAS)、网络驱动器等，这些存储资源可以通过输入接口112和输出接口115通过一个或多个网络访问。此外，可以使用专用寄存器、锁存器、高速缓存等更快访问存储硬件来提高处理速度。

处理器111可以执行一个或多个软件模块，例如过程、脚本、应用程序、代理、实用程序、工具、操作系统(operating system，OS)和/或类似物，每个软件模块包括存储在程序代码114内的非临时介质中的多个程序指令，这些程序指令可以驻留在存储介质116上。例如，处理器111可以执行包括通过时域滤波进行设备的推理或训练的过程，例如过程200、300，这会在图2和图3中描述。处理器111可以生成分类、对象检测、异常检测、分割、去噪、超分辨率、语义分析、语音解释等推理。此外，处理器111可以执行一个或多个软件模块，用于分层机器学习模型的一个或多个层以及辅助模型的在线或离线训练。

还参考图2，图2为本发明的一些实施例提供的通过时域滤波训练设备以从数据记录进行推理的示例性过程的流程图。可以针对涉及推理的各种自动和半自动目的执行示例性过程200，例如分析、监视、视频处理、语音处理、维护、医疗监控等。过程200可以包括用于第一馈送迭代和连续馈送迭代(例如第二馈送迭代)的不同处理流程。

过程200可以从第一馈送迭代210开始，如211所示，第一馈送迭代210通过将第一数据记录馈送到分层机器学习模型以获取第一推断而开始。可以从记录多个传感器读数的多个存储或实时数据记录接收第一数据记录。例如，数据记录可以包括来自数码相机的输入。在一些其它示例中，数据记录可以包括语音样本、医疗信号、一个或多个时间序列等。该过程可以包括通过分层机器学习模型的主分支和一个或多个侧分支处理第一数据记录。

如212所示，通过基于中间层的第一迭代值为侧分支退出点设置退出值，该过程可以继续。退出值可以作为模型对第一数据记录进行的第一馈送迭代处理的结果获取，该模型包括一个主分支和一个或多个侧分支。分层机器学习模型对第一数据记录的处理通过主分支以及中间值生成推理。退出值可以基于多个值，这些值是专门为此目的生成的，或者是作为推理的临时处理阶段生成的。这些值由分层机器学习模型的元素生成，该模型也可以被称为节点、神经元、感知器等。层可以包括多个元素，这些元素被布置为矢量、矩阵、更高维张量、为机器学习任务定制的特定结构、自动生成的结构等。层可以特定于主分支、一个或多个侧分支，也可以由所有分支或多个分支使用。存储值可以包括某个中间层和/或侧分支中的元素输出。此外，这些值可以包括推理、主分支的输出和/或机器学习模型的任何层或部分。这些值可以存储以启用未来的比较和快捷方式推理。

如213所示，该过程可以通过基于第一推理设置推理规则来继续，所述第一推理规则可以是标签、用于进一步计算的基线等等。

该过程可以继续第二馈送迭代220。如221所示，第二迭代220可以通过将第二数据记录馈送到分层机器学习模型来开始，从而生成多个测试值。通过分层机器学习模型处理第二或另一个之后数据记录生成多个之后值或第二迭代值。以下值中的一些可以与存储值关联，并可以被推理或用作测试值的基础。随后，存储在存储介质116中的一组或多组退出值可以与通过处理以下数据记录生成的一组值进行比较。

如222所示，该过程可以继续计算第一数据记录和第二数据记录之间的至少一个距离度量。距离度量可以与第一迭代值和第二迭代值之间的距离关联，或与第一数据记录中的一个或多个退出值与第二数据记录的测试值之间的距离关联。需要说明的是，分层机器学习模型中元素的值以及从其获取的存储值形成了高维空间，例如希尔伯特空间。类似地，可以定义子空间，例如根据一个或多个层中的元素的希尔伯特子空间。度量，如希尔伯特度量，可以以几种方式定义，并产生一个或多个距离度量。欧几里德距离是距离度量的低维示例。希尔伯特度量可以根据某些标准进行检查。所述标准可以包括基于分层机器学习模型中元素的值和从一个或多个之前数据记录获取的相应值的希尔伯特度量的阈值，所述数据记录可以存储在存储介质116中。希尔伯特度量可以用作距离度量，例如，距离度量可以是绝对值差和L1。或者，距离度量可以是二次值差和L2。此外，距离度量可以是存储的一个或多个值中的L1和L2的加权和组合。此外，距离度量可以是值差的非整数幂的加权和，或指数、对数、双曲三角函数等其它函数的加权和。在其它示例中，距离的累积是以求和以外的方式完成的，例如超过特定阈值的计数值、几何和等。或者，距离可以是矩形的。或者，距离可以基于非单调函数，例如，在包括周期函数的情况下。

在223中，该过程可以检查连续数据记录标签(即，在本例中，第二数据记录标签)是否匹配或符合来自之前处理的数据记录标签，即，在本例中，比较第一数据记录标签。在存在标签匹配的情况下，参考比较存储值的变化最好被认为是不重要的。在标签不匹配的情况下，参考比较存储值的变化优选地可以被认为足以触发通过分层机器学习模型的其它层继续连续数据记录处理。在第一馈送迭代210中，当处理的数据记录是数据记录序列中的第一个数据记录时，可能没有要比较的存储值，因此，可能需要通过其它层进行处理。此外，在训练期间，更新用于其它侧分支和/或主分支的参数可能是可取的，因此，分支退出可能不会实际执行。

可选地，为训练期间执行的优化和参数更新定义成本或损失函数。损失函数的一个示例是三元损失，其优化如下：

-优化函数以生成非匹配输入的最大距离。

-优化函数以生成匹配输入的最小距离。

三元损失训练可以包括同时呈现参考输入、匹配输入和非匹配输入。在训练期间，可以通过更新与分层机器学习模型的一个或多个层关联的参数来优化其它成本或损失函数，例如成对排序、加性、角度、对比度等和/或其替代及其变体。

该过程可以通过更新层参数的值继续，以减少在处理具有匹配标签的第一数据时生成的第一值与比较第二值之间的一个或多个距离度量，如224所示。此外，该过程可以通过更新层参数的值继续，以增加在处理不具有匹配标签的第一数据时生成的第一值与通过处理第二数据生成的第二值之间的一个或多个距离度量，如225所示。

应当强调的是，其它考虑因素，如一些非零权重参数、其它正则化措施、遵守各种标准和法规等，也可能适用于优化过程和/或损失函数。

馈送到分层机器学习模型进行训练的数据记录的顺序可以是随机的，但是，数据记录的约束或确定性顺序可以是优选的，因为连续数据记录之间的变化比随机变化更有意义。

随机梯度下降是更新层参数的示例性方法。然而，可以使用其它优化方法及其变体，例如，自适应学习率，如Adam或Adagrad，和/或动量。

需要说明的是，转移学习和本领域技术人员已知的其它有监督、半监督或无监督训练方法，包括关于或忽略侧分支的方法，可以用于分层机器学习模型的一部分或整个训练。

还需要说明的是，可以在不显式训练侧分支的测试值以根据推理匹配生成最大或最小距离，和/或使用三元损失等方法来增强嵌入的情况下使用本发明的其它实施例。

需要说明的是，时域滤波是指对一个或多个数据记录序列进行处理，其中，可以存储之前数据记录的推理规则，如标签，并用于能够更快地处理之后数据记录。当使用时域滤波时，分层机器学习模型的一些层可以被关闭或跳过，其特征可以是属于主分支或除第一侧分支以外的侧分支。

如本文所使用的，术语“层参数”应被解释为包括分层机器学习模型中一个或多个层的一个、一些或所有参数的集合。层参数的示例包括权重、偏置、激活阈值、偏移等。此外，层参数可以与层中的一个或多个元素关联。

现参考图3，图3为本发明的一些实施例提供的通过时域滤波从数据记录进行推理的示例性过程的流程图。

示例性过程300可以实现许多数据记录的早期退出和决策，从而节省处理时间、能量、存储器带宽等。过程300可以用于一个或多个自动和/或半自动推理任务执行，例如分析、监控、视频处理、语音处理、维护、医疗监控等。过程300还可以包括用于第一馈送迭代和连续馈送迭代的不同处理流程。

过程300可以从第一馈送迭代310开始。如311所示，第一馈送迭代310可以通过将第一数据记录馈送到分层机器学习模型以获取第一推理来开始。分层机器学习模型具有主分支和侧分支。用于馈送的数据记录可以包括记录多个传感器读数的多个实时记录。例如，数据记录可以包括来自数码相机的输入。此外或可替代地，数据记录可以包括语音样本、医疗信号、一个或多个时间序列等。第一数据记录可以由分层机器学习模型的主分支和一个或多个侧分支处理，因为侧分支可以既没有存储中间值，也没有存储推理。

如312中所述，过程300可以包括根据作为第一馈送迭代的结果获取的中间层的第一迭代值，为侧分支退出点设置退出值。当将第一数据记录馈送到分层机器学习模型时，退出值可以由分层机器学习模型的元素生成。退出值可以包括和/或基于来自某个中间层和/或来自特定于侧分支的逻辑的输出。或者，退出值可以包括来自主分支和/或机器学习模型的任何层或部分的输出。此外，过程300可以包括根据第一推理设置推理规则，如313所示。推理规则可以基于通过主分支馈送第一数据记录所产生的推理，以便对之后数据记录进行推理。存储的推理规则所基于的推理可以称为第一推理。

过程300可以继续连续馈送迭代，例如第二馈送迭代320。可以通过类似方式执行其它之后馈送迭代，例如第三馈送迭代。如321所示，第二馈送迭代320可以通过将第二数据记录馈送到分层机器学习模型，以获取中间层的第二迭代值作为第二馈送迭代的结果。第二数据记录可以使用分层机器学习模型的一个或多个层来评估。分层机器学习模型的早期层和中间层对第二数据记录的处理在网络层的元素处生成值，并且与第一迭代值比较的值可以形成第二迭代值。如322中所示，过程300可以包括计算第一迭代值和第二迭代值之间的至少一个距离度量，或计算从之前数据记录的评估存储的退出值与从第二数据记录生成的测试值之间的距离度量。

如323所示，过程300可以通过在退出点确定至少一个符合的距离度量是否表示第二迭代值符合侧分支退出点的退出值来继续。可以从当前测试值或第二迭代值计算距离度量到存储的退出值集中的至少一个，这些退出值集是在处理之前数据记录(例如，第一数据记录)时生成的。符合的距离度量可以启用退出点。

如324中所示，当存在指示接近之前记录的符合的距离度量时，第二数据记录的处理可以退出从第二数据记录的推理，并根据在312中处理第一数据记录时存储的推理规则继续。根据一个示例，推理规则提供了完整的推理，例如分类标签。或者，推理规则包括从中执行其它计算以生成推理的基线。例如，推理检测对象的分段边界的增量移动可以包括处理中间层的值。推理规则可以是数据记录的分类、一次或多次检测、超分辨率、语义分割、语义线索等等。

当值变化是显著的，并且没有对应于之前记录并指示接近性的符合距离度量时，如325所示，该过程可以继续根据机器学习模型的附加层从第二数据记录进行推理。这些层可以包括主分支和/或附加侧分支。可选地，该过程可以在同一设备上继续，然而，一些替代方案可以包括触发另一个设备继续处理、独立评估数据记录，等等。此外，在第一馈送迭代310中，当处理的数据记录是数据记录序列中的第一个数据记录时，可能没有要比较的存储值，因此，可能需要通过其它层进行处理。

从第二数据记录或其它之后的数据记录生成的值和推理可以称为第二推理。除了存储值和推理之外，或者代替存储值和推理，还可以存储这些推理以用于之后数据记录评估。当存储这些推理时，这些推理可以称为其它之后数据记录的第一推理。或者，可以存储之前存储值和推理。

现参考图4，图4为本发明的一些实施例提供的描述通过时域滤波从数据记录进行推理的示例性过程的序列图。示例性序列400例示了与图3中描述的过程300等过程关联的推理序列。根据通过时域滤波从数据记录进行推理的示例性过程的一些实现，该过程通过接收包括中间层侧分支411的示例性模型输入410开始。分层机器学习模型还包括主分支412，以及用于产生推理的推理输出413，其中，所述主分支412可以在附加层之后和/或包括附加层。与推理输出413关联的代码或逻辑可以确定何时使用主分支412或应用推理规则，例如，如图3所示的过程的步骤323和以下选项324和325所示。对于每个代理，例如模型输入410，时间线被描述为下降线，例如模型输入410的下降线430。

在421中，当第一数据记录被馈送到分层机器学习模型时，启动示例性序列400。例如，第一数据记录可以包括来自监控摄像机的图像。由于分层机器学习模型没有处理之前数据记录，因此，与之前记录对应的距离度量不能通过指示接近性来符合标准。因此，中间层侧分支411存储一些值以有助于可以对之后数据记录的距离进行测量，并且处理如422所示通过包括主分支412的附加层继续。随后，如423所示，推理输出413转发由分层机器学习模型的主分支412作出的推理。当分层机器学习模型处理符合标准的之后数据记录时，还存储基于推理的推理规则，用于启用侧分支退出。

随后，在本示例中，在424中，第二数据记录被馈送到分层机器学习模型。例如，第二数据记录可以包括来自同一监控摄像机的第二图像。中间层和侧分支处理第二数据记录，并计算第二迭代值以及第一迭代值和第二迭代值之间的距离度量，即在处理第一数据记录时存储的值和从第二数据记录生成的比较值之间的距离度量。在本示例中，当图像没有显著变化时，距离度量可能低于阈值，距离度量满足退出值标准。因此，推理可以生成与在425中为第一数据记录生成的相同的输出。类似地，在426中，之后数据记录也可以解释测试值中的不显著变化，并且因此，可以仅由与侧分支关联的早期层和中间层处理。随后，在427中，分层机器学习模型可以根据通过处理匹配的之前数据记录生成的推理规则生成推理。

随后，在本示例中，如431所示，引入分层机器学习模型的数据记录具有一个或多个显著变化。因此，当将由此生成的测试值与从处理之前数据记录中获得的存储退出值进行比较时，在与侧分支关联的早期层和中间层处理之后，计算的距离度量可能超过阈值，并且不满足退出标准。随后，如432所示，数据记录处理通过分层机器学习模型(例如主分支412)的附加层继续，并且生成由主分支412生成的推理，如433所示。

需要说明的是，在示例性的监视过程中，显著的变化可以包括一个或多个人进入观察区域、突然的行为、大型危险动物的进入等。同样，灯光的变化、轻微的运动、昆虫等小动物的运动，也可以被认为是可忽略不计的变化。然而，本发明不限于这些示例，并且可以用于例如动物识别、监测天气、照明、鸟类迁徙等。此外，本发明可以应用于音频、语音、时间序列、工业机械指示器、连接到机器人的传感器、智能家居传感器、智能工厂传感器、医疗索引等等，并且变化的重要性可以通过与商业、安全、医学等的标准关联的标签得出。

此外，根据距离度量，确定何时可以在侧分支上进行推理的阈值或其它标准可以根据几个约束和权衡来确定。如果为需要通过附加层处理的数据记录启用侧分支退出，则更高的阈值可以节省更多的内存、处理能力和能耗负载，但是需要精度。

此外，为了简单起见，示例性序列400描述了一个示例，其中存储具有对应推理结果的一组值，用于以后计算距离度量并在侧分支处退出推理。可以存储其它集，使比较更加复杂，存储要求更大。但是，会更频繁地启用更快的侧分支退出。例如，当数据记录通常分为几个类别时，可能是有用的。此外，尽管示例性序列400的序列图描述了具有单个侧分支的实现方式，但需要说明的是，可以具有相同或不同数量的存储值集来实现多个侧分支。其它侧分支和存储值集可能会更频繁地满足侧分支退出标准。这节省了更多的内存、处理能力和能耗负载，但是需要更复杂的侧分支逻辑。

现参考图5，图5为本发明的一些实施例提供的描述通过时域滤波从涉及侧分支514的数据记录进行推理的示例性过程500的序列图。

在处理一个或多个数据记录期间，例如，馈送第一数据记录的第一馈送迭代期间，可以将一个或多个层中的一个或多个值存储为退出值，如502所示，并且可以存储关联的推理规则，如504所示。可选地，退出值是第一迭代值，然而这些值可以被更新，并且其它迭代可以被视为之后馈送迭代的第一迭代。在处理之后数据记录期间，例如第二数据记录期间，在第二馈送迭代期间，分层机器学习模型的一个或多个中间层501的一个或多个输出可以被视为测试值513。为了简单起见，测试值513可以被称为第二迭代值，然而，距离度量可以类似地计算用于其它迭代。将测试值513与作为之前数据记录502中的退出值存储的一个或多个值集中的对应值进行比较，以形成距离度量，如503中所示。或者，可以在存储之前处理退出值以及与它们比较的值，并且相对而言，可以在比较之前处理测试值513。这可以用于节省内存、降低噪音、对其它不相关功能进行滤波等。

在除第一馈送迭代之外的馈送周期期间生成的推理可以称为第二推理。当通过测量从测试值513到关联存储的退出值中的至少一个的距离来满足退出标准时，可以根据存储的推理规则504生成推理520，所述推理规则504与存储在其中的之前推理关联。满足退出标准使得早期侧分支退出，因为进一步处理不需要其它主分支层510。因此，推理设备的处理器和存储介质(例如图1所示的推理设备100的处理器111和存储介质116)的资源可以用于之后数据记录或置于省电模式。当不满足退出标准时，数据记录由其它层(例如主分支层510)处理，以生成推理值520。此值也可以存储以备将来的推理，但是，一些实现方式可以保持存储值和标签不变。

需要说明的是，为了简单起见，图5中所示的示例性过程500的序列图描绘了一个值集，值集中存储了对应的推理结果，用于以后计算距离度量，并在侧分支514中退出推理，在侧分支514中使用单个侧分支。实现方式的特点是具有其它分支和存储值。此外，可以使用多个距离度量，其中，在图3的描述中提到了一些示例。

现参考图6，图6为本发明的一些实施例提供的通过时域滤波训练设备以从数据记录进行推理的计算机实现方法的图。

所描述的训练方法是示例性的监督训练方法。但是，需要说明的是，也可以使用其它方法。例如，可以应用学生-教师培训。例如，当推理设备是低功耗、低CPU设备时，可以在旨在执行推理的设备以外的系统上执行训练。

在本示例中，数据记录610包括至少一个传感器读数611和标签612。传感器读数611可以来自连接到输入接口122(预先录制和预先标记的条目、由一些预处理、模拟、渲染等生成的时间序列)的设备，例如摄像机或麦克风等等。标签612可以包括类、一个或多个对象的检测、分割、与传感器读数或其解释关联的语义标签等等。

训练包括一个或多个迭代，其中，一个或多个数据记录被馈送到分层机器学习模型620，并且将由分层机器学习模型生成的推理与标签612进行比较。

比较和参数更新逻辑630可以控制更新一个或多个层中的一个或多个参数。推理设备的处理器，例如图1中所示的推理设备100的处理器111，可以更新这些层参数中的一个或多个，使得主分支625推理与标签612匹配。调整后的层参数可以包括特定的主分支层625。调整后的层参数还可以包括中间层参数622。此外，调整后的层参数可以包括早期层参数621。需要说明的是，不同的侧分支的训练可以不同，例如，有些分支可以用于相似性的不同方面，或者可以不专门训练。

机器学习模型的至少一个层可以包括层参数，并且层参数根据图2的描述中提到的算法由比较和参数更新逻辑630调整。

层参数调整可以包括更新早期层621和中间层622中的一些层参数的值，以减小退出值和测试值之间的至少一个距离，以表示当第二数据记录标签符合比较第一数据记录标签时的接近性。例如，侧分支623可以包括减小的距离。需要说明的是，当侧分支退出标准匹配时，处理数据记录也可以继续，因为在训练期间，训练更多的层可能比性能或节能更重要。

当第二数据记录标签不符合比较第一数据记录标签时，层参数调整还可以包括更新621、622中的一些层参数的值，以减小退出值和测试值之间的距离。例如，侧分支可以包括减小的距离。

此外，训练可以包括更新621、622和主分支层625中的一些层参数的值，以在主分支中生成符合数据记录标签612的标签。

此外，训练可以包括更新621、622中的一些层参数的值，以在侧分支退出点生成符合主分支处数据记录标签的标签和/或另一个推理。

在神经网络训练中，使用从输入到输出的一个以上路径，具有不同的深度，可以有助于缓解正则化和梯度消失等问题。还需要说明的是，本发明的其它实施例可以在不显式训练侧分支作为辅助分类器，和/或使用三元损失等方法来增强嵌入的情况下使用。

现参考图7，图7为本发明的一些实施例提供的通过时域滤波从数据记录进行推理的示例性计算机实现方法的图。

需要说明的是，所述示例性多分支方法的图包括两个侧分支，然而，本发明并不限于此数量，并且可以使用单个或其它侧分支。在本示例中，包括至少一个传感器读数711的数据记录710被引入分层机器学习模型720中。数据记录首先由早期层721处理，然后由中间层722和关联的侧分支723处理。当之前迭代的存储值与当前第二迭代值之间的距离度量满足退出标准时，侧分支退出点可以结束推理。当距离度量是符合标准的，例如，低于应用于其非递减函数的阈值时，退出推理选择和流量控制730可以生成与存储的推理规则关联的标签或推理，并且分层机器学习模型720可以处理下一个记录或转换到节能状态。应当注意的是，所示的示例示出了两个侧分支的类似过程，然而，实现方式可以不同方式控制与每个侧分支关联的处理和推理，例如，一个侧分支可以存储推理作为推理规则，而另一个侧分支可以生成推理作为测试值和推理规则的函数。当不满足退出标准时，数据记录可以由附加的中间层724和关联的侧分支727进一步处理。类似地，在第一迭代值与第二迭代值之间的距离度量或与存储的退出值中的测试值之间的距离度量满足退出标准的情况下，退出推理选择和流量控制730可以生成与存储值关联的标签，并且分层机器学习模型720可以处理下一个记录或转换到节能状态。在与存储值的距离度量不满足退出标准的情况下，数据记录也由主分支层725处理，并且其推理由退出推理选择和流量控制730选择。

现参考图8A，图8A描述了本发明一些实施例提供的示例性推理设备通过时域滤波处理的示例性时间序列，以及激活设备的主分支时的相应指示。在本示例中，推理设备分析信号801。信号801可以是用于接收声音指令的设备的语音样本、脑电图等医疗信号、通过一个或多个渠道的一种或多种产品的销售率等。可选地，推理设备可以处于等待关键字或事件的待机模式，并且当可以通过早期的简单评估将输入与该关键字或事件区分开来时，由此启用的节能是显著的。应当强调的是，为了清晰起见，选择标量短周期信号，并且实现方式可以具有信号的矢量、矩阵或张量，并且可以包括数据记录中不同特征和/或源的信号。信号805例示了主分支可以以高值激活的情况，以及在具有低值的侧分支中满足退出标准的情况。当满足退出标准，或者第一迭代值与第二迭代值之间的距离度量或退出值与测试值之间的距离度量指示接近性时，侧分支可以根据存储的高置信度推理规则生成推理，节省CPU、内存带宽、功耗等会通过执行主分支评估而消耗的资源。在本示例中，第一数据记录以及信号模式中的一些显著变化的实例会激活主分支。应该强调的是，这是一个示例，实现方式可以显示出不同的主分支激活模式。

现参考图8B，图8B描述了本发明一些实施例提供的示例性推理设备通过时域滤波处理的示例性图像序列，以及激活推理设备的主分支时的相应指示。在本示例中，数据记录序列811是可以由安全摄像机捕获的图像序列。信号815例示了主分支可以以高值激活的情况，以及侧分支可以低值生成具有高置信度的推理。在本示例中，第一数据记录连同图像中的显著变化，例如812中的附加人员的进入，会激活主分支，并在没有发生显著变化时节省能量和带宽等资源。应该再次提到的是，这是一个示例，实现方式可以显示出不同的主分支激活模式。

预计在本申请到期的专利的有效期内，将开发许多相关的机器学习和神经网络架构、元架构和训练方法，并且术语分层机器学习模型的范围的目的是先验地包括所有这些新技术。例如，术语“训练”的目的是除了梯度下降和已知的优化方法外，预计将开发或推广遗传算法、涉及随机化的方法、变量分裂方法、半监督和无监督方法、非凸优化方法等替代训练方法。

术语“包括”、“具有”以及其变化形式表示“包括但不限于”。

如本文所使用的，术语“和”应被解释为包括其它非递减函数，如几何和、对数和、非零值的计数等。

如本文所使用的，术语“接近性”应被解释为包括各种相似性度量，例如，在周期函数的值中，这些度量可以应用于比较值。

除非上下文中另有明确说明，此处使用的单数形式“一个”和“所述”包括复数含义。例如，术语“一个复合物”或“至少一个复合物”可以包括多个复合物，包括其混合物。

应了解，为了描述的简洁性，在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地，为了描述的简洁性，在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征，除非没有这些元素所述实施例无效。

Claims

1.一种用于从数据记录进行推理的设备，其特征在于，包括：

处理器，用于：

根据所述第一推理设置推理规则；

2.根据权利要求1所述的设备，其特征在于，所述第一迭代值和所述第二迭代值之间的至少一个距离度量是根据所述退出值的希尔伯特度量和测试值计算的，所述测试值是通过将所述第二数据记录馈送到所述分层机器学习模型获取的。

3.根据权利要求2所述的设备，其特征在于，所述分层机器学习模型的至少一个层至少部分由所述至少一个侧分支和所述主分支共享，所述测试值包括所述至少一个层中的值。

4.根据权利要求1所述的设备，其特征在于，所述处理器还用于对所述第一迭代值和所述第二迭代值之间的至少一个距离度量的非递减函数应用阈值。

5.根据权利要求1至4中任一项所述的设备，其特征在于，所述分层机器学习模型是包括多个卷积层的神经网络。

6.一种用于从数据记录进行推理的计算机实现方法，其特征在于，包括：

根据所述第一推理设置推理规则；

7.根据权利要求6所述的计算机实现方法，其特征在于，所述第一迭代值和所述第二迭代值之间的至少一个距离度量以所述退出值的希尔伯特度量和测试值为基础，其中，所述测试值是通过将所述第二数据记录馈送到所述分层机器学习模型获取的。

8.根据权利要求7所述的计算机实现方法，其特征在于，所述分层机器学习模型的至少一个层至少部分由所述至少一个侧分支和所述主分支共享，所述测试值包括所述至少一个层中的值。

9.根据权利要求6所述的计算机实现方法，其特征在于，还包括：对所述第一迭代值和所述第二迭代值之间的至少一个距离度量的非递减函数应用阈值。

10.根据权利要求6至9中任一项所述的计算机实现方法，其特征在于，所述分层机器学习模型是包括多个卷积层的神经网络。

11.一种存储有指令的计算机可读介质，其特征在于，所述指令由计算机执行时使得所述计算机执行根据权利要求6至10中任一项所述的计算机实现方法。