CN112384425A

CN112384425A - 利用用于自主驾驶的神经形态计算网络进行实时车辆识别的方法

Info

Publication number: CN112384425A
Application number: CN201980041330.6A
Authority: CN
Inventors: 姜勤; 曺永官; N·D·斯特普; S·W·斯克尔海姆; V·德萨皮奥; P·K·皮利; S·鲁杰罗
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2018-07-23
Filing date: 2019-07-23
Publication date: 2021-02-19
Anticipated expiration: 2039-07-23
Also published as: EP3826893A1; WO2020023518A1; US11199839B2; US20200026287A1; EP3826893A4; CN112384425B

Abstract

描述了一种用于自主驾驶环境中的在线车辆识别的系统。使用包括无监督学习部件和有监督学习部件的学习网络，对从在自主驾驶环境中拍摄的视频提取的移动车辆图像进行学习和分类。从输入的移动车辆图像提取车辆特征数据。使用无监督学习部件将所提取的车辆特征数据聚类成不同车辆类别。使用有监督学习部件来生成不同车辆类别的车辆类别标记。基于自主驾驶环境中的移动车辆的车辆类别标记，所述系统选择将由自主车辆执行的动作，并使该自主车辆在自主驾驶环境中执行所选择的动作。

Description

利用用于自主驾驶的神经形态计算网络进行实时车辆识别的方法

相关申请的交叉引用

本申请是2018年7月23日在美国提交的题为“A Method of Online Learningwith Neuromorphic Computing Network”的美国临时申请No.62/702,042的非临时申请，其全部内容通过引用并入于此。

发明背景

(1)技术领域

本发明涉及一种车辆识别的系统，并且更具体地，涉及一种用于自主驾驶的车辆识别的系统。

(2)背景技术

在线学习能力对于许多机器学习系统和自主系统非常重要。例如，实时车辆识别是自主驾驶系统的重要能力。自主车辆需要识别在其周围移动的车辆，以便准确跟踪所述车辆的移动，诸如，改变车道、驶离高速公路、进入高速公路以及转弯。当新类型的车辆上路时，自主车辆需要在线并实时地学习和识别新车辆。这要求自主驾驶系统具有在线学习能力，以进行实时车辆识别。

深度学习是最流行的学习技术，但其不具有无监督的学习能力。结果，在有监督的学习中需要更多的训练样本来学习。此外，需要深度学习来完全重新训练学习系统，以学习新的对象和对象类别。因此，在自主驾驶中，深度学习技术可能不适用于在线车辆识别。

因此，持续需要用于自主驾驶系统的在线车辆识别的系统和方法。

发明内容

本发明涉及一种车辆识别的系统，并且更具体地，涉及一种用于自主驾驶的车辆识别的系统。所述系统包括非暂时性计算机可读介质以及一个或更多个处理器，所述非暂时性计算机可读介质编码有可执行指令，使得当执行所述可执行指令时，所述一个或更多个处理器执行多个操作。使用包括无监督学习部件和有监督学习部件的学习网络，所述系统通过以下步骤对从在所述自主驾驶环境中拍摄的视频提取的移动车辆图像进行学习和分类：从输入的移动车辆图像提取车辆特征数据；使用所述无监督学习部件将所提取的车辆特征数据自动聚类成不同车辆类别；以及使用所述有监督学习部件来生成所述不同车辆类别的车辆类别标记。基于所述自主驾驶环境中的一个或更多个移动车辆的车辆类别标记，选择将由自主车辆执行的动作。所述系统使所述自主车辆在所述自主驾驶环境中执行所选择的动作。

在另一方面，所述无监督学习部件是包括多个神经元的脉冲储备池网络(spikingreservoir network)，并且所述有监督学习部件是包括多个神经元的线性神经网络分类器。

在另一方面，所述脉冲储备池网络中的各个神经元完全连接至所述线性神经网络分类器中的所述多个神经元，并且其中，所述脉冲储备池网络与所述线性神经网络分类器之间的突触权重集是按照有监督学习法训练的。

在另一方面，所述线性神经网络分类器使用来自所述脉冲储备池网络的平均脉冲率来生成所述车辆类别标记。

在另一方面，在从未知移动车辆图像提取特征后，所述系统生成未知车辆识别信号；存储所述未知移动车辆的任何图像；当所存储的未知车辆的图像的数量达到阈值时，为所述未知移动车辆请求新车辆类别标记；以及学习所述新车辆类别。

在另一方面，在有监督学习之后存储突触权重，并且其中，为了学习新车辆类别，所存储的表示旧车辆类别的突触权重被用作用于无监督学习的初始权重。

在另一方面，将从新车辆类别学习的突触权重与所存储的突触权重组合，并且其中，组合的突触权重被用于对旧车辆类别和新车辆类别两者进行分类。

最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括在非暂时性计算机可读介质上存储的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，计算机实现的方法包括使计算机执行这种指令并且执行所得到的操作的动作。

附图说明

结合参考以下附图，本发明的目的、特征以及优点将从本发明的各个方面的以下详细描述变得显而易见，其中：

图1是对根据本公开的一些实施方式的车辆识别的系统的部件进行描绘的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示图；

图3是例示了根据本公开的一些实施方式的用于自主驾驶的在线车辆识别的图；

图4是例示了根据本公开的一些实施方式的在线学习系统的图；

图5是例示了根据本公开的一些实施方式的基于神经形态计算的在线学习系统的图；

图6是例示了根据本公开的一些实施方式的新类别的学习的图；

图7是根据本公开的一些实施方式的修改后的美国国家标准与技术研究院(MNIST)数据的样本的例示图；

图8是例示了根据本公开的一些实施方式的利用较小的训练数据集进行学习的分类结果的曲线图；

图9是例示了根据本公开的一些实施方式的对旧类别(0-4数字)进行分类的分类结果的曲线图；以及

图10是例示了根据本公开的一些实施方式的对新类别(5-9数字)进行分类的分类结果的曲线图。

具体实施方式

本发明涉及一种车辆识别的系统，并且更具体地，涉及一种用于自主驾驶的车辆识别的系统。呈现以下描述以使本领域普通技术人员能够作出和使用本发明并将其结合到特定应用的上下文中。多种修改以及不同应用中的多种用途对于本领域技术人员来说是显而易见的，并且本文限定的总体原理可以应用于广泛方面。因此，本发明不旨在限于所呈现的方面，而是涵盖与本文所公开的原理和新颖特征相一致的最广范围。

在下面的详细说明中，阐述了许多具体细节，以便提供本发明的更透彻的理解。然而，对本领域技术人员来说显而易见的是，本发明可以在不限于这些具体细节的情况下来实施。在其它情况下，公知结构和装置按框图形式示出而不被详细示出，以免模糊本发明。

读者应留意与本说明书同时提交的所有文件和文档，这些文件和文档与本说明书一起公开以供公众查阅，所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的替代特征来代替，除非另有明确说明。因此，除非另有明确说明，否则所公开的各个特征仅仅是典型系列的等同或相似特征的一个示例。

此外，权利要求中的未明确陈述用于执行特定功能的“装置”或用于执行特定功能的“步骤”的任何要素不被解释为在35U.S.C.第112节第6款中指定的“装置”或“步骤”条款。具体地，在本文的权利要求中使用“……的步骤”或“……的动作”不旨在援引35U.S.C.第112节第6款的规定。

在详细描述本发明之前，首先提供了引用参考文献的列表。接下来，提供了本发明各个主要方面的说明。最后，提供了本发明的各个实施方式的具体细节，以给出具体方面的理解。

(1)所并入的参考文献的列表

在本申请中引用并且并入了以下参考文献。为了清楚和方便起见，这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此，就像在此完全陈述一样。这些参考文献通过参考如下对应文献参考号而在本申请中加以引用：

1.Hoang-Hon Trinh，Manh-Dung Ngo，and Van-Tnyen，“HOG and geometricmodel based moving vehicle detection，”IEEE Conference on IndustrialElectronics and Applications，pp.1900-1904，2017.

2.Zhenyu Gao，Ziqi Zhoa，and Xiaoting Sun，“Vehicle detection andtracking based on optical field，”IEEE International Conference on Security，Pattern Analysis and Cybernetics，pp.626-630，2017.

3.A.Kamann，J.B.Bielmeier，S.Hasirloglu，U.T.Schwars，and T.Brandmeier，“Object tracking based on extended Kalman filter in high dynamic drivingsituations，”IEEE International Conference on Intelligent TransportationSystem，pp.1-6，2017.

4.Liu Yang，Wang Zhong-li，and Cai Bai-gen，“An intelligent vehicletracking technology based on SURF feature and mean-shift algorithm，”IEEEInternational Conference on Robotics and Biomimetics，pp.1224-1227，2014.

5.N.Dalal，and B.Triggs，“Histogram of oriented gradients for humandetection，”IEEE Conference on Computer Vision and Pattern Recognition，vol.1，pp.886-893，2005.

6.Richard Rohwer，“Rank-1 Update Formula，”2011.

7.Kirill Minkovich，Corey M.Thibeault，Michael John O’Brien，AlekseyNogin，Youngkwan Cho，and Narayan Srinivasa，“HRLSim：A High Performance SpikingNeural Network Simulator for GPGPU Clusters，”IEEE Transactions on NeuralNetworks and Learning Systems，”vol.25，No.2，pp.316-331，2014.

(2)主要方面

本发明的各个实施方式包括三个“主要”方面。第一方面是用于车辆识别的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以结合到提供不同功能的各种各样的装置中。第二主要方面是使用数据处理系统(计算机)运行的通常采用软件形式的方法。第三主要方面是计算机程序产品。所述计算机程序产品通常表示存储在诸如光学存储装置(例如，光盘(CD)或数字通用盘(DVD))或磁存储装置(诸如，软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下文进行更详细的说明。

图1提供了对本发明的系统(即，计算机系统100)的示例进行描绘的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，这些指令使计算机系统100执行特定动作并呈现特定行为，诸如执行本文所描述的操作。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(诸如，处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一个方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器(诸如，并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA))。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行诸如在“云”计算中从在线数据存储单元取回的指令。在一个方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如，接口110)。一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统进行接口连接。由一个或更多个接口实现的通信接口可以包括有线通信技术(例如，串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如，无线调制解调器、无线网络适配器等)。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入装置112，其中，输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入装置112是可以包括字母数字键和/或功能键的字母数字输入装置(诸如，键盘)。另选地，输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面中，计算机系统100可以包括与地址/数据总线102联接的光标控制装置114，其中，光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一个方面中，光标控制装置114使用诸如鼠标、跟踪球、跟踪板、光学跟踪装置或触摸屏的装置来实现。尽管如此，但在一个方面，诸如响应于使用与输入装置112相关联的特殊键和键序列命令，光标控制装置114借助于来自输入装置112的输入被引导和/或激活。在另选方面中，光标控制装置114被配置成通过语音命令来引导或指导。

在一个方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储装置(诸如，存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面，存储装置116是诸如磁或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面，显示装置118与地址/数据总线102联接，其中，显示装置118被配置成显示视频和/或图形。在一个方面，显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。

本文所提出的计算机系统100是根据一个方面的示例计算环境。然而，计算机系统100的非限制性示例并不严格限于是计算机系统。例如，一个方面规定了计算机系统100表示可以根据本文所述各个方面使用的一种数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，在一个方面，使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外，一个方面规定了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，诸如，在分布式计算环境中，由通过通信网络链接的远程处理装置执行任务，或者诸如，在分布式计算环境中，各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。

图2描绘了具体实施本发明的计算机程序产品(即，存储装置)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或者单个可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。在任一种情况下，这些指令被编码在非暂时性计算机可读介质上。

(3)各个实施方式的具体细节

在线学习是自主驾驶系统所需的重要功能，该自主驾驶系统需要不断监测驾驶环境并了解车辆驾驶安全的新情况。在自主驾驶的示例中，在线学习意味着在车辆工作期间在行进中(on-the-go)学习。在线学习通常需要实时处理能力。相比之下，离线学习涉及在车辆不工作时训练学习系统。本文描述了利用使用神经形态计算网络的在线学习进行实时车辆识别的系统和方法。该方法主要集中于在线学习的两个方面：利用较小的训练数据集进行学习，以及在不完全重新训练学习系统的情况下学习新类别。根据本公开的实施方式的发明包括：独特的神经形态计算结构，该神经形态计算结构能够针对无监督学习和有监督学习两者实现在线学习；以及在不完全重新训练自主驾驶系统的情况下学习新车辆类别的学习方法。

如将在下面进一步详细描述的，本文所描述的学习系统利用公开可用的修改后的美国国家标准与技术研究院(MNIST)数据集进行了测试。实验结果表明，在在线学习的如下两个任务中，所述学习系统比作为深度学习方法的现有技术表现得更好：(1)利用较小的训练数据集进行学习；(2)在不完全重新训练系统的情况下学习新事物。因此，本文描述的方法和系统为用于自主驾驶的实时车辆识别提供了显著的技术改进。

在线学习中最具挑战性的问题中的一个问题是根据较小的训练样本集进行学习。在线学习系统很难拥有实现实时计算通常所需的较大的训练样本集。在自主驾驶应用中，可能无法获得较大的训练样本集或获取较大的训练样本集是过于昂贵的。在线学习的另一挑战是在不完全重新训练学习系统的情况下学习新事物，因为实时计算的要求阻止了现有在线学习系统在其必须学习新事物(诸如，新的车辆类型)时完全重新训练系统。

在根据本公开的实施方式的方法中，学习系统能够实时地自主执行无监督学习。输入数据中的不同车辆通过无监督学习被聚类成不同类别，并且仅需较小的训练样本集来在监督学习中标记车辆类别。当将新车辆输入到系统中时，无监督学习过程将形成新类别，并且仅需要较小的新训练样本集来标记新车辆类别，使得系统能够在不完全重新训练系统的情况下学习新车辆类别。由于在线学习系统基于神经形态计算网络，因此与现有的基于深度学习的方法相比，计算效率更高。

图3描绘了用于自主驾驶系统的实时车辆识别的系统图。车辆识别系统使用视觉传感器系统300来拍摄自主驾驶环境302的视频。移动车辆检测功能块304将检测驾驶环境中的移动车辆。提取车辆图像功能块306将提取所检测的移动车辆的图像。在线学习和识别系统功能块308将对所检测的移动车辆进行学习和分类。通过车辆行为分析功能块312来监测和分析所识别的移动车辆的行为(即，车辆标识(ID)310)。基于移动车辆的行为，控制动作选择功能块314确定自主车辆将针对给定情况采取的什么动作(即，动作指令316)，这可以涉及车辆位置、速度(例如，制动或加速操作)和/或操纵(例如，转向操作)的控制。

前三个功能块的技术是成熟的；存在可以被应用以实现移动车辆检测304和车辆图像提取306的功能的许多已知技术(诸如，参考文献1和参考文献2中所描述的那些技术)。例如，运动向量和光流(optical flow)可以用于检测移动车辆(诸如，参考文献2中所描述的)，并且分割运动向量或光流场可以用于找到移动车辆的边界框，以从输入视频序列提取所述移动车辆的图像。

车辆行为分析312可以通过使用标准技术(诸如，卡尔曼滤波器)跟踪车辆移动(参见参考文献3)并将车辆移动与由车辆移动描述的可能标准情况集(诸如，变道、转弯以及驶离高速公路)进行匹配来实现。用于实现控制动作选择功能314的技术包括使用包含所有可能情况和对应动作对的查找表或基于规则的系统。最具挑战性的功能是所检测的移动车辆的在线学习和识别308。本文描述的发明提供了针对该挑战的解决方案。

为了实现在线学习能力，学习系统必须具有三个特性：实时计算、根据较小的训练样本集进行学习以及在不完全重新训练系统的情况下学习新车辆类别。在自主驾驶环境302中，因为在线学习和识别系统308通常无法花时间来利用较大的训练样本集对系统进行训练，所以使用较大的训练样本集是具有挑战性的问题。在大多数情况下，对于在线学习而言，可能无法获得较大的训练样本集或获取较大的训练样本集是过于昂贵的。因此，在线学习和识别系统308需要可以根据较小的训练样本集进行学习的学习技术。由于需要实时计算，因此在线学习系统无法负担在需要学习新车辆类别时完全重新训练系统；这要求所述系统具有在被训练学习新车辆类别时记住旧车辆类别的能力。

用于实现在线学习能力的一种方法是在在线学习和识别系统308中具有无监督学习部件和有监督学习部件两者。无监督学习部件起到将在线数据聚类成不同类别的作用，这使得有监督学习过程更容易；有监督学习部件只需要用较小的训练数据集来标记从无监督学习获得的类别。另外，在线学习和识别系统308需要存储器部件，以在被训练学习新类别时记住旧类别。

图4例示了用于实时车辆分类的在线学习和识别系统308的系统图。特征提取部件400从输入的车辆图像402提取特征/签名；无监督学习部件404自动将特征聚类成不同类别；并且有监督学习部件406利用较小的训练数据集来标记类别(即，训练数据标记408)。存储器部件410记住类别和标记两者；当系统学习新类别时，无需针对旧类别重新训练该系统。

在图4所示的在线学习和识别系统308中，特征提取部件400根据输入的车辆图像402计算特征。特征可以是图像边缘或利用局部窗口计算的图像局部统计量。针对车辆识别310，已证明加速鲁棒特征(SURF)(参见参考文献4)和方向梯度直方图(HOG)(参见参考文献5)具有良好且鲁棒的性能。就机器学习而言，最重要的部件是在线学习部件(即，无监督学习部件404和有监督学习部件406)。在线学习功能通过两步学习来实现：无监督学习和有监督学习。两步学习由学习管理功能块412控制。当系统找到新的车辆(之前未被训练)时，系统生成未知车辆ID 414信号；然后，重新训练系统控制416部件发出信号以存储未知车辆的图像(即，存储未知车辆图像418)。当所存储的图像的数量达到预定阈值时，重新训练系统控制416部件输出用于请求未知车辆的新标记(即，新标记请求420)的信号。车辆信息中心(要素422)将未知车辆的新标记(要素424)(诸如，通过互联网连接)发送到系统中，并且在在线操作/离线操作中，针对所述未知车辆对该系统进行训练。

(3.1)利用神经形态计算网络进行在线学习

存在用于实现在线学习的许多方法。在根据本公开的实施方式的系统中，使用神经形态计算网络来实现在线学习。与传统的神经网络相比，使用神经形态计算网络具有许多优势。就能耗而言，神经形态计算网络在计算上非常高效，因为神经形态计算网络使用脉冲(仅具有0和1的信号)作为信号，脉冲比数字信号(多位信号)和模拟信号(连续信号)消耗更少的能量。脉冲信号包含0和1的电信号。当信号为0时，不使用电功率。相比之下，数字信号是始终使用电功率的经量化的模拟信号。仅当所述数字信号被发送时，它们才针对各个离散值编码为0和1。在处理数字信号时，所述数字信号是离散值(位)，而不是0和1。神经形态计算网络可以通过具有高度并行的硬件(该硬件使得能够实现实时计算)的脉冲神经元电路来实现。最后，脉冲信号能够捕获嵌入在在线车辆数据中的时间信息，并且计算网络结构能够捕获在线车辆数据的空间签名。因此，神经形态计算网络能够同时处理车辆数据中的时空模式。

图5例示了根据本公开的实施方式的学习网络，该学习网络包含脉冲储备池网络500和线性神经网络分类器502。学习网络包含两个学习网络：无监督学习部件404，该无监督学习部件404包含脉冲储备池网络500；以及有监督学习部件406，该有监督学习部件406包含线性分类器网络502。首先对无监督学习部件404进行训练，并且在有监督学习部件406的训练期间，固定无监督学习部件404的突触权重。

输入神经层504的功能是将输入的车辆特征数据506转换成脉冲。输入的车辆特征与输入神经层504之间的连接是具有固定连接权重的一对一连接，这意味着各个特征分量以固定的突触权重连接至输入神经层504上的一个神经元。输入神经层504的大小与输入的特征向量的大小相同。输入神经层504使用指数分布/泊松分布将输入的特征向量的实值转换成脉冲序列。输入的特征向量的实值用作指数分布的平均值，这用于生成随机数，所述随机数用作用于根据输入的特征向量的实值生成脉冲的时间间隔。在数学上，令x(m,n)为输入神经层504上位置(m,n)的神经元的实数特征值。随机数k由具有以下指数分布函数的随机数生成器生成：

其中，λ＝x(m,n)。k是由式(1)中给出的分布函数控制的随机数生成器的输出。位置(m,n)的神经元生成一系列脉冲，其时间间隔等于数k。如果输入特征值改变，则通过指数分布会生成新的时间间隔。因此，输入特征值生成针对输入神经层504上的每一个神经元的一系列脉冲。输入神经层504上的每一个神经元以预定的连接概率随机地连接至脉冲储备池网络500，并且通过依赖于脉冲时间的可塑性(STDP)学习规则来学习突出权重，这是一种无监督学习方法。

脉冲储备池网络500由兴奋性神经元组成，所述兴奋性神经元以预定的连接概率彼此随机连接，并且通过STDP学习来学习该层中的突触权重。为了控制神经元激发率(neuron firing rate)，将抑制性神经元的抑制性神经元508层连接至脉冲储备池网络500。通过STDP学习来学习兴奋性神经元与抑制性神经元之间的突触权重。抑制性神经元也以预定的概率彼此连接，并且利用STDP学习来学习连接权重。脉冲储备池网络500中的每一个神经元完全连接至线性分类器502层中的神经元。脉冲储备池网络500与线性分类器502之间的突触权重通过称为Rank-1学习规则(针对Rank-1学习规则的描述，参见参考文献6)的有监督学习方法来训练。

(3.2)神经元模型和无监督学习

在本文所述的神经形态计算网络中，每一个脉冲神经元从其它神经元接收突触信号(脉冲)，并向其它神经元释放突触信号(脉冲)。用于生成突触信号的神经动力学是通过泄漏积分激发(LIF，leaky integrate-and-fire)模型建模的，该LIF模型由下式描述：

变量u(t)是膜电位；变量I(t)是膜电流；以及常数τ_m和R分别是膜时间常数和神经元电阻。当神经元的膜电位超过阈值时，该神经元向其它神经元释放脉冲信号(神经元激发)。就对其它神经元的作用而言，神经元大致被分类成抑制性神经元或兴奋性神经元。抑制性神经元释放抑制性突触信号，所述抑制性突触信号导致其目标神经元的神经元激发减少，而兴奋性神经元释放兴奋性突触信号，所述兴奋性突触信号导致其目标神经元的神经元激发增加。脉冲储备池网络500的突触权重是通过无监督学习、依赖于脉冲时间的可塑性(STDP)、学习规则训练的。无监督学习的目的是为数据分类准备网络。STDP学习能够将在线数据聚类成簇(类)，这可以促进数据分类过程。在STDP学习期间，如果t_pre和t_post是突触前脉冲和突触后脉冲的脉冲时间，则利用以下式(3)至式(5)来计算对应突触权重(突触电导)：

w_new＝w_old+Δw (3)

以及

Δw＝w_maxF(Δt) (4)

其中

其中，Δt＝t_pre-t_post。常数A₊和A_-确定突触修正的最大量。时间常数τ₊和τ_-确定突触前脉冲至突触后脉冲间隔的范围。基本上，STDP学习规则规定，如果突触前脉冲可以立即生成突触后脉冲，则突触权重增大；否则，突触权重减小。结果，突触权重的高值意味着通过突触权重连接的两个神经元紧密联接并一起起作用。另一方面，突触权重的小值意味着两个神经元的活动不会相互影响。STDP学习能够捕获嵌入在在线数据中的时间相关性/模式。

(3.3)有监督学习

在本文所述的在线学习系统中，有监督学习的功能由线性分类器502层完成，该线性分类器502层使用平均脉冲率来将脉冲序列分类成车辆ID 310。由于无监督学习404将在线数据聚类成不同类，因此有监督学习406使用平均脉冲激发率和一些训练数据标记408来利用车辆ID 310对类进行标记。平均脉冲激发率是以一时间窗口根据脉冲序列计算的。对于给定的时间段T(输入脉冲序列的呈现时间)，平均激发率由下式计算：

其中,变量spk(m,n,t)是神经元e(m,n)在时间t生成的脉冲。

存在许多有监督学习方法。由于无监督学习404方法将在线数据聚类成不同类，这使得有监督学习的任务更加容易，所以有监督学习不需要复杂的/强大的分类器(诸如，支持向量机(support vector machine))。在本文所述的方法中，利用Rank-1学习规则(参见参考文献6)来进行有监督学习406。Rank-1学习规则是改进的均方学习规则。Rank-1学习规则的思想是将训练数据映射到子空间中，使得在训练线性分类器502之前已经移除训练数据中的所有共同分量。可以从训练数据获得映射函数。由于训练数据中的共同分量对区分不同类别没有影响，因此移除训练数据中的共同分量使学习更加高效且有效。在数学上，存在权重矩阵W，该W将输入脉冲率r_i映射到目标类别c_i中，即，

c_i＝Wr_i，i＝1，2，3…，M. (7)

映射误差向量的计算如下：

e_i＝c_i-t_i. (8)

输入速率向量通过给定的映射矩阵A映射到子空间上，如下所示：

k_i＝Ar_i. (9)

使用子空间向量来通过下式计算增益因子：

利用增益因子，子空间映射矩阵A更新如下：

权重矩阵W更新如下：

式(7)中的常数M是训练样本数；权重矩阵W被初始化为非常小的值(诸如，在模拟中使用的0.1)。在式(8)中，符号t_i是用于训练的类别标记向量。式(9)中的矩阵A是映射矩阵，其在学习过程中从初始值0.1学习。在式(10)中，向量k_i ^T是k_i的转置。类别向量c_i具有多个分量，各个车辆ID 310与一个分量相关。当类别向量的分量在车辆ID 310上具有最大分量值时，将该类别向量被分类成该车辆ID 310。如果类别向量的最大分量值小于预定阈值，则将类别向量分类成未知车辆ID 414。阈值取决于突触权重的动态范围和平均神经元激发率，并且可以根据用于对各个车辆ID 310进行分类的最小关键分量值进行估算。

由于共同分量对学习没有贡献，因此在学习映射权重矩阵W时，Rank-1学习规则移除了训练向量中的共同分量。用于移除训练向量中的共同分量的方法是通过映射矩阵A将训练向量映射到子空间中，该映射矩阵A也是在训练期间学习的。通常，Rank-1学习规则比其它学习规则(诸如，最小均方(LMS)学习规则)更鲁棒。

(3.4)学习管理

学习管理412部件将控制无监督学习404过程和有监督学习406过程。在无监督学习404过程中，当使用所有训练数据或突触权重收敛时，无监督学习404过程完成并且由该过程训练的所有突触权重被固定。权重收敛由下式定义：

其中，变量w_i和Δw_i是突触权重及其变化；N的数目是突触权重的总数；并且变量δ是预定的权重变化率。预定的权重变化取决于突触权重的动态范围。在下面描述的模拟中，δ被设置为0.03。可以通过调整STDP参数和神经元激发率来控制权重收敛。通常，缓慢的权重收敛对学习过程有益。有监督学习406过程在无监督学习404过程之后开始，并且在使用了所有经标记的训练数据时完成。在有监督学习406过程之后，连接至输出层(线性分类器502)的所有突触权重在在线车辆ID 310分类期间是固定的。

(3.5)在线学习新类别

本文所述的在线学习方法的重要特性是在不完全重新训练学习系统的情况下学习新类别。这要求学习系统具有记住以前学习过的类别的能力，并能够将新的类别添加到存储器系统中。图6例示了利用在线学习系统学习新类别的图。在系统用户将新车辆标记600输入到系统中后，系统利用存储的未知车辆图像418开始学习过程，该学习过程包括无监督学习404过程和有监督学习406过程。特征提取部件400从存储的未知图像418提取图像特征，并将特征向量转换成脉冲序列(即，脉冲数据602)。学习管理部件412针对存储的未知车辆图像418控制无监督学习部件404和有监督学习部件406。

每次系统进行有监督学习406之后，系统存储突触权重604。为了学习新车辆类别，无监督学习部件404使用表示旧类别的存储的突触权重604作为学习的初始权重。无监督学习过程将新类别添加到存储的突触权重604中，以对新类别进行分类。在有监督学习部件406中，神经权重被随机初始化。学习过程将利用新类别数据学习权重，并且在有监督学习过程之后，将从新类别数据学习的权重与从旧类别学习的存储的权重结合(即，组合的权重606)。组合的权重606用于旧类别和新类别两者的分类608。这样，当学习新类别时，仅通过新类别数据而不是旧类别数据来训练系统，但是系统能够识别新类别数据和旧类别数据两者。

在有监督学习过程之后，神经权重中的较大值表示新类别数据，并且对于旧类别数据也是如此。在实验测试中，神经权重值从0变化至256。通常，将大于平均值(例如，128)的神经权重值视为较大值。然而，具体的权重值并不重要，重要的是较大的权重值表示给定类别的神经权重的重要性这一概念。学习之后，权重值越大，权重对于表示给定类别数据越重要。用于组合神经权重606的方法是保持神经权重的有效值。令A_old＝[a_old(i,j)]和A_new＝[a_new(i,j)]分别是旧类别和新类别的神经权重，组合的神经权重606A_cmb＝[a_cmb(i,j)]通过下式计算：

在有监督学习406过程期间，从无监督学习404学习的突触权重是固定的。在自主驾驶条件下，新车辆类别首先被分类为未知类别。自主系统将向自主驾驶信息中心发送针对未知类别的新标记的请求。在接收到新标记后，自主驾驶系统将针对新类别利用在线学习过程自动学习该新类别。

(3.6)实验研究

为了评估根据本公开的实施方式的实时车辆识别系统，评估了在线学习和识别系统的能力。图5和图6所示的具有神经形态计算模拟器(例如，HRL SimGen3(参见参考文献7))的在线学习和识别系统与公开可用的MNIST数据集一起使用，以评估本文所述系统。MNIST数据集包含从0到9的手写数字。图7示出了MNIST数据集的样本。各个数字由24×24二维数组表示。训练数据中存在60000个数字，并且测试数据中存在10000个数字。MNIST数据的主要挑战是手写数字的失真。因为数据集不包含噪声并且数字的图像简单，所以在实验测试中，使用原始图像而不是使用图像的特征作为到图5所示的脉冲储备池网络500的输入。

为了处理24×24个数字图像，输入神经层504具有24×24个兴奋性神经元。脉冲储备池网络500具有3000个兴奋性神经元；抑制性层508具有750个抑制性神经元，并且线性分类器502具有5个神经元。输入层504中的各个神经元以0.02的连接概率连接至脉冲储备池网络500，这意味着输入层508中的各个神经元随机连接至脉冲储备池网络500中2％的神经元。脉冲储备池网络500中的各个神经元以0.07的连接概率随机地连接至抑制性层508中的神经元；抑制性层508中的各个神经元以0.32的连接概率随机地连接至脉冲储备池网络500中的神经元；并且抑制性层508中的神经元以0.08的连接概率随机地彼此连接。

为了测试利用较小的训练数据集进行学习的能力，使用数字0-4来评估系统。对于数字0-4，数据集中有30569个训练图像和5000个测试图像。只有一小部分训练图像用于训练系统，并且5000个测试图像用于测试系统。

将本文所述系统的结果与从深度学习技术(Matlab autoencoder.m)获得的结果进行比较。深度学习技术具有三个堆叠式自主编码器和一个soft-max层。图8中的曲线图总结了本发明和深度学习方法的结果。在图8中，虚线800表示由根据本公开的实施方式的学习系统产生的结果。所述系统使用无监督学习(学习STDP)来准备用于有监督分类的网络；所述系统只需要较小的训练数据集来进行有监督学习。实线802表示由深度学习技术产生的结果。x轴是在有监督训练中使用的总训练数据(30568个数字图像)的百分比，并且y轴是分类率。图8示出了在仅使用较小的训练数据集来进行有监督学习的情况下，本文所述学习系统比深度学习技术好得多。对于图中所示的结果，学习系统在无监督学习(学习STDP)阶段中使用了1000个数字图像(不具有标记的训练图像)。深度学习技术没有无监督学习能力。利用较大的训练数据集，深度学习可以显著提高其分类率。

为了测试在不完全重新训练系统的情况下学习新类别的能力，使用0-4数字作为用于训练学习系统的旧类别，并且使用5-9数字作为用于训练系统的新类别。线性分类器502层中的十个神经元用于识别十个类别。首先，对系统进行训练，以在无监督学习和有监督学习两者中识别旧类别(0-4数字)。然后，使用新类别5-9数据来再次训练系统。最后，使用0-9数据来评估系统。

在学习旧类别时，利用了5％的训练数据来学习数字0-4。在学习新类别(5-9数字)时，训练数据的百分比从0.5％变为5％。评估了识别旧类别和新类别的能力。还将本文所述系统与深度学习技术进行了比较。图9描绘了比较了本发明(由虚线900表示)和深度学习技术(由实线902表示)的在利用5-9数字数据训练系统之后识别旧类别(0-4数字)的结果的曲线图。对于本发明，随着训练数据(5-9数字)的增加，识别0-4数字(旧类别)的系统能力略有降低。当训练数据(5-9数字)较小时，深度学习技术仍包含0-4数字信息(以前的训练)，并且分类率较高。当训练数据(5-9)增加时，系统会迅速忘记0-4数字的信息，并且0-4数字的分类率会迅速下降。实线902表示由现有技术的深度学习技术产生的分类结果，并且清楚地表明，深度学习技术在被新类别训练后没有记忆能力。

在图10中，y轴是分类率，并且x轴是在有监督学习中使用的训练数据的百分比。虚线1000表示由本文所述学习系统产生的分类率；该虚线1000表明系统被新类别5-9数字数据训练后，仍然可以记住旧类别0-4数字。图10总结了针对新类别5-9数字数据的分类结果。虚线1000表示由根据本公开的实施方式的学习系统产生的结果，而实线1002表示由深度学习技术产生的结果。在利用新类别数据(5-9数字)训练了学习系统后，学习系统(本发明和深度学习系统)两者可以针对新类别实现良好的分类率，但是本文所述学习系统可以在较低的训练数据百分比(即，少于训练数据的3％)时提供更好的分类率。

总而言之，本文所述系统能够利用较小的已标记的训练样本集来实现车辆类别的有监督在线学习，并且在不完全重新训练系统的情况下学习新车辆类别。学习和识别系统包含无监督学习部件和有监督部件。学习和识别系统使用神经形态计算网络来实现无监督学习，以将在线数据聚类成不同类别，这使得有监督学习部件更加容易，利用较小的训练样本集来标记类别。此外，学习和识别系统使用简单且高效的线性分类器来在有监督学习部件中实现有监督学习。实验测试表明，根据本公开的实施方式的在线学习系统有效地实现了(1)利用较小的训练数据集来进行有监督学习，以及(2)在不完全重新训练系统的情况下学习新类别。就针对MNIST数据集的两种学习能力而言，所述系统比深度学习技术表现得更好。

在线学习能力对于许多机器学习系统和自主系统而言非常重要，因为在线学习能力将使机器学习系统和自主系统能够在动态变化的环境中自适应地学习新事物。因此，本发明将使车辆制造商在其许多应用中受益，诸如，车辆跟踪、车辆行为分析以及车辆动作/驾驶员意图预测。

最后，虽然已经根据多个实施方式对本发明进行了说明，但本领域普通技术人员应当容易地认识到，本发明可以在其它环境中具有其它应用。应注意，可以有许多实施方式和实现。另外，“用于……的装置”的任何用语旨在引发要素和权利要求的装置加功能的解读，而未特别使用“用于……的装置”用语的任何要素不应被解读为装置加功能要素，即使权利要求以其它方式包括了“装置”一词。此外，虽然已经按特定顺序陈述了特定方法步骤，但这些方法步骤可以按任何期望的顺序进行，并且落入本发明的范围内。

Claims

1.一种用于自主驾驶环境中的在线车辆识别的系统，所述系统包括：

非暂时性存储器以及一个或更多个处理器，所述非暂时性存储器编码有指令，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

使用包括无监督学习部件和有监督学习部件的学习网络，通过以下步骤对从在所述自主驾驶环境中拍摄的视频提取的移动车辆的图像进行学习和分类：

从输入的移动车辆图像提取车辆特征数据；

使用所述无监督学习部件将所提取的车辆特征数据自动聚类成不同车辆类别；以及

使用所述有监督学习部件来生成所述不同车辆类别的车辆类别标记；以及

基于所述自主驾驶环境中的一个或更多个移动车辆的车辆类别标记，选择将由自主车辆执行的动作；以及

使所述自主车辆在所述自主驾驶环境中执行所选择的动作。

2.根据权利要求1所述的系统，其中，所述无监督学习部件是包括多个神经元的脉冲储备池网络，并且所述有监督学习部件是包括多个神经元的线性神经网络分类器。

3.根据权利要求2所述的系统，其中，所述脉冲储备池网络中的各个神经元完全连接至所述线性神经网络分类器中的所述多个神经元，并且其中，所述脉冲储备池网络与所述线性神经网络分类器之间的突触权重集是按照有监督学习法训练的。

4.根据权利要求2所述的系统，其中，所述线性神经网络分类器使用来自所述脉冲储备池网络的平均脉冲率来生成所述车辆类别标记。

5.根据权利要求1所述的系统，其中，在从未知移动车辆图像提取特征时，所述一个或更多个处理器执行以下操作：

生成未知车辆识别信号；

存储所述未知移动车辆的任何图像；

当所存储的未知车辆的图像的数量达到阈值时，为所述未知移动车辆请求新车辆类别标记；以及

学习所述新车辆类别。

6.根据权利要求2所述的系统，其中，在有监督学习之后存储突触权重，并且其中，为了学习新车辆类别，所存储的表示旧车辆类别的突触权重被用作无监督学习的初始权重。

7.根据权利要求6所述的系统，其中，将从新车辆类别学习的突触权重与所存储的突触权重组合，并且其中，组合的突触权重被用于对旧车辆类别和新车辆类别两者进行分类。

8.一种用于自主驾驶环境中的在线车辆识别的计算机实现的方法，所述方法包括以下动作：

使一个或更多个处理器执行被编码在非暂时性计算机可读介质上的指令，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

从输入的移动车辆图像提取车辆特征数据；

使所述自主车辆在所述自主驾驶环境中执行所选择的动作。

9.根据权利要求8所述的方法，其中，所述无监督学习部件是包括多个神经元的脉冲储备池网络，并且所述有监督学习部件是包括多个神经元的线性神经网络分类器。

10.根据权利要求9所述的方法，其中，所述脉冲储备池网络中的各个神经元完全连接至所述线性神经网络分类器中的所述多个神经元，并且其中，所述脉冲储备池网络与所述线性神经网络分类器之间的突触权重集是按照有监督学习法训练的。

11.根据权利要求9所述的方法，其中，所述线性神经网络分类器使用来自所述脉冲储备池网络的平均脉冲率来生成所述车辆类别标记。

12.根据权利要求8所述的方法，其中，在从未知移动车辆图像提取特征时，所述一个或更多个处理器执行以下操作：

生成未知车辆识别信号；

存储所述未知移动车辆的任何图像；

学习所述新车辆类别。

13.根据权利要求9所述的方法，其中，在有监督学习之后存储突触权重，并且其中，为了学习新车辆类别，所存储的表示旧车辆类别的突触权重被用作无监督学习的初始权重。

14.根据权利要求13所述的方法，其中，将从新车辆类别学习的突触权重与所存储的突触权重组合，并且其中，组合的突触权重被用于对旧车辆类别和新车辆类别两者进行分类。

15.一种用于自主驾驶环境中的在线车辆识别的计算机程序产品，所述计算机程序产品包括：

计算机可读指令，所述计算机可读指令被存储在非暂时性计算机可读介质上，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

从输入的移动车辆图像提取车辆特征数据；

使所述自主车辆在所述自主驾驶环境中执行所选择的动作。

16.根据权利要求15所述的计算机程序产品，其中，所述无监督学习部件是包括多个神经元的脉冲储备池网络，并且所述有监督学习部件是包括多个神经元的线性神经网络分类器。

17.根据权利要求16所述的计算机程序产品，其中，所述脉冲储备池网络中的各个神经元完全连接至所述线性神经网络分类器中的所述多个神经元，并且其中，所述脉冲储备池网络与所述线性神经网络分类器之间的突触权重集是按照有监督学习法训练的。

18.根据权利要求16所述的计算机程序产品，其中，所述线性神经网络分类器使用来自所述脉冲储备池网络的平均脉冲率来生成所述车辆类别标记。

19.根据权利要求15所述的计算机程序产品，其中，在从未知移动车辆图像提取特征时，所述一个或更多个处理器执行以下操作：

生成未知车辆识别信号；

存储所述未知移动车辆的任何图像；

学习所述新车辆类别。

20.根据权利要求16所述的计算机程序产品，其中，在有监督学习之后存储突触权重，并且其中，为了学习新车辆类别，所存储的表示旧车辆类别的突触权重被用作无监督学习的初始权重。

21.根据权利要求20所述的计算机程序产品，其中，将从新车辆类别学习的突触权重与所存储的突触权重组合，并且其中，组合的突触权重被用于对旧车辆类别和新车辆类别两者进行分类。