CN118485134A

CN118485134A - 一种基于增量强化学习的目标搜索方法及装置

Info

Publication number: CN118485134A
Application number: CN202410682100.0A
Authority: CN
Inventors: 王博; 张博; 马亚辉; 闫小伟; 孙浚杰
Original assignee: Electronic Science Research Institute Of China Electronics Technology Group Co ltd
Current assignee: Electronic Science Research Institute Of China Electronics Technology Group Co ltd
Priority date: 2024-05-29
Filing date: 2024-05-29
Publication date: 2024-08-13

Abstract

本申请公开了一种基于增量强化学习的目标搜索方法，包括：对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网；基于环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于奖励函数和预设的搜索策略，生成强化学习训练模型；在无人机执行第二搜索任务的情况下，响应于第二搜索任务对强化学习训练模型进行评估的评估结果为对模型进行再训练，则以强化学习训练模型为第一网络分支，以第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型；基于新任务适配模型，对目标进行搜索，应用本方法，能够实现高效的目标搜索。

Description

一种基于增量强化学习的目标搜索方法及装置

技术领域

本申请涉及目标搜索跟踪领域，尤其涉及一种基于增量强化学习的目标搜索方法。

背景技术

目标搜索是指在给定环境下寻找最优解决方案的过程，它涉及到定义搜索空间、设计搜索算法以及建立环境模型等方面；强化学习是一种机器学习方法，通过智能体与环境的交互学习来达到目标搜索。

传统的强化学习方法在目标搜索领域的应用通常包括以下步骤：(1)环境建模：将搜索任务的环境进行建模，包括定义状态空间、行动空间以及奖励函数等。(2)策略设计：设计智能体的策略，即在给定状态下选择最优的行动。这可能涉及到各种强化学习算法，如Q-learning、深度Q网络(DQN)等。(3)训练与优化：通过智能体与环境的交互来进行训练和优化，使其学习到最优的策略。这通常涉及到基于奖励信号的反向传播算法，以及参数调整和模型更新等过程。虽然传统的强化学习方法在某些情况下表现良好，但它们也存在一些问题，例如在面对新的搜索任务时可能出现“灾难性遗忘”的问题，导致已经学到的知识被遗忘，从而影响了其应用效果。

有鉴于此，如何提供一种目标搜索方法，在保证当前任务搜索效果的同时，更好地适应新的搜索环境，成为当前亟需解决的技术问题。

发明内容

本申请实施例提供一种基于增量强化学习的目标搜索方法，一种基于增量强化学习的目标搜索装置，一种计算机可读存储介质以及一种计算机设备，用以解决传统方法存在的搜索效率低下、对环境变化适应性差等问题。

在本申请实施例的第一方面，提供了一种基于增量强化学习的目标搜索方法，包括：

对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网；

基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，其中，所述搜索策略是定义的无人机在目标空间内搜索目标时对应的最优搜索策略；

在无人机执行第二搜索任务的情况下，响应于所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练，则以所述强化学习训练模型为第一网络分支，以所述第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型；

基于所述新任务适配模型，对目标进行搜索。

在本申请实施例的第二方面，提供了一种基于增量强化学习的目标搜索装置，包括：

处理模块，被配置为对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网；

第一模型生成模块，被配置为基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，其中，所述搜索策略是定义的无人机在目标空间内搜索目标时对应的最优搜索策略；

第二模型生成模块，被配置为在无人机执行第二搜索任务的情况下，响应于所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练，则以所述强化学习训练模型为第一网络分支，以所述第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型；

搜索模块，被配置为基于所述新任务适配模型，对目标进行搜索。

在本申请实施例的第三方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述前缀掩码的五元组关键字匹配方法的步骤。

在本申请实施例的第四方面，提供了一种计算机设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述前缀掩码的五元组关键字匹配方法的步骤。

本申请实施例提供一种基于增量强化学习的目标搜索方法，包括：首先，对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网；然后，基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，其中，所述搜索策略是定义的无人机在目标空间内搜索目标时对应的最优搜索策略；其次，在无人机执行第二搜索任务的情况下，响应于所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练，则以所述强化学习训练模型为第一网络分支，以所述第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型；最后，基于所述新任务适配模型，对目标进行搜索。

应用本申请实施例提供的方法，利用强化学习的优势，并引入增量学习，在保证当前任务搜索效果的同时，能够更好地适应新的搜索环境，从而实现高效的目标搜索。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种基于增量强化学习的目标搜索方法的流程示意图；

图2是本申请实施例提供的一种基于增量强化学习的目标搜索方法的奖励函数对应的示意图；

图3是本申请实施例提供的一种基于增量强化学习的目标搜索方法中强化学习训练模型的流程示意图；

图4是本申请实施例提供的一种基于增量强化学习的目标搜索方法中强化学习的结构示意图；

图5是本申请实施例提供的一种基于增量强化学习的目标搜索方法中增量学习网络连接机制示意图；

图6是本申请实施例提供的一种基于增量强化学习的目标搜索方法中增量学习训练模型的新任务适配流程示意图；

图7是本申请实施例提供的一种基于增量强化学习的目标搜索装置的结构示意图；

图8是本申请实施例提供的一种计算设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供一种基于增量强化学习的目标搜索方法，一种基于增量强化学习的目标搜索装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

在本申请实施例提供的一种基于增量强化学习的目标搜索方法中，设无人机在目标空间1开展目标搜索，即首先需对目标空间1进行网格化，以便于后续数据采集；然后使用采集的数据对进行训练，以得到模型1；其次测试模型1对任务2的目标搜索效果，如果效果好则不用继续训练，如果效果差则重新设计模型2开展训练，其中，模型2为基于增量思想的网络架构，能够使任务2达到良好效果，且兼顾使任务1达到良好效果。

参见图1，图1是本申请实施例提供的一种基于增量强化学习的目标搜索方法的流程示意图。如图1所示，具体包括以下步骤。

步骤S102：对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网。

具体的，所述对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网，包括：基于预设网格单元规格，将所述目标空间划分为规格相同的网格单元，其中，所述网格单元对应有唯一的标识符，且当无人机移动到各个所述网格单元时，分别对应无人机的一种当前状态；设计无人机在目标空间内移动位置对应的标识符号，其中，所述移动位置包括：向上移动、向下移动、向左移动以及向右移动；基于所述网格单元以及所述标识符号，生成环境数据网。

实际应用中，对目标空间进行网格化处理，有利于后续无人机进行搜索任务。

在本申请实施例中，首先对目标空间进行定义，假设目标空间的空间范围为W*H，现将其划分为N*M个网格单元，其中，每个网格单元均具有唯一的标识符(i，j)。将每一个网格单元作为无人机的一种当前状态，其状态空间用S表示，其中，S＝{(i,j)|i∈[1,N],j∈[1,M]}。因此，无人机所处的网格单元即为当前状态。

其次对目标空间中对应的无人机的行动空间(即上述移动位置)进行设计，其中，这里的行动空间包括向上、向下、向左、向右等无人机在目标空间内的移动方向。在本申请实施例中，行动空间用A表示，其中，A＝{a₁,a₂,a₃,a₄}，a₁表示向上移动，a₂表示向下移动，a₃表示向左移动，a₄表示向右移动。

步骤S104：基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，其中，所述搜索策略是定义的无人机在目标空间内搜索目标时对应的最优搜索策略。

本申请实施例中，对于基于强化学习训练模型，需要构建学习环境、定义策略和奖励函数，具体如下：

具体的，所述基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，包括：

基于无人机对应的当前状态、当前状态采取的动作以及下一个状态，设计奖励函数；

使用值函数，对无人机在目标空间内对搜索目标的搜索策略进行定义；

从起始状态开始，基于无人机的当前状态，确定当前状态采取的动作，在无人机执行动作后观察奖励和下一状态，直至强化学习训练模型收敛；

对所述强化学习训练模型进行测试，并生成测试结果，其中，所述测试结果为无人机在场景中搜索目标的效果。

需要说明的是，奖励函数，用于评估无人机在特定状态下执行特定行动的好坏程度。其中，在本申请实施例中，奖励函数用R(s,a,s')，其中s表示当前状态，a表示采取的动作，s'表示下一个状态。

本申请实施例中，首先进行奖励函数的设定，具体包括以下步骤。

所述基于无人机对应的当前状态、当前状态采取的动作以及下一个状态，设计奖励函数，包括：

响应于无人机移动到距离搜索目标所在单元格第一预设范围内，则确定目标搜索成功，设置奖励为第一正值，其中，所述第一预设范围为无人机移动到距离搜索目标一个单元格的范围内；

响应于无人机移动到距离搜索目标所在单元格第二预设范围内，则确定目标搜索失败，设置奖励为负值，其中，所述第二预设范围为无人机移动到距离搜索目标一个单元格以外的范围内，且所述第一预设范围和所述第二预设范围为不相交空间。

更具体的，所述响应于无人机移动到距离搜索目标所在单元格第二预设范围内，则确定目标搜索失败，设置奖励为负值，包括：

响应于无人机移动到所述第二预设范围内的第一空间范围内，则设置奖励为第一负值，响应于无人机在所述第一空间范围内移动，则基于无人机的移动步数，设置奖励为第二负值，其中，所述第一空间范围包括所述第二预设范围内的至少一个网格单元，所述第二负值基于无人机在第一空间范围内的移动步数确定；

响应于无人机移动到所述目标空间的空间边界，则设置奖励为第一负值。

此外，响应于无人机从所述第二预设范围的所述第一空间范围内移动到第二空间范围内，则设置奖励为第二正值。

实际应用中，如果当无人机移动到距离目标1个格子以内时，认为搜索到目标，给予额外的正奖励，并结束搜索过程，设置奖励为正值，表示无人机成功找到目标。

如果无人机触碰到空间边界或非法区域，设置奖励为负值，表示无人机应避免碰撞。

其他情况下奖励为一个小的负值，以鼓励无人机尽快找到目标。

事件	奖励
		找到目标	+5
进入未达到区域	+0.1
		进入已达到区域	-0.1
撞墙或障碍物	-0.1
		每一步消耗	-0.01

需要说明的是，事件“找到目标”，为无人机移动到距离搜索目标所在单元格第一预设范围内，此时，表明无人机目标搜索成功，奖励正值+5；事件“进入已达到区域”，为无人机移动到距离搜索目标所在单元格第二预设范围的第一空间范围内，此时，无人机未搜索到目标，且无人机在第一空间范围内移动，奖励负值-0.1；事件“进入未达到区域”，为无人机移动到距离搜搜目标所在单元格第二预设范围的第二空间范围内，此时，无人机为搜索到目标，但无人机从第一空间范围内移动至第二空间范围.奖励正值+0.1；事件“撞墙或障碍物”，为无人机移动到所述目标空间的空间边界，奖励负值-0.1；事件“每一步消耗”为无人机在第二预设范围的各个空间范围(如：第一空间范围、第二空间范围...)内移动的步数，奖励负值-0.01。

参见图2，图2是本申请实施例提供的一种基于增量强化学习的目标搜索方法的奖励函数对应的示意图。

如图2所示，搜索目标用“Q”表示；第一预设范围用“P”表示；第二预设范围用“O”表示；第二预设范围的第一空间范围用“S”表示；第二预设范围的第二空间范围用“T”表示；需要说明的是，对于第二预设范围中空间范围的划分可以根据实际需要进行划分，本申请实施例中对第二预设范围划分为第一空间范围和第二空间范围两个空间范围进行示例(例如，还可以包括第三空间范围U)。

然后，在强化学习中，使用值函数Q(s，a)来直到决策过程。需要说明的是，算法的更新规则如下：

其中，Q(s_i,a_i)是状态s_i下采取动作a_i的Q值，∝是学习率，γ是折扣因子。

其次，模型的训练过程具体包括以下步骤：从起始状态s0开始，根据当前状态选择动作a，执行动作后观察奖励R(s,a,s')和下一个状态s'。重复这个过程直到收敛或达到预定的训练轮数。

再其次，对生成的模型进行测试：训练完成后，可以测试无人机在场景中搜索目标的效果。根据学习到的策略，无人机选择动作并执行，观察奖励和搜索结果。

最后，研判当前模型在新任务中是否可行即判断当前训练好的模型是否适用于新任务。具体步骤如下：

(1)效果评估：对当前模型在新任务中的性能进行评估，包括搜索效率等指标。

(2)模型训练判断：根据模型在当前任务中的表现，判断是否需要对模型再训练。

参见图3，图3是本申请实施例提供的一种基于增量强化学习的目标搜索方法中强化学习训练模型的流程示意图。

如图3所示，任务1模型的训练过程，包括：空间网格化；采集数据；对数据进行处理；强化学习模型训练和输出模型1。

目标搜索的过程，包括：更新目标对象信息；基于输出模型1，确定目标搜索行为；执行目标搜索行为；判断是否为目标，若是，则输出目标对象位置，若否，则更新目标对象信息，重新执行目标搜索的过程。

参见图4，图4是本申请实施例提供的一种基于增量强化学习的目标搜索方法中强化学习的结构示意图。

如图4所示，该强化学习的结构包括智能体和环境两部分。环境通过接收智能体的动作(a)，来确定当前状态(S)和奖励(R)，并发送给智能体，以使得智能体可以基于接收的当前状态和奖励，实现对目标的搜索。

应用本申请实施例提供的增量强化学习的目标搜索方法中针对目标搜索任务的策略优化算法，能够动态调整智能体的策略，已实现更好的搜索效果。

步骤S106：在无人机执行第二搜索任务的情况下，响应于所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练，则以所述强化学习训练模型为第一网络分支，以所述第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型。

实际应用中，当所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练时，环境数据网格化、基于强化学习训练模型以及奖励函数与上述环境数据网的生成，强化学习训练模型的生成以及奖励函数的设计一致，本申请实施例在此不做赘述。

具体的，在网络设计过程中，网络结构的设计，在训练过程中主要关注新任务的学习，利用共享的部分网络结构和新加入的模块，实现对新任务的适应和优化。其中，本申请实施例设计的网络结构供包括两个分支，第一网络分支TaskA分支和第二网络分支Task B分支。其中，Task A分支保持原有的网络结构和模型参数，用于处理原有任务的学习和决策。这一分支在训练过程中主要关注原有任务的优化，保持模型在原有任务上的性能。TaskB分支与Task A分支网络结构相同，模型参数重新训练，用于适应新任务的特点和要求。

参见图5，图5是本申请实施例提供的一种基于增量强化学习的目标搜索方法中增量学习网络连接机制示意图。

如图5所示，该增量学习网络连接机制，包括输入层和输出层，其中，输出层包括Task A和Task B。Task A包括：输出1、网络层2和网络层1；Task B包括：输出2、网络层2和网络层1，且在Task B的输出层2处添加有Task A的网络层2对应的的文件a，在Task B的网络层2处添加有Task A的网络层1对应的文件a。

新任务适配模型中，所述第一网络分支和所述第二网络分支采用跨层连接，在网络中实现Task A和Task B之间的信息共享和传递。通过动态调整所述第一网络分支和所述第二网络分支对应的权重，根据任务的重要性实现任务平衡和优化。

训练过程中，在新任务中从起始状态s0开始，根据当前状态选择动作a，执行动作后观察奖励和下一个状态s'。重复这个过程直到收敛或达到预定的训练轮数。

实验验证：在实验中对比使用修改网络和不使用修改网络的模型性能。测试无人机在新旧场景中搜索目标的模型的效果。

参见图6，图6是本申请实施例提供的一种基于增量强化学习的目标搜索方法中增量学习训练模型的新任务适配流程示意图。

如图6所示，开始任务2后，首先确定目标搜索行为，然后适应模型1执行目标搜索行为，其次研判搜索效果，若搜索效率高，则不需要重新训练，继续判断是否为目标，若是，则输出目标对象位置，若否，则重新开始执行任务2；若搜索效率差，则需要重新训练，其中，任务2模型的训练过程为：首先对任务2空间网格化；然后采集数据；其次对数据进行处理；再其次加入新的网络模块进行强化学习模型训练；最后输出模型2。目标搜索的过程为：首先开始任务2；然后基于模型2，确定目标搜索行为；其次使用模型2执行目标搜索行为；再其次判断是否为目标，若是则输出目标对象位置，若否则重新开始执行任务2。

应用本申请实施例提供的增量强化学习的目标搜索方法，实现将增量学习算法和记忆模块合成，使得智能体能够在学习新任务的同时保留已学到的知识，有效解决了传统强化学习方法中存在的“灾难性遗忘”问题。此外，本申请实施例还引入了性能评估和调整机制，用于监控智能体在不同任务中的表现，并根据反馈信息对策略进行调整和优化，这一机制的设计能够提高智能体的自适应性和鲁棒性。

步骤S108：基于所述新任务适配模型，对目标进行搜索。

本申请实施例提供的增量强化学习的目标搜索方法，首先致力于解决传统目标搜索策略在面对多种复杂的环境时效率不高的问题。通过引入增量强化学习方法，智能体在搜索任务中能够动态地学习并优化自身策略，从而提高了搜索效率。这一优点可以帮助用户在复杂环境下更快地找到最优解决方案，节省时间和资源；其次，旨在提高搜索方法的适应性，使其能够更好地适应新的搜索环境。传统的强化学习方法在面对新任务时可能会出现“灾难性遗忘”的问题，已学到的知识会被遗忘，从而影响性能。而本发明通过增量学习算法的设计，使得智能体能够在学习新任务的同时保留已有知识，提高了适应性。这一优点能够帮助用户应对不断变化的环境，保持搜索方法的稳定性和鲁棒性。

与上述方法实施例相对应，本说明书还提供了基于增量强化学习的目标搜索装置实施例，图7是本申请实施例提供的一种基于增量强化学习的目标搜索装置的结构示意图。如图7所示，该装置包括：

处理模块702，被配置为对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网；

第一模型生成模块704，被配置为基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，其中，所述搜索策略是定义的无人机在目标空间内搜索目标时对应的最优搜索策略；

第二模型生成模块706，被配置为在无人机执行第二搜索任务的情况下，响应于所述第二搜索任务对所述强化学习训练模型进行评估的评估结果为对模型进行再训练，则以所述强化学习训练模型为第一网络分支，以所述第二搜索任务对应的模型参数训练生成的模型为第二网络分支，进行网络结构的设计，生成基于增量学习的新任务适配模型；

搜索模块708，被配置为基于所述新任务适配模型，对目标进行搜索。

进一步地，所述处理模块702，进一步被配置为：

基于预设网格单元规格，将所述目标空间划分为规格相同的网格单元，其中，所述网格单元对应有唯一的标识符，且当无人机移动到各个所述网格单元时，分别对应无人机的一种当前状态；

设计无人机在目标空间内移动位置对应的标识符号，其中，所述移动位置包括：向上移动、向下移动、向左移动以及向右移动；

基于所述网格单元以及所述标识符号，生成环境数据网。

进一步地，所述第一模型生成模块704，进一步被配置为：

响应于无人机从所述第二预设范围的所述第一空间范围内移动到第二空间范围内，则设置奖励为第二正值。

进一步地，所述第二模型生成模块706，进一步被配置为：

所述新任务适配模型中，所述第一网络分支和所述第二网络分支采用跨层连接，通过动态调整所述第一网络分支和所述第二网络分支对应的权重，实现对所述新任务适配模型的优化。

本申请实施例提供的增量强化学习的目标搜索装置，首先致力于解决传统目标搜索策略在面对多种复杂的环境时效率不高的问题。通过引入增量强化学习方法，智能体在搜索任务中能够动态地学习并优化自身策略，从而提高了搜索效率。这一优点可以帮助用户在复杂环境下更快地找到最优解决方案，节省时间和资源；其次，旨在提高搜索方法的适应性，使其能够更好地适应新的搜索环境。传统的强化学习方法在面对新任务时可能会出现“灾难性遗忘”的问题，已学到的知识会被遗忘，从而影响性能。而本发明通过增量学习算法的设计，使得智能体能够在学习新任务的同时保留已有知识，提高了适应性。这一优点能够帮助用户应对不断变化的环境，保持搜索方法的稳定性和鲁棒性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于增量强化学习的目标搜索装置而言，由于其基本相似于基于增量强化学习的目标搜索方法实施例，所以描述的比较简单，相关之处参见基于增量强化学习的目标搜索方法实施例的部分说明即可。

图8是本申请实施例提供的一种计算设备的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述基于增量强化学习的目标搜索方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算设备实施例而言，由于其基本相似于基于增量强化学习的目标搜索方法实施例，所以描述的比较简单，相关之处参见基于增量强化学习的目标搜索方法实施例的部分说明即可。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述基于增量强化学习的目标搜索方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算机可读存储介质实施例而言，由于其基本相似于基于增量强化学习的目标搜索方法实施例，所以描述的比较简单，相关之处参见基于增量强化学习的目标搜索方法实施例的部分说明即可。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述基于增量强化学习的目标搜索方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于计算机程序实施例而言，由于其基本相似于基于增量强化学习的目标搜索方法实施例，所以描述的比较简单，相关之处参见基于增量强化学习的目标搜索方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于增量强化学习的目标搜索方法，其特征在于，包括：

基于所述新任务适配模型，对目标进行搜索。

2.根据权利要求1所述的方法，其特征在于，所述对无人机执行第一搜索任务所在的目标空间进行网格化处理，生成环境数据网，包括：

基于所述网格单元以及所述标识符号，生成环境数据网。

3.根据权利要求1所述的方法，其特征在于，所述基于所述环境数据网中无人机对应的当前状态、当前状态采取的动作以及下一状态，设计奖励函数，基于所述奖励函数和预设的搜索策略，生成强化学习训练模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于无人机对应的当前状态、当前状态采取的动作以及下一个状态，设计奖励函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述响应于无人机移动到距离搜索目标所在单元格第二预设范围内，则确定目标搜索失败，设置奖励为负值，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于无人机对应的当前状态、当前状态采取的动作以及下一个状态，设计奖励函数，还包括：

7.根据权利要求1所述的方法，其特征在于，所述新任务适配模型中，所述第一网络分支和所述第二网络分支采用跨层连接，通过动态调整所述第一网络分支和所述第二网络分支对应的权重，实现对所述新任务适配模型的优化。

8.一种基于增量强化学习的目标搜索装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，其特征在于，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。