CN110673637B

CN110673637B - 一种基于深度强化学习的无人机伪路径规划的方法

Info

Publication number: CN110673637B
Application number: CN201910948346.7A
Authority: CN
Inventors: 陈鲤文; 周瑶; 郑日晶; 张文吉
Original assignee: Fujian University of Technology
Current assignee: Fujian University Of Science And Technology
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2022-05-13
Anticipated expiration: 2039-10-08
Also published as: CN110673637A

Abstract

本发明公开了一种基于深度强化学习的无人机伪路径规划的方法，首先在飞行地图上划分禁飞区域的边界坐标和标记出无人机飞行任务的起点坐标和终点坐标位置；执行飞行任务前感知无人机当前环境状态，利用深度强化学习算法，根据得到的Q函数值选择当前环境下的偏转角度和飞行动作；无人机根据在飞行过程中不断地接收来自地面基站发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报更新Q函数；飞行过程中将禁飞区域作为虚拟障碍物，判断无人机是否按照预设航线飞行；若接近禁飞区域边缘，则通过奖励函数引导无人机规划伪航行路径，避开禁飞区域；本发明实现了对未知环境下的无人机的伪路径规划，提高无人机飞行的智能化，安全化。

Description

一种基于深度强化学习的无人机伪路径规划的方法

技术领域

本发明属于机器学习技术领域，尤其涉及一种基于深度强化学习的无人机伪路径规划的方法。

背景技术

随着计算水平和人工智能领域的长足进步，无人机应用的领域越来越多，尤其在军事航空领域的应用也越来越广泛，无人机执行任务的种类也越来越复杂，在军事侦察领域和航空运输领域发挥了重要的作用。无人机航迹规划智能化的要求也越来越高，在无人机执行特殊任务时，按照规定要求从起点到终点的飞行过程中，无人机还要避开正常的民航飞行区域和雷达监测区域，以免对民航飞机的飞行和雷达监测造成干扰。为了更好的服务于各个领域的应用，无人机伪路径规划的研究成为当前无人机航迹规划的研究热点和难点。

随着人工智能技术的进步，近年来基于深度神经网络和深度强化学习的智能体控制方法进入大众视野。强化学习是机器学习的重要分支之一，它通过环境建模，对智能体的每一个动作进行反馈，通过设置积累奖励的目标函数，最大化一个智能体在当前状态所能取得的未来期望收获，来辅助智能体在每一个状态采取更明智的行为和动作。深度强化学习是一种利用神经网络优化智能体策略的算法，它通过神经网络存储参数的功能，消除了传统学习方法诸如：时序差分，现实策略差分算法中的维数灾难问题，为实时计算提供了思路。

在解决实际求解无人机航迹路径规划的过程中，根据不同的任务，地形环境的复杂程度的不同，选择符合航迹规划的智能算法，现有的算法在进行航迹规划时按照无人机实时的飞行路径和避障进行规划航行，但在实际情况中，空域中一些禁飞区域为不可检测的隐形障碍物，在无人机飞行的过程中很容易误入禁区飞行，造成其他空域的飞行危险。

发明内容

本发明的目的在于克服现有无人机航迹规划的一般思维，提供一种基于深度强化学习的无人机伪路径规划的方法。本发明针对无人机避开禁区飞行规划出伪航迹，在无人机实际规划的航线和飞行禁区相冲突时，利用伪航迹引导无人机避开飞行禁区，保证空域内无人机的飞行安全和其他区域的正常运行。

本发明所采用的技术方案是：一种基于深度强化学习的无人机伪路径规划的方法，其特征在于，包括以下步骤：

步骤1：在飞行地图上划分禁飞区域的边界坐标，并标记出无人机飞行的起点和终点位置坐标；

步骤2：执行飞行任务前感知无人机当前环境状态，包括低、高空气候数据，无人机飞行高度，无人机飞行位置坐标；基于当前环境状态信息，利用深度强化学习算法，根据得到的Q函数值选择当前环境下的飞行偏转角度和动作；无人机根据在飞行过程中不断地接收来自地面基站发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报更新Q函数；

步骤3：飞行过程中将禁飞区域作为虚拟障碍物，判断无人机是否按照正常的航线飞行；

若远离禁飞区，无人机继续与环境交互规划路径，执行步骤2；

若接近禁飞区域边缘，则通过深度强化学习的奖励函数引导无人机规划伪航行路线，避开禁飞区域；

步骤4：若无人机到达终点，则结束飞行；否则继续执行步骤2。

本发明的优点在于：

1.本发明能够在复杂的环境下实现无人机的路径规划，从而使得无人机能够高效地飞行到目标位置，完成后续的任务。

2.本发明能够利用深度强化学习方法为无人机规划出一条躲避禁飞空域的飞行伪路径，保证了无人机在没有实体障碍物的情况下不误飞入航空禁区和雷达监测区，避免干扰其他空域的正常工作，具有高效性和安全性，智能性。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例中深度强化学习Double DQN算法的原理框图；

图3为本发明实施例中利用深度强化学习DoubleDQN算法的无人机伪路径规划示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明采用一种基于深度强化学习的无人机伪路径规划的方法来避免无人机在航空飞行时误入航空飞行禁区的危险，利用深度强化学习算法结合栅格地图定位，将禁飞空域作为虚拟障碍物，在无人机规划的航迹误入禁区时，通过强化学习算法将为无人机重新规划一条伪路径，使其避开航空禁区，保证无人机的飞行安全和其他航空区域的正常运行，同时提高了无人机的航路规划的效率和安全性能。

请见图1，本发明提供的一种基于深度强化学习的无人机伪路径规划的方法，包括以下步骤：

本实施例中的禁飞区域，包括正常民航飞行航空区域以及雷达区；

本实施例中，首先将飞行地图模拟为栅格环境模型，栅格环境模型将无人机的飞行环境划分为一系列具有二值信息的大小相同或不同的单元格，其中一些单元格划分为禁飞区域；禁飞区域的边界坐标在栅格环境模型上明确标出为{(x_i，y_i)，(x_i+1，y_i+1)，(x_i+2，y_i+2)……(x_i+m，y_i+n)|m，n＞0，i≥1}；在飞行地图上同时标出无人机飞行的起点(X_start，Y_start)和终点(X_end，Y_end)的位置坐标。

步骤2：执行飞行任务前感知无人机当前环境状态，包括低、高空气候数据，无人机飞行高度，无人机飞行位置坐标；基于当前环境状态信息，利用深度强化学习算法，根据得到的Q函数值选择当前环境下的飞行偏转角度和动作；无人机根据在飞行过程中不断地接收来自地面基站发射设备给出飞行的位置数据并与环境进行交互得到的奖励回报更新0函数；

本实施例中，深度强化学习网络为Double DQN，为双DQN神经网络网络的深度强化学习网络；

Double DQN是利用深度学习中的卷积神经网络和强化学习的Q-learning算法相结合的改进型深度卷积神经网络；

深度强化学习网络包括无人机飞行时的状态集{S₁，S₂，S₃……S_t，t≥1}，动作集{a₁，a₂，a₃……a_t，t≥1}，奖励函数R(s)，以及深度强化学习网络权重值θ；

深度强化学习根据状态集、动作集、奖励函数代入到状态行为值函数Q_t(s_t，a_t)中；Q_t(s_t，a_t)的函数为：

其中Q_t+1(s_t，a_t)为t+1时刻对应的Q值，Q_t(s_t，a_t)为t时刻的Q值，α∈(0.5，1]为学习速率，γ∈(0，1)为折扣因子，R_t为执行t时刻动作时的回报值；max为求Q_t+1(s_t+1，a_t)或者Q_t(s_t，a_t)值最大对应的Q值；如果状态s经过动作a后到达目标点栅格，那么R(s，a)＝1；如果状态s经过动作a后到达障碍物栅格，那么R(s，a)＝-1；其他情况下R(s，a)＝0。

目标网络权重θ加入后动作行为值函数更新为：

其中，V_t+1为t+1时刻根据当前的状态行为值函数Q_t(s_t，a_t；θ)所得到的行为值函数用来更新t+1时刻的状态行为值；深度强化学习Double DQN中将动作的选择和动作的评估分别用不同的值函数实现；

动作选择时的值函数公式为公式：

Y_t ^Q＝R_t+1+ymax_aQ(S_t+1，a；θ)；

动作选择时的值函数做出选择时首先选择一个动作a^*，该动作a^*应该满足在状态S_t+1处Q(S_t+1，a)最大；其中R_t+1表示t+1时刻的奖励值；

动作评估时的值函数为在选出最大的动作a^*之后选择不同的网络权重θ′动作评估的公式；

其中，

为利用深度强化学习网络Double DQN计算之后的状态动作值函数的值。

本实施例中，深度强化学习网络权重θ的选择为优先回放；请见图2，具体实现包括以下子步骤：

步骤2.1：无人机首先在空中飞行环境中进行训练，由无人机与环境的交互中收集状态动作数据集放入回放记忆单元中；

步骤2.2：深度强化学习的神经网络分为现实网络和估计网络两部分，当回放记忆单元所存储的经验数据超过设定的数据集数量时，智能体(强化学习里面的学习大脑)开始训练；

步骤2.3：无人机在与环境的交互根据当前的状态选择动作，其中现实网络和估计网络的结构一样，只是用于训练的神经网络的参数不同；现实网络根据无人机当前状态在神经网络中进行训练得到最大的状态行为值Q(s，a；θ)，同时估计网络经过训练神经网络的训练得到下一状态下的状态行为值max_a′Q(s′，a′；θ′)，得到现实网络和估计网络的误差函数，利用随机梯度下降法得到贪婪策略下的最大的状态行为值函数argmax_aQ(s，a；θ)；无人机根据状态行为值函数选择下一步的动作，并继续与环境进行交互。

本实施例中，无人机在飞行过程中与环境不断的进行交互，根据Double DQN算法不断的更新状态行为值函数Q_t(s_t，a_t；θ)，更新航路轨迹。

本实施例中，航迹规划的伪路径示意图如图3。

本发明现在利用强化学习和深度学习的神经网络相结合的深度强化学习方法进行无人机伪路径的规划，利用智能体和环境的交互得到策略函数值，指导无人机飞行动作的选择，该深度强化学习的方法收敛性和泛化能力更强，提高了无人机飞行的智能化程度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术；上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的无人机伪路径规划的方法，其特征在于，包括以下步骤：

其中，所述深度强化学习算法是利用深度学习中的卷积神经网络和强化学习的Q-learning算法相结合的改进型深度卷积神经网络算法；

所述深度强化学习算法包括无人机飞行时的状态集{S₁，S₂，S₃......S_t，t≥1}，动作集{a₁，a₂，a₃......a_t，t≥1}，奖励函数R(s)，以及深度强化学习目标网络权重θ；

所述深度强化学习根据状态集、动作集、奖励函数代入到状态行为值函数Q_t(s_t，a_t)中；

所述Q_t(s_t，a_t)的函数为：

其中Q_t+1(s_t，a_t)为t+1时刻对应的Q值，Q_t(s_t，a_t)为t时刻的Q值，α为学习速率，γ为折扣因子，R_t为执行t时刻动作时的回报值；

所述目标网络权值θ加入后动作行为值函数更新为：

动作选择时的值函数公式为公式：

其中，

为利用深度强化学习网络Double DQN计算之后的状态动作值函数的值；

若接近禁飞区域边缘，则通过深度强化学习算法的奖励函数引导无人机规划伪航行路线，避开禁飞区域；

2.根据权利要求1所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：步骤1中，首先将飞行地图模拟为栅格环境模型，栅格环境模型将无人机的飞行环境划分为一系列具有二值信息的大小相同或不同的单元格，其中一些单元格划分为禁飞区域；禁飞区域的边界坐标在栅格环境模型上明确标出为{(x_i，y_i)，(x_i+1，y_i+1)，(x_i+2，y_i+2)......(x_i+m，y_i+n)|m，n＞0，i≥1}；在飞行地图上同时标出无人机飞行的起点(X_start，Y_start)和终点(X_end，Y_end)的位置坐标。

3.根据权利要求1所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：步骤2中，所述深度强化学习算法权重值θ的选择为优先回放；具体实现包括以下子步骤：

步骤2.2：深度强化学习的神经网络分为现实网络和估计网络两部分，当回放记忆单元所存储的经验数据超过设定的数据集数量时，智能体开始训练；

步骤2.3：无人机在与环境的交互根据当前的状态选择动作，其中现实网络和估计网络的结构一样，只是用于训练的神经网络的参数不同；现实网络根据无人机当前状态在神经网络中进行训练得到最大的状态行为值Q(s，a；θ)，同时估计网络经过训练神经网络的训练得到下一状态下的状态行为值max_a'Q(s'，a'；θ')，得到现实网络和估计网络的误差函数，利用随机梯度下降法得到贪婪策略下的最大的状态行为值函数arg max_aQ(s，a；θ)；无人机根据状态行为值函数选择下一步的动作，并继续与环境进行交互。

4.根据权利要求3所述的基于深度强化学习的无人机伪路径规划的方法，其特征在于：步骤2中，无人机在飞行过程中与环境不断的进行交互，根据深度强化学习算法不断的更新状态行为值函数Q(s，a；θ)，更新航路轨迹。