CN111353606B

CN111353606B - 一种基于模糊决策树的深度强化学习空战博弈方法和系统

Info

Publication number: CN111353606B
Application number: CN202010132561.2A
Authority: CN
Inventors: 朱燎原; 刘长卫; 瞿崇晓; 张瑞峰; 夏少杰; 包骐豪
Original assignee: CETC 52 Research Institute
Current assignee: CETC 52 Research Institute
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2022-05-03
Anticipated expiration: 2040-02-29
Also published as: CN111353606A

Abstract

本发明公开了一种基于模糊决策树的深度强化学习空战博弈解释方法，包括：采用已训练的深度强化学习模型进行空战博弈，得到训练集和特征集；构建特征集中各特征的隶属度函数，逐一将特征模糊化，得到特征集模糊化后的模糊特征集；根据训练集和模糊特征集建立模糊决策树；通过极小化决策树的损失函数对模糊决策树进行剪枝；遍历剪枝后的模糊决策树的所有路径，其中每一路径表示一个空战博弈规则；将空战博弈时深度强化学习模型的输入和输出保存为待处理数据，将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则，从而完成空战博弈解释。本发明解决了深度强化学习算法可解释性差、结果不直观的问题。

Description

一种基于模糊决策树的深度强化学习空战博弈方法和系统

技术领域

本申请属于空战智能博弈与仿真推演技术领域，具体涉及一种基于模糊决策树的深度强化学习空战博弈解释方法和系统。

背景技术

现代战机正向高度自动化、信息化及智能化方向发展，战场环境复杂多变、飞行员获取的信息繁杂多样，仅仅依靠飞行员自身在短时间内做出最佳规划和作战决策是很难的。

深度强化学习是一种不依赖标签样本的人工智能算法，通过与环境的交互学习知识，经过不断训练和模型迭代提升决策系统的智能水平。深度强化学习主要面向的是序列决策问题，根据当前环境信息做出实时决策，非常适合空战博弈场景。但是深度强化学习算法目前存在的一大问题是可解释性差，这个问题使得深度强化学习的可信度备受质疑，难以直观的指导应用。

决策树是一种公认的解释性很强的机器学习算法，其根据现有条件不停构建分支实现决策，可以看成if-then规则的集合。优点是高效，适应性强，可以用于解决大规模问题，非常符合人类认知。但是普通决策树的缺点是如果分支条件过多，容易过拟合且噪声摄动下的稳定性差，拟合方差大，学习效果不好。

发明内容

本申请的目的在于提供一种基于模糊决策树的深度强化学习空战博弈解释方法和系统，解决深度强化学习算法可解释性差、结果不直观的问题。

为实现上述目的，本申请所采取的技术方案为：

一种基于模糊决策树的深度强化学习空战博弈解释方法，所述基于模糊决策树的深度强化学习空战博弈解释方法，包括：

步骤S1、采用已训练的深度强化学习模型进行空战博弈，成对保存输入的特征向量和深度强化学习模型的输出作为样本数据，得到训练集和特征集；

步骤S2、构建特征集中各特征的隶属度函数，逐一将特征模糊化，得到特征集模糊化后的模糊特征集；

步骤S3、根据所述训练集和模糊特征集建立模糊决策树；

步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝；

步骤S5、遍历剪枝后的模糊决策树的所有路径，得到模糊决策树训练的规则集合，其中每一路径表示一个空战博弈规则；

步骤S6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据，将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则，从而完成空战博弈解释。

作为优选，所述成对保存输入的特征向量以及深度强化学习模型的输出作为样本数据，得到训练集，包括：

若保存的样本数据的长度为N，并且采用x表示特征向量，采用y表示深度强化学习模型的输出，则得到的训练集为：

D＝{(x₁,y₁),(x₂,y₂),…(x_N,y_N)}

其中，D表示训练集，x_N表示第N个输入的特征向量，y_N表示深度强化学习模型的第N个输出；

根据特征向量得到对应的特征集如下：

ψ＝{ψ₁,ψ₂,…ψ_i,…ψ_n}

其中，ψ为特征集，n为特征集中特征的总个数，ψ_i为第i个特征；

并且特征ψ_i的可选特征值值空间为：

其中，l为特征ψ_i的可选特征值空间的总数，

为特征ψ_i的第j个可选特征值空间。

作为优选，所述构建特征集中各特征的隶属度函数，逐一将特征模糊化，得到特征集模糊化后的模糊特征集，包括：

步骤S2.1、构建各特征的隶属度函数的分割点；

步骤S2.2、采用梯形函数作为隶属度函数，单个梯形函数由四个参数 {A_q,B_q,C_q,D_q}表征，则隶属度函数的表达式如下：

步骤S2.3、采用最大隶属度原则进行隶属度选择：

μ＝max(μ₁,μ₂,…μ_l)

步骤S2.4、利用隶属度函数逐一将特征模糊化，将原始的特征集进行模糊化转换，得到模糊特征集如下：

A＝{A₁,A₂,A₃,…A_i,…A_n}

其中，A为模糊特征集，n为模糊特征集中模糊特征的总个数，A_i为第i个模糊特征；

并且模糊特征A_i的可选向量空间为：

其中，l为模糊特征A_i的可选特征值空间的总数，

为模糊特征A_i的第j个可选特征值空间。

作为优选，所述根据训练集和模糊特征集建立模糊决策树，包括：

步骤S3.1、计算信息增益比：

计算模糊特征A_i在整个训练集D中的相对熵为：

根据相对熵计算模糊特征A_i的信息增益：

g(D,A_i)＝H(D)-H(D|A_i)

根据相对熵和信息增益计算模糊特征A_i的信息增益比：

其中，g_R为信息增益比；

步骤S3.2、选择信息增益比最大的模糊特征作为模糊决策树当前的切分点：

并将当前所选特征A_chosen从模糊特征集{A|A₁,A₂,A₃,…A_i,…A_n}中移除；

步骤S3.3、重复步骤S3.1和步骤S3.2，直至满足结束条件中的一个，结束循环，得到模糊决策树。

作为优选，所述结束条件，包括：

1)无可用特征，即模糊特征集{A|A₁,A₂,A₃,…A_i,…A_n}为空；

2)模糊特征集A中剩余的所有样本属于同一类别；

3)模糊特征集A中属于第k类的样本数量大于或等于给定阈值；

4)模糊特征集A中剩余的样本数量小于给定阈值。

6、如权利要求5所述的基于模糊决策树的深度强化学习空战博弈解释方法，其特征在于，所述通过极小化决策树的损失函数对模糊决策树进行剪枝，包括：

步骤S4.1、构建优化的目标函数为：

其中，C_α(T)为损失函数，g_R(T)为当前模糊决策树的信息增益比，T为叶节点数量，α为可调超参；

步骤S4.2、取一组叶节点，若该组叶节点回缩到其父节点前后的树分别为T_l和T_f，分别计算T_l和T_f的目标函数C_α(T_l)和C_α(T_f)；

如果满足C_α(T_l)≥C_α(T_f)，则删除该组叶节点，回缩到其父节点；否则保留该组叶节点；

步骤S4.3、重复步骤S4.2，递推地从树的叶节点向上回缩，直至无法递推为止，得到剪枝后的模糊决策树。

本申请还提供一种基于模糊决策树的深度强化学习空战博弈解释系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一技术方案所述的基于模糊决策树的深度强化学习空战博弈解释方法的步骤。

本申请提供的基于模糊决策树的深度强化学习空战博弈解释方法和系统，根据隶属度函数将数据模糊化，生成模糊规则，能够建模决策条件的不确定性，大大减少分支，提高模型的泛化能力、表征能力、推理能力，从而很好的解释强化学习算法决策的过程，解决深度强化学习算法可解释性差、结果不直观的问题。

附图说明

图1为本申请的基于模糊决策树的深度强化学习空战博弈解释方法整体流程图；

图2为本申请的基于模糊决策树的深度强化学习空战博弈解释方法具体流程图；

图3为本申请的相对距离的隶属度函数的一种实施例示意图；

图4为本申请建立的模糊决策树的一种实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，当组件被称为与另一个组件“连接”时，它可以直接与另一个组件连接或者也可以存在居中的组件；当组件被称为与另一个组件“固定”时，它可以直接与另一个组件固定或者也可以存在居中的组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

其中一个实施例中，提供一种基于模糊决策树的深度强化学习空战博弈解释方法，用于深度强化学习空战博弈的解释。

如图1所述，基于模糊决策树的深度强化学习空战博弈解释方法的整体流程为：深度强化学习模型通过与空战引擎交互，训练并产生样本数据，将样本数据存储到数据库中；从数据库中取出样本数据构造训练集，利用训练集训练得到模糊决策树，利用模糊决策树对深度强化学习模型的输出进行解释。

具体的，如图2所示，本实施例的基于模糊决策树的深度强化学习空战博弈解释方法，包括以下步骤：

步骤S1、采用已训练的深度强化学习模型进行空战博弈，成对保存输入的特征向量和深度强化学习模型的输出作为样本数据，得到训练集和特征集。

输入深度强化学习模型的特征向量，即为态势数据，本实施例中特征向量包含的特征包括但不限于飞机相对距离、相对角度、高度差、所有导弹的状态、导弹飞行时间、飞机速度、飞机探测雷达状态、飞机光电雷达状态、飞机干扰弹状态、飞机存活状态等。

并且深度强化学习模型的输出即为决策变量，本实施例中决策变量包括但不限于转向角、加速度等。

D＝{(x₁,y₁),(x₂,y₂),…(x_N,y_N)}

其中，D表示训练集，x_N表示第N个输入的特征向量，N相当于样本总数， y_N表示深度强化学习模型的第N个输出。

将模型的所有输出进行网格化离散，将模型输出的总类别记为C。模型输出可选类别表示为：

π＝{π₁,π₂,…π_C}

根据特征向量得到对应的特征集如下：

ψ＝{ψ₁,ψ₂,…ψ_i,…ψ_n}

其中，ψ为特征集，n为特征集中特征的总个数，ψ_i为第i个特征。

并且特征ψ_i的可选特征值值空间为：

其中，l为特征ψ_i的可选特征值空间的总数，

为特征ψ_i的第j个可选特征值空间。

步骤S2、构建特征集中各特征的隶属度函数，逐一将特征模糊化，得到特征集模糊化后的模糊特征集。

模糊规则集是由一系列模糊规则组成的，模糊规则集构建成功后，模糊决策树随之完成。采用模糊特征集合理论来建立模糊语言的数学模型，使模糊语言数量化、形式化。用取值区间在[0,1]的隶属函数μ(x)表征x属于μ的程度高低，隶属度是一种模糊评价，是对受多种因素影响的事物做出全面评价的一种十分有效的多因素决策方法，其评价结果不是确定的肯定或否定。常用的连续型隶属度函数有下列三种：吊钟形、三角形、梯形。

在一实施例中，提供的模糊特征集生成方法如下：

步骤S2.1、构建各特征的隶属度函数的分割点。

步骤S2.2、梯形函数是模糊理论中一种很流行的隶属度函数，具有很好地计算和存储效率，易于理解分析。因此本实施例采用梯形函数作为隶属度函数，单个梯形函数由四个参数{A_q,B_q,C_q,D_q}表征，则隶属度函数的表达式如下：

步骤S2.3、采用最大隶属度原则进行隶属度选择：

μ＝max(μ₁,μ₂,…μ_l)

隶属度函数的表达式中μ_q的下标q指隶属度，下标q表示参数与隶属度函数有关，且q∈(1,2,…l)。

A＝{A₁,A₂,A₃,…A_i,…A_n}

并且模糊特征A_i的可选向量空间为：

其中，l为模糊特征A_i的可选特征值空间的总数，

为模糊特征A_i的第j个可选特征值空间。

为了便于理解，下面以相对距离、相对角度为例，示意将数据进行模糊化的过程，其他态势数据的模糊化类似。

(1)将相对距离模糊化的方法如下：

首先建立相对距离的分割点为：

然后根据分割点构造隶属度函数，如图3所示，相对距离有关的隶属度函数共有3个，各隶属度函数以梯形描绘，得到模糊区域。

(2)相对角度的范围为[-180,180]，将相对角度模糊化的方法如下：

首先建立相对角度的分割点为：

然后根据分割点构造隶属度函数，相对角度有关的隶属度函数共有5个，各隶属度函数同样以梯形描绘。其他各特征的模糊构造方法与相对距离、相对角度类似，不再进行赘述。

步骤S3、根据所述训练集和模糊特征集建立模糊决策树。

决策树是节点的集合，一棵决策树的内部节点是属性或属性的集合，叶节点是所要学习划分的类，使用训练集建立决策树后，便可根据属性的取值对未知实例集进行分类，由树根开始对该实例的属性逐渐测试，顺着分支向下走，直至到达某个叶节点，此叶节点代表的类别即为该实例所属的类。

在一实施例中，建立模糊决策树的过程具体如下：

步骤S3.1、计算信息增益比，决策树是以某个评价标准作为选取测试节点条件的标准(如：信息增益、信息增益比)，本实施例选择信息增益比作为特征切分选择的依据。

计算模糊特征A_i在整个训练集D中的相对熵为：

根据相对熵计算模糊特征A_i的信息增益：

g(D,A_i)＝H(D)-H(D|A_i)

需要说明的是，两个计算H(D|A_i)的公式中，下方的公式相当于是对上一个公式的进一步展开。

根据相对熵和信息增益计算模糊特征A_i的信息增益比：

其中，g_R为信息增益比。

步骤S3.3、重复步骤S3.1和步骤S3.2，直至满足结束条件中的一个，结束循环，得到模糊决策树，模糊决策树的结构如图4所示，为树形结构。

所述结束条件，包括：

1)无可用特征，即模糊特征集{A|A₁,A₂,A₃,…A_i,…A_n}为空；

2)模糊特征集A中剩余的所有样本属于同一类别；

3)模糊特征集A中属于第k类的样本数量大于或等于给定阈值；

4)模糊特征集A中剩余的样本数量小于给定阈值。

步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝。

按照上述步骤构造的模糊决策树由于分支较多，决策树模型结构复杂，过度优化训练集的拟合精度，测试集精度低，造成过拟合。剪枝能够简化决策树模型，增强决策树模型的泛化能力，本身是对训练和测试精度的权衡。

在一实施例中，对模糊决策树的剪枝过程如下：

步骤S4.1、根据奥卡姆剃刀原则，简单模型的泛化能力更好，因此，决策树的剪枝通过极小化决策树损失函数和模型复杂度的加权来实现，是一种典型的正则化方法，构建优化的目标函数为：

其中，C_α(T)为损失函数，g_R(T)为当前模糊决策树的信息增益比，T为叶节点数量，α为可调超参，如果α很大，会趋向生成更简单的树，α很小，会趋向生成复杂的树。

步骤S4.2、取一组叶节点，若该组叶节点回缩到其父节点前后的树分别为T_l和T_f，分别计算T_l和T_f的目标函数C_α(T_l)和C_α(T_f)。

如果满足C_α(T_l)≥C_α(T_f)，则删除该组叶节点，回缩到其父节点；否则保留该组叶节点。

步骤S5、遍历剪枝后的模糊决策树的所有路径，得到模糊决策树训练的规则集合，其中每一路径表示一个空战博弈规则。

本实施例的基于模糊决策树的深度强化学习空战博弈解释方法，将深度强化学习算法得到的样本数据持久化保存；计算隶属度函数，把样本数据模糊化，构造模糊特征集；基于模糊特征集构建模糊决策树，输入特征为态势数据，标签数据为决策数据，根据相对熵进行条件选择和剪枝；最后，通过模糊决策树的遍历得到模糊规则集，用于强化学习空战博弈的解释，可以用于面向空战领域的智能博弈对抗仿真推演，增强算法的可解释性，解决深度强化学习算法可解释性差、结果不直观的问题，提高强化学习在实战中的指导作用。

另一实施例中，还提供一种基于模糊决策树的深度强化学习空战博弈解释系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的基于模糊决策树的深度强化学习空战博弈解释方法。

本实施例的基于模糊决策树的深度强化学习空战博弈解释系统即一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于模糊决策树的深度强化学习空战博弈解释方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

关于基于模糊决策树的深度强化学习空战博弈解释系统的进一步限定可参见上述对于基于模糊决策树的深度强化学习空战博弈解释方法的限定，在此不再进行赘述。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。