[go: up one dir, main page]

CN111353606B - 一种基于模糊决策树的深度强化学习空战博弈方法和系统 - Google Patents

一种基于模糊决策树的深度强化学习空战博弈方法和系统 Download PDF

Info

Publication number
CN111353606B
CN111353606B CN202010132561.2A CN202010132561A CN111353606B CN 111353606 B CN111353606 B CN 111353606B CN 202010132561 A CN202010132561 A CN 202010132561A CN 111353606 B CN111353606 B CN 111353606B
Authority
CN
China
Prior art keywords
fuzzy
decision tree
feature
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010132561.2A
Other languages
English (en)
Other versions
CN111353606A (zh
Inventor
朱燎原
刘长卫
瞿崇晓
张瑞峰
夏少杰
包骐豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 52 Research Institute
Original Assignee
CETC 52 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 52 Research Institute filed Critical CETC 52 Research Institute
Priority to CN202010132561.2A priority Critical patent/CN111353606B/zh
Publication of CN111353606A publication Critical patent/CN111353606A/zh
Application granted granted Critical
Publication of CN111353606B publication Critical patent/CN111353606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于模糊决策树的深度强化学习空战博弈解释方法,包括:采用已训练的深度强化学习模型进行空战博弈,得到训练集和特征集;构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集;根据训练集和模糊特征集建立模糊决策树;通过极小化决策树的损失函数对模糊决策树进行剪枝;遍历剪枝后的模糊决策树的所有路径,其中每一路径表示一个空战博弈规则;将空战博弈时深度强化学习模型的输入和输出保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。本发明解决了深度强化学习算法可解释性差、结果不直观的问题。

Description

一种基于模糊决策树的深度强化学习空战博弈方法和系统
技术领域
本申请属于空战智能博弈与仿真推演技术领域,具体涉及一种基于模糊决策树的深度强化学习空战博弈解释方法和系统。
背景技术
现代战机正向高度自动化、信息化及智能化方向发展,战场环境复杂多变、飞行员获取的信息繁杂多样,仅仅依靠飞行员自身在短时间内做出最佳规划和作战决策是很难的。
深度强化学习是一种不依赖标签样本的人工智能算法,通过与环境的交互学习知识,经过不断训练和模型迭代提升决策系统的智能水平。深度强化学习主要面向的是序列决策问题,根据当前环境信息做出实时决策,非常适合空战博弈场景。但是深度强化学习算法目前存在的一大问题是可解释性差,这个问题使得深度强化学习的可信度备受质疑,难以直观的指导应用。
决策树是一种公认的解释性很强的机器学习算法,其根据现有条件不停构建分支实现决策,可以看成if-then规则的集合。优点是高效,适应性强,可以用于解决大规模问题,非常符合人类认知。但是普通决策树的缺点是如果分支条件过多,容易过拟合且噪声摄动下的稳定性差,拟合方差大,学习效果不好。
发明内容
本申请的目的在于提供一种基于模糊决策树的深度强化学习空战博弈解释方法和系统,解决深度强化学习算法可解释性差、结果不直观的问题。
为实现上述目的,本申请所采取的技术方案为:
一种基于模糊决策树的深度强化学习空战博弈解释方法,所述基于模糊决策树的深度强化学习空战博弈解释方法,包括:
步骤S1、采用已训练的深度强化学习模型进行空战博弈,成对保存输入的特征向量和深度强化学习模型的输出作为样本数据,得到训练集和特征集;
步骤S2、构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集;
步骤S3、根据所述训练集和模糊特征集建立模糊决策树;
步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝;
步骤S5、遍历剪枝后的模糊决策树的所有路径,得到模糊决策树训练的规则集合,其中每一路径表示一个空战博弈规则;
步骤S6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。
作为优选,所述成对保存输入的特征向量以及深度强化学习模型的输出作为样本数据,得到训练集,包括:
若保存的样本数据的长度为N,并且采用x表示特征向量,采用y表示深度强化学习模型的输出,则得到的训练集为:
D={(x1,y1),(x2,y2),…(xN,yN)}
其中,D表示训练集,xN表示第N个输入的特征向量,yN表示深度强化学习模型的第N个输出;
根据特征向量得到对应的特征集如下:
ψ={ψ12,…ψi,…ψn}
其中,ψ为特征集,n为特征集中特征的总个数,ψi为第i个特征;
并且特征ψi的可选特征值值空间为:
Figure BDA0002396193650000021
其中,l为特征ψi的可选特征值空间的总数,
Figure BDA0002396193650000022
为特征ψi的第j个可选特征值空间。
作为优选,所述构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集,包括:
步骤S2.1、构建各特征的隶属度函数的分割点;
步骤S2.2、采用梯形函数作为隶属度函数,单个梯形函数由四个参数 {Aq,Bq,Cq,Dq}表征,则隶属度函数的表达式如下:
Figure BDA0002396193650000023
步骤S2.3、采用最大隶属度原则进行隶属度选择:
μ=max(μ12,…μl)
步骤S2.4、利用隶属度函数逐一将特征模糊化,将原始的特征集进行模糊化转换,得到模糊特征集如下:
A={A1,A2,A3,…Ai,…An}
其中,A为模糊特征集,n为模糊特征集中模糊特征的总个数,Ai为第i个模糊特征;
并且模糊特征Ai的可选向量空间为:
Figure BDA0002396193650000031
其中,l为模糊特征Ai的可选特征值空间的总数,
Figure BDA0002396193650000032
为模糊特征Ai的第j个可选特征值空间。
作为优选,所述根据训练集和模糊特征集建立模糊决策树,包括:
步骤S3.1、计算信息增益比:
计算模糊特征Ai在整个训练集D中的相对熵为:
Figure BDA0002396193650000033
根据相对熵计算模糊特征Ai的信息增益:
g(D,Ai)=H(D)-H(D|Ai)
Figure BDA0002396193650000034
Figure BDA0002396193650000035
其中,C为模糊决策树总的样本类别,即为深度强化学习模型输出的总类别, Dk表示将训练集D根据模糊特征Ai划分,类别为第k类的子集,|Dk|为子集Dk的样本数量,|Dkj|为子集Dk中第j个特征值的样本数量,l为模糊特征Ai的可选特征值空间的总数,g(D,Ai)表示模糊特征Ai在整个训练集D中的信息增益,H(D|Ai) 为模糊特征Ai下训练集D的相对熵,H(D)表示训练集D的相对熵;
根据相对熵和信息增益计算模糊特征Ai的信息增益比:
Figure BDA0002396193650000036
其中,gR为信息增益比;
步骤S3.2、选择信息增益比最大的模糊特征作为模糊决策树当前的切分点:
Figure BDA0002396193650000041
并将当前所选特征Achosen从模糊特征集{A|A1,A2,A3,…Ai,…An}中移除;
步骤S3.3、重复步骤S3.1和步骤S3.2,直至满足结束条件中的一个,结束循环,得到模糊决策树。
作为优选,所述结束条件,包括:
1)无可用特征,即模糊特征集{A|A1,A2,A3,…Ai,…An}为空;
2)模糊特征集A中剩余的所有样本属于同一类别;
3)模糊特征集A中属于第k类的样本数量大于或等于给定阈值;
4)模糊特征集A中剩余的样本数量小于给定阈值。
6、如权利要求5所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述通过极小化决策树的损失函数对模糊决策树进行剪枝,包括:
步骤S4.1、构建优化的目标函数为:
Figure BDA0002396193650000042
其中,Cα(T)为损失函数,gR(T)为当前模糊决策树的信息增益比,T为叶节点数量,α为可调超参;
步骤S4.2、取一组叶节点,若该组叶节点回缩到其父节点前后的树分别为Tl和Tf,分别计算Tl和Tf的目标函数Cα(Tl)和Cα(Tf);
如果满足Cα(Tl)≥Cα(Tf),则删除该组叶节点,回缩到其父节点;否则保留该组叶节点;
步骤S4.3、重复步骤S4.2,递推地从树的叶节点向上回缩,直至无法递推为止,得到剪枝后的模糊决策树。
本申请还提供一种基于模糊决策树的深度强化学习空战博弈解释系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一技术方案所述的基于模糊决策树的深度强化学习空战博弈解释方法的步骤。
本申请提供的基于模糊决策树的深度强化学习空战博弈解释方法和系统,根据隶属度函数将数据模糊化,生成模糊规则,能够建模决策条件的不确定性,大大减少分支,提高模型的泛化能力、表征能力、推理能力,从而很好的解释强化学习算法决策的过程,解决深度强化学习算法可解释性差、结果不直观的问题。
附图说明
图1为本申请的基于模糊决策树的深度强化学习空战博弈解释方法整体流程图;
图2为本申请的基于模糊决策树的深度强化学习空战博弈解释方法具体流程图;
图3为本申请的相对距离的隶属度函数的一种实施例示意图;
图4为本申请建立的模糊决策树的一种实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件;当组件被称为与另一个组件“固定”时,它可以直接与另一个组件固定或者也可以存在居中的组件。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一个实施例中,提供一种基于模糊决策树的深度强化学习空战博弈解释方法,用于深度强化学习空战博弈的解释。
如图1所述,基于模糊决策树的深度强化学习空战博弈解释方法的整体流程为:深度强化学习模型通过与空战引擎交互,训练并产生样本数据,将样本数据存储到数据库中;从数据库中取出样本数据构造训练集,利用训练集训练得到模糊决策树,利用模糊决策树对深度强化学习模型的输出进行解释。
具体的,如图2所示,本实施例的基于模糊决策树的深度强化学习空战博弈解释方法,包括以下步骤:
步骤S1、采用已训练的深度强化学习模型进行空战博弈,成对保存输入的特征向量和深度强化学习模型的输出作为样本数据,得到训练集和特征集。
输入深度强化学习模型的特征向量,即为态势数据,本实施例中特征向量包含的特征包括但不限于飞机相对距离、相对角度、高度差、所有导弹的状态、导弹飞行时间、飞机速度、飞机探测雷达状态、飞机光电雷达状态、飞机干扰弹状态、飞机存活状态等。
并且深度强化学习模型的输出即为决策变量,本实施例中决策变量包括但不限于转向角、加速度等。
若保存的样本数据的长度为N,并且采用x表示特征向量,采用y表示深度强化学习模型的输出,则得到的训练集为:
D={(x1,y1),(x2,y2),…(xN,yN)}
其中,D表示训练集,xN表示第N个输入的特征向量,N相当于样本总数, yN表示深度强化学习模型的第N个输出。
将模型的所有输出进行网格化离散,将模型输出的总类别记为C。模型输出可选类别表示为:
π={π12,…πC}
根据特征向量得到对应的特征集如下:
ψ={ψ12,…ψi,…ψn}
其中,ψ为特征集,n为特征集中特征的总个数,ψi为第i个特征。
并且特征ψi的可选特征值值空间为:
Figure BDA0002396193650000061
其中,l为特征ψi的可选特征值空间的总数,
Figure BDA0002396193650000062
为特征ψi的第j个可选特征值空间。
步骤S2、构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集。
模糊规则集是由一系列模糊规则组成的,模糊规则集构建成功后,模糊决策树随之完成。采用模糊特征集合理论来建立模糊语言的数学模型,使模糊语言数量化、形式化。用取值区间在[0,1]的隶属函数μ(x)表征x属于μ的程度高低,隶属度是一种模糊评价,是对受多种因素影响的事物做出全面评价的一种十分有效的多因素决策方法,其评价结果不是确定的肯定或否定。常用的连续型隶属度函数有下列三种:吊钟形、三角形、梯形。
在一实施例中,提供的模糊特征集生成方法如下:
步骤S2.1、构建各特征的隶属度函数的分割点。
步骤S2.2、梯形函数是模糊理论中一种很流行的隶属度函数,具有很好地计算和存储效率,易于理解分析。因此本实施例采用梯形函数作为隶属度函数,单个梯形函数由四个参数{Aq,Bq,Cq,Dq}表征,则隶属度函数的表达式如下:
Figure BDA0002396193650000071
步骤S2.3、采用最大隶属度原则进行隶属度选择:
μ=max(μ12,…μl)
隶属度函数的表达式中μq的下标q指隶属度,下标q表示参数与隶属度函数有关,且q∈(1,2,…l)。
步骤S2.4、利用隶属度函数逐一将特征模糊化,将原始的特征集进行模糊化转换,得到模糊特征集如下:
A={A1,A2,A3,…Ai,…An}
其中,A为模糊特征集,n为模糊特征集中模糊特征的总个数,Ai为第i个模糊特征;
并且模糊特征Ai的可选向量空间为:
Figure BDA0002396193650000072
其中,l为模糊特征Ai的可选特征值空间的总数,
Figure BDA0002396193650000073
为模糊特征Ai的第j个可选特征值空间。
为了便于理解,下面以相对距离、相对角度为例,示意将数据进行模糊化的过程,其他态势数据的模糊化类似。
(1)将相对距离模糊化的方法如下:
首先建立相对距离的分割点为:
Figure BDA0002396193650000074
然后根据分割点构造隶属度函数,如图3所示,相对距离有关的隶属度函数共有3个,各隶属度函数以梯形描绘,得到模糊区域。
(2)相对角度的范围为[-180,180],将相对角度模糊化的方法如下:
首先建立相对角度的分割点为:
Figure BDA0002396193650000081
然后根据分割点构造隶属度函数,相对角度有关的隶属度函数共有5个,各隶属度函数同样以梯形描绘。其他各特征的模糊构造方法与相对距离、相对角度类似,不再进行赘述。
步骤S3、根据所述训练集和模糊特征集建立模糊决策树。
决策树是节点的集合,一棵决策树的内部节点是属性或属性的集合,叶节点是所要学习划分的类,使用训练集建立决策树后,便可根据属性的取值对未知实例集进行分类,由树根开始对该实例的属性逐渐测试,顺着分支向下走,直至到达某个叶节点,此叶节点代表的类别即为该实例所属的类。
在一实施例中,建立模糊决策树的过程具体如下:
步骤S3.1、计算信息增益比,决策树是以某个评价标准作为选取测试节点条件的标准(如:信息增益、信息增益比),本实施例选择信息增益比作为特征切分选择的依据。
计算模糊特征Ai在整个训练集D中的相对熵为:
Figure BDA0002396193650000082
根据相对熵计算模糊特征Ai的信息增益:
g(D,Ai)=H(D)-H(D|Ai)
Figure BDA0002396193650000083
Figure BDA0002396193650000084
其中,C为模糊决策树总的样本类别,即为深度强化学习模型输出的总类别,Dk表示将训练集D根据模糊特征Ai划分,类别为第k类的子集,|Dk|为子集Dk的样本数量,|Dkj|为子集Dk中第j个特征值的样本数量,l为模糊特征Ai的可选特征值空间的总数,g(D,Ai)表示模糊特征Ai在整个训练集D中的信息增益,H(D|Ai) 为模糊特征Ai下训练集D的相对熵,H(D)表示训练集D的相对熵。
需要说明的是,两个计算H(D|Ai)的公式中,下方的公式相当于是对上一个公式的进一步展开。
根据相对熵和信息增益计算模糊特征Ai的信息增益比:
Figure BDA0002396193650000091
其中,gR为信息增益比。
步骤S3.2、选择信息增益比最大的模糊特征作为模糊决策树当前的切分点:
Figure BDA0002396193650000092
并将当前所选特征Achosen从模糊特征集{A|A1,A2,A3,…Ai,…An}中移除;
步骤S3.3、重复步骤S3.1和步骤S3.2,直至满足结束条件中的一个,结束循环,得到模糊决策树,模糊决策树的结构如图4所示,为树形结构。
所述结束条件,包括:
1)无可用特征,即模糊特征集{A|A1,A2,A3,…Ai,…An}为空;
2)模糊特征集A中剩余的所有样本属于同一类别;
3)模糊特征集A中属于第k类的样本数量大于或等于给定阈值;
4)模糊特征集A中剩余的样本数量小于给定阈值。
步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝。
按照上述步骤构造的模糊决策树由于分支较多,决策树模型结构复杂,过度优化训练集的拟合精度,测试集精度低,造成过拟合。剪枝能够简化决策树模型,增强决策树模型的泛化能力,本身是对训练和测试精度的权衡。
在一实施例中,对模糊决策树的剪枝过程如下:
步骤S4.1、根据奥卡姆剃刀原则,简单模型的泛化能力更好,因此,决策树的剪枝通过极小化决策树损失函数和模型复杂度的加权来实现,是一种典型的正则化方法,构建优化的目标函数为:
Figure BDA0002396193650000093
其中,Cα(T)为损失函数,gR(T)为当前模糊决策树的信息增益比,T为叶节点数量,α为可调超参,如果α很大,会趋向生成更简单的树,α很小,会趋向生成复杂的树。
步骤S4.2、取一组叶节点,若该组叶节点回缩到其父节点前后的树分别为Tl和Tf,分别计算Tl和Tf的目标函数Cα(Tl)和Cα(Tf)。
如果满足Cα(Tl)≥Cα(Tf),则删除该组叶节点,回缩到其父节点;否则保留该组叶节点。
步骤S4.3、重复步骤S4.2,递推地从树的叶节点向上回缩,直至无法递推为止,得到剪枝后的模糊决策树。
步骤S5、遍历剪枝后的模糊决策树的所有路径,得到模糊决策树训练的规则集合,其中每一路径表示一个空战博弈规则。
步骤S6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。
本实施例的基于模糊决策树的深度强化学习空战博弈解释方法,将深度强化学习算法得到的样本数据持久化保存;计算隶属度函数,把样本数据模糊化,构造模糊特征集;基于模糊特征集构建模糊决策树,输入特征为态势数据,标签数据为决策数据,根据相对熵进行条件选择和剪枝;最后,通过模糊决策树的遍历得到模糊规则集,用于强化学习空战博弈的解释,可以用于面向空战领域的智能博弈对抗仿真推演,增强算法的可解释性,解决深度强化学习算法可解释性差、结果不直观的问题,提高强化学习在实战中的指导作用。
另一实施例中,还提供一种基于模糊决策树的深度强化学习空战博弈解释系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的基于模糊决策树的深度强化学习空战博弈解释方法。
本实施例的基于模糊决策树的深度强化学习空战博弈解释系统即一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于模糊决策树的深度强化学习空战博弈解释方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
关于基于模糊决策树的深度强化学习空战博弈解释系统的进一步限定可参见上述对于基于模糊决策树的深度强化学习空战博弈解释方法的限定,在此不再进行赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述基于模糊决策树的深度强化学习空战博弈解释方法,包括:
步骤S1、采用已训练的深度强化学习模型进行空战博弈,成对保存输入的特征向量和深度强化学习模型的输出作为样本数据,得到训练集和特征集;
步骤S2、构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集;
步骤S3、根据所述训练集和模糊特征集建立模糊决策树;
步骤S4、通过极小化决策树的损失函数对模糊决策树进行剪枝;
步骤S5、遍历剪枝后的模糊决策树的所有路径,得到模糊决策树训练的规则集合,其中每一路径表示一个空战博弈规则;
步骤S6、将空战博弈时深度强化学习模型的输入和输出成对保存为待处理数据,将待处理数据输入至剪枝后的模糊决策树中得到对应的空战博弈规则,从而完成空战博弈解释。
2.如权利要求1所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述成对保存输入的特征向量以及深度强化学习模型的输出作为样本数据,得到训练集,包括:
若保存的样本数据的长度为N,并且采用x表示特征向量,采用y表示深度强化学习模型的输出,则得到的训练集为:
D={(x1,y1),(x2,y2),…(xN,yN)}
其中,D表示训练集,xN表示第N个输入的特征向量,yN表示深度强化学习模型的第N个输出;
根据特征向量得到对应的特征集如下:
ψ={ψ12,…ψi,…ψn}
其中,ψ为特征集,n为特征集中特征的总个数,ψi为第i个特征;
并且特征ψi的可选特征值空间为:
Figure FDA0002396193640000011
其中,l为特征ψi的可选特征值空间的总数,
Figure FDA0002396193640000012
为特征ψi的第j个可选特征值空间。
3.如权利要求2所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述构建特征集中各特征的隶属度函数,逐一将特征模糊化,得到特征集模糊化后的模糊特征集,包括:
步骤S2.1、构建各特征的隶属度函数的分割点;
步骤S2.2、采用梯形函数作为隶属度函数,单个梯形函数由四个参数{Aq,Bq,Cq,Dq}表征,则隶属度函数的表达式如下:
Figure FDA0002396193640000021
步骤S2.3、采用最大隶属度原则进行隶属度选择:
μ=max(μ12,…μl)
步骤S2.4、利用隶属度函数逐一将特征模糊化,将原始的特征集进行模糊化转换,得到模糊特征集如下:
A={A1,A2,A3,…Ai,…An}
其中,A为模糊特征集,n为模糊特征集中模糊特征的总个数,Ai为第i个模糊特征;
并且模糊特征Ai的可选向量空间为:
Figure FDA0002396193640000022
其中,l为模糊特征Ai的可选特征值空间的总数,
Figure FDA0002396193640000023
为模糊特征Ai的第j个可选特征值空间。
4.如权利要求3所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述根据训练集和模糊特征集建立模糊决策树,包括:
步骤S3.1、计算信息增益比:
计算模糊特征Ai在整个训练集D中的相对熵为:
Figure FDA0002396193640000024
根据相对熵计算模糊特征Ai的信息增益:
g(D,Ai)=H(D)-H(D|Ai)
Figure FDA0002396193640000025
Figure FDA0002396193640000031
其中,C为模糊决策树总的样本类别,即为深度强化学习模型输出的总类别,Dk表示将训练集D根据模糊特征Ai划分,类别为第k类的子集,|Dk|为子集Dk的样本数量,|Dkj|为子集Dk中第j个特征值的样本数量,l为模糊特征Ai的可选特征值空间的总数,g(D,Ai)表示模糊特征Ai在整个训练集D中的信息增益,H(D|Ai)为模糊特征Ai下训练集D的相对熵,H(D)表示训练集D的相对熵;
根据相对熵和信息增益计算模糊特征Ai的信息增益比:
Figure FDA0002396193640000032
其中,gR为信息增益比;
步骤S3.2、选择信息增益比最大的模糊特征作为模糊决策树当前的切分点:
Figure FDA0002396193640000033
并将当前所选特征Achosen从模糊特征集{A|A1,A2,A3,…Ai,…An}中移除;
步骤S3.3、重复步骤S3.1和步骤S3.2,直至满足结束条件中的一个,结束循环,得到模糊决策树。
5.如权利要求4所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述结束条件,包括:
1)无可用特征,即模糊特征集{A|A1,A2,A3,…Ai,…An}为空;
2)模糊特征集A中剩余的所有样本属于同一类别;
3)模糊特征集A中属于第k类的样本数量大于或等于给定阈值;
4)模糊特征集A中剩余的样本数量小于给定阈值。
6.如权利要求5所述的基于模糊决策树的深度强化学习空战博弈解释方法,其特征在于,所述通过极小化决策树的损失函数对模糊决策树进行剪枝,包括:
步骤S4.1、构建优化的目标函数为:
Figure FDA0002396193640000034
其中,Cα(T)为损失函数,gR(T)为当前模糊决策树的信息增益比,T为叶节点数量,α为可调超参;
步骤S4.2、取一组叶节点,若该组叶节点回缩到其父节点前后的树分别为Tl和Tf,分别计算Tl和Tf的目标函数Cα(Tl)和Cα(Tf);
如果满足Cα(Tl)≥Cα(Tf),则删除该组叶节点,回缩到其父节点;否则保留该组叶节点;
步骤S4.3、重复步骤S4.2,递推地从树的叶节点向上回缩,直至无法递推为止,得到剪枝后的模糊决策树。
7.一种基于模糊决策树的深度强化学习空战博弈解释系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的基于模糊决策树的深度强化学习空战博弈解释方法的步骤。
CN202010132561.2A 2020-02-29 2020-02-29 一种基于模糊决策树的深度强化学习空战博弈方法和系统 Active CN111353606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132561.2A CN111353606B (zh) 2020-02-29 2020-02-29 一种基于模糊决策树的深度强化学习空战博弈方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132561.2A CN111353606B (zh) 2020-02-29 2020-02-29 一种基于模糊决策树的深度强化学习空战博弈方法和系统

Publications (2)

Publication Number Publication Date
CN111353606A CN111353606A (zh) 2020-06-30
CN111353606B true CN111353606B (zh) 2022-05-03

Family

ID=71195962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132561.2A Active CN111353606B (zh) 2020-02-29 2020-02-29 一种基于模糊决策树的深度强化学习空战博弈方法和系统

Country Status (1)

Country Link
CN (1) CN111353606B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784181B (zh) * 2020-07-13 2023-09-19 南京大学 一种罪犯改造质量评估系统评估结果解释方法
CN111882047B (zh) * 2020-09-28 2021-01-15 四川大学 一种基于强化学习与线性规划的快速空管防冲突方法
CN113052250A (zh) * 2021-03-31 2021-06-29 中国南方电网有限责任公司超高压输电公司检修试验中心 基于气象灾害决策支持方法、系统、装置及介质
CN114492805B (zh) * 2021-12-17 2024-12-17 南京航空航天大学 一种基于模糊推理的空战机动决策设计方法
CN115222199B (zh) * 2022-05-31 2023-11-14 中国电子科技集团公司第五十二研究所 一种基于胜率预测的空战关键节点确定方法和装置
CN116339130B (zh) * 2023-05-25 2023-09-15 中国人民解放军国防科技大学 基于模糊规则的飞行任务数据获取方法、装置及设备
CN118311508B (zh) * 2024-04-08 2025-12-02 电子科技大学 一种基于模糊强化学习的捷变频雷达时频域联合干扰方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN108549233A (zh) * 2018-05-04 2018-09-18 南京航空航天大学 一种带有直觉模糊信息的无人机空战机动博弈方法
WO2019112407A1 (fr) * 2017-12-05 2019-06-13 Atlan Space Navigation et comportement autonomes de véhicule sans pilote sans liaison avec la station de contrôle
CN110728317A (zh) * 2019-09-30 2020-01-24 腾讯科技(深圳)有限公司 决策树模型的训练方法、系统、存储介质及预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019112407A1 (fr) * 2017-12-05 2019-06-13 Atlan Space Navigation et comportement autonomes de véhicule sans pilote sans liaison avec la station de contrôle
CN108021754A (zh) * 2017-12-06 2018-05-11 北京航空航天大学 一种无人机自主空战决策框架及方法
CN108549233A (zh) * 2018-05-04 2018-09-18 南京航空航天大学 一种带有直觉模糊信息的无人机空战机动博弈方法
CN110728317A (zh) * 2019-09-30 2020-01-24 腾讯科技(深圳)有限公司 决策树模型的训练方法、系统、存储介质及预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Fuzzy decision tree function approximation in reinforcement learning》;Hitesh Shah,et al;《International Journal of Artificial Intelligence and Soft Computing》;20101231;第2卷(第1-2期);第26-45页 *
《基于深度网络的空战态势特征提取》;李高垒,等;《系统仿真学报》;20171231;第29卷;第98-105页 *

Also Published As

Publication number Publication date
CN111353606A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN111353606B (zh) 一种基于模糊决策树的深度强化学习空战博弈方法和系统
CN118012004B (zh) 基于自适应共振拓扑网络的多目标测试数据生成方法
CN113467515A (zh) 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN105225003A (zh) 一种布谷鸟搜索算法解决uav多任务侦察决策问题的方法
CN114358247B (zh) 一种基于因果关系推断的智能体行为解释方法
CN117195945B (zh) 融合鹈鹕算法的飞行风险预测方法、电子设备及存储介质
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
Xingrong Research on time series data mining algorithm based on Bayesian node incremental decision tree
Wu et al. Learning and planning with a semantic model
CN118627534B (zh) 一种基于多个大语言模型的多智能体合作围捕方法
CN117784615B (zh) 一种基于impa-rf的火控系统故障预测方法
Salama et al. Ant colony algorithms for constructing Bayesian multi-net classifiers
Chen et al. Distributed text feature selection based on bat algorithm optimization
CN118395239A (zh) 基于注意力蒸馏的雷达工作模式类增量识别方法
CN111860126B (zh) 一种多节点协同无人机通信信号检测方法
CN120008618B (zh) 集群路径规划方法、装置、设备、存储介质和程序产品
CN119761455B (zh) 图结构重构方法、设备、存储介质及程序产品
CN115359684A (zh) 一种基于Elastic-BiGRU结构的航空器轨迹预测方法
Cheng et al. Dual parallel policy iteration with coupled policy improvement
CN117113216B (zh) 基于动态贝叶斯网络的异构多无人机打击决策方法及装置
Rabcan et al. Comparison of algorithms for fuzzy decision tree induction
Jeon et al. Scaling up without fading out: Goal-aware sparse gnn for rl-based generalized planning
Schlake et al. Evaluating the lottery ticket hypothesis to sparsify neural networks for time series classification
Tang et al. Deep sparse representation via deep dictionary learning for reinforcement learning
CN116361685A (zh) 一种基于集成学习与雷达短语的雷达工作模式识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhu Liaoyuan

Inventor after: Qu Chongxiao

Inventor after: Xia Shaojie

Inventor after: Bao Qihao

Inventor before: Zhu Liaoyuan

Inventor before: Liu Changwei

Inventor before: Qu Chongxiao

Inventor before: Zhang Ruifeng

Inventor before: Xia Shaojie

Inventor before: Bao Qihao

CB03 Change of inventor or designer information