CN119557599A

CN119557599A - 可解释的无人机任务决策方法及装置

Info

Publication number: CN119557599A
Application number: CN202510088173.1A
Authority: CN
Inventors: 杨阳; 蔡怀广; 白江波; 章路; 张文生
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2025-01-20
Filing date: 2025-01-20
Publication date: 2025-03-04

Abstract

本申请公开了一种可解释的无人机任务决策方法及装置。所述无人机任务决策方法包括：获取针对无人机决策任务的第一输入数据集；将第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集，第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案；将第一策略数据集和第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对无人机决策任务的决策特征数据集，决策特征数据集包括与调整方案相对应的无人机决策特征数据；利用决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对调整方案的决策路径和决策依据的决策树数据，作为用于解释无人机决策任务的解释数据集。

Description

可解释的无人机任务决策方法及装置

技术领域

本公开总体说来涉及人工智能算法技术领域和自然语言处理技术领域，更具体地，涉及一种可解释的无人机任务决策方法及装置。

背景技术

在相关领域中，随着人工智能相关技术的快速发展，对于各种智能任务的处理逐渐成为热门问题。针对与无人机领域的无人机任务的处理方面，已经提出了一些智能决策方法和系统。传统的智能决策系统主要依赖于规则基础系统和专家系统，通过预定义的规则集和逻辑集来进行决策。这些决策系统虽然具有较强的可解释性且在一些特定场景下表现出较强的适应性，但是由于其缺乏自适应性和灵活性，因此传统的决策系统难以应对例如无人机任务决策相关的复杂环境。

针对包括复杂环境的无人机任务的决策，目前亟需实现这种无人机任务相关决策的可解释性研究，并且需要一种改进的无人机任务相关的决策方法。

发明内容

本公开的实施例提供一种可解释的无人机任务决策方法及装置，通过利用SHAP算法对针对包括时间序列和动态环境的无人机任务数据的动态决策结果进行特征分析，提供对复杂的无人机调整决策方案的决策过程的全面解释。

在一个总体方面，提供了一种可解释的无人机任务决策方法，所述无人机任务决策方法包括：获取针对无人机决策任务的第一输入数据集，所述第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据，所述无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据；将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集，所述第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案；将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集，所述决策特征数据集包括与所述调整方案相对应的无人机决策特征数据；利用所述决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对所述调整方案的决策路径和决策依据的决策树数据，作为用于解释所述无人机决策任务的解释数据集。

可选地，所述将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集的步骤可包括：针对所述第一策略数据集中的每种策略，从所述第一输入数据集中提取与每种策略相对应的当前输入数据；对每种策略的当前输入数据进行基于SHAP值的特征分析，并且基于与分析出的不同特征在不同策略所对应的情境下的边际贡献来进行特征提取，得到对每种策略的当前策略影响程度最大的特征集，作为针对每种策略的当前输入数据的决策特征数据集，并且将针对每种策略的当前输入数据的决策特征数据集进行汇总，得到针对所述无人机决策任务的决策特征数据集。

可选地，可通过以下公式来计算所述对每种策略的当前策略影响程度最大的特征集中包含的每个特征对应的边际贡献：

其中，表示每个特征对应的边际贡献函数，U表示预设特征子集合作后得到的效用函数，N表示特征全集，n表示特征全集的数量，S表示特征子集的数量，i表示当前特征的序号，k是大于等于1且小于等于n的整数。

可选地，所述第二预设决策模型的构建过程可包括：从所述决策特征数据集中选择多个特征；根据针对所述多个特征的预设评估参数，构建决策树的各个节点，直到满足预设终止条件时结束所述构建过程。

可选地，所述第一预设决策模型可包括基于强化学习算法的决策模型、基于深度学习算法的决策模型和基于贝叶斯网络算法的决策模型中的至少一者。

可选地，所述第一预设决策模型可包括基于强化学习算法的决策模型，并且所述将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集的步骤可包括：基于所述第一输入数据集，执行包括行动、反馈、调整、再行动的强化学习操作，得到满足使与预设累计奖励目标最大化的条件的决策结果，作为所述第一策略数据集。

可选地，所述第一预设决策模型可包括基于深度学习算法的决策模型，并且可通过以下方式来训练所述第一预设决策模型：获取针对无人机决策任务的第一样本数据集，所述第一样本数据集是以表格形式存储的基于时间序列和动态环境的样本无人机任务数据，所述样本无人机任务数据包括针对预设任务的位置数据、与预设任务相关的至少一个障碍物的位置数据、与预设任务相关的当前航线数据、与预设任务相关的时间数据；基于所述第一样本数据集，确定对应的样本策略数据集，所述对应的样本策略数据集包括用于指示无人机针对预设任务的下一动作的调整方案；基于所述第一样本数据集和所述对应的样本策略数据集，计算预设损失函数；根据所述预设损失函数，调整所述第一预设决策模型的模型参数，得到训练后的第一预设决策模型。

在另一总体方面，提供了一种可解释的无人机任务决策装置，所述无人机任务决策装置包括：数据获取模块，被配置为：获取针对无人机决策任务的第一输入数据集，所述第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据，所述无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据；决策生成模块，被配置为：将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集，所述第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案；特征分析模块，被配置为：将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集，所述决策特征数据集包括与所述调整方案相对应的无人机决策特征数据；决策解释模块，被配置为：利用所述决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对所述调整方案的决策路径和决策理由的决策树数据，作为用于解释所述无人机决策任务的解释数据集。

可选地，所述将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集的操作可包括：针对所述第一策略数据集中的每种策略，从所述第一输入数据集中提取与每种策略相对应的当前输入数据；对每种策略的当前输入数据进行基于SHAP值的特征分析，并且基于与分析出的不同特征在不同策略所对应的情境下的边际贡献来进行特征提取，得到对每种策略的当前策略影响程度最大的特征集，作为针对每种策略的当前输入数据的决策特征数据集，并且将针对每种策略的当前输入数据的决策特征数据集进行汇总，得到针对所述无人机决策任务的决策特征数据集。

可选地，所述第一预设决策模型可包括基于强化学习算法的决策模型，并且所述决策生成模块将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集的操作可包括：基于所述第一输入数据集，执行包括行动、反馈、调整、再行动的强化学习操作，得到满足使与预设累计奖励目标最大化的条件的决策结果，作为所述第一策略数据集。

可选地，所述第一预设决策模型可包括基于深度学习算法的决策模型，并且可通过以下方式来训练所述第一预设决策模型：获取针对无人机决策任务的第一样本数据集，所述第一样本数据集是以表格形式存储的基于时间序列和动态环境的样本无人机任务数据，所述样本无人机任务数据包括针对预设任务的位置数据、与预设任务相关的至少一个障碍物的位置数据、与预设任务相关的当前航线数据、与预设任务相关的时间数据；基于所述第一样本数据集，确定对应的样本策略数据集，所述对应的样本策略数据集包括用于指示无人机针对预设任务的下一动作的调整方案；基于所述第一样本数据集和所述对应的样本策略数据集，计算预设损失函数；根据所述预设损失函数，调整所述第一预设决策模型的模型参数，得到训练后的第一预设决策模型。在另一总体方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时能够实现如上所述的可解释的无人机任务决策方法。

在另一总体方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器执行时，使得所述至少一个处理器能够执行如上所述的可解释的无人机任务决策方法。

在另一总体方面，提供了一种计算设备，所述计算设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的可解释的无人机任务决策方法。

根据本公开的实施例的可解释的无人机任务决策方法及装置，通过利用SHAP算法对针对包括时间序列和动态环境的无人机任务数据的动态决策结果进行特征分析，提供对复杂的无人机决策方案的决策过程的全面解释。此外，通过使用基于SHAP算法的特征分析，使得用户能够清晰地知晓与无人机调整方案相对应的每个无人机决策特征对最终的无人机决策的影响，从而理解模型的无人机调整决策逻辑，进而有助于提升对模型的信任度。此外，通过利用决策树模型来展示针对无人机决策的特征分割和针对无人机调整方案的决策路径，提供了对每个无人机调整决策点的详细解释，便于用户理解和追溯每个无人机调整决策点的依据。

附图说明

通过下面结合示出实施例的附图进行的描述，本公开的实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本公开的实施例的可解释的无人机任务决策方法的流程图；

图2是示出根据本公开的实施例的可解释的无人机任务决策装置的框图；

图3是示出根据本公开的实施例的计算设备的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

现将详细参照本公开的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

在相关技术中，如上所述，传统的决策系统难以应对无人机领域内复杂的动态环境。目前，针对该领域的包括复杂动态环境的无人机任务的决策，亟需实现这种无人机任务相关的决策的可解释性改进方法。

为了解决相关技术中的问题，本公开提出了一种可解释的无人机任务决策方法，该任务决策方法能够通过利用SHAP算法对针对包括时间序列和动态环境的无人机任务数据的动态决策结果进行特征分析，提供对复杂的无人机决策方案的决策过程的全面解释。

也就是说，本公开的可解释的无人机任务决策方法通过将例如强化学习决策这种黑盒模型（即，无可解释性的模型）通过SHAP算法进行特征提取和分析，利用这些提取到的特征重新得到例如基于决策树的这种白盒模型（可解释性强的模型）的整个处理过程，提供了对于时间序列和动态环境相关的复杂的无人机决策方案的决策过程的全面解释。

下面参照图1至图3详细描述根据本公开的实施例的可解释的无人机任务决策方法及装置。

图1是示出根据本公开的实施例的可解释的无人机任务决策方法100的流程图。

参照图1，根据本公开的实施例，在步骤S101，获取针对无人机决策任务的第一输入数据集。这里，第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据。例如，无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据。

作为示例，针对预设对象的位置数据可包括坐标数据，例如，针对目标任务的位置数据可包括目标坐标数据，至少一个障碍物的位置数据可包括至少一个障碍物的坐标数据。此外，例如，与目标任务相关的时间数据可包括不同形式的时间数据，例如，根据不同规则处理后的时间表示数据。这里，应注意，作为模型输入的数据的形式被限定为表格形式。

通过对需要虑多种因素（诸如，目标位置、障碍物动态位置、时间序列等）的无人机决策任务执行稍后将详细说明的根据本公开的可解释的决策方法，无人机决策系统通过分析包括例如动态位置坐标和动态时间序列的输入数据，提供用于无人机执行动作调整的决策依据，有助于制定出无人机针对后续执行动作（例如，包括执行的操作和航线的改变）的最佳的调整方案。

根据本公开的实施例，在步骤S102，将第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集。这里，第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案。

作为示例，第一预设决策模型可包括基于强化学习算法的决策模型、基于深度学习算法的决策模型和基于贝叶斯网络算法的决策模型中的至少一者。

也就是说，第一预设决策模型可包括基于强化学习算法的决策模型、基于深度学习算法的决策模型和基于贝叶斯网络算法的决策模型中的一者，并且优选地可包括基于强化学习算法的决策模型。此外，示例性的贝叶斯网络算法可以是朴素贝叶斯算法，但不限于此。

根据本公开的实施例，通过利用稍后将描述的SHAP（SHapley AdditiveexPlanations）算法对基于强化学习算法的决策模型、基于深度学习算法的决策模型和基于贝叶斯网络算法的决策模型中的至少一者生成的无人机决策所对应的无人机输入数据进行特征分析，能够降低这三种情况下的解释数据计算复杂度，提高整个决策方法的计算效率和实时应用能力。

此外，通过利用稍后将描述的SHAP算法对基于深度学习算法的决策模型生成的无人机决策所对应的输入数据进行特征分析，能够利用深度学习的特征提取能力来提高整个模型的决策质量和可解释性。

此外，通过利用稍后将描述的SHAP算法对基于贝叶斯网络算法的决策模型生成的无人机决策所对应的输入数据进行特征分析，能够利用贝叶斯网络描述变量之间的概率关系，并且通过推理算法进行无人机决策。

作为一个示例，第一预设决策模型可包括基于强化学习算法的决策模型，并且在这种情况下，步骤S102可进一步包括：基于第一输入数据集，执行包括行动、反馈、调整、再行动的强化学习操作，得到满足使与预设累计奖励目标最大化的条件的决策结果，作为第一策略数据集。

也就是说，通过采用强化学习算法，根据包括与无人机任务相关联的动态环境变化（例如，无人机的位置和航线随时间的变化以及与无人机相关的障碍物的位置随时间的变化等）的环境状态生成最优无人机决策策略。系统通过不断地与环境进行交互，逐步优化其决策过程，以达到预期目标。

根据本公开的实施例，通过利用基于强化学习算法的决策模型和基于SHAP算法的特征分析模型进行结合来解释包括时间序列和动态环境的复杂无人机任务策略，能够克服基于SHAP算法本身仅适用于感知任务的局限性、其本身不适合处理包括时间序列和动态环境的数据的场景的局限性以及其本身计算量大、计算复杂度高且实时效率低的局限性。

作为另一示例，第一预设决策模型可包括基于深度学习算法的决策模型，并且在这种情况下，步骤S102可进一步包括步骤S1021至S1024：

在步骤S1021，获取针对无人机决策任务的第一样本数据集。这里，第一样本数据集是以表格形式存储的基于时间序列和动态环境的样本无人机任务数据，例如，样本无人机任务数据包括针对预设任务的位置数据、与预设任务相关的至少一个障碍物的位置数据、与预设任务相关的当前航线数据、与预设任务相关的时间数据。

在步骤S1022，基于第一样本数据集，确定对应的样本策略数据集。这里，对应的样本策略数据集包括用于指示无人机针对预设任务的下一动作的调整方案。

在步骤S1023，基于第一样本数据集和对应的样本策略数据集，计算预设损失函数。

在步骤S1024，根据预设损失函数，调整第一预设决策模型的模型参数，得到训练后的第一预设决策模型。

根据本公开的实施例，在步骤S103，将第一策略数据集和第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对无人机决策任务的决策特征数据集。这里，决策特征数据集包括与调整方案相对应的无人机决策特征数据。

作为示例，步骤S103可进一步包括步骤S1031和步骤S1032：

在步骤S1031，针对第一策略数据集中的每种策略，从第一输入数据集中提取与每种策略相对应的当前输入数据。

在步骤S1032，对每种策略的当前输入数据进行基于SHAP值的特征分析，并且基于与分析出的不同特征在不同策略所对应的情境下的边际贡献来进行特征提取，得到对每种策略的当前策略影响程度最大的特征集，作为针对每种策略的当前输入数据的决策特征数据集，并且将针对每种策略的当前输入数据的决策特征数据集进行汇总，得到针对无人机决策任务的决策特征数据集。

这里，SHAP算法基于Shapley值理论，通过分配特征对模型输出的贡献度，提供了统一的特征重要性度量。由此，通过使用SHAP算法对单个决策策略的输入数据进行特征分析，在生成决策结果之后，利用SHAP算法对决策进行特征重要性分析。

作为示例，可通过以下公式来计算对每种策略的当前策略影响程度最大的特征集中包含的每个特征对应的边际贡献：

（1）

此外，U(S)表示S的特征子集进行合作后得到的效用（例如，基于神经网络预测的飞行路径、基于神经网络预测的航向调整角度等）。

另外，上述公式（1）的含义是针对n个特征，根据在采用S个特征时执行决策的结果（即，策略集）（U(S)）的变化，来计算出每个特征的沙普利值。这里，该值越大则表明对应的特征对于该种飞行路径调整的判断越重要，越应该被保留。

例如，在存在与目标任务相关的多个障碍物的场景中，与多个障碍物中的一部分的参数相对应的特征会比多个障碍物中的另一部分的参数相对应的特征更重要，因此与多个障碍物中的该一部分的这些参数相对应的特征更应被保留。

根据本公开的实施例，通过使用基于SHAP算法的特征分析，使得用户能够清晰地知晓每个无人机决策特征对最终的无人机决策的影响，从而理解模型的决策逻辑，进而有助于提升对模型的信任度。例如，针对利用强化学习得到的策略集（针对目标任务的下一动作的调整方案）和执行强化学习之前的数据集（例如目标任务相关的各种无人机信息和障碍物信息），通过本公开中的基于SHAP算法的特征分析，分析出哪些信息更为重要。

根据本公开的实施例，在步骤S104，利用决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对调整方案的决策路径和决策依据的决策树数据，作为用于解释无人机决策任务的解释数据集。

根据本公开的实施例，通过利用SHAP算法对针对包括时间序列和动态环境的数据的动态决策结果进行特征分析，提供对复杂的无人机决策任务的决策过程的全面解释。

此外，通过根据SHAP算法的特征分析结果，能够提取出对决策影响最大的特征子集，而且特征子集中的这些特征不仅帮助理解模型的决策逻辑，还可用于进一步地模型优化和调试。

此外，通过利用决策树模型来展示特征分割和决策路径，提供了对每个决策点的详细解释，便于用户理解和追溯每个决策点的依据。

例如，第二预设决策模型的构建过程可包括：从决策特征数据集中选择多个特征；根据针对多个特征的预设评估参数，构建决策树的各个节点，直到满足预设终止条件时结束构建过程。

根据本公开的实施例，通过利用上述这些特征构建决策树模型，通过树状结构展示针对无人机决策的决策路径和决策依据，使每个无人机决策过程都可以被清晰地解释和理解，并且还能够进一步增强针对无人机决策的局部解释能力。此外，决策树模型在预测阶段的计算量较小，能够快速提供解释，适用于实时应用，提高了整个决策模型（或称系统）的实际使用效率和效果。

以下，结合下面的表1举例说明根据本公开的实施例的可解释的无人机任务决策方法的实际应用。在该示例中，假设障碍物的数量为三个。

表1

参照表1，针对无人机决策任务的第一输入数据集包括无人机任务数据，具体包括针对目标任务的位置数据（例如，表1中的“目标_X”、“目标_Y”）、与目标任务相关的至少一个障碍物的位置数据（例如，表1中的“障碍1_X”、“障碍1_Y”、“障碍2_X”、“障碍2_Y”、“障碍3_X”、“障碍3_Y”）、与目标任务相关的当前航线数据（例如，表1中的“当前航向”）、与目标任务相关的时间数据（例如，表1中的“时间1”、“时间2”、“时间3”）。

具体地，障碍1_X和障碍1_Y分别表示第一障碍物的X、Y坐标，障碍2_X和障碍2_Y分别表示第二障碍物的X、Y坐标，障碍3_X和障碍3_Y分别表示第三障碍物的X、Y坐标；目标_X和目标_Y分别表示无人机的目标位置的X和Y坐标；当前航向表示无人机当前的航向角；时间1、时间2和时间3分别表示不同归一化的时间表示。这些参数共同构成了无人机在执行任务时的导航和避障决策的基础。

在该示例中，第一预设决策模型可以是基于强化学习的神经网络，用于输出决策结果的第一策略数据集可以是例如表1中的“生成决策”。这里，“生成决策”表示最终的决策输出，表示无人机的下一步动作或调整。通过将上述参数输入到上述基于强化学习的神经网络中得到决策结果，无人机能够实时调整其飞行路径，以避开障碍物并顺利到达目标位置。

随后，通过将上述参数和生成决策输入到基于SHAP算法的特征分析模型，得到针对无人机决策任务的决策特征数据集，通过计算出各个特征的沙普利值（shapley value），例如可得出障碍3_X、障碍3_Y、时间参数的沙普利值绝对值较小，因此这些数据相比于其他数据是次要的，可被忽略，而其他数据将被保留。

例如，第三障碍物相比于另外两个障碍物距目标位置较远，对决策结果的影响较小，因此可忽略其对应的数据；同理，不同归一化的三种时间对决策结果的影响也较小，因此可忽略其对应的数据。

最后，在利用决策特征数据集构建基于决策树算法的第二预设决策模型时，可仅利用与参数“障碍1_X”、“障碍1_Y”、“障碍2_X”、“障碍2_Y”、“当前航向”、“目标_X”、“目标_Y”相关的数据来构建基于决策树算法的第二预设决策模型，得到用于呈现针对无人机的调整方案的决策路径和决策依据的决策树数据，作为用于解释无人机决策任务的解释数据集。

图2是示出根据本公开的实施例的可解释的无人机任务决策装置200的框图。

参照图2，根据本公开的实施例的可解释的无人机任务决策装置200可包括数据获取模块210、决策生成模块220、特征分析模块230和决策解释模块240。

根据本公开的实施例，数据获取模块210执行以下操作：获取针对无人机决策任务的第一输入数据集。这里，第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据。例如，无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据。

根据本公开的实施例，决策生成模块220执行以下操作：将第一输入数据集输入到预先训练的第一预设决策模型，得到用于输出决策结果的第一策略数据集。这里，第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案。

此外，进一步地，在第一预设决策模型包括基于强化学习算法的决策模型的情况下，决策生成模块220将第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集的操作可包括：基于第一输入数据集，执行包括行动、反馈、调整、再行动的强化学习操作，得到满足使与预设累计奖励目标最大化的条件的决策结果，作为第一策略数据集。

另外，在第一预设决策模型包括基于深度学习算法的决策模型的情况下，决策生成模块220可通过以下操作1）至4）来训练预先构建的第一预设决策模型：

在操作1），获取针对无人机决策任务的第一样本数据集。这里，第一样本数据集是以表格形式存储的基于时间序列和动态环境的样本无人机任务数据，例如，样本无人机任务数据包括针对预设任务的位置数据、与预设任务相关的至少一个障碍物的位置数据、与预设任务相关的当前航线数据、与预设任务相关的时间数据。

在操作2），基于第一样本数据集，确定对应的样本策略数据集。这里，对应的样本策略数据集包括用于指示无人机针对预设任务的下一动作的调整方案。

在操作3），基于第一样本数据集和对应的样本策略数据集，计算预设损失函数。

在操作4），根据预设损失函数，调整第一预设决策模型的模型参数，得到训练后的第一预设决策模型。

根据本公开的实施例，特征分析模块230执行以下操作：将第一策略数据集和第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对无人机决策任务的决策特征数据集。这里，决策特征数据集包括与调整方案相对应的无人机决策特征数据。

这里，作为示例，特征分析模块230将第一策略数据集和第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对无人机决策任务的决策特征数据集的操作可包括：针对第一策略数据集中的每种策略，从第一输入数据集中提取与每种策略相对应的当前输入数据；对每种策略的当前输入数据进行基于SHAP值的特征分析，并且基于与分析出的不同特征在不同策略所对应的情境下的边际贡献来进行特征提取，得到对每种策略的当前策略影响程度最大的特征集，作为针对每种策略的当前输入数据的决策特征数据集，并且将针对每种策略的当前输入数据的决策特征数据集进行汇总，得到针对无人机决策任务的决策特征数据集。

作为示例，可通过以上公式（1）来计算对每种策略的当前策略影响程度最大的特征集中包含的每个特征对应的边际贡献的值。

根据本公开的实施例，决策解释模块240执行以下操作：利用决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对调整方案的决策路径和决策理由的决策树数据，作为用于解释无人机决策任务的解释数据集。

作为示例，第二预设决策模型的构建过程可包括：从决策特征数据集中选择多个特征；根据针对多个特征的预设评估参数，构建决策树的各个节点，直到满足预设终止条件时结束构建过程。

应注意，关于上述各个结构框所执行的操作可与参照图1描述的相关内容类似，这里不再赘述。

图3是示出根据本公开的实施例的计算设备300的框图。

参照图3，根据本公开的实施例的计算设备300可包括可处理器310和存储器320。处理器310可包括（但不限于）中央处理器（CPU）、数字信号处理器（DSP）、微型计算机、现场可编程门阵列（FPGA）、片上系统（SoC）、微处理器、专用集成电路（ASIC）等。存储器320可存储将由处理器310执行的计算机可执行指令。存储器320包括高速随机存取存储器和/或非易失性计算机可读存储介质。当处理器310执行存储器320中存储的计算机可执行指令时，可实现如上所述的可解释的无人机任务决策方法。

根据本公开的实施例的可解释的无人机任务决策方法可被编写为计算机程序/指令以形成计算机程序产品并被存储在计算机可读存储介质上。当所述计算机程序/指令被处理器执行时，可实现如上所述的可解释的无人机任务决策方法。当所述计算机可读存储介质中的指令由电子设备/服务器的处理器执行时，使得电子设备/服务器能够执行如上所述的可解释的无人机任务决策方法。计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例的可解释的无人机任务决策方法及装置，通过利用SHAP算法对针对包括时间序列和动态环境的无人机任务数据的动态决策结果进行特征分析，提供对复杂的无人机决策方案的决策过程的全面解释。

另一方面，通过使用基于SHAP算法的特征分析，使得用户能够清晰地知晓与无人机调整方案相对应的每个无人机决策特征对最终的无人机决策的影响，从而理解模型的无人机决策逻辑，进而有助于提升对模型的信任度。

另一方面，通过利用决策树模型来展示针对无人机决策的特征分割和针对无人机调整方案的决策路径，提供了对每个无人机决策点的详细解释，便于用户理解和追溯每个无人机决策点的依据。

另一方面，通过优化SHAP值的计算和决策树模型的构建，降低了计算复杂度，提高了整个可解释的无人机决策模型的实时应用效率，使整个可解释的无人机决策模型能够在实际使用中快速提供与各自无人机调整方案相关的解释。

另一方面，关于根据本公开的实施例的可解释的无人机任务决策方法及装置的应用方面，它们可用于涉及时间序列和动态环境的数据的各种领域中，例如，除无人机领域之外的其他数据处理领域等。

虽然已公开和描述了本公开的一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同方案限定其范围的本公开的构思和精神的情况下，可以对这些实施例进行修改和变型。

Claims

1.一种可解释的无人机任务决策方法，其特征在于，所述无人机任务决策方法包括：

获取针对无人机决策任务的第一输入数据集，所述第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据，所述无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据；

将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集，所述第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案；

将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集，所述决策特征数据集包括与所述调整方案相对应的无人机决策特征数据；

利用所述决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对所述调整方案的决策路径和决策依据的决策树数据，作为用于解释所述无人机决策任务的解释数据集。

2.根据权利要求1所述的无人机任务决策方法，其特征在于，所述将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集的步骤包括：

针对所述第一策略数据集中的每种策略，从所述第一输入数据集中提取与每种策略相对应的当前输入数据；

对每种策略的当前输入数据进行基于SHAP值的特征分析，并且基于与分析出的不同特征在不同策略所对应的情境下的边际贡献来进行特征提取，得到对每种策略的当前策略影响程度最大的特征集，作为针对每种策略的当前输入数据的决策特征数据集，并且将针对每种策略的当前输入数据的决策特征数据集进行汇总，得到针对所述无人机决策任务的决策特征数据集。

3.根据权利要求2所述的无人机任务决策方法，其特征在于，通过以下公式来计算所述对每种策略的当前策略影响程度最大的特征集中包含的每个特征对应的边际贡献：

4.根据权利要求1所述的无人机任务决策方法，其特征在于，所述第二预设决策模型的构建过程包括：

从所述决策特征数据集中选择多个特征；

根据针对所述多个特征的预设评估参数，构建决策树的各个节点，直到满足预设终止条件时结束所述构建过程。

5.根据权利要求1所述的无人机任务决策方法，其特征在于，所述第一预设决策模型包括基于强化学习算法的决策模型、基于深度学习算法的决策模型和基于贝叶斯网络算法的决策模型中的至少一者。

6.根据权利要求5所述的无人机任务决策方法，其特征在于，所述第一预设决策模型包括基于强化学习算法的决策模型，并且所述将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集的步骤包括：

基于所述第一输入数据集，执行包括行动、反馈、调整、再行动的强化学习操作，得到满足使与预设累计奖励目标最大化的条件的决策结果，作为所述第一策略数据集。

7.根据权利要求6所述的无人机任务决策方法，其特征在于，所述第一预设决策模型包括基于深度学习算法的决策模型，并且通过以下方式来训练所述第一预设决策模型：

获取针对无人机决策任务的第一样本数据集，所述第一样本数据集是以表格形式存储的基于时间序列和动态环境的样本无人机任务数据，所述样本无人机任务数据包括针对预设任务的位置数据、与预设任务相关的至少一个障碍物的位置数据、与预设任务相关的当前航线数据、与预设任务相关的时间数据；

基于所述第一样本数据集，确定对应的样本策略数据集，所述对应的样本策略数据集包括用于指示无人机针对预设任务的下一动作的调整方案；

基于所述第一样本数据集和所述对应的样本策略数据集，计算预设损失函数；

根据所述预设损失函数，调整所述第一预设决策模型的模型参数，得到训练后的第一预设决策模型。

8.一种可解释的无人机任务决策装置，其特征在于，所述无人机任务决策装置包括：

数据获取模块，被配置为：获取针对无人机决策任务的第一输入数据集，所述第一输入数据集是以表格形式存储的基于时间序列和动态环境的无人机任务数据，所述无人机任务数据包括针对目标任务的位置数据、与目标任务相关的至少一个障碍物的位置数据、与目标任务相关的当前航线数据、与目标任务相关的时间数据；

决策生成模块，被配置为：将所述第一输入数据集输入到预先构建的第一预设决策模型，得到用于输出决策结果的第一策略数据集，所述第一策略数据集包括用于指示无人机针对目标任务的下一动作的调整方案；

特征分析模块，被配置为：将所述第一策略数据集和所述第一输入数据集输入到基于SHAP算法的特征分析模型，得到针对所述无人机决策任务的决策特征数据集，所述决策特征数据集包括与所述调整方案相对应的无人机决策特征数据；

决策解释模块，被配置为：利用所述决策特征数据集构建基于决策树算法的第二预设决策模型，得到用于呈现针对所述调整方案的决策路径和决策理由的决策树数据，作为用于解释所述无人机决策任务的解释数据集。

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如权利要求1至7中的任一权利要求所述的可解释的无人机任务决策方法。

10.一种计算设备，其特征在于，所述计算设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至7中的任一权利要求所述的可解释的无人机任务决策方法。