CN111586167B

CN111586167B - 智能体间协同方法、装置及相关产品

Info

Publication number: CN111586167B
Application number: CN202010374466.3A
Authority: CN
Inventors: 陈志熙
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2022-08-16
Anticipated expiration: 2040-05-06
Also published as: CN111586167A

Abstract

本申请公开了一种智能体间协同方法、装置及相关产品。智能体间协同方法包括：获取基于环境感知模型对第一智能体所处实际运行环境进行感知得到环境特征编码；获取第一决策网络模型根据环境特征编码生成的第一可执行动作，并根据环境特征编码和第一可执行动作得到第一预测环境；判断第一预测环境和实际运行环境是否一致，若不一致，则触发第一智能体与第二智能体协同通讯，以由第二智能体根据环境特征编码生成的分析命令以对第一可执行动作进行合理性分析。本申请实施例实现了第一智能体和第二智能体之间的协同通讯，最终达到降低通信依赖，智能体各自可以完成任务、隐身和抗干扰的作用。

Description

智能体间协同方法、装置及相关产品

技术领域

本申请涉及人工智能技术领域，特别是涉及一种智能体间协同方法、装置及相关产品。

背景技术

根据希望实现的目标以及衡量其成功的标准，可以采用多种方法来创建人工智能，比如从自动驾驶和机器人这样非常复杂的系统，到诸如人脸识别、机器翻译和电子邮件分类，都可以划为人工智能的领域范畴之内。

以人类为例，通过人类自身的五个感官(传感器)来感知环境的，然后其进行思考，继而使用我们的身体部位(执行器)去执行操作。类似地，智能体通过向其提供的传感器来感知环境(可以是相机、麦克风、红外探测器)，然后进行一些计算(思考)，继而使用各种各样的电机/执行器来执行操作。周围的世界充满了各种智能体，比如手机、真空清洁器、智能冰箱、恒温器、相机等等。

智能体的上述属性通常归结于术语PEAS(Performance,Environment,Actuatorsand Sensors)，其代表了性能、环境、执行器和传感器。在一些应用场景中会设置多个智能体，由此，如何实现应用环境中多个智能体之间的协同成为亟待解决的技术问题之一。

发明内容

基于上述问题，本申请实施例提供了一种智能体间协同方法、装置及相关产品。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种智能体间协同方法，其包括：

获取基于环境感知模型对所述第一智能体所处实际运行环境进行感知得到环境特征编码；

获取第一决策网络模型根据所述环境特征编码生成的第一可执行动作，并根据所述环境特征编码和所述第一可执行动作得到第一预测环境；

判断所述第一预测环境和所述实际运行环境是否一致，若不一致，则触发所述第一智能体与第二智能体协同通讯，以由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本申请第一方面的实施例中，所述环境感知模型为神经网络模型。

可选地，在本申请第一方面的实施例中，还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本申请第一方面的实施例中，所述根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本申请第一方面的实施例中，由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

第二方面，本申请实施例提供一种智能体间协同方法，其包括：

第二智能体与第一智能体协同通讯以获取基于环境感知模型对所述第一智能体所处实际运行环境进行感知得到环境特征编码；

所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本申请第二方面的实施例中，所述环境感知模型为神经网络模型。

可选地，在本申请第二方面的实施例中，还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本申请第二方面的实施例中，第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本申请第二方面的实施例中，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

第三方面，本申请实施例提供一种电子设备，其包括存储器以及处理器，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

可选地，在本申请第三方面的实施例中，所述环境感知模型为神经网络模型。

可选地，在本申请第三方面的实施例中，所述处理器还用于基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；

所述处理器执行所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析的步骤，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本申请第三方面的实施例中，所述处理器执行根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析的步骤，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本申请第三方面的实施例中，所述处理器执行执行由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，所述处理器还执行：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

第四方面，本申请实施例提供了一种电子设备，其包括存储器以及处理器，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

可选地，在本申请第四方面的实施例中，所述环境感知模型为神经网络模型。

可选地，在本申请第四方面的实施例中，还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本申请第四方面的实施例中，第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本申请第四方面的实施例中，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

第五方面，本申请实施例提供一种计算机存储介质，其其上存储于可执行如下步骤的可执行程序：

第六方面，本申请实施例提供一种计算机存储介质，其其上存储于可执行如下步骤的可执行程序：

本申请实施例的技术方案中，对于第一智能体和第二智能体来说，输入的均不同智能体对同一环境感知得到的环境特征编码，输出的均是可执行动作，且可以第二智能体的可执行动作对第一智能体的可执行动作进行修正，从而实现了第一智能体和第二智能体之间的协同通讯，最终达到降低通信依赖，智能体各自可以完成任务、隐身和抗干扰的作用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用场景示意图；

图2为本申请实施例二中智能体间协同方法的流程示意图；

图3为本申请实施例三中智能体间协同方法流程示意图；

图4为本申请实施例四中电子设备的结构示意图；

图5为本申请实施例五中电子设备的结构示意图；

图6为本申请实施例六所示的电子设备的硬件结构示意图。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例的应用场景示意图；如图1所示，在该应用场景中包括第一智能体和第二智能体，其中，获取基于环境感知模型对所述第一智能体所处实际运行环境进行感知得到环境特征编码；获取第一决策网络模型根据所述环境特征编码生成的第一可执行动作，并根据所述环境特征编码和所述第一可执行动作得到第一预测环境；判断所述第一预测环境和所述实际运行环境是否一致，若不一致，则触发所述第一智能体与第二智能体协同通讯，以由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析。

本实施例中，所述环境感知模型为神经网络模型，其可以设置在所述第一智能体上。该神经网络模型的具体结构根据应用场景进行具体选择，比如应用于自动驾驶领域和电路自动设计领域，在神经网络模型的卷积核数量上各有不同。该神经网络模型比如为卷积神经网络CNN、循环神经网络(递归神经网络)RNN、深度信念网络DBN、生成对抗网络GAN等。

本实施例中，第一智能体和第二智能体可以为单反射性智能体(Simple reflexagents)、基于模型的反射性智能体(Model-based reflex agents)、基于目标的智能体(Goal-based agents)、基于效用的智能体(Utility-based agents)、学习智能体(Learning Agents)。

图2为本申请实施例二中智能体间协同方法的流程示意图；如图2所示，本实施例提供的技术方案对应所述第一智能体，具体地，智能体间协同方法包括：

S201、获取基于环境感知模型对所述第一智能体所处实际运行环境进行感知得到环境特征编码；

S202、获取第一决策网络模型根据所述环境特征编码生成的第一可执行动作，并根据所述环境特征编码和所述第一可执行动作得到第一预测环境；

S203、判断所述第一预测环境和所述实际运行环境是否一致；

S204A、若不一致，则触发所述第一智能体与第二智能体协同通讯，以由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析；

本实施例中，若判定所述第一预测环境和所述实际运行环境不一致，则表明所述实际运行环境发生了变化，第一可执行动作是无效的，不能用于控制动作机构进行动作，进一步基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码。

为此，进一步地，本实施例中，步骤S204A中根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析可以具体包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析，由此可见，对于第一智能体和第二智能体来说，输入的均不同智能体对同一环境感知得到的环境特征编码，输出的均是可执行动作，且可以第二智能体的可执行动作对第一智能体的可执行动作进行修正，从而实现了第一智能体和第二智能体之间的协同通讯，最终达到降低通信依赖，智能体各自可以完成任务、隐身和抗干扰的作用。

因此，进一步地，在本实施例中，由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

S204B、若一致，根据所述第一可执行动作控制动作机构进行动作。

本实施例中，若判定所述第一预测环境和所述实际运行环境一致，则表明所述实际运行环境发生了变化，所述第一可执行动作是有效地，可以用于控制动作机构进行动作。

图3为本申请实施例三中智能体间协同方法流程示意图；如图3所示，其包括：

S301、第二智能体与第一智能体协同通讯以获取基于环境感知模型对所述第一智能体所处实际运行环境进行感知得到环境特征编码；

S302、所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，本实施例中，所述环境感知模型为神经网络模型。该神经网络模型比如为卷积神经网络CNN、循环神经网络(递归神经网络)RNN、深度信念网络DBN、生成对抗网络GAN等。

本实施例中，可选地，若所述第一预测环境和所述实际运行环境不一致，则基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码，步骤S301中获取到的环境特征编码为新的环境特征编码，对应地，在步骤S302中所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

进一步地，第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，进一步地，在本实施例中，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

上述实施例中，第一智能体在一些应用场景中比如又称之为分布执行模块，第二智能体在一些应用场景中又称之为中央指挥模块。中央指挥模块可以对应多个分布执行模块，该中央指挥模块可以根据多个分布执行模块分别输出第一可执行动作作出综合决策，从而相当于实现了多个智能体之间的协同通讯。

图4为本申请实施例四中电子设备的结构示意图；如图4所示，其包括存储器401以及处理器402，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

可选地，在本实施例中，所述环境感知模型为神经网络模型。

可选地，在本实施例中，所述处理器还用于基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；

可选地，在本实施例中，所述处理器执行根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析的步骤，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

可选地，在本实施例中，所述处理器执行执行由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，所述处理器还执行：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

图5为本申请实施例五中电子设备的结构示意图；如图5所示，其包括存储器以及处理器，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

可选地，在本实施例中，还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据所述新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本实施例中，第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

可选地，在本实施例中，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

本申请实施例提供了一种计算机存储介质，其上存储于可执行如下步骤的可执行程序：

图6为本申请实施例六所示的电子设备的硬件结构示意图；如图6所示，该电子设备的硬件结构可以包括：处理器601，通信接口602，计算机可读介质603和通信总线604；

其中，处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信；

可选的，通信接口602可以为通信模块的接口，如GSM模块的接口；

其中，处理器601具体可以配置为运行存储器上存储的可执行程序，从而执行上述任一协同方法实施例的所有处理步骤或者其中部分处理步骤。

处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器810、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种智能体间协同方法，其特征在于，包括：

获取基于环境感知模型对第一智能体所处实际运行环境进行感知得到环境特征编码；

判断所述第一预测环境和所述实际运行环境是否一致，若不一致，则触发所述第一智能体与第二智能体协同通讯，以由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析；

其中，所述方法还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析；

所述根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

2.根据权利要求1所述的方法，其特征在于，所述环境感知模型为神经网络模型。

3.根据权利要求1-2任一项所述的方法，其特征在于，由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

4.一种智能体间协同方法，其特征在于，包括：

所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析；

其中，所述方法还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析；

第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析。

5.根据权利要求4所述的方法，其特征在于，所述环境感知模型为神经网络模型。

6.根据权利要求4-5任一项所述的方法，其特征在于，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

7.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

其中，所述处理器还用于基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；

所述处理器执行所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析的步骤，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析；

所述处理器执行根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析的步骤，包括：根据所述新环境特征编码和所述第二可执行动作得到第二预测环境，判断所述第二预测环境和所述实际运行环境，若不一致，则根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析。

8.根据权利要求7所述的电子设备，其特征在于，所述环境感知模型为神经网络模型。

9.根据权利要求7-8任一项所述的电子设备，其特征在于，所述处理器执行由所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析之后，所述处理器还执行：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

10.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器上存储有可执行程序，所述处理器用于运行所述可执行程序以执行如下步骤：

第二智能体与第一智能体协同通讯以获取基于环境感知模型对第一智能体所处实际运行环境进行感知得到环境特征编码；

其中，所述的电子设备还包括：基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析；

11.根据权利要求10所述的电子设备，其特征在于，所述环境感知模型为神经网络模型。

12.根据权利要求10-11任一项所述的电子设备，其特征在于，所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析之后，还包括：若所述第一可执行动作不合理，则根据所述第二可执行动作对所述第一可执行动作进行修正。

13.一种计算机存储介质，其特征在于，其上存储于处理器可执行如下步骤的可执行程序：

基于环境感知模型对所述第一智能体所处实际运行环境进行再次感知得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成的分析命令以对所述第一可执行动作进行合理性分析，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对所述第一可执行动作进行合理性分析；

14.一种计算机存储介质，其特征在于，其上存储于处理器可执行如下步骤的可执行程序：

得到新的环境特征编码；所述第二智能体根据所述环境特征编码生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析，包括：所述第二智能体根据新环境特征编码生成第二可执行动作，根据所述第二可执行动作以及所述第一可执行动作生成分析命令以对第一决策网络模型根据所述环境特征编码生成的第一可执行动作进行合理性分析；