CN109635917A - 一种多智能体合作决策及训练方法 - Google Patents
一种多智能体合作决策及训练方法 Download PDFInfo
- Publication number
- CN109635917A CN109635917A CN201811210985.5A CN201811210985A CN109635917A CN 109635917 A CN109635917 A CN 109635917A CN 201811210985 A CN201811210985 A CN 201811210985A CN 109635917 A CN109635917 A CN 109635917A
- Authority
- CN
- China
- Prior art keywords
- agent
- feature vector
- receptive field
- relationship
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种多智能体合作决策及训练方法,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,关系单元的关系卷积核将感受野内的特征向量整合为新的特征向量,迭代多次图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将感受野内的特征向量和图卷积层整合的新的特征向量拼接,送入价值网络,价值网络选择执行未来反馈期望最高的动作决策;S4:将智能体的局部观察集合及相关集合存储在缓冲区,在缓冲区采集样本进行训练,优化并改写损失函数。
Description
技术领域
本发明涉及深度强化学习领域,特别涉及一种多智能体合作决策及训练方法。
背景技术
深度强化学习已经在围棋等游戏任务中超越了人类水平,并逐渐被应用在自动化控制领域如自动驾驶等。在强化学习中,智能体通过观察环境状态,选择回报期望最大的动作,并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练,或者二者结合的actor-critic算法。但是当环境中存在多个智能体时,由于每个利益驱动的智能体只追求自身利益最大化,而容易忽视团队的整体利益,这使得合作策略难以实现。每一个智能体将其他智能体视为环境的一部分,由于其他智能体的策略会发生变化,这使得环境变得不稳定,给训练带来一定的困难。
目前一些多智能体算法采用集中训练分散执行的框架,如MADDPG,critic网络接收其他所有智能体的状态和动作,这样避免了环境不稳定的问题。但是另一方面这种架构需要环境中所有智能体的信息,且需要为每一个智能体训练一套决策网络,训练代价很高且难以应用到大规模分布式方法中。一些模型通过通信促进智能体之间的合作,CommNet使用连续的通信信号来解决合作情景,在每一个时间步,每个智能体的隐藏层状态经过算术计算得到平均值作为下一层神经网络的输入。BiCNet采用循环神经网络将所有智能体的决策网络和价值网络连接起来,更好的实现信息共享。通信的方法在一定程度上促进了合作,但是在真实情境中,特别是大规模多智能体环境,这些方法会受限于通信延时,带宽以及信息冗余的问题。针对大规模智能体情景,Mean Field方法提出采用周围临近智能体的平均动作作为输入,来表示其他智能体对中心智能体的影响。
图卷积网络在一些不规则甚至位于非欧空间的数据集上取得了较好的效果,如社交网络、3D点云、蛋白质分子等。利用类似卷积的操作在图结构上作回归或者分类,预测隐藏的点特征和边特征。关系网络旨在学习实体之间的关系,并通过分析实体关系预测未来的状态。
发明内容
本发明的目的是通过以下技术方案实现的。
一种多智能体合作决策及训练方法,包括如下步骤:
S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;
S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;
S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;
S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
具体地,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;
每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。
具体地,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;
将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,
其中N是环境中智能体的总数目,L是特征向量的长度;
对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;
所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
具体地,关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
具体地,多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ得到该图层卷积的特征向量hi′:
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
具体地,价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作,∈表示执行概率,取值范围[0,1]。
具体地,在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
具体地,采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
其中,Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参。
具体地,在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
本发明的优点在于:在本发明中,图卷积层利用多头注意力机制的关系单元整合感受野内部的特征向量,随着卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。所有模块的权重都是共享的,这将显著地减少参数数目、加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近智能体的信息。该方法有利于部署在大规模分布式决策方法中。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的决策及训练方法流程图;
附图2示出了根据本发明实施方式的决策流程图;
附图3示出了根据本发明实施方式的整合特征向量的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出了一种多智能体合作决策及训练方法,基于图卷积模型关系机制的多智能体强化学习框架(DGN),该框架能更好的促进智能体之间的合作行为。
在该方法中,将多智能体环境视为一个图,智能体作为图中的节点,智能体在环境中获得的局部观察作为节点的属性。每个节点与周围的K个节点有边相连。这主要考虑到每个智能体的行为主要影响到与之临近的其他智能体。并且在实际的大规模多智能体环境中,考虑所有智能体的影响会带来很高的带宽和计算复杂度成本,大量冗余的信息甚至会干扰决策。多智能体环境图位于不规则的非欧空间,并且随着环境的变化、智能体数目和位置的改变,潜在的关系图结构不断的发生改变,自适应的图卷积框架非常适合这种数据。
在一个局部观察的多智能体环境中,在每一个时间步智能体接收一个局部观察作为节点的属性,根据观察做出决策并接收环境给出的反馈。方法由三种模块构成:编码模块、图卷积层模块和价值网络模块。智能体的局部观察被编码器编码为特征向量。如果观察是低维数据则编码器采用多层感知器,如果是原始图像输入则采用卷积神经网络。卷积层整合局部区域内的特征向量,包括中心智能体和临近的K个智能体,并生成新的特征向量。通过卷积层的堆叠,智能体的感受野逐渐增大,智能体可以获取更加全局的视角和更广泛的合作范围。将每一个卷积层产生的特征向量对最终的决策有独特的贡献,将其全联接,送入最后的价值网络。价值网络选取未来反馈期望最高的动作执行。
解决多智能体的关键在于衡量智能体之间的影响,在之前的方法中,MADDPG直接训练了一个中心化的接收所有其他智能体观察和动作的critic网络来评价这种影响。通信类算法如CommNet等则通过信息共享来传达观察信息和策略意图。Mean field方法则采用临近智能体策略的平均值来估计这种影响。在该框架中,采用关系模块作为图卷积的卷积核来整合感受野内部的特征向量。关系单元满足两个重要的性质:1、关系单元能够较为准确地描述实体之间的二元关系,这一点在许多研究中已被证实。2、关系单元的结果与输入特征向量的顺序无关。在该方法中,采用多头注意力机制的关系单元计算智能体之间的关系。随着图卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。
在上述架构中,所有模块的权重都是共享的,这将显著地减少参数数目,加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近K个智能体的信息。该方法有利于部署在大规模分布式决策方法中。
一种多智能体合作决策及训练方法,如图1所示,包括:包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
其中,编码器—图卷积层—价值网络的整体决策流程如图2所示。
图卷积层在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,其中N是环境中智能体的总数目,L是特征向量的长度;对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内第j个智能体的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
利用注意力机制的关系单元计算智能体之间的关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,αij表示智能体之间的关系强度,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ(一层以Relu为激活函数的MLP多层感知器)得到该层卷积的特征向量;
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作。∈表示探索概率,取值范围[0,1]。
在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参,为了保证训练的稳定性,智能体之间的连接结构在训练过程中连续的两步内保持不变。
在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
图卷积层利用多头注意力机制的关系单元整合感受野内部的特征向量,随着卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。所有步骤的权重都是共享的,这将显著地减少参数数目、加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近智能体的信息。该方法有利于部署在大规模分布式决策方法中。
以上,仅为本发明示例性的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种多智能体合作决策及训练方法,其特征在于,包括如下步骤:
S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;
S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;
S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;
S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。
2.如权利要求1所述的决策及训练方法,其特征在于,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;
每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。
3.如权利要求1所述的决策及训练方法,其特征在于,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;
将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,
其中N是环境中智能体的总数目,L是特征向量的长度;
对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;
所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集
4.如权利要求3所述的决策及训练方法,其特征在于,所述关系强度表示为:
其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。
5.如权利要求4所述的决策及训练方法,其特征在于,所述多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ得到该图层卷积的特征向量hi′:
其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。
6.如权利要求5所述的决策及训练方法,其特征在于,所述价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作,表示执行概率,取值范围[0,1]。
7.如权利要求6所述的决策及训练方法,其特征在于,在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。
8.如权利要求7所述的决策及训练方法,其特征在于,采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:
其中,Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;
采用如下规则更新所述目标网络参数:
θ′=βθ+(1-β)θ′
β为软更新超参。
9.如权利要求8所述的决策及训练方法,其特征在于,在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:
其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811210985.5A CN109635917B (zh) | 2018-10-17 | 2018-10-17 | 一种多智能体合作决策及训练方法 |
| US16/655,783 US11461654B2 (en) | 2018-10-17 | 2019-10-17 | Multi-agent cooperation decision-making and training method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811210985.5A CN109635917B (zh) | 2018-10-17 | 2018-10-17 | 一种多智能体合作决策及训练方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN109635917A true CN109635917A (zh) | 2019-04-16 |
| CN109635917B CN109635917B (zh) | 2020-08-25 |
Family
ID=66066467
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811210985.5A Active CN109635917B (zh) | 2018-10-17 | 2018-10-17 | 一种多智能体合作决策及训练方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US11461654B2 (zh) |
| CN (1) | CN109635917B (zh) |
Cited By (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110363568A (zh) * | 2019-06-06 | 2019-10-22 | 上海交通大学 | 融合文本多主题信息的股票价格预测方法、系统及介质 |
| CN110353675A (zh) * | 2019-08-14 | 2019-10-22 | 东南大学 | 基于图片生成的脑电信号情感识别方法及装置 |
| CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
| CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
| CN110554604A (zh) * | 2019-08-08 | 2019-12-10 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
| CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
| CN110811558A (zh) * | 2019-11-18 | 2020-02-21 | 郑州大学 | 基于深度学习的睡眠觉醒分析方法 |
| CN111047014A (zh) * | 2019-12-11 | 2020-04-21 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种多智能体空中对抗分布式采样训练方法及设备 |
| CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
| CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
| CN112087749A (zh) * | 2020-08-27 | 2020-12-15 | 华北电力大学(保定) | 基于强化学习实现多监听器的合作主动窃听方法 |
| CN112749785A (zh) * | 2019-10-29 | 2021-05-04 | 株式会社东芝 | 信息处理装置、信息处理方法以及程序 |
| CN113254872A (zh) * | 2021-05-31 | 2021-08-13 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
| CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
| CN113609548A (zh) * | 2021-07-05 | 2021-11-05 | 中铁工程设计咨询集团有限公司 | 一种桥梁布跨方法、装置、设备及可读存储介质 |
| CN114556370A (zh) * | 2019-11-13 | 2022-05-27 | 华为技术有限公司 | 用于使用内置注意力训练卷积神经网络的方法和系统 |
| CN114896899A (zh) * | 2022-07-15 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于信息交互的多智能体分散式决策方法及系统 |
| CN115081617A (zh) * | 2022-06-06 | 2022-09-20 | 北京邮电大学 | 基于多智体强化学习的心智理论模型实现方法及装置 |
| CN116582442A (zh) * | 2023-03-22 | 2023-08-11 | 西北工业大学 | 一种基于层次化通信机制的多智能体协作方法 |
Families Citing this family (72)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11657266B2 (en) * | 2018-11-16 | 2023-05-23 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
| JP2021039426A (ja) * | 2019-08-30 | 2021-03-11 | 株式会社東芝 | 推定装置、推定方法及びプログラム |
| US12236369B2 (en) * | 2020-01-31 | 2025-02-25 | Royal Bank Of Canada | System and method for machine learning architecture with adaptive importance sampling with normalizing flows |
| CN111709275B (zh) * | 2020-04-28 | 2024-02-06 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
| CN111814988B (zh) * | 2020-07-07 | 2023-06-30 | 北京航空航天大学 | 一种多智能体协作环境强化学习算法的测试方法 |
| CN111966865B (zh) * | 2020-07-21 | 2023-09-22 | 西北大学 | 利用基于查表子网络的空域图卷积层进行特征提取的方法 |
| CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及系统 |
| CN111899728B (zh) * | 2020-07-23 | 2024-05-28 | 海信电子科技(武汉)有限公司 | 智能语音助手决策策略的训练方法及装置 |
| CN112232478B (zh) * | 2020-09-03 | 2023-11-17 | 天津(滨海)人工智能军民融合创新中心 | 一种基于分层注意力机制的多智能体强化学习方法及系统 |
| CN112115378B (zh) * | 2020-09-16 | 2022-04-19 | 长沙理工大学 | 基于图卷积协同过滤的推荐预测系统以及推荐预测方法 |
| US11948079B2 (en) * | 2020-10-19 | 2024-04-02 | Tsinghua University | Multi-agent coordination method and apparatus |
| CN112241814B (zh) * | 2020-10-20 | 2022-12-02 | 河南大学 | 一种基于强化时空图神经网络的交通预测方法 |
| CN112465301B (zh) * | 2020-11-06 | 2022-12-13 | 山东大学 | 一种基于差分隐私机制的边缘智能电网协作决策方法 |
| CN112733764A (zh) * | 2021-01-15 | 2021-04-30 | 天津大学 | 一种基于多模态识别视频情感信息的方法 |
| CN112784913B (zh) * | 2021-01-29 | 2023-07-25 | 湖南大学 | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 |
| CN112884129B (zh) * | 2021-03-10 | 2023-07-18 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于示教数据的多步规则提取方法、设备及存储介质 |
| CN112966641B (zh) * | 2021-03-23 | 2023-06-20 | 中国电子科技集团公司电子科学研究院 | 一种对多传感器多目标的智能决策方法及存储介质 |
| CN113095498B (zh) * | 2021-03-24 | 2022-11-18 | 北京大学 | 基于散度的多智能体合作学习方法、装置、设备及介质 |
| CN113301134B (zh) * | 2021-05-14 | 2022-01-07 | 山东大学 | 一种适用于边缘物联代理装置的容错型协作决策的方法 |
| CN113435475B (zh) * | 2021-05-27 | 2023-01-20 | 中国科学院软件研究所 | 一种多智能体通信协作方法 |
| CN113313267B (zh) * | 2021-06-28 | 2023-12-08 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
| CN113641192B (zh) * | 2021-07-06 | 2023-07-18 | 暨南大学 | 一种基于强化学习的无人机群智感知任务的路径规划方法 |
| CN113625561B (zh) * | 2021-07-29 | 2023-09-26 | 浙江大学 | 一种基于强化学习的域协调多智能体系统协作控制方法 |
| CN113642233B (zh) * | 2021-07-29 | 2023-12-29 | 太原理工大学 | 一种通信机制优化的群体智能协同方法 |
| CN113743468B (zh) * | 2021-08-03 | 2023-10-10 | 武汉理工大学 | 基于多智能体强化学习的协同驾驶信息传播方法及系统 |
| CN113625757B (zh) * | 2021-08-12 | 2023-10-24 | 中国电子科技集团公司第二十八研究所 | 一种基于强化学习和注意力机制的无人机群调度方法 |
| CN113592079B (zh) * | 2021-08-13 | 2024-06-28 | 大连大学 | 一种面向大规模任务空间的协同多智能体通信方法 |
| CN113592101B (zh) * | 2021-08-13 | 2023-10-17 | 大连大学 | 一种基于深度强化学习的多智能体协作模型 |
| CN113792844B (zh) * | 2021-08-19 | 2023-07-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于深度自动编码和特征融合的智能体蜂拥行为控制方法 |
| CN113515130B (zh) * | 2021-08-26 | 2024-02-02 | 鲁东大学 | 用于智能体路径规划的方法和存储介质 |
| CN113848703B (zh) * | 2021-08-28 | 2023-12-08 | 同济大学 | 一种多智能体系统状态估计方法 |
| CN113726894B (zh) * | 2021-09-01 | 2023-05-05 | 福建师范大学 | 一种基于深度强化学习的多车应用计算卸载方法及终端 |
| CN113848718B (zh) * | 2021-09-28 | 2023-10-31 | 安徽大学 | 基于线性算子理论的固定时间的异构分群同步控制算法 |
| CN113609311A (zh) * | 2021-09-30 | 2021-11-05 | 航天宏康智能科技(北京)有限公司 | 推荐项目的方法和装置 |
| CN114332474B (zh) * | 2021-11-25 | 2024-08-27 | 中国计量大学 | 一种飞机发动机关键部位维护时间预测方法 |
| DE102022211767A1 (de) | 2021-11-30 | 2023-06-01 | Robert Bosch Engineering And Business Solutions Private Limited | Ein System zur kollaborativen Ausführung einer Aufgabe und ein Verfahren dafür |
| CN114386620B (zh) * | 2021-12-29 | 2024-07-09 | 北京工业大学 | 一种基于动作约束的离线多智能体强化学习方法 |
| CN114243799B (zh) * | 2022-01-05 | 2023-11-07 | 国网浙江省电力有限公司宁波供电公司 | 基于分布式电源的深度强化学习配电网故障恢复方法 |
| CN114373099B (zh) * | 2022-01-05 | 2025-04-25 | 上海交通大学 | 一种基于稀疏图卷积的三维点云分类方法 |
| CN114638339B (zh) * | 2022-03-10 | 2025-10-28 | 中国人民解放军空军工程大学 | 基于深度强化学习的智能体任务分配方法 |
| CN114580937B (zh) * | 2022-03-10 | 2023-04-28 | 暨南大学 | 基于强化学习和注意力机制的智能作业调度系统 |
| CN114757362B (zh) * | 2022-04-11 | 2024-10-15 | 西安交通大学 | 一种基于边缘增强的多智能体系统通信方法及相关装置 |
| CN114741886B (zh) * | 2022-04-18 | 2022-11-22 | 中国人民解放军军事科学院战略评估咨询中心 | 一种基于贡献度评价的无人机集群多任务训练方法及系统 |
| CN114912357B (zh) * | 2022-05-18 | 2025-05-27 | 南京大学 | 基于用户模型学习的多任务强化学习用户运营方法及系统 |
| CN115239409A (zh) * | 2022-05-25 | 2022-10-25 | 北京数元灵科技有限公司 | 基于多智能体强化学习的序列推荐信息选择方法及系统 |
| CN115047907B (zh) * | 2022-06-10 | 2024-05-07 | 中国电子科技集团公司第二十八研究所 | 一种基于多智能体ppo算法的空中同构编队指挥方法 |
| CN115086374A (zh) * | 2022-06-14 | 2022-09-20 | 河南职业技术学院 | 一种场景复杂度自适应的多智能体分层协同方法 |
| CN114880243B (zh) * | 2022-06-14 | 2025-04-08 | 广东工业大学 | 基于Rainbow的通道注意力网络的软件自动测试方法 |
| CN115087117B (zh) * | 2022-06-15 | 2025-03-18 | 西安邮电大学 | 基于多智能体深度强化学习的动态协作簇选择方法及装置 |
| CN117291949A (zh) * | 2022-06-17 | 2023-12-26 | 香港城市大学深圳研究院 | 一种多智能体运动预测方法、设备及存储介质 |
| CN115047461B (zh) * | 2022-06-21 | 2025-08-08 | 威孚智感(无锡)科技有限公司 | 一种利用胶囊网络进行毫米波雷达点云识别的方法及系统 |
| CN115018017B (zh) * | 2022-08-03 | 2022-10-28 | 中国科学院自动化研究所 | 基于集成学习的多智能体信用分配方法、系统、设备 |
| CN115327926A (zh) * | 2022-09-15 | 2022-11-11 | 中国科学技术大学 | 基于深度强化学习的多智能体动态覆盖控制方法及系统 |
| CN115730630A (zh) * | 2022-11-17 | 2023-03-03 | 百度时代网络技术(北京)有限公司 | 智能体的控制方法、装置、电子设备和存储介质 |
| CN116118772B (zh) * | 2022-11-22 | 2025-11-04 | 清华大学 | 考虑不确定性的自动驾驶强化学习运动规划方法和系统 |
| CN116245138B (zh) * | 2022-12-28 | 2025-07-11 | 西北工业大学 | 一种基于零样本泛化的强化学习模型环境自适应方法 |
| CN116343516B (zh) * | 2023-03-31 | 2025-01-28 | 同济大学 | 一种基于智能网联车的交叉路口管理方法 |
| CN116468107B (zh) * | 2023-04-25 | 2025-06-10 | 桂林电子科技大学 | 一种基于集成的合作多智能体深度强化学习方法 |
| CN116592883B (zh) * | 2023-04-25 | 2024-04-30 | 三峡大学 | 一种基于注意力和循环ppo实现的导航决策方法 |
| CN116361662B (zh) * | 2023-05-31 | 2023-08-15 | 中诚华隆计算机技术有限公司 | 机器学习模型的训练方法及量子网络设备性能预测方法 |
| CN117217100B (zh) * | 2023-11-08 | 2024-01-30 | 中国人民解放军63963部队 | 一种基于强化学习的某分队数智化建模方法及仿真系统 |
| CN118377304B (zh) * | 2024-06-20 | 2024-10-29 | 华北电力大学(保定) | 基于深度强化学习的多机器人分层编队控制方法及系统 |
| CN118612754B (zh) * | 2024-08-08 | 2024-10-11 | 宁波市鄞州华数广电网络有限公司 | 可智能组网的三合一终端控制系统及方法 |
| CN119202759B (zh) * | 2024-09-03 | 2025-07-08 | 中央美术学院 | 一种基于多智能体互动的环境感知系统 |
| CN119046891B (zh) * | 2024-11-01 | 2025-03-28 | 湖南工商大学 | 面向人机物协同情景的多智能体群体决策方法及相关设备 |
| CN119597015B (zh) * | 2024-11-19 | 2025-11-18 | 南京航空航天大学 | 一种多固定翼无人机分布式群集的防撞飞行控制方法 |
| CN119783759B (zh) * | 2025-03-11 | 2025-06-17 | 中国电子科技集团公司第十五研究所 | 基于自博弈的智能化强化学习训练方法 |
| CN120046941B (zh) * | 2025-04-16 | 2025-10-10 | 国网浙江省电力有限公司杭州供电公司 | 一种多区域综合能源系统的优化调度方法及系统 |
| CN120031100B (zh) * | 2025-04-21 | 2025-09-02 | 中国人民解放军火箭军工程大学 | 基于进化课程学习的多智能体强化学习方法和系统 |
| CN120524229B (zh) * | 2025-05-09 | 2025-12-12 | 北京交通大学 | 一种离线多智能体智能驾驶数据集的开发方法及系统 |
| CN120633759A (zh) * | 2025-07-09 | 2025-09-12 | 北方工业大学 | 多智能体强化学习方法、装置、设备、介质及产品 |
| CN120510386B (zh) * | 2025-07-16 | 2025-09-23 | 浙江大学 | 一种多动物机器人协作人机交互导航系统 |
Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104463191A (zh) * | 2014-10-30 | 2015-03-25 | 华南理工大学 | 一种基于注意机制的机器人视觉处理方法 |
| US20150193583A1 (en) * | 2014-01-06 | 2015-07-09 | Cerner Innovation, Inc. | Decision Support From Disparate Clinical Sources |
| CN105225232A (zh) * | 2015-09-11 | 2016-01-06 | 西安科技大学 | 一种基于视觉注意机制的彩色着舰合作目标检测方法 |
| CN105700555A (zh) * | 2016-03-14 | 2016-06-22 | 北京航空航天大学 | 一种基于势博弈的多无人机协同搜索方法 |
| CN105898288A (zh) * | 2016-05-30 | 2016-08-24 | 上海交通大学 | 共享注意的协同视觉搜索系统及方法 |
| CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
| WO2018017767A1 (en) * | 2016-07-19 | 2018-01-25 | Akili Interactive Labs, Inc. | Platforms to implement signal detection metrics in adaptive response-deadline procedures |
| US20180060301A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | End-to-end learning of dialogue agents for information access |
| WO2018089221A1 (en) * | 2016-11-09 | 2018-05-17 | Microsoft Technology Licensing, Llc | Neural network-based action detection |
| CN108197698A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于多模态融合的多脑区协同自主决策方法 |
| CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
| US20180285678A1 (en) * | 2017-04-04 | 2018-10-04 | Hailo Technologies Ltd. | Artificial Neural Network Incorporating Emphasis And Focus Techniques |
| CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3896581A1 (en) * | 2020-04-14 | 2021-10-20 | Naver Corporation | Learning to rank with cross-modal graph convolutions |
| US11455374B2 (en) * | 2020-06-08 | 2022-09-27 | Robert Bosch Gmbh | System and method for combining differentiable partial differential equation solvers and graph neural networks for fluid flow prediction |
| US12050870B2 (en) * | 2020-09-08 | 2024-07-30 | Nec Corporation | Cross-lingual zero-shot transfer via semantic and synthetic representation learning |
-
2018
- 2018-10-17 CN CN201811210985.5A patent/CN109635917B/zh active Active
-
2019
- 2019-10-17 US US16/655,783 patent/US11461654B2/en active Active
Patent Citations (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150193583A1 (en) * | 2014-01-06 | 2015-07-09 | Cerner Innovation, Inc. | Decision Support From Disparate Clinical Sources |
| CN104463191A (zh) * | 2014-10-30 | 2015-03-25 | 华南理工大学 | 一种基于注意机制的机器人视觉处理方法 |
| CN105225232A (zh) * | 2015-09-11 | 2016-01-06 | 西安科技大学 | 一种基于视觉注意机制的彩色着舰合作目标检测方法 |
| CN105700555A (zh) * | 2016-03-14 | 2016-06-22 | 北京航空航天大学 | 一种基于势博弈的多无人机协同搜索方法 |
| CN105898288A (zh) * | 2016-05-30 | 2016-08-24 | 上海交通大学 | 共享注意的协同视觉搜索系统及方法 |
| WO2018017767A1 (en) * | 2016-07-19 | 2018-01-25 | Akili Interactive Labs, Inc. | Platforms to implement signal detection metrics in adaptive response-deadline procedures |
| US20180060301A1 (en) * | 2016-08-31 | 2018-03-01 | Microsoft Technology Licensing, Llc | End-to-end learning of dialogue agents for information access |
| WO2018089221A1 (en) * | 2016-11-09 | 2018-05-17 | Microsoft Technology Licensing, Llc | Neural network-based action detection |
| CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
| US20180285678A1 (en) * | 2017-04-04 | 2018-10-04 | Hailo Technologies Ltd. | Artificial Neural Network Incorporating Emphasis And Focus Techniques |
| CN108197698A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于多模态融合的多脑区协同自主决策方法 |
| CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
| CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
Non-Patent Citations (6)
| Title |
|---|
| ASLI CELIKYILMAZ等: "Deep Communicating Agents for Abstractive Summarization", 《ARXIV:1803.10357V3》 * |
| JAKOB N. FOERSTER等: "Learning to Communicate with Deep Multi-Agent Reinforcement Learning", 《ARXIV:1605.06676V2》 * |
| KUNIKAZU KOBAYASHI等: "Cooperative Behavior Acquisition in Multi-agent Reinforcement Learning System Using Attention Degree", 《INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING》 * |
| SHARIQ IQBAL等: "Actor-Attention-Critic for Multi-Agent Reinforcement Learning", 《ARXIV:1810.02912V1》 * |
| 张天驿: "基于视觉注意机制的移动机器人目标跟踪研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
| 郭勤: "基于深度强化学习的视频游戏决策模型研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (32)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110363568A (zh) * | 2019-06-06 | 2019-10-22 | 上海交通大学 | 融合文本多主题信息的股票价格预测方法、系统及介质 |
| CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
| CN110390340B (zh) * | 2019-07-18 | 2021-06-01 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
| CN110554604A (zh) * | 2019-08-08 | 2019-12-10 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
| CN110554604B (zh) * | 2019-08-08 | 2021-07-09 | 中国地质大学(武汉) | 一种多智能体同步控制方法、设备及存储设备 |
| CN110353675A (zh) * | 2019-08-14 | 2019-10-22 | 东南大学 | 基于图片生成的脑电信号情感识别方法及装置 |
| CN110427006A (zh) * | 2019-08-22 | 2019-11-08 | 齐鲁工业大学 | 一种用于流程工业的多智能体协同控制系统及方法 |
| CN110705310A (zh) * | 2019-09-20 | 2020-01-17 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
| CN110705310B (zh) * | 2019-09-20 | 2023-07-18 | 北京金山数字娱乐科技有限公司 | 一种文章生成的方法和装置 |
| CN112749785A (zh) * | 2019-10-29 | 2021-05-04 | 株式会社东芝 | 信息处理装置、信息处理方法以及程序 |
| CN112749785B (zh) * | 2019-10-29 | 2024-12-24 | 株式会社东芝 | 信息处理装置、信息处理方法以及程序 |
| CN114556370A (zh) * | 2019-11-13 | 2022-05-27 | 华为技术有限公司 | 用于使用内置注意力训练卷积神经网络的方法和系统 |
| CN110811558A (zh) * | 2019-11-18 | 2020-02-21 | 郑州大学 | 基于深度学习的睡眠觉醒分析方法 |
| CN110811558B (zh) * | 2019-11-18 | 2022-07-05 | 郑州大学 | 基于深度学习的睡眠觉醒分析方法 |
| WO2021103419A1 (zh) * | 2019-11-30 | 2021-06-03 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
| CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
| CN111047014B (zh) * | 2019-12-11 | 2023-06-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种多智能体空中对抗分布式采样训练方法及设备 |
| CN111047014A (zh) * | 2019-12-11 | 2020-04-21 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种多智能体空中对抗分布式采样训练方法及设备 |
| CN111667884B (zh) * | 2020-06-12 | 2022-09-09 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
| CN111667884A (zh) * | 2020-06-12 | 2020-09-15 | 天津大学 | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 |
| CN112087749A (zh) * | 2020-08-27 | 2020-12-15 | 华北电力大学(保定) | 基于强化学习实现多监听器的合作主动窃听方法 |
| CN112087749B (zh) * | 2020-08-27 | 2023-06-02 | 华北电力大学(保定) | 基于强化学习实现多监听器的合作主动窃听方法 |
| CN113254872A (zh) * | 2021-05-31 | 2021-08-13 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
| CN113254872B (zh) * | 2021-05-31 | 2023-12-19 | 大连理工大学 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
| CN113609548A (zh) * | 2021-07-05 | 2021-11-05 | 中铁工程设计咨询集团有限公司 | 一种桥梁布跨方法、装置、设备及可读存储介质 |
| CN113609548B (zh) * | 2021-07-05 | 2023-10-24 | 中铁工程设计咨询集团有限公司 | 一种桥梁布跨方法、装置、设备及可读存储介质 |
| CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
| CN113392935B (zh) * | 2021-07-09 | 2023-05-30 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
| CN115081617A (zh) * | 2022-06-06 | 2022-09-20 | 北京邮电大学 | 基于多智体强化学习的心智理论模型实现方法及装置 |
| CN114896899B (zh) * | 2022-07-15 | 2022-10-11 | 中国人民解放军国防科技大学 | 一种基于信息交互的多智能体分散式决策方法及系统 |
| CN114896899A (zh) * | 2022-07-15 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于信息交互的多智能体分散式决策方法及系统 |
| CN116582442A (zh) * | 2023-03-22 | 2023-08-11 | 西北工业大学 | 一种基于层次化通信机制的多智能体协作方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN109635917B (zh) | 2020-08-25 |
| US11461654B2 (en) | 2022-10-04 |
| US20200125957A1 (en) | 2020-04-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109635917A (zh) | 一种多智能体合作决策及训练方法 | |
| Li et al. | A hybrid deep learning approach with GCN and LSTM for traffic flow prediction | |
| CN113313947B (zh) | 短期交通预测图卷积网络的路况评估方法 | |
| CN113688765B (zh) | 一种基于注意力机制的自适应图卷积网络的动作识别方法 | |
| CN109829541A (zh) | 基于学习自动机的深度神经网络增量式训练方法及系统 | |
| CN102622515B (zh) | 一种天气预测方法 | |
| CN102622418B (zh) | 一种基于bp神经网络的预测装置及设备 | |
| CN115512545B (zh) | 一种基于时空动态图卷积网络的交通速度预测方法 | |
| CN119990191B (zh) | 基于Transformer的能够感知局部-全局时空关系的交通流预测方法和装置 | |
| CN113221450A (zh) | 一种针对稀疏不均匀时序数据的航位预测方法及系统 | |
| CN116975642A (zh) | 一种使用动态多图融合进行交通流量预测的方法 | |
| CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
| CN116151335A (zh) | 一种适用于嵌入式设备的脉冲神经网络轻量化方法及系统 | |
| CN116645130A (zh) | 基于联邦学习与gru结合的汽车订单需求量预测方法 | |
| Xia et al. | Weighted densely connected convolutional networks for reinforcement learning | |
| CN119129708A (zh) | 基于联邦大模型的反转知识蒸馏方法和系统 | |
| CN116975686A (zh) | 训练学生模型的方法、行为预测方法和装置 | |
| CN114818739A (zh) | 一种利用位置信息优化的视觉问答方法 | |
| CN120636164A (zh) | 交叉注意力神经网络驱动的多路口交通信号协同控制方法 | |
| Wang et al. | Automated reinforcement learning based on parameter sharing network architecture search | |
| Lin et al. | Collaborative Framework of Accelerating Reinforcement Learning Training with Supervised Learning Based on Edge Computing | |
| CN109800856A (zh) | 一种混沌粒子群优化小波神经网络的方法 | |
| CN116629363A (zh) | 一种基于深度网络的模型抽象推理泛化能力评价方法 | |
| He et al. | Application of neural network model based on combination of fuzzy classification and input selection in short term load forecasting | |
| CN113379068B (zh) | 基于结构化数据的深度学习架构搜索方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |