[go: up one dir, main page]

CN120295111A - 一种四足机器人基本行为控制方法、装置及介质 - Google Patents

一种四足机器人基本行为控制方法、装置及介质 Download PDF

Info

Publication number
CN120295111A
CN120295111A CN202510457641.8A CN202510457641A CN120295111A CN 120295111 A CN120295111 A CN 120295111A CN 202510457641 A CN202510457641 A CN 202510457641A CN 120295111 A CN120295111 A CN 120295111A
Authority
CN
China
Prior art keywords
data
behavior
robot
quadruped robot
rewards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202510457641.8A
Other languages
English (en)
Inventor
陈春林
周哲昊
傅汇乔
许文涛
董浩宇
辛博
邓归洲
唐开强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202510457641.8A priority Critical patent/CN120295111A/zh
Publication of CN120295111A publication Critical patent/CN120295111A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/024Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请公开了本发明公开了四足机器人基本行为控制方法,通过半监督信息最大化生成对抗模仿学习方法,结合少量标记数据和大量未标记数据,学习真实狗的多样且自然的行为模式。步骤包括:动捕数据准备、半监督学习离散行为模式、无监督学习连续行为风格、不平衡数据优化、对抗训练与稳定性增强。本发明显著提高了四足机器人在行为多样性、数据利用效率和行为可控性方面的性能。

Description

一种四足机器人基本行为控制方法、装置及介质
技术领域
本申请涉及机器人控制技术领域,特别涉及一种四足机器人基本行为控制方法、装置及介质。
背景技术
随着机器人技术的不断发展,四足机器人在复杂环境中的应用越来越广泛。然而,现有的四足机器人在行为多样性、任务适应性和模拟器与真实世界之间的差距等方面仍存在不足。传统的控制方法往往难以实现对复杂环境的高效适应,且在模拟器与真实世界之间的转移过程中存在较大的性能差异。
发明内容
本申请提供了一种四足机器人基本行为控制方法、装置及介质,其优点是学习真实四足动物的多样且自然的行为模式,从而显著提高四足机器人在行为多样性、数据利用效率和行为可控性方面的性能。
本申请的技术方案如下:
一方面,本申请提供一种四足机器人基本行为控制方法,包括如下步骤:
(1)动捕数据准备:收集真实动物的行为数据,并将其映射到目标机器人骨架上;
(2)半监督学习离散行为模式:通过变分下界最大化互信息,学习离散的行为模式,包括行走、踱步、小跑、慢跑和跳跃;
(3)无监督学习连续行为风格:通过最大化连续变量与行为数据之间的互信息,捕捉行为中的连续风格变化;
(4)不平衡数据优化:采用判别式聚类技术,结合正则化信息最大化方法,从不平衡数据中提取内在信息;
(5)对抗训练与稳定性增强:引入梯度惩罚项,优化生成对抗网络的稳定性。
进一步的,所述步骤(1)中进行动捕数据准备,包括如下步骤:
(1.1)搜集真实动物狗的动作捕捉数据,包括五种行为模式,分别为行走、踱步、小跑、慢跑和跳跃;动作捕捉数据包括标签数据和无标签数据,标签的动作捕捉数据,明确标注该条动捕数据所属的行为模式;无标签的动作捕捉数据没有所属行为模式的标注;
(1.2)使用运动重定向技术将动捕数据中原始骨骼动画映射到四足机器人上;在原始骨架上定义质心和四足五个关键点,并将其映射到机器人骨架上,并使用逆运动学计算关节旋转,得到四足机器人各个关节的角度位置。
进一步的,所述步骤(2)中,通过以下方式最大化半监督互信息:
(2.1)将四足机器人的控制问题表述为满足部分可观察马尔可夫过程的离散时间动力学问题:在每个时间步t,用策略π控制机器人执行一个动作,该动作使机器人转移至下一个状态;在这一基础上,使用潜在的技能变量c来表示五种常见的动物狗行为模式:行走、踱步、小跑、慢跑和跳跃;
最大化c与四足机器人状态间的互信息,记作I(c;oI),其中oI包括四足机器人的俯仰角、翻滚角、偏航角速度、关节角度、关节速度和足端接触状态;最大化真实标签与四足机器人状态间的互信息,记作I(y;oI),其中y是动捕数据的真实标签;
随后通过计算变分下界来近似处理互信息,具体形式为:
其中,Q(·|oI)是对真实后验概率P(·|oI)的估计,当Q=P时变分下界是紧的;dEL是带标签动捕数据的状态转移分布;dπ是由策略π得到的四足机器人状态转移分布;p(y)和p(c)分别代表y和c的先验概率,与策略π无关;分别代表y和c的熵;
令Q1=Q2,记作Qc,得到最终的半监督正则化项LSS
(2.2)在式(3)中,为监督项,Qc使用神经网络实现,利用dEL预测y,根据交叉熵损失函数优化Qc为无监督项,Qc是固定不变的,根据dπ学习y的潜在语义变量,使用强化学习来优化策略π,Qc的输出作为将作为半监督模仿奖励rss,其形式为:
rSS=logQc(c|oI)。(19)
进一步的,所述步骤(3)中,通过以下方式最大化无监督互信息:
(3.1)动捕数据中包含行走、踱步、小跑、慢跑和跳跃五种行为模式的数据,同一种行为模式内也存在着风格的变化;引入连续变量∈来捕获这种内部的连续风格变化,通过最大化∈与四足机器人状态之间的互信息I(∈;oI)来实现;使用变分下界LUS(Q)来近似互信息,计算方式为:
其中,∈从均匀分布U(-1,1)中采样,Q(∈|oI)是对真实后验概率的估计;
(3.2)式(5)中LUS为无监督项,作为目标函数对Q进行优化,同时根据Q的输出计算无监督模仿奖励rUS,利用强化学习优化策略π,具体形式为:
rUS=logQ(∈|oI)。 (21)
进一步的,所述步骤(4)中,通过以下方式优化不平衡数据:
(4.1)调整潜在变量c的采样分布,使其与不平衡数据的状态转移分布对齐;具体方式为使用Qc根据无标签数据预测经验标签分布 其中N为无标签数据总数,为预测得到的标签,ψ为Qc的参数;然后将经验标签分布作为潜在技能变量c的抽样分布;
(4.2)使用正则信息最大化方法计算惩罚项LRIM,自动识别无标签动捕数据中的各行为模式间的边界,具体形式为:
其中,第一项是聚类假设,代表的熵;第二项是通过最小化和潜在变量c的分布p(c)间的KL散度来避免退化解;第三项R(ψ)是为避免复杂解而对ψ执行的参数正则化。
进一步的,所述步骤(5)中,通过以下方式进行对抗训练与稳定性增强:
(5.1)算法训练的整体框架在生成对抗模仿学习方法的基础上进行优化;最小化一个类似于最小二乘生成对抗网络的判别器目标LGAIL其中D为判别器;
(5.2)引入了梯度惩罚项LGP以提高训练稳定性,具体形式为:
其中,D为判别器,φ为判别器参数;
(5.3)将上述步骤提到的所有优化项结合,得到了算法的集成目标函数,作为判别器D以及估计器Qc和Q的优化目标,通过梯度下降方法进行更新:
其中,第一项是一个类似于最小二乘生成对抗网络的判别器目标,即
(5.4)在更新判别器D以及估计器Qc和Q后,通过强化学习中的近端策略优化算法最大化总奖励来更新策略π;其中总奖励包括模仿奖励rT和任务奖励rT
r=wIrI+wTrT (25)
模仿奖励包括判别器奖励,半监督模仿奖励和无监督模仿奖励:
rI=rD+rSS+rUS (26)
其中,第一项rD是判别器奖励,针对四足机器人通过策略生成的样本,判别器目标是预测其得分为-1;而针对动捕数据中的演示样本,目标是预测其得分为1,具体奖励公式为rD=max[0,1-0.25(D(oI)-1)2],半监督模仿奖励rSS和无监督模仿奖励rUS分别由式(4)和式(6)给出;
任务奖励包括线性速度跟踪奖励角速度跟踪奖励跳跃高度奖励和稳定高度奖励具体形式如下:
其中,和vxy代表命令和实际线速度;和ωz代表命令和实际角速度;hcmd和h代表命令和实际中心高度,是指示函数;
(5.5)不断重复对抗训练的过程,循环更新判别器、估计器和策略直至收敛;最终得到生成五种行为模式动作的策略π,实现了四足机器人对真实动物狗自然行为模式的模仿。
又一方面,本申请提供一种四足机器人基本行为控制装置,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器调用执行时,实现如上所述的方法。
又一方面,本申请提供一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序被计算机调用执行时,实现如上所述的方法。
综上所述,本申请的有益效果有:(1)通过半监督学习方法,本申请提供方法能够学习到多样且自然的行为模式,包括离散的行为类别和连续的行为风格变化。(2)相比完全监督的方法,本发明显著降低了对大规模标记数据的需求,通过利用未标记数据和少量标记数据,实现了高效的学习。(3)通过引入潜在变量,本申请方法能够实现对行为模式的精确控制,同时能够快速响应速度指令,适应不同的任务需求.
附图说明
图1为四足机器人集成控制系统训练示意图;
图2为BBC的方法流程图;
图3为使用动作重映射技术处理动捕数据的示意图;
图4为四足机器人需要模仿真实动物狗的五种行为模式的示意图;
图5为TSC的方法流程图;
图6为地形高程图、特权信息和深度图像的示意图;
图7为对深度图像进行鲁棒优化的对比示意图;
图8为仿真器优化流程框架图。
具体实施方式
下面结合附图详细说明本申请的具体实施方式。
如图1所示,一种集成的四足机器人腿部控制器,包括以下步骤:
(一)使用基本行为控制器(BBC)学习多样且自然的行为模式。
(二)使用任务特定控制器(TSC)生成控制指令以实现对四足机器人的高效控制。
(三)使用进化策略模拟器优化方法优化模拟器参数,缩小模拟器与真实世界之间的差距。
所述步骤(一)中,如图2所示,一种用于四足机器人的基本行为控制器(BBC),包括如下步骤:
步骤1、动捕数据准备:收集真实动物的行为数据,并将其映射到目标机器人骨架上;
(1.1)搜集真实动物狗的动作捕捉数据,包括五种行为模式,分别为行走、踱步、小跑、慢跑和跳跃。其中,仅有小部分动捕数据有标签的,即明确标注该条动捕数据所属的行为模式;而绝大部分动捕数据是无标签的,没有所属行为模式的标注。
(1.2)使用运动重定向技术将动捕数据中原始骨骼动画映射到四足机器人上。如图3所示,在原始骨架上定义质心和四足五个关键点,并将其映射到机器人骨架上,并使用逆运动学计算关节旋转,得到四足机器人各个关节的角度位置。
步骤2、半监督学习离散行为模式:通过变分下界最大化互信息,学习如图4所示的五种离散的行为模式,包括行走、踱步、小跑、慢跑和跳跃;具体包括以下步骤:
(2.1)由于动捕数据标注成本较高,获取大量有标签数据使用监督学习的方法是不合适的。又因为动捕数据中存在多种行为模式,直接使用无监督的方式从原始数据中提取行为特征是很困难的。所以选择利用半监督学习方法,在使用少量标签数据来指导多模式行为解纠缠的基础上,充分利用大量无标签数据进行学习。
具体来说,将四足机器人的控制问题表述为满足部分可观察马尔可夫过程的离散时间动力学问题:在每个时间步t,用策略π控制机器人执行一个动作,该动作使机器人转移至下一个状态。在这一基础上,使用潜在的技能变量c来表示五种常见的动物狗行为模式:行走、踱步、小跑、慢跑和跳跃,如图5所示。通过改变输入策略π的潜在技能变量c,使得四足机器人展现出对应不同的行为模式。
为了确保c能够指导策略π生成不同动作,需要最大化c与四足机器人状态间的互信息,记作I(c;oI),其中oI包括四足机器人的俯仰角、翻滚角、偏航角速度、关节角度、关节速度和足端接触状态。另一方面,利用少量有标签动捕数据进行监督学习时,需要最大化真实标签与四足机器人状态间的互信息,记作I(y;oI),其中y是动捕数据的真实标签。
随后通过计算变分下界来近似处理互信息,具体形式为:
其中,Q(·|oI)是对真实后验概率P(·|oI)的估计,当Q=P时变分下界是紧的;dEL是带标签动捕数据的状态转移分布;dπ是由策略π得到的四足机器人状态转移分布;p(y)和p(c)分别代表y和c的先验概率,与策略π无关;分别代表y和c的熵。
在实践中令Q1=Q2,记作Qc,得到最终的半监督正则化项LSS
(2.2)在式(3)中,为监督项,Qc使用神经网络实现,利用dEL预测y,根据交叉熵损失函数优化Qc为无监督项,Qc是固定不变的,根据dπ学习y的潜在语义变量,使用强化学习来优化策略π,Qc的输出作为将作为半监督模仿奖励rss,其形式为:
rSS=logQc(c|oI)(34)
步骤3、无监督学习连续行为风格:通过最大化连续变量与行为数据之间的互信息,捕捉行为中的连续风格变化;具体包括以下步骤:
(3.1)动捕数据中包含行走、踱步、小跑、慢跑和跳跃五种行为模式的数据,但同一种行为模式内也存在着风格的变化。因此,需要引入连续变量∈来捕获这种内部的连续风格变化,通过最大化∈与四足机器人状态之间的互信息I(∈;oI)来实现。使用变分下界LUS来近似互信息,计算方式为:
其中,∈从均匀分布U(-1,1)中采样,Q(∈|oI)是对真实后验概率的估计,使用神经网络实现。
(3.2)由于动捕数据中没有同种行为模式内的风格标签,所以式(5)中LUS为无监督项,作为目标函数对Q进行优化,同时根据Q的输出计算无监督模仿奖励rUS,利用强化学习优化策略π,具体形式为:
rUS=logQ(∈|oI)(36)
步骤4、不平衡数据优化:采用判别式聚类技术,结合正则化信息最大化方法,从不平衡数据中提取内在信息;具体包括以下步骤:
(4.1)由于在动捕数据中,不同行为模式数据占比是不同的。在进行半监督学习行为模式时,需要调整潜在变量c的采样分布,使其与不平衡数据的状态转移分布对齐。具体方式为使用Qc根据无标签数据预测经验标签分布 其中N为无标签数据总数,为预测得到的标签,ψ为Qc的参数。然后将经验标签分布作为潜在技能变量c的抽样分布。
(4.2)为了更好地利用无标签动捕数据,选择使用正则信息最大化方法计算惩罚项LRIM,自动识别无标签动捕数据中的各行为模式间的边界,具体形式为:
其中,第一项是聚类假设,代表的熵。第二项是通过最小化和潜在变量c的分布p(c)间的KL散度来避免退化解。第三项R(ψ)是为避免复杂解而对ψ执行的参数正则化。
步骤5、对抗训练与稳定性增强:引入梯度惩罚项,优化生成对抗网络的稳定性,使训练过程更加鲁棒;具体包括以下步骤:
(5.1)算法训练的整体框架在生成对抗模仿学习方法的基础上进行优化。为了获得更稳定的训练和更高质量的结果,需要最小化一个类似于最小二乘生成对抗网络的判别器目标LGAIL其中D为判别器。
(5.2)由于判别器中的函数近似误差,对抗模仿学习方法经常存在不稳定性。判别器会将非零梯度分配给实际数据样本,这可能导致生成器超调和振荡。因此引入了梯度惩罚项LGP以提高训练稳定性,具体形式为:
其中,D为判别器,φ为判别器参数;
(5.3)将上述步骤提到的所有优化项结合,得到了算法的集成目标函数,作为判别器D以及估计器Qc和Q的优化目标,通过梯度下降方法进行更新:
其中,第一项是一个类似于最小二乘生成对抗网络的判别器目标,即
(5.4)在更新判别器D以及估计器Qc和Q后,通过强化学习中的近端策略优化算法最大化总奖励来更新策略π。其中总奖励包括模仿奖励rT和任务奖励rT
r=wIrI+wTrT (40)
模仿奖励包括判别器奖励,半监督模仿奖励和无监督模仿奖励:
rI=rD+rSS+rUS (41)
其中,第一项rD是判别器奖励,针对四足机器人通过策略生成的样本,判别器目标是预测其得分为-1;而针对动捕数据中的演示样本,目标是预测其得分为1,具体奖励公式为rD=max[0,1-0.25(D(oI)-1)2],半监督模仿奖励rSS和无监督模仿奖励rUS分别由式(4)和式(6)给出。
任务奖励包括线性速度跟踪奖励角速度跟踪奖励跳跃高度奖励和稳定高度奖励具体形式如下:
其中,和vxy代表命令和实际线速度;和ωz代表命令和实际角速度;hcmd和h代表命令和实际中心高度,是指示函数。
(5.5)不断重复对抗训练的过程,循环更新判别器、估计器和策略直至收敛。最终得到生成五种行为模式动作的策略π,实现了四足机器人对真实动物狗自然行为模式的模仿。
所述步骤(二)中,如图5所示,一种用于四足机器人的任务特定控制器(TSC),包括以下步骤:
步骤1、对四足机器人周围地形高度进行采样。如图6所示,四足机器人身边的每个橙色点代表该点所在位置作为周围地形高度采样点,会随着机器人运动实时更新,帮助机器人不断获取周围地形高程图。
步骤2、教师策略基于特权信息进行训练,包括:
(2.1)四足机器人上已经部署了一个完善的基本行为控制器作为底层控制器,在接收相应命令输入后可以控制机器人做出不同动作。需要的命令包括行为模式命令、速度命令、根高度命令和动作风格命令。行为模式命令是离散的,能够使四足机器人选择选择行走、踱步、小跑、慢跑和跳跃五种行为模式中的一种;速度命令用于控制四足机器人的前向线速度和偏航角速度;根高度命令用于控制机器人的身体高度;动作风格命令用于控制机器人跨步幅度和频率。
在此基础上,需要一个任务特定的控制器作为顶层策略输出底层控制器所需的命令,控制四足机器人做出相应动作完成特定任务。为了解决特定任务复杂场景中奖励信号稀疏的问题,该发明使用特权学习架构,将算法分为两个阶段:教师策略训练与学生策略训练。
在教师策略训练过程中,需要在仿真器中收集包括特权信息等数据作为教师策略网络πTSC的输入,具体包括以下内容:
(a)外部感知信息:根据采样得到的周边地形高程图;
(b)特权信息:四足机器人当前面对的障碍物类型、与当前目标点的偏航角误差Δyaw,以及与下一个目标点的偏航角误差Δ′yaw;如图6所示,蓝点代表四足机器人当前需要到达的目标点,蓝点后的红点代表下一个需要达到的目标点,同时还会实时提供机器人当前所属的障碍物类型;
(c)本体感觉信息:包括四足机器人的俯仰角、翻滚角、偏航角速度、关节角度、关节速度和足端接触状态。
直接根据现实场景条件在仿真环境中进行训练是困难的,因为奖励信号稀疏等问题的存在。虽然周边地形高程图和特权信息在现实中是难以获取的,但是在仿真环境中可以实时获取。通过在教师策略训练中额外使用这些信息进行训练将提高策略训练速度与效果。
(2.2)使用强化学习中的混合近端策略优化算法实现混合动作空间策略训练。教师策略混合动作空间aT代表教师策略输出动作是离散和连续变量命令的混合:aT={aD,aC},其中教师策略离散命令aD表示行为模式命令;教师策略连续命令aC表示速度命令、根高度命令和动作风格命令。
混合近端策略优化算法需要最大化以下形式的奖励rTSC
rTSC=wIrI+wTSCrTSC(46)
在式(1)中,wI和wTSC分别是模仿奖励和任务奖励的系数。rI是由提前训练的判别器网络计算的模仿奖励,计算公式为rI=max[0,1-0.25(D(oI)-1)2],其中D为判别器网络,oI为四足机器人的本体感觉信息,oI作为D的输入,如果四足机器人的动作越接近自然动物狗的动作,那么D的输出D(oI)将接近于1,否则接近于-1。任务奖励rTSC包括线速度追踪奖励偏航角跟踪奖励路径点到达奖励和终止奖励公式如下:
其中v是线速度,νtarget是目标线速度,dwpt是目标路径点的方向,和θz分别是目标路径点和四足机器人的偏航角,pwpt和p分别代表目标路径点和四足机器人的位置,是指示函数。
训练得到的教师策略在特权信息的辅助下与底层控制器相结合,能够在仿真环境操控四足机器人完成不同的任务需求。
所述步骤(3)中通过以下步骤通过自监督鲁棒优化方法增强对深度图像的鲁棒性:
(3.1)深度图像是四足机器人在现实场景任务中部署时常用的外部感知信息。现实环境中的深度图像通常包含来自各种来源的噪声,使其与仿真环境中的图像不同。为了提高算法对深度图像的鲁棒性,对四足机器人上双目深度相机采集的深度图像进行概率增强处理,如图3所示,包括白噪声、背景噪声、随机裁剪、边缘噪声和高斯模糊。
(3.2)使用自监督学习方法Bootstrap Your Own Latent(BYOL),最大化相同深度图像的两个增强视图之间的相似性来学习任务相关特征,如图7所示,将这种自监督损失集成到深度图像编码器网络中,增强顶层策略对复杂现实环境的鲁棒性。
所述步骤(4)中学生策略基于历史状态特权信息模仿教师策略进行训练包括如下步骤:
(4.1)为了得到能够部署到现实场景中的四足机器人顶层策略,在训练学生策略网络时,使用经过鲁棒化处理的深度图像代替周边地形高程图,同时收集本体感觉信息的历史序列而不是难以获取的特权信息作为的输入。
(4.2)利用门控循环单元处理输入序列并输出预测的特权信息和环境信息潜在向量,通过门控循环单元和多层感知机输出最终的混合学生动作其中是学生策略混合动作空间、是学生策略离散命令、是学生策略连续命令。训练学生策略利用监督学习来模仿教师策略,需要最小化的目标函数形式如下:
其中K是离散动作的数量。目标函数第一项对应于教师策略和学生策略离散命令间的交叉熵损失,而第二项用于捕获教师策略和学生策略连续命令间的均方误差。
经过训练的学生政策与底层控制器相结合,能够使四足机器人在现实环境中成功执行多种复杂任务。
所述步骤(三)中,如图8所示,一种基于进化策略与生成对抗模仿学习的仿真器优化方法包括以下步骤:
步骤1、参数初始化:初始化仿真器的参数分布;
(1.1)定义仿真器参数的初始范围;
(1.2)随机采样初始参数分布。
步骤2、真实数据采集:分别在仿真环境和真实环境中采集状态-动作轨迹数据;具体包括以下步骤:
(2.1)在真实环境中,使用预定义的控制器生成状态-动作轨迹;
(2.2)将采集的数据用于对抗训练。
步骤3、仿真数据采集:分别在仿真环境和真实环境中采集状态-动作轨迹数据;具体包括以下步骤:
(3.1)在仿真环境中,使用与步骤(2.1)相同的控制器生成状态-动作轨迹;
(3.2)将采集的数据用于对抗训练。
步骤4、对抗训练:通过判别器区分真实世界和仿真器的状态-动作转换,同时通过进化策略(ES)优化参数分布,使其最大化判别器对真实样本的评分;具体包括以下步骤:
(4.1)判别器D的优化目标为区分真实世界和仿真器的状态-动作转换,具体形式为:
其中,dB(s,a,s′)为仿真数据,dM(s,a,s′)为真实数据;
(4.2)进化策略(ES)的优化目标为最大化判别器对真实样本的评分
步骤5、参数更新:根据优化后的参数分布更新仿真器;具体包括以下步骤:具体包括以下步骤:
(5.1)根据优化后的参数分布,更新仿真器的物理参数;
步骤6、迭代优化:重复数据采集、对抗训练和参数更新,直至参数分布收敛;具体包括以下步骤:
(6.1)重复数据采集和对抗训练,直到判别器无法进一步区分真实和仿真数据;
(6.2)验证优化后的仿真器是否满足预设的收敛条件,如参数分布的变化幅度小于阈值。
步骤7、策略优化:使用优化过后的仿真器对控制策略进行重新训练或微调;具体包括以下步骤:
(7.1)使用优化过后的仿真器物理参数作为域随机化的参数范围,重新训练控制策略,或针对与(2.1)中相同的控制器进行微调,使策略适应更接近真实环境的仿真。
以上所述的仅是本申请的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本申请创造构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (8)

1.一种四足机器人基本行为控制方法,其特征在于,包括如下步骤:
(1)动捕数据准备:收集真实动物的行为数据,并将其映射到目标机器人骨架上;
(2)半监督学习离散行为模式:通过变分下界最大化互信息,学习离散的行为模式,包括行走、踱步、小跑、慢跑和跳跃;
(3)无监督学习连续行为风格:通过最大化连续变量与行为数据之间的互信息,捕捉行为中的连续风格变化;
(4)不平衡数据优化:采用判别式聚类技术,结合正则化信息最大化方法,从不平衡数据中提取内在信息;
(5)对抗训练与稳定性增强:引入梯度惩罚项,优化生成对抗网络的稳定性。
2.根据权利要求1所述的四足机器人基本行为控制方法,其特征在于,所述步骤(1)中进行动捕数据准备,包括如下步骤:
(1.1)搜集真实动物狗的动作捕捉数据,包括五种行为模式,分别为行走、踱步、小跑、慢跑和跳跃;动作捕捉数据包括标签数据和无标签数据,标签的动作捕捉数据,明确标注该条动捕数据所属的行为模式;无标签的动作捕捉数据没有所属行为模式的标注;
(1.2)使用运动重定向技术将动捕数据中原始骨骼动画映射到四足机器人上;在原始骨架上定义质心和四足五个关键点,并将其映射到机器人骨架上,并使用逆运动学计算关节旋转,得到四足机器人各个关节的角度位置。
3.根据权利要求1所述的四足机器人基本行为控制方法,其特征在于,所述步骤(2)中,通过以下方式最大化半监督互信息:
(2.1)将四足机器人的控制问题表述为满足部分可观察马尔可夫过程的离散时间动力学问题:在每个时间步t,用策略π控制机器人执行一个动作,该动作使机器人转移至下一个状态;在这一基础上,使用潜在的技能变量c来表示五种常见的动物狗行为模式:行走、踱步、小跑、慢跑和跳跃;
最大化c与四足机器人状态间的互信息,记作I(c;oI),其中oI包括四足机器人的俯仰角、翻滚角、偏航角速度、关节角度、关节速度和足端接触状态;最大化真实标签与四足机器人状态间的互信息,记作I(y;oI),其中y是动捕数据的真实标签;
随后通过计算变分下界来近似处理互信息,具体形式为:
其中,Q(·|oI)是对真实后验概率P(·|oI)的估计,当Q=P时变分下界是紧的;dEL是带标签动捕数据的状态转移分布;dπ是由策略π得到的四足机器人状态转移分布;p(y)和p(c)分别代表y和c的先验概率,与策略π无关;分别代表y和c的熵;
令Q1=Q2,记作Qc,得到最终的半监督正则化项LSS
(2.2)在式(3)中,为监督项,Qc使用神经网络实现,利用dEL预测y,根据交叉熵损失函数优化Qc为无监督项,Qc是固定不变的,根据dπ学习y的潜在语义变量,使用强化学习来优化策略π,Qc的输出作为将作为半监督模仿奖励rss,其形式为:
rSS=logQc(c|oI) (4)。
4.根据权利要求1所述的四足机器人基本行为控制方法,其特征在于,所述步骤(3)中,通过以下方式最大化无监督互信息:
(3.1)动捕数据中包含行走、踱步、小跑、慢跑和跳跃五种行为模式的数据,同一种行为模式内也存在着风格的变化;引入连续变量∈来捕获这种内部的连续风格变化,通过最大化∈与四足机器人状态之间的互信息I(∈;oI)来实现;使用变分下界LUS(Q)来近似互信息,计算方式为:
其中,∈从均匀分布U(-1,1)中采样,Q(∈|oI)是对真实后验概率的估计;
(3.2)式(5)中LUS为无监督项,作为目标函数对Q进行优化,同时根据Q的输出计算无监督模仿奖励rUS,利用强化学习优化策略π,具体形式为:
rUS=logQ(∈|oI) (6)。
5.根据权利要求1所述的四足机器人基本行为控制方法,其特征在于,所述步骤(4)中,通过以下方式优化不平衡数据:
(4.1)调整潜在变量c的采样分布,使其与不平衡数据的状态转移分布对齐;具体方式为使用Qc根据无标签数据预测经验标签分布 其中N为无标签数据总数,为预测得到的标签,ψ为Qc的参数;然后将经验标签分布作为潜在技能变量c的抽样分布;
(4.2)使用正则信息最大化方法计算惩罚项LRIM,自动识别无标签动捕数据中的各行为模式间的边界,具体形式为:
其中,第一项是聚类假设,代表的熵;第二项是通过最小化和潜在变量c的分布p(c)间的KL散度来避免退化解;第三项R(ψ)是为避免复杂解而对ψ执行的参数正则化。
6.根据权利要求1所述的四足机器人基本行为控制方法,其特征在于,所述步骤(5)中,通过以下方式进行对抗训练与稳定性增强:
(5.1)算法训练的整体框架在生成对抗模仿学习方法的基础上进行优化;最小化一个类似于最小二乘生成对抗网络的判别器目标LGAIL其中D为判别器;
(5.2)引入了梯度惩罚项LGP以提高训练稳定性,具体形式为:
其中,D为判别器,φ为判别器参数;
(5.3)将上述步骤提到的所有优化项结合,得到了算法的集成目标函数,作为判别器D以及估计器Qc和Q的优化目标,通过梯度下降方法进行更新:
其中,第一项是一个类似于最小二乘生成对抗网络的判别器目标,即
(5.4)在更新判别器D以及估计器Qc和Q后,通过强化学习中的近端策略优化算法最大化总奖励来更新策略π;其中总奖励包括模仿奖励rT和任务奖励rT
r=wIrI+wTrT(10)
模仿奖励包括判别器奖励,半监督模仿奖励和无监督模仿奖励:
rI=rD+rSS+rUS(11)
其中,第一项rD是判别器奖励,针对四足机器人通过策略生成的样本,判别器目标是预测其得分为-1;而针对动捕数据中的演示样本,目标是预测其得分为1,具体奖励公式为rD=max[0,1-0.25(D(oI)-1)2],半监督模仿奖励rSS和无监督模仿奖励rUS分别由式(4)和式(6)给出;
任务奖励包括线性速度跟踪奖励角速度跟踪奖励跳跃高度奖励和稳定高度奖励具体形式如下:
其中,和vxy代表命令和实际线速度;和ωz代表命令和实际角速度;hcmd和h代表命令和实际中心高度,是指示函数;
(5.5)不断重复对抗训练的过程,循环更新判别器、估计器和策略直至收敛;最终得到生成五种行为模式动作的策略π,实现了四足机器人对真实动物狗自然行为模式的模仿。
7.一种四足机器人基本行为控制装置,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被处理器调用执行时,实现如权利要求1-6任意一项所述的方法。
8.一种计算机可读介质,其特征在于,所述计算机可读介质存储有计算机程序,所述计算机程序被计算机调用执行时,实现如权利要求1-6任意一项所述的方法。
CN202510457641.8A 2025-04-14 2025-04-14 一种四足机器人基本行为控制方法、装置及介质 Pending CN120295111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510457641.8A CN120295111A (zh) 2025-04-14 2025-04-14 一种四足机器人基本行为控制方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510457641.8A CN120295111A (zh) 2025-04-14 2025-04-14 一种四足机器人基本行为控制方法、装置及介质

Publications (1)

Publication Number Publication Date
CN120295111A true CN120295111A (zh) 2025-07-11

Family

ID=96278804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510457641.8A Pending CN120295111A (zh) 2025-04-14 2025-04-14 一种四足机器人基本行为控制方法、装置及介质

Country Status (1)

Country Link
CN (1) CN120295111A (zh)

Similar Documents

Publication Publication Date Title
Escontrela et al. Adversarial motion priors make good substitutes for complex reward functions
Ghosh et al. Divide-and-conquer reinforcement learning
Osa et al. An algorithmic perspective on imitation learning
Sermanet et al. Time-contrastive networks: Self-supervised learning from video
Zhu et al. Reinforcement and imitation learning for diverse visuomotor skills
Wang et al. Robust imitation of diverse behaviors
Amarjyoti Deep reinforcement learning for robotic manipulation-the state of the art
Hashemi et al. Multibody dynamics and control using machine learning
Mordatch et al. Interactive control of diverse complex characters with neural networks
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
US20070011119A1 (en) Device for the autonomous bootstrapping of useful information
WO2020065001A1 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN118393973B (zh) 一种自动驾驶控制方法、装置、系统、设备及存储介质
US20220051106A1 (en) Method for training virtual animal to move based on control parameters
Serrano et al. Knowledge transfer for cross-domain reinforcement learning: a systematic review
Kuo et al. Intelligent proximal-policy-optimization-based decision-making system for humanoid robots
Jiang et al. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill
Aşık et al. End-to-end deep imitation learning: Robot soccer case study
Gao et al. Web intelligence-enhanced unmanned aerial vehicle target search model based on reinforcement learning for cooperative tasks
CN118056210A (zh) 用于智能体控制的分层潜在混合策略
Chen et al. GRaD-Nav++: Vision-Language Model Enabled Visual Drone Navigation with Gaussian Radiance Fields and Differentiable Dynamics
CN114660947A (zh) 机器人步态自主学习方法、装置、电子设备及存储介质
CN120295111A (zh) 一种四足机器人基本行为控制方法、装置及介质
CN120295110A (zh) 一种四足机器人任务特定控制方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination