[go: up one dir, main page]

CN116062059A - 一种基于深度强化学习的单腿机器人连续跳跃控制方法 - Google Patents

一种基于深度强化学习的单腿机器人连续跳跃控制方法 Download PDF

Info

Publication number
CN116062059A
CN116062059A CN202310087358.1A CN202310087358A CN116062059A CN 116062059 A CN116062059 A CN 116062059A CN 202310087358 A CN202310087358 A CN 202310087358A CN 116062059 A CN116062059 A CN 116062059A
Authority
CN
China
Prior art keywords
robot
leg length
leg
jump
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310087358.1A
Other languages
English (en)
Other versions
CN116062059B (zh
Inventor
明爱国
孙能祥
孟非
顾赛
刘伯韬
黄强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202310087358.1A priority Critical patent/CN116062059B/zh
Publication of CN116062059A publication Critical patent/CN116062059A/zh
Application granted granted Critical
Publication of CN116062059B publication Critical patent/CN116062059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于深度强化学习的单腿机器人连续跳跃控制方法,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;虚拟弹簧‑阻尼模根据当前跳跃阶段计算足部末端虚拟力,进而得到所需的关节力矩,控制机器人进行运动;虚拟弹簧‑阻尼模型中的刚度、阻尼由策略网络的输出——动作空间信息进行更新,有限状态机中预设的目标腿长根据算法中的相应设置进行更新,且策略网络根据奖励数值以固定周期进行优化。本发明方法避免人工设计的控制器存在的繁琐且低效的参数调优过程,实现机器人实时根据自身运动情况在线自主决策有实时变化需求的运动因素。

Description

一种基于深度强化学习的单腿机器人连续跳跃控制方法
技术领域
本发明属于机器人控制技术领域,具体涉及一种基于深度强化学习的单腿机器人连续跳跃控制方法。
背景技术
对于腿足式机器人,在环境中能够克服大间隙和高平台的跳跃能力是至关重要的。跳跃的特点是瞬时力大、力变化速度快、持续时间短。据生物力学家研究表明,生物个体能够达到的最大跳跃高度取决于其下肢的三个力学特征:能产生的最大的力、最大的伸展速度以及伸展范围。因此,在机器人跳跃的过程中合理控制和规划这三个力学特征,对于充分挖掘其跳跃能力是至关重要的。此外,动物在奔跑时可以通过调节腿部骨骼肌系统的刚度,将身体的重力和动能转化为应变能,以适应落地带来的冲击并重新加速自己的身体,使其运动变得更加灵活和稳健。对于连续跳跃运动,机器人的落地缓冲过程将直接决定其再次跳跃的高度和稳定性,而动物这种“可调节刚度”的思想为更好的处理机器人落地缓冲过程提供了新的思路。
目前针对单腿机器人连续跳跃的控制方法,或是建模计算较为复杂难以在控制器上实时实现,或是控制模型为人工设计需要经过繁琐且低效的人工调参,存在一定的局限性。虽然一些研究已经尝试将刚度、腿长等与跳跃运动直接相关的因素作为可变因素应用于连续跳跃研究,但相关工作均存在于条件理想的仿真之中,缺乏相应的实验验证。
发明内容
针对现有技术中存在不足,本发明提供了一种基于深度强化学习的单腿机器人连续跳跃控制方法,在VMC(虚拟模型控制)方法的理论基础上,充分考虑连续跳跃运动中有实时变化需求的运动因素,通过使用DRL(深度强化学习)训练单腿机器人运动控制器,提出了一种动态跳跃自适应学习框架,仿真训练出的策略可直接部署至实物单腿机器人平台,实现稳定且跳跃高度理想的连续跳跃运动。
本发明是通过以下技术手段实现上述技术目的。
一种基于深度强化学习的单腿机器人连续跳跃控制方法:
将机器人动力学建模为虚拟弹簧-阻尼模型,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;
所述虚拟弹簧-阻尼模根据当前跳跃阶段计算足部末端虚拟力,进而得到所需的关节力矩,控制机器人进行运动;
所述虚拟弹簧-阻尼模型中的刚度、阻尼由动作空间信息中的刚度系数和阻尼系数进行更新;
所述目标腿长包括跳跃腿长、飞行腿长和落地缓冲腿长,且有限状态机中预设的目标腿长根据如下方式进行更新:除第一次跳跃以外,满足实时腿长小于落地缓冲腿长时,更新跳跃腿长和飞行腿长;当机器人跳跃至最高点且绝对速度为0时,更新落地缓冲腿长;
所述动作空间信息为策略网络的输出,策略网络的输入为观察空间信息,且策略网络根据奖励数值以固定周期进行优化,所述奖励数值由机器人当前状态信息根据奖励函数计算。
进一步的技术方案,所述动作空间信息为:虚拟弹簧-阻尼模型Z方向的刚度系数、阻尼系数,虚拟弹簧-阻尼模型X方向的刚度系数、阻尼系数,跳跃腿长、飞行腿长和落地腿长。
进一步的技术方案,所述观察空间信息为:
Figure BDA0004069201950000021
Hsum是足部末端累计离地高度,z′是足部末端在世界坐标系下距离地面的高度,x是X方向足部末端实际的位置,vbase为机器人基体的绝对速度,θ1是机器人大腿与水平方向的夹角,θ2是机器人大腿与小腿之间的夹角,
Figure BDA0004069201950000022
为大腿关节的实时角速度,
Figure BDA0004069201950000023
为小腿关节的实时角速度。
更进一步的技术方案,所述足部末端累计离地高度满足:
Figure BDA0004069201950000024
z'(t)=zbase(t)-hbase-l(t)
zbase(t)=hp-lbase(t)
其中:z′(t)是足部末端当前时刻距离地面的高度,z′(t-1)是足部末端前一时刻距离地面的高度,zbase(t)为滑轨连接平台上平面当前时刻在世界坐标系下距离地面的高度,hbase为滑轨连接平台上平面与大腿关节中心的距离,l(t)为当前时刻的实时腿长,hp为滑轨架最大有效行程,lbase(t)为滑轨架最大有效行程处与滑轨连接平台上平面之间在当前时刻的直线距离。
进一步的技术方案,所述奖励函数包括奖励项和惩罚项,所述奖励项包括机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励,所述惩罚项包括惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时。
更进一步的技术方案,所述奖励函数具体为:
空中跳跃姿态:k1*|x|;
累计离地高度:k2*Hsum
跳跃成功次数:k3*Jump_times*Jump_Flag;
能量损失:
Figure BDA0004069201950000031
是否完成目标:Success_Flag*k5+Error_Flag*k6
其中:k1、k2、k3、k4、k5、k6均为系数,x是X方向足部末端实际的位置,Jump_times表示跳跃次数,Jump_Flag表示跳跃标志位,τ1为机器人大腿关节所需关节力矩,τ2为机器人小腿关节所需关节力矩,
Figure BDA0004069201950000032
为大腿关节的实时角速度,
Figure BDA0004069201950000033
为小腿关节的实时角速度,Success_Flag表示成功标志位,Error_Flag表示错误标志位。
进一步的技术方案,所述策略网络的全连接隐藏层第一层和第二层分别由64、32个节点组成。
进一步的技术方案,所述观察空间信息在输入策略网络前添加环境噪声,所述环境噪声在仿真环境中添加。
进一步的技术方案,在仿真环境中,对机器人物理参数设置域随机化。
本发明的有益效果为:
(1)本发明的基于深度强化学习的单腿机器人连续跳跃控制方法,将虚拟模型控制和深度强化学习结合,避免单独使用虚拟模型控制时,人工设计的控制器存在的繁琐且低效的参数调优过程;
(2)本发明针对机器人连续跳跃任务,对观察空间的部分信息进行特征工程处理实现训练过程的快速收敛;
(3)本发明策略网络输入的观察空间信息包括足部末端累计离地高度、足部末端在世界坐标系下距离地面的高度、X方向足部末端实际的位置、机器人基体的绝对速度、机器人大腿与水平方向的夹角、机器人大腿与小腿之间的夹角、大腿关节和小腿关节的实时角速度,使其可实时根据运动情况以固定周期输出可变的刚度、阻尼以及目标腿长,充分发挥其自身的动态性能,赋予了机器人自主决策的能力。
附图说明
图1为本发明所述单腿机器人的简化腿模型以及对应虚拟弹簧-阻尼模型系统图;
图2为本发明所述单腿机器人有限状态机切换示意图;
图3为本发明所述高动态跳跃自适应学习框架示意图;
图4为本发明所述单腿机器人安装示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
一、术语解释
虚拟模型控制(Virtual Model Control,VMC)是一种模拟虚拟部件以生成所需的关节扭矩的运动控制框架,这种虚拟模型控制方法使用对虚拟机械部件的模仿产生真正的执行力矩(或力),这些虚拟机械部件可以包括线性弹簧、阻尼、质量块或任何其他可能的物理元件。虚拟模型控制分为上层控制器和底层控制器,其中上层控制器可以设计为一个状态机,只需要简单地改变虚拟机械部件连接方式或部件参数,就能实现虚拟状态转换。在使用该虚拟模型控制方法应用于单腿机器人连续跳跃场景时,通常只需设定虚拟弹簧原长的参数,机器人被会按照“提示”和“建议”去运动。
深度强化学习(deep reinforcement learning,DRL)是深度神经网络(DNNs)在强化学习策略上的应用。DNNs近似的策略可以对相似的输入产生相似的输出,使得该策略对各种情况具有鲁棒性。通过使用深度强化学习,研究者可以无需对机器人工作环境进行精确建模,机器人在没有任何系统先验信息的情况下,经过大量仿真训练获得运动策略,且没有硬件损坏的风险。此外,可以通过在训练过程中使用域随机化、添加环境噪声、动力学参数随机化等方法来训练控制器的鲁棒性,以便于将仿真训练出的策略直接迁移至实物机器人,无需在物理系统上进一步训练。
二、建立基础的单腿机器人二维虚拟弹簧-阻尼模型
根据图1,可以得到机器人足部末端C在所定义的坐标系内的位置(x,z)以及雅可比矩阵J:
Figure BDA0004069201950000041
Figure BDA0004069201950000042
其中:θ1表示机器人大腿与水平方向的夹角,θ2表示机器人大腿与小腿之间的夹角,L1表示机器人大腿的长度,L2表示机器人小腿的长度;
单腿机器人的足部末端力被用来模拟一个二维虚拟弹簧-阻尼系统,沿X、Z方向分别布置一个虚拟弹簧和阻尼以保证机器人二自由度的运动控制;基于足部末端位置误差和速度误差分别计算出足部末端的Z方向虚拟力Fz、X方向虚拟力Fx
Figure BDA0004069201950000051
Figure BDA0004069201950000052
其中,kz为Z方向虚拟弹簧-阻尼模型的刚度系数,kx为X方向虚拟-阻尼模型的刚度系数,cz为Z方向虚拟弹簧-阻尼模型的阻尼系数,cx为X方向虚拟弹簧-阻尼模型的阻尼系数,zt为Z方向足部末端的建议目标位置,xt为X方向足部末端的建议目标位置,x为X方向足部末端实际的位置,z为Z方向足部末端实际的位置,vx为X方向足部末端实际的速度,vz为Z方向足部末端实际的速度;
然后,利用机器人的雅克比矩阵J计算出产生该足部末端力所需的关节力矩:
Figure BDA0004069201950000053
其中:τ1为机器人大腿关节所需关节力矩,τ2为机器人小腿关节所需关节力矩。
图1中,M为滑轨连接平台的质量,I1为机器人大腿惯量,m1为机器人大腿质量,I2为机器人小腿惯量,m2为机器人小腿质量。
三、建立跳跃阶段切换的有限状态机
在单腿机器人的连续跳跃过程中,每一周期可划分为三个状态:跳跃相、飞行相、落地缓冲相,参见图2。机器人在地面反作用力(GRF)fx、fz的作用下达到跳跃腿长lj实现起跳,在空中维持固定的飞行腿长lf,当落地过程中实时腿长小于落地缓冲腿长ltd时再次进行起跳。由于这三个状态具有连续且不可逆性,在有限状态机中以实时腿长与当前阶段目标腿长的大小关系作为判断依据进行虚拟机械部件切换,切换后机器人会按照下一阶段的目标位置(xt,zt)进行运动。水平方向的位置xt始终为0,竖直方向的位置zt随三个不同的跳跃阶段进行切换。
四、建立动态跳跃自适应学习框架
VMC将机器人动力学建模为虚拟弹簧-阻尼模型,使用人工设计的控制器对机器人运动过程进行控制。然而,对于人工设计的控制器,存在繁琐且低效的参数调优过程,无法根据机器人的硬件配置情况来充分发挥其自身的动态性能;与此同时,对于机器人连续跳跃这种高动态、多阶段运动,能够实现实时在线自主决策当前虚拟弹簧-阻尼模型的刚度、阻尼以及下一阶段的目标腿长是较为理想的。
在仿生学理论的启发下,通过使用深度强化学习的PPO算法,对于人工设计的控制器存在的局限性以及结合可能影响腿足式机器人跳跃高度及稳定性的因素(即跳跃的三个力学特征和动物骨骼肌的可调节刚度思想),本发明提出一种动态跳跃自适应学习框架(图3,图中带阴影部分的模块将只在仿真中出现),在实现期望跳跃次数和理想的单次跳跃高度的前提下,尽可能减少过程中非必要的能量消耗,实现对连续跳跃运动的控制。在单腿机器人被建模为虚拟弹簧-阻尼模型且根据实时腿长进行阶段切换的基础上,该自适应学习架构允许每一阶段的弹簧刚度、阻尼以及各阶段目标腿长在一定范围内实时变化以匹配当前的机器人运动状态,每当机器人运动过程中出现被禁止的行为或是完成规定的期望跳跃次数,则环境重置开始下一个episode探索。
(1)动作空间
在本发明的研究问题中,actions(智能体输出的动作)不同与以往文献中提到的直接控制腿足式机器人本体运动的控制量,如:关节力矩、关节或末端执行器参考位置等。为了能尽可能减少智能体的无效探索,同时又能实现虚拟弹簧-阻尼模型的刚度、阻尼以及目标腿长的实时可变,在一定的工程经验基础上,人为给定各个动作的范围。动作空间被定义为:虚拟弹簧Z方向的刚度系数[kj_z,kf_z]、阻尼系数[cj_z,cf_z],X方向的刚度系数[kj_x,kf_x]、阻尼系数[cj_x,cf_x],跳跃腿长lj、飞行腿长lf和落地腿长ltd,上述参数在训练中的更新频率为50Hz。
为了尽可能提升每次跳跃的高度以及稳定性,机器人在每次跳跃开始前选定[lj,lf],决定本次跳跃离地时的跳跃腿长和离地之后的飞行腿长;受到人和动物会在跳下高处时思考如何落地的启发,设置机器人在每次跳跃达到最高点时选定ltd,即决定本次跳跃触地后的落地缓冲腿长;当机器人落地过程中实时腿长小于落地缓冲腿长时,机器人准备再次起跳。
(2)观察空间及特征工程处理
在数据分析中,通常会通过对输入数据进行适当的特征预处理,减少神经网络对其他模块的拟合压力,从而提高模型的性能加快训练过程,这种方法即特征工程。
针对于连续跳跃任务,为了能进一步加快任务的奖励收敛,对观察空间的部分重要信息进行了特征工程处理。本发明中,智能体的观察空间被定义为
Figure BDA0004069201950000061
Figure BDA0004069201950000062
每个epiosde的每一时刻足部末端在世界坐标系的竖直方向位置都会被记录,足部末端在世界坐标系下距离地面的高度z′是由当前腿长l与机器人基体实时位置zbase计算得到,zbase由激光测距仪测得,周期为5ms;vbase为机器人基体的绝对速度,可由机器人基体实时位置zbase微分得到,它和z′一起用于帮助机器人判断到达运动最高点并获取此时的足部末端离地高度,从而由智能体决策出更合适的ltd
Figure BDA0004069201950000063
为大腿关节的实时角速度,
Figure BDA0004069201950000064
为小腿关节的实时角速度;θ1、θ2可以在训练过程中帮助智能体实时判断当前是否有关节角度超出了关节限位(根据θ1和θ2的至设定阈值,并与当前关节角度进行对比),将在训练过程中严格禁止这种情况的发生。
对于单次跳跃来说,z′在跳跃上升阶段一直增大,到达最高点后机器人下落随之减小。定义Hsum为当前时刻距离地面的高度z′(t)与前一时刻距离地面的高度z′(t-1)差值的累加和,即整个episode的足部末端累计离地高度。之后只需对Hsum进行奖励,则智能体就可以逐渐意识到再次起跳可以带来更多的奖励,进而探索连续跳跃的可能。
Figure BDA0004069201950000071
z'(t)=zbase(t)-hbase-l(t)(7)
zbase(t)=hp-lbase(t)(8)
其中:z′(t)是足部末端当前时刻距离地面的高度,z′(t-1)是足部末端前一时刻距离地面的高度,zbase(t)为滑轨连接平台1上平面在当前时刻在世界坐标系下距离地面的高度,hbase为滑轨连接平台1上平面与大腿关节中心的距离(定值),l(t)为当前时刻的实时腿长,hp为滑轨架2最大有效行程(定值),lbase(t)为激光传感器测得的滑轨架2最大有效行程处与滑轨连接平台1上平面之间在当前时刻的直线距离;滑轨连接平台1、滑轨架2参见图4。
除[Hsum,z′,vbase]信息以外,其他观察空间信息
Figure BDA0004069201950000072
的更新频率均与底层控制器控制周期频率相同。此外,观察空间的每个信息在用于网络训练之前都进行了归一化处理。
(3)奖励函数
对于深度强化学习训练过程,设置合理的奖励函数能够帮助智能体提高学习效率并得到更理想的训练结果。本发明中,奖励函数包括与运动主要目相关的奖励项和惩罚项。
奖励项包含:机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励。第一项作为实时奖励引导机器人尽可能跳高以及探索连续跳跃;第二项作为阶段结算奖励,机器人每一次跳跃至最高点时Jump_Flag(跳跃标志位)变为True,并记录下当前是该episode中的第n次跳跃,随后Jump_Flag变为False,并且下一次跳跃至最高点之前保持维持;第三项为最终阶段奖励,当机器人在当前episode完成规定的跳跃次数后并且成功平稳落地,此时Success_Flag(成功标志位)变为True。惩罚项包含:惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时;前两项为实时惩罚,后两项为终止惩罚,当出现超出关节限位或者训练超时(超过一个episode规定的最大训练步长)的情况,此时Error_Flag(错误标志位)变为True,智能体会受到一个高额惩罚,同时立即结束当前训练。本发明中,将既定跳跃次数任务设置为三次,每当训练过程中出现Success_Flag为True或者Error_Flag为True,本次episode立即终止。
为了实现连续跳跃的目标,必须在每次跳跃高度和连续跳跃次数的奖励上做出权衡和取舍,这是因为如果前者所占权重更大,则会导致智能体盲目追求单次的跳跃高度,从而忽略连续成功跳跃将带来的更多的奖励;反之,如果后者给的奖励过大,智能体则可能只会采取保守的跳跃行为,得到较差的跳跃高度,盲目追求连续跳跃成功这一目标。很显然以上两种极端情况都是不合适的,奖励函数的具体内容可见下表:
表1奖励函数
Figure BDA0004069201950000081
其中:k1、k2、k3、k4、k5、k6均为系数,为经验值。
(4)网络结构及学习算法
算法中的actor和critic网络均有两个全连接隐藏层,根据动作空间和观察空间大小,第一层和第二层分别被设计为由64和32个节点组成,隐藏层之间的激活函数为ReLU。使用stable-baselines3开源的PPO算法,支持进行高效的并行训练,在并行线程中同时训练了64个智能体,极大的缩短了训练时间。为了能够更快、更好的完成训练任务,算法的超参数需要根据经验进行调整。
(5)缩小与现实的差距
现实差距是阻碍深度强化学习在机器人领域应用的主要因素。为了提高模拟到真实迁移的成功率,现有技术在这一方面做了大量的研究工作,如分析存在现实差距的潜在原因,利用系统识别、在仿真中使用精细测量的物理参数、建立准确的执行器模型和模拟系统延迟等方法,尽可能的减小仿真与现实之间的差距。在本发明的仿真环境中,将建立电机动力学模型,为观察空间信息添加环境高斯噪声,并对机器人物理参数设置域随机化,力求仿真的真实性与可靠性,同时使得训练出的控制器具备良好的鲁棒性能。其中添加环境高斯噪声和设置域随机化均为现有技术。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的单腿机器人连续跳跃控制方法,其特征在于:
将机器人动力学建模为虚拟弹簧-阻尼模型,根据机器人正运动学计算实时腿长,并将实时腿长与有限状态机中预设的目标腿长进行对比,判断是否进行跳跃阶段切换;
所述虚拟弹簧-阻尼模型根据当前跳跃阶段计算足部末端虚拟力,进而得到所需的关节力矩,控制机器人进行运动;
所述虚拟弹簧-阻尼模型中的刚度、阻尼由动作空间信息中的刚度系数和阻尼系数进行更新;
所述目标腿长包括跳跃腿长、飞行腿长和落地缓冲腿长,且有限状态机中预设的目标腿长根据如下方式进行更新:除第一次跳跃以外,满足实时腿长小于落地缓冲腿长时,更新跳跃腿长和飞行腿长;当机器人跳跃至最高点且绝对速度为0时,更新落地缓冲腿长;
所述动作空间信息为策略网络的输出,策略网络的输入为观察空间信息,且策略网络根据奖励数值以固定周期进行优化,所述奖励数值由机器人当前状态信息根据奖励函数计算。
2.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述动作空间信息为:虚拟弹簧-阻尼模型Z方向的刚度系数、阻尼系数,虚拟弹簧-阻尼模型X方向的刚度系数、阻尼系数,跳跃腿长、飞行腿长和落地腿长。
3.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述观察空间信息为:
Figure FDA0004069201940000011
Hsum是足部末端累计离地高度,z′是足部末端在世界坐标系下距离地面的高度,x是足部末端在机器人所定义坐标系中X方向的位置,vbase为机器人基体的绝对速度,θ1是机器人大腿与水平方向的夹角,θ2是机器人大腿与小腿之间的夹角,
Figure FDA0004069201940000012
为大腿关节的实时角速度,
Figure FDA0004069201940000013
为小腿关节的实时角速度。
4.根据权利要求3所述的单腿机器人连续跳跃控制方法,其特征在于,所述足部末端累计离地高度满足:
Figure FDA0004069201940000014
z'(t)=zbase(t)-hbase-l(t)
zbase(t)=hp-lbase(t)
其中:z′(t)是足部末端当前时刻距离地面的高度,z′(t-1)是足部末端前一时刻距离地面的高度,zbase(t)为滑轨连接平台上平面当前时刻在世界坐标系下距离地面的高度,hbase为滑轨连接平台上平面与大腿关节中心的距离,l(t)为当前时刻的实时腿长,hp为滑轨架最大有效行程,lbase(t)为滑轨架最大有效行程处与滑轨连接平台上平面之间在当前时刻的直线距离。
5.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述奖励函数包括奖励项和惩罚项,所述奖励项包括机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励,所述惩罚项包括惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时。
6.根据权利要求5所述的单腿机器人连续跳跃控制方法,其特征在于,所述奖励函数具体为:
空中跳跃姿态:k1*|x|;
累计离地高度:k2*Hsum
跳跃成功次数:k3*Jump_times*Jump_Flag;
能量损失:
Figure FDA0004069201940000021
是否完成目标:Success_Flag*k5+Error_Flag*k6
其中:k1、k2、k3、k4、k5、k6均为系数,x是X方向足部末端实际的位置,Jump_times表示跳跃次数,Jump_Flag表示跳跃标志位,τ1为机器人大腿关节所需关节力矩,τ2为机器人小腿关节所需关节力矩,
Figure FDA0004069201940000022
为大腿关节的实时角速度,
Figure FDA0004069201940000023
为小腿关节的实时角速度,Success_Flag表示成功标志位,Error_Flag表示错误标志位。
7.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述策略网络的全连接隐藏层第一层和第二层分别由64、32个节点组成。
8.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,所述观察空间信息在输入策略网络前添加环境噪声,所述环境噪声在仿真环境中添加。
9.根据权利要求1所述的单腿机器人连续跳跃控制方法,其特征在于,在仿真环境中,对机器人物理参数设置域随机化。
CN202310087358.1A 2023-02-09 2023-02-09 一种基于深度强化学习的单腿机器人连续跳跃控制方法 Active CN116062059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310087358.1A CN116062059B (zh) 2023-02-09 2023-02-09 一种基于深度强化学习的单腿机器人连续跳跃控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310087358.1A CN116062059B (zh) 2023-02-09 2023-02-09 一种基于深度强化学习的单腿机器人连续跳跃控制方法

Publications (2)

Publication Number Publication Date
CN116062059A true CN116062059A (zh) 2023-05-05
CN116062059B CN116062059B (zh) 2024-06-14

Family

ID=86174679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310087358.1A Active CN116062059B (zh) 2023-02-09 2023-02-09 一种基于深度强化学习的单腿机器人连续跳跃控制方法

Country Status (1)

Country Link
CN (1) CN116062059B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118567225A (zh) * 2024-05-08 2024-08-30 中船智海创新研究院有限公司 一种用于单腿机器人的跳跃控制模型构建方法
CN120065752A (zh) * 2025-04-25 2025-05-30 深圳逐际动力科技有限公司 机器人跳高台运动控制模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006064597A1 (ja) * 2004-12-14 2006-06-22 Honda Motor Co., Ltd. 脚式移動ロボットおよびその制御プログラム
CN110919656A (zh) * 2019-12-06 2020-03-27 北京理工大学 一种基于slip的并联腿足机器人运动控制方法及系统
CN113283116A (zh) * 2021-06-16 2021-08-20 北京理工大学 多信息融合的人体运动分析方法和装置
CN114397810A (zh) * 2022-01-17 2022-04-26 厦门大学 基于自适应虚拟模型控制的四足机器人运动控制方法
CN114578836A (zh) * 2022-02-11 2022-06-03 中国北方车辆研究所 一种双轮足机器人跳跃控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006064597A1 (ja) * 2004-12-14 2006-06-22 Honda Motor Co., Ltd. 脚式移動ロボットおよびその制御プログラム
CN110919656A (zh) * 2019-12-06 2020-03-27 北京理工大学 一种基于slip的并联腿足机器人运动控制方法及系统
CN113283116A (zh) * 2021-06-16 2021-08-20 北京理工大学 多信息融合的人体运动分析方法和装置
CN114397810A (zh) * 2022-01-17 2022-04-26 厦门大学 基于自适应虚拟模型控制的四足机器人运动控制方法
CN114578836A (zh) * 2022-02-11 2022-06-03 中国北方车辆研究所 一种双轮足机器人跳跃控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左国玉;刘旭;: "基于弹簧负载倒立摆模型的仿袋鼠机器人稳定跳跃控制", 控制理论与应用, no. 08, 15 June 2018 (2018-06-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118567225A (zh) * 2024-05-08 2024-08-30 中船智海创新研究院有限公司 一种用于单腿机器人的跳跃控制模型构建方法
CN120065752A (zh) * 2025-04-25 2025-05-30 深圳逐际动力科技有限公司 机器人跳高台运动控制模型训练方法及装置
CN120065752B (zh) * 2025-04-25 2025-09-02 深圳逐际动力科技有限公司 机器人跳高台运动控制模型训练方法及装置

Also Published As

Publication number Publication date
CN116062059B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN110764416A (zh) 基于深度q网络的仿人机器人步态优化控制方法
CN114995479B (zh) 一种基于强化学习的四足机器人虚拟模型控制器的参数控制方法
JP5836565B2 (ja) モーションキャプチャデータを模倣するロボットの追跡及びバランス維持システム及び方法
CN108549237A (zh) 基于深度增强学习的预观控制仿人机器人步态规划方法
CN106078752A (zh) 一种基于Kinect的仿人机器人人体行为模仿方法
CN116062059A (zh) 一种基于深度强化学习的单腿机器人连续跳跃控制方法
CN108897220B (zh) 一种自适应稳定平衡控制方法和系统以及双足仿人机器人
CN111625002A (zh) 一种仿人机器人爬楼步态规划与控制的方法
CN118012077B (zh) 基于强化学习动作模仿的四足机器人运动控制方法及系统
CN116237943A (zh) 一种结合地形约束的四足机器人控制方法
CN118682750A (zh) 基于在线质心轨迹优化的人形机器人高动态跳跃运动控制方法
CN115157247B (zh) 一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法
CN118579173A (zh) 仿生双足机器人平衡控制方法及人形机器人系统
CN112327899A (zh) 一种可变构型的四足机器人运动控制方法及系统
US20250326451A1 (en) Control method and apparatus for robot, device, and storage medium
CN117631547B (zh) 一种小天体不规则弱引力场下的四足机器人着陆控制方法
Hyon et al. Back handspring of a multi-link gymnastic robot—Reference model approach
Xiao et al. Multi-objective optimization design method for the dimensions and control parameters of curling hexapod robot based on application performance
Oh et al. Humanoid whole-body remote-control framework with delayed reference generator for imitating human motion
Son et al. Generation of adaptive gait patterns for quadruped robot with CPG network including motor dynamic model
CN118759864A (zh) 人形机器人腿部自主运动规划方法
CN106647334B (zh) 一种仿人腿的膝踝刚度匹配方法
Henmi et al. Reproduction of swing-up and giant swing motion of Acrobot based on a technique of the horizontal bar gymnast
Dong et al. A DMP-based online adaptive stiffness adjustment method
CN117311271A (zh) 基于先验知识的深度强化学习机器人运动控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant