CN116062059A

CN116062059A - 一种基于深度强化学习的单腿机器人连续跳跃控制方法

Info

Publication number: CN116062059A
Application number: CN202310087358.1A
Authority: CN
Inventors: 明爱国; 孙能祥; 孟非; 顾赛; 刘伯韬; 黄强
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-05
Anticipated expiration: 2043-02-09
Also published as: CN116062059B

Abstract

本发明公开了一种基于深度强化学习的单腿机器人连续跳跃控制方法，根据机器人正运动学计算实时腿长，并将实时腿长与有限状态机中预设的目标腿长进行对比，判断是否进行跳跃阶段切换；虚拟弹簧‑阻尼模根据当前跳跃阶段计算足部末端虚拟力，进而得到所需的关节力矩，控制机器人进行运动；虚拟弹簧‑阻尼模型中的刚度、阻尼由策略网络的输出——动作空间信息进行更新，有限状态机中预设的目标腿长根据算法中的相应设置进行更新，且策略网络根据奖励数值以固定周期进行优化。本发明方法避免人工设计的控制器存在的繁琐且低效的参数调优过程，实现机器人实时根据自身运动情况在线自主决策有实时变化需求的运动因素。

Description

一种基于深度强化学习的单腿机器人连续跳跃控制方法

技术领域

本发明属于机器人控制技术领域，具体涉及一种基于深度强化学习的单腿机器人连续跳跃控制方法。

背景技术

对于腿足式机器人，在环境中能够克服大间隙和高平台的跳跃能力是至关重要的。跳跃的特点是瞬时力大、力变化速度快、持续时间短。据生物力学家研究表明，生物个体能够达到的最大跳跃高度取决于其下肢的三个力学特征：能产生的最大的力、最大的伸展速度以及伸展范围。因此，在机器人跳跃的过程中合理控制和规划这三个力学特征，对于充分挖掘其跳跃能力是至关重要的。此外，动物在奔跑时可以通过调节腿部骨骼肌系统的刚度，将身体的重力和动能转化为应变能，以适应落地带来的冲击并重新加速自己的身体，使其运动变得更加灵活和稳健。对于连续跳跃运动，机器人的落地缓冲过程将直接决定其再次跳跃的高度和稳定性，而动物这种“可调节刚度”的思想为更好的处理机器人落地缓冲过程提供了新的思路。

目前针对单腿机器人连续跳跃的控制方法，或是建模计算较为复杂难以在控制器上实时实现，或是控制模型为人工设计需要经过繁琐且低效的人工调参，存在一定的局限性。虽然一些研究已经尝试将刚度、腿长等与跳跃运动直接相关的因素作为可变因素应用于连续跳跃研究，但相关工作均存在于条件理想的仿真之中，缺乏相应的实验验证。

发明内容

针对现有技术中存在不足，本发明提供了一种基于深度强化学习的单腿机器人连续跳跃控制方法，在VMC(虚拟模型控制)方法的理论基础上，充分考虑连续跳跃运动中有实时变化需求的运动因素，通过使用DRL(深度强化学习)训练单腿机器人运动控制器，提出了一种动态跳跃自适应学习框架，仿真训练出的策略可直接部署至实物单腿机器人平台，实现稳定且跳跃高度理想的连续跳跃运动。

本发明是通过以下技术手段实现上述技术目的。

一种基于深度强化学习的单腿机器人连续跳跃控制方法：

将机器人动力学建模为虚拟弹簧-阻尼模型，根据机器人正运动学计算实时腿长，并将实时腿长与有限状态机中预设的目标腿长进行对比，判断是否进行跳跃阶段切换；

所述虚拟弹簧-阻尼模根据当前跳跃阶段计算足部末端虚拟力，进而得到所需的关节力矩，控制机器人进行运动；

所述虚拟弹簧-阻尼模型中的刚度、阻尼由动作空间信息中的刚度系数和阻尼系数进行更新；

所述目标腿长包括跳跃腿长、飞行腿长和落地缓冲腿长，且有限状态机中预设的目标腿长根据如下方式进行更新：除第一次跳跃以外，满足实时腿长小于落地缓冲腿长时，更新跳跃腿长和飞行腿长；当机器人跳跃至最高点且绝对速度为0时，更新落地缓冲腿长；

所述动作空间信息为策略网络的输出，策略网络的输入为观察空间信息，且策略网络根据奖励数值以固定周期进行优化，所述奖励数值由机器人当前状态信息根据奖励函数计算。

进一步的技术方案，所述动作空间信息为：虚拟弹簧-阻尼模型Z方向的刚度系数、阻尼系数，虚拟弹簧-阻尼模型X方向的刚度系数、阻尼系数，跳跃腿长、飞行腿长和落地腿长。

进一步的技术方案，所述观察空间信息为：

H_sum是足部末端累计离地高度，z′是足部末端在世界坐标系下距离地面的高度，x是X方向足部末端实际的位置，v_base为机器人基体的绝对速度，θ₁是机器人大腿与水平方向的夹角，θ₂是机器人大腿与小腿之间的夹角，

为大腿关节的实时角速度，

为小腿关节的实时角速度。

更进一步的技术方案，所述足部末端累计离地高度满足：

z'(t)＝z_base(t)-h_base-l(t)

z_base(t)＝h_p-l_base(t)

其中：z′(t)是足部末端当前时刻距离地面的高度，z′(t-1)是足部末端前一时刻距离地面的高度，z_base(t)为滑轨连接平台上平面当前时刻在世界坐标系下距离地面的高度，h_base为滑轨连接平台上平面与大腿关节中心的距离，l(t)为当前时刻的实时腿长，h_p为滑轨架最大有效行程，l_base(t)为滑轨架最大有效行程处与滑轨连接平台上平面之间在当前时刻的直线距离。

进一步的技术方案，所述奖励函数包括奖励项和惩罚项，所述奖励项包括机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励，所述惩罚项包括惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时。

更进一步的技术方案，所述奖励函数具体为：

空中跳跃姿态：k₁*|x|；

累计离地高度：k₂*H_sum；

跳跃成功次数：k₃*Jump_times*Jump_Flag；

能量损失：

是否完成目标：Success_Flag*k₅+Error_Flag*k₆；

其中：k₁、k₂、k₃、k₄、k₅、k₆均为系数，x是X方向足部末端实际的位置，Jump_times表示跳跃次数，Jump_Flag表示跳跃标志位，τ₁为机器人大腿关节所需关节力矩，τ₂为机器人小腿关节所需关节力矩，

为大腿关节的实时角速度，

为小腿关节的实时角速度，Success_Flag表示成功标志位，Error_Flag表示错误标志位。

进一步的技术方案，所述策略网络的全连接隐藏层第一层和第二层分别由64、32个节点组成。

进一步的技术方案，所述观察空间信息在输入策略网络前添加环境噪声，所述环境噪声在仿真环境中添加。

进一步的技术方案，在仿真环境中，对机器人物理参数设置域随机化。

本发明的有益效果为：

(1)本发明的基于深度强化学习的单腿机器人连续跳跃控制方法，将虚拟模型控制和深度强化学习结合，避免单独使用虚拟模型控制时，人工设计的控制器存在的繁琐且低效的参数调优过程；

(2)本发明针对机器人连续跳跃任务，对观察空间的部分信息进行特征工程处理实现训练过程的快速收敛；

(3)本发明策略网络输入的观察空间信息包括足部末端累计离地高度、足部末端在世界坐标系下距离地面的高度、X方向足部末端实际的位置、机器人基体的绝对速度、机器人大腿与水平方向的夹角、机器人大腿与小腿之间的夹角、大腿关节和小腿关节的实时角速度，使其可实时根据运动情况以固定周期输出可变的刚度、阻尼以及目标腿长，充分发挥其自身的动态性能，赋予了机器人自主决策的能力。

附图说明

图1为本发明所述单腿机器人的简化腿模型以及对应虚拟弹簧-阻尼模型系统图；

图2为本发明所述单腿机器人有限状态机切换示意图；

图3为本发明所述高动态跳跃自适应学习框架示意图；

图4为本发明所述单腿机器人安装示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

一、术语解释

虚拟模型控制(Virtual Model Control，VMC)是一种模拟虚拟部件以生成所需的关节扭矩的运动控制框架，这种虚拟模型控制方法使用对虚拟机械部件的模仿产生真正的执行力矩(或力)，这些虚拟机械部件可以包括线性弹簧、阻尼、质量块或任何其他可能的物理元件。虚拟模型控制分为上层控制器和底层控制器，其中上层控制器可以设计为一个状态机，只需要简单地改变虚拟机械部件连接方式或部件参数，就能实现虚拟状态转换。在使用该虚拟模型控制方法应用于单腿机器人连续跳跃场景时，通常只需设定虚拟弹簧原长的参数，机器人被会按照“提示”和“建议”去运动。

深度强化学习(deep reinforcement learning，DRL)是深度神经网络(DNNs)在强化学习策略上的应用。DNNs近似的策略可以对相似的输入产生相似的输出，使得该策略对各种情况具有鲁棒性。通过使用深度强化学习，研究者可以无需对机器人工作环境进行精确建模，机器人在没有任何系统先验信息的情况下，经过大量仿真训练获得运动策略，且没有硬件损坏的风险。此外，可以通过在训练过程中使用域随机化、添加环境噪声、动力学参数随机化等方法来训练控制器的鲁棒性，以便于将仿真训练出的策略直接迁移至实物机器人，无需在物理系统上进一步训练。

二、建立基础的单腿机器人二维虚拟弹簧-阻尼模型

根据图1，可以得到机器人足部末端C在所定义的坐标系内的位置(x,z)以及雅可比矩阵J：

其中：θ₁表示机器人大腿与水平方向的夹角，θ₂表示机器人大腿与小腿之间的夹角，L₁表示机器人大腿的长度，L₂表示机器人小腿的长度；

单腿机器人的足部末端力被用来模拟一个二维虚拟弹簧-阻尼系统，沿X、Z方向分别布置一个虚拟弹簧和阻尼以保证机器人二自由度的运动控制；基于足部末端位置误差和速度误差分别计算出足部末端的Z方向虚拟力F_z、X方向虚拟力F_x：

其中，k_z为Z方向虚拟弹簧-阻尼模型的刚度系数，k_x为X方向虚拟-阻尼模型的刚度系数，c_z为Z方向虚拟弹簧-阻尼模型的阻尼系数，c_x为X方向虚拟弹簧-阻尼模型的阻尼系数，z_t为Z方向足部末端的建议目标位置，x_t为X方向足部末端的建议目标位置，x为X方向足部末端实际的位置，z为Z方向足部末端实际的位置，v_x为X方向足部末端实际的速度，v_z为Z方向足部末端实际的速度；

然后，利用机器人的雅克比矩阵J计算出产生该足部末端力所需的关节力矩：

其中：τ₁为机器人大腿关节所需关节力矩，τ₂为机器人小腿关节所需关节力矩。

图1中，M为滑轨连接平台的质量，I₁为机器人大腿惯量，m₁为机器人大腿质量，I₂为机器人小腿惯量，m₂为机器人小腿质量。

三、建立跳跃阶段切换的有限状态机

在单腿机器人的连续跳跃过程中，每一周期可划分为三个状态：跳跃相、飞行相、落地缓冲相，参见图2。机器人在地面反作用力(GRF)f_x、f_z的作用下达到跳跃腿长l_j实现起跳，在空中维持固定的飞行腿长l_f，当落地过程中实时腿长小于落地缓冲腿长l_td时再次进行起跳。由于这三个状态具有连续且不可逆性，在有限状态机中以实时腿长与当前阶段目标腿长的大小关系作为判断依据进行虚拟机械部件切换，切换后机器人会按照下一阶段的目标位置(x_t,z_t)进行运动。水平方向的位置x_t始终为0，竖直方向的位置z_t随三个不同的跳跃阶段进行切换。

四、建立动态跳跃自适应学习框架

VMC将机器人动力学建模为虚拟弹簧-阻尼模型，使用人工设计的控制器对机器人运动过程进行控制。然而，对于人工设计的控制器，存在繁琐且低效的参数调优过程，无法根据机器人的硬件配置情况来充分发挥其自身的动态性能；与此同时，对于机器人连续跳跃这种高动态、多阶段运动，能够实现实时在线自主决策当前虚拟弹簧-阻尼模型的刚度、阻尼以及下一阶段的目标腿长是较为理想的。

在仿生学理论的启发下，通过使用深度强化学习的PPO算法，对于人工设计的控制器存在的局限性以及结合可能影响腿足式机器人跳跃高度及稳定性的因素(即跳跃的三个力学特征和动物骨骼肌的可调节刚度思想)，本发明提出一种动态跳跃自适应学习框架(图3，图中带阴影部分的模块将只在仿真中出现)，在实现期望跳跃次数和理想的单次跳跃高度的前提下，尽可能减少过程中非必要的能量消耗，实现对连续跳跃运动的控制。在单腿机器人被建模为虚拟弹簧-阻尼模型且根据实时腿长进行阶段切换的基础上，该自适应学习架构允许每一阶段的弹簧刚度、阻尼以及各阶段目标腿长在一定范围内实时变化以匹配当前的机器人运动状态，每当机器人运动过程中出现被禁止的行为或是完成规定的期望跳跃次数，则环境重置开始下一个episode探索。

(1)动作空间

在本发明的研究问题中，actions(智能体输出的动作)不同与以往文献中提到的直接控制腿足式机器人本体运动的控制量，如：关节力矩、关节或末端执行器参考位置等。为了能尽可能减少智能体的无效探索，同时又能实现虚拟弹簧-阻尼模型的刚度、阻尼以及目标腿长的实时可变，在一定的工程经验基础上，人为给定各个动作的范围。动作空间被定义为：虚拟弹簧Z方向的刚度系数[k_{j_z},k_{f_z}]、阻尼系数[c_{j_z},c_{f_z}]，X方向的刚度系数[k_{j_x},k_{f_x}]、阻尼系数[c_{j_x},c_{f_x}]，跳跃腿长l_j、飞行腿长l_f和落地腿长l_td，上述参数在训练中的更新频率为50Hz。

为了尽可能提升每次跳跃的高度以及稳定性，机器人在每次跳跃开始前选定[l_j,l_f]，决定本次跳跃离地时的跳跃腿长和离地之后的飞行腿长；受到人和动物会在跳下高处时思考如何落地的启发，设置机器人在每次跳跃达到最高点时选定l_td，即决定本次跳跃触地后的落地缓冲腿长；当机器人落地过程中实时腿长小于落地缓冲腿长时，机器人准备再次起跳。

(2)观察空间及特征工程处理

在数据分析中，通常会通过对输入数据进行适当的特征预处理，减少神经网络对其他模块的拟合压力，从而提高模型的性能加快训练过程，这种方法即特征工程。

针对于连续跳跃任务，为了能进一步加快任务的奖励收敛，对观察空间的部分重要信息进行了特征工程处理。本发明中，智能体的观察空间被定义为

每个epiosde的每一时刻足部末端在世界坐标系的竖直方向位置都会被记录，足部末端在世界坐标系下距离地面的高度z′是由当前腿长l与机器人基体实时位置z_base计算得到，z_base由激光测距仪测得，周期为5ms；v_base为机器人基体的绝对速度，可由机器人基体实时位置z_base微分得到，它和z′一起用于帮助机器人判断到达运动最高点并获取此时的足部末端离地高度，从而由智能体决策出更合适的l_td；

为大腿关节的实时角速度，

为小腿关节的实时角速度；θ₁、θ₂可以在训练过程中帮助智能体实时判断当前是否有关节角度超出了关节限位(根据θ₁和θ₂的至设定阈值，并与当前关节角度进行对比)，将在训练过程中严格禁止这种情况的发生。

对于单次跳跃来说，z′在跳跃上升阶段一直增大，到达最高点后机器人下落随之减小。定义H_sum为当前时刻距离地面的高度z′(t)与前一时刻距离地面的高度z′(t-1)差值的累加和，即整个episode的足部末端累计离地高度。之后只需对H_sum进行奖励，则智能体就可以逐渐意识到再次起跳可以带来更多的奖励，进而探索连续跳跃的可能。

z'(t)＝z_base(t)-h_base-l(t)(7)

z_base(t)＝h_p-l_base(t)(8)

其中：z′(t)是足部末端当前时刻距离地面的高度，z′(t-1)是足部末端前一时刻距离地面的高度,z_base(t)为滑轨连接平台1上平面在当前时刻在世界坐标系下距离地面的高度，h_base为滑轨连接平台1上平面与大腿关节中心的距离(定值)，l(t)为当前时刻的实时腿长，h_p为滑轨架2最大有效行程(定值)，l_base(t)为激光传感器测得的滑轨架2最大有效行程处与滑轨连接平台1上平面之间在当前时刻的直线距离；滑轨连接平台1、滑轨架2参见图4。

除[H_sum,z′,v_base]信息以外，其他观察空间信息

的更新频率均与底层控制器控制周期频率相同。此外，观察空间的每个信息在用于网络训练之前都进行了归一化处理。

(3)奖励函数

对于深度强化学习训练过程，设置合理的奖励函数能够帮助智能体提高学习效率并得到更理想的训练结果。本发明中，奖励函数包括与运动主要目相关的奖励项和惩罚项。

奖励项包含：机器人足端累计离地高度奖励、连续成功跳跃次数奖励以及完成既定跳跃次数任务奖励。第一项作为实时奖励引导机器人尽可能跳高以及探索连续跳跃；第二项作为阶段结算奖励，机器人每一次跳跃至最高点时Jump_Flag(跳跃标志位)变为True，并记录下当前是该episode中的第n次跳跃，随后Jump_Flag变为False，并且下一次跳跃至最高点之前保持维持；第三项为最终阶段奖励，当机器人在当前episode完成规定的跳跃次数后并且成功平稳落地，此时Success_Flag(成功标志位)变为True。惩罚项包含：惩罚机器人空中跳跃姿态足部末端水平方向不稳定、惩罚关节高耗能、惩罚关节超出限位以及训练超时；前两项为实时惩罚，后两项为终止惩罚，当出现超出关节限位或者训练超时(超过一个episode规定的最大训练步长)的情况，此时Error_Flag(错误标志位)变为True，智能体会受到一个高额惩罚，同时立即结束当前训练。本发明中，将既定跳跃次数任务设置为三次，每当训练过程中出现Success_Flag为True或者Error_Flag为True，本次episode立即终止。

为了实现连续跳跃的目标，必须在每次跳跃高度和连续跳跃次数的奖励上做出权衡和取舍，这是因为如果前者所占权重更大，则会导致智能体盲目追求单次的跳跃高度，从而忽略连续成功跳跃将带来的更多的奖励；反之，如果后者给的奖励过大，智能体则可能只会采取保守的跳跃行为，得到较差的跳跃高度，盲目追求连续跳跃成功这一目标。很显然以上两种极端情况都是不合适的，奖励函数的具体内容可见下表：

表1奖励函数

其中：k₁、k₂、k₃、k₄、k₅、k₆均为系数，为经验值。

(4)网络结构及学习算法

算法中的actor和critic网络均有两个全连接隐藏层，根据动作空间和观察空间大小，第一层和第二层分别被设计为由64和32个节点组成，隐藏层之间的激活函数为ReLU。使用stable-baselines3开源的PPO算法，支持进行高效的并行训练，在并行线程中同时训练了64个智能体，极大的缩短了训练时间。为了能够更快、更好的完成训练任务，算法的超参数需要根据经验进行调整。

(5)缩小与现实的差距

现实差距是阻碍深度强化学习在机器人领域应用的主要因素。为了提高模拟到真实迁移的成功率，现有技术在这一方面做了大量的研究工作，如分析存在现实差距的潜在原因，利用系统识别、在仿真中使用精细测量的物理参数、建立准确的执行器模型和模拟系统延迟等方法，尽可能的减小仿真与现实之间的差距。在本发明的仿真环境中，将建立电机动力学模型，为观察空间信息添加环境高斯噪声，并对机器人物理参数设置域随机化，力求仿真的真实性与可靠性，同时使得训练出的控制器具备良好的鲁棒性能。其中添加环境高斯噪声和设置域随机化均为现有技术。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。