CN118355336A

CN118355336A - 学习过程中鲁棒反馈控制的多面体策略优化的系统和方法

Info

Publication number: CN118355336A
Application number: CN202280080844.4A
Authority: CN
Inventors: D·贾; A·查克拉巴尔蒂
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-12-10
Filing date: 2022-09-09
Publication date: 2024-07-16
Also published as: US20230185254A1; US12124230B2; WO2023105879A1; JP7749145B2; JP2024541746A; EP4302245A1

Abstract

提供了一种用于通过学习系统的动力学来生成控制系统的策略的控制器。控制器被配置为执行以下步骤：从设置在系统上的传感器获取测量数据；向存储器提供由系统的动力学的已知部分和系统的动力学的未知部分表示的非线性系统模型；通过基于标称策略和关于状态的噪声项使用系统的传感器测量系统的动力学来收集系统的状态；通过收集系统的数据来估计控制输入的集合和系统的状态的集合的序列，其中，数据包括系统状态、应用的控制输入和系统状态的变化的集合，其中，控制输入中的每个通过标称策略和附加噪声项计算；利用收集到的系统的数据学习多面体系统，以用于利用线性概率回归模型近似系统的动力学的未知部分；通过对在终端状态的邻域内的初始状态进行采样并通过监督学习估计终端控制器的吸引子盆来估计吸引子盆；以及利用估计的多面体系统生成多面体策略，以将系统从初始状态驱动到终端控制器的吸引子盆。

Description

学习过程中鲁棒反馈控制的多面体策略优化的系统和方法

技术领域

本发明总体上涉及系统控制，并且更具体地，涉及在学习过程中用于具有部分已知动力学的系统的鲁棒优化和反馈控制的方法和设备。

背景技术

虽然机器学习和人工智能领域在过去十年中取得了突破性的进步，但这些技术在物理或机器人系统中的应用有限。例如，大多数机器人系统仍然使用经典的基于模型的方法来控制复杂的过程。这可以归因于表征大多数现有学习方法的一些不希望出现的特征，如缺乏鲁棒性或样本效率差。在学习过程中保证物理系统的控制的鲁棒性是很重要的，因为精确表示物理动力学的(学习)模型很少。

强化学习(RL)是一种解决顺序决策问题的学习框架，其中“代理”或决策者通过与通常未知的环境交互来学习策略以优化长期奖励。在每次迭代或时间步长中，RL代理获得关于其动作的长期性能的评估反馈(称为奖励或成本)，使其能够改进后续动作的性能。

无模型强化学习(RL)方法由于其无需复杂的动力学模型即可构建控制策略的能力而广为普及。然而，大多数无模型RL算法不能包含关键的系统特性，如对外源干扰的鲁棒性或甚至渐近稳定性。相反，可以逐渐灌输这些期望的特性的基于模型的RL(MBRL)严重依赖底层的动力学模型，并且当模型不匹配很大时，表现出较差的性能，有时甚至导致灾难性的故障。这个问题与其中了解真正的动力学非常困难的许多不同的场景非常相关。这适用于其中机器人被认为应该在运行期间与新对象进行交互并且因此不能有交互的先验模型的许多机器人系统。

在MBRL技术的策略优化阶段，优化方法应允许在学习模型中加入不确定性，并确保所得到的控制器针对部分已知系统的控制的鲁棒性。这通常很难实现。这是需要了解和表示系统动力学中存在的不确定性以及在策略优化步骤中开发不确定性的问题。然而，在机器人、自动驾驶等领域中，学习控制器的许多应用都需要这一点。

大多数基于学习的控制器设计的技术在系统上实现时都存在性能不佳的问题，因为在学习过程中不能以原则性的方式保证系统收敛到期望的系统状态。在非线性系统的稳定控制器的设计中的现有工作曾使用控制器的吸引盆(或吸引域)的概念来保证非线性系统的收敛和稳定性。例如参见Tedrake,Russ等人所著“LQR-trees:Feedback motionplanning via sums-of-squares verification(LQR树：通过平方和验证进行的反馈运动规划)”国际机器人研究杂志29.8(2010):1038-1052。由于习得模型中的不确定性，在学习阶段期间计算非线性控制器的吸引域是不可行的。然而，可能不需要设计吸引域来覆盖机器人的整个状态空间。设计具有已知吸引域的终端控制器可能就足够了。然后将控制问题分解为将系统鲁棒移动到终端控制器的吸引子盆中的任务，于是终端控制器可以将系统状态调节到期望的终端状态。

利用这样的理解，可以设计能够在控制器设计过程中包含系统动力学不确定性并可靠地将系统从初始状态移动到终端控制器的吸引子盆的控制器是很重要的。然而，在控制器设计过程中包含不确定性要求人们应该能够以适合控制器计算的方式估计并表示不确定性。

为了保证动力学系统总是收敛到期望的终端状态，我们需要设计终端控制器，其保证在系统到达系统的终端盆时，将系统调节到期望的终端状态。非线性系统的控制器的吸引子盆的估计无论从计算上还是从算法上通常都是非常困难的问题。然而，有效地估计控制器的吸引子盆可以允许我们快速地稳定和学习期望的行为。

因此，需要可以在模型学习过程中开发不确定性的适当表示并设计控制器来在学习过程中鲁棒地控制系统以获得期望的性能的鲁棒策略优化和控制器设计技术。

发明内容

一些实施方式的目的是提供在学习过程中针对具有部分已知动力学的系统的数据驱动的控制策略鲁棒优化的系统和方法。另外地或另选地，一些实施方式的目的是提供可以学习部分已知系统的不确定性的多边形表示的这样的系统和方法。另外地或另选地，一些实施方式的目的是提供一种可以使用具有局部稳定性保证的多面体不确定性表示进行鲁棒优化来计算鲁棒多面体控制器的系统和方法。另外地或另选地，一些实施方式的目的是提供一种能够学习针对底层系统的终端控制器的吸引域的系统和方法。另外地或另选地，一些实施方式的目的是提供一种在终端控制器的吸引域中使用终端控制器并且在其他地方使用多面体控制器来控制底层动力学系统的系统和方法。

本公开的一些实施方式提供了一种新的鲁棒策略优化机制，其可以通过学习残差(真实动力学的未建模分量)系统可能存在于的多面体来解决模型不匹配问题。这种基于贝叶斯回归的残差动力学的多面体过度近似，使得通过求解可处理的半确定规划(SDP)来构建鲁棒策略成为可能。

根据本公开的一些实施方式，提供了一种新的计算机实现方法，用于通过使用直接从数据中学习的贝叶斯多面体表示模型不确定性来学习基于模型的强化学习的鲁棒策略。该方法的算法允许满足输入和状态约束。进一步地，在习得的贝叶斯多面体的假设下，将该新方法安排成具有局部稳定性保证的多面体控制器中。作为设计鲁棒多面体控制器的一个示例，本公开描述了估计终端控制器的接取池，从而获得更好的数据效率和保证的稳定性。

该抛出策略是从系统输出数据中学习的，其作用是将系统动力学传播到指定的目标状态。在目标状态处，我们采用接取策略并利用监督式学习来估计相应的接取池，在该接取池内任何状态都保证(以高概率)能够稳定至目标状态。因此，当抛出策略将状态驱动到该接取池内时，接取策略将系统驱动到目标状态。我们的方法的一个主要优点是我们还可以加入状态和输入约束。所提出的算法在倒立摆和欠驱动机器人系统上进行验证。

一些实施方式是基于这样的认识，即，系统的动力学模型的不准确性会导致用于设计动力学系统的控制器的动力学系统的预测中的复合误差。为了以不准确的动力学模型获得期望的动力学系统的行为，通常需要量化不准确性，并且然后在控制器设计中使用不准确性的估计，以便能够在运行期间补偿这些不准确性。

当前公开的一些实施方式基于这样的认识，即，对于大多数物理模型，预测模型可以使用领域知识而可用或可以使用物理引擎创建。这些模型通常是不准确的，并且与真实系统的物理观测结果不完全匹配。然而，这些模型可以用来计算控制真实系统的初始控制器。一些实施方式基于这样的认识，即，这样的控制器将导致真实系统上的性能较差，但可以用于从真实系统收集数据。然后，该数据可以用来改进针对真实系统的预测模型。

当前公开的一些实施方式基于这样的认识，即，使用控制器从真实系统收集的数据可以用于计算真实系统与系统的模型之间的观测值之间的差异。可以使用机器学习模型从收集的数据学习真实系统与系统的已知模型之间的差异。当前公开的一些实施方式基于这样的认识，即，可以使用针对同一者的不同表示以不同的方式量化机器学习模型的不确定性。

当前公开的一些实施方式基于这样的认识，即，使用不确定性的线性表示或多面体表示可以允许我们使用来自半确定规划(SDP)的工具来设计针对具有已知不确定性的动力学模型的鲁棒反馈控制器。这样的鲁棒控制器可以在保证对模型不确定性的局部鲁棒性的情况下被设计。当前公开的一些实施方式基于这样的认识，即，可以使用线性贝叶斯优化和贝叶斯回归方法的针对预测的预定义置信区间来获得习得模型中不确定性的多面体表示。

本公开的一些实施方式基于这样的认识，即，可能不能在系统无法到达的状态空间的部分中纠正系统的动力学模型。在实现计算的控制轨迹时，观测状态与计算的标称轨迹之间的误差随着轨迹的范围增加而增加。因此，系统永远不会访问期望的终端状态的邻域。一些实施方式基于这样的认识，并且因此我们设计了一种终端控制器，一旦系统进入终端控制器的吸引子盆，该终端控制器将系统状态调节到期望的系统状态到终端状态。

本公开的一些实施方式基于这样的认识，即，大多数动力学系统将需要稳定的终端控制器，以确保动力学系统可以被调节并保持在系统的期望的终端状态。然而，除了终端控制器外，还需要估计终端控制器的其中终端控制器保证稳定的吸引子盆。本公开的一些实施方式基于这样的认识，即，根据系统的终端状态的模型是否已知，可以使用无模型或基于模型的方式来设计用于动力学系统的终端控制器。如果终端状态的模型是未知的，终端控制器也可以使用无模型方法，如比例、积分和导数(PID)控制器，来进行计算。

本公开的一些实施方式基于这样的认识，即，终端控制器的吸引子盆可以通过从终端状态周围的邻域采样状态并训练分类器来预测采样状态是否可以调节到期望的终端状态来进行估计。这种学习过程可以通过首先在终端状态的邻域中采样状态，并且然后观察系统的向期望终端状态的稳态收敛行为来设计。在收集数据和从初始状态的收敛标记之后，分类器可以被训练为预测从任何初始状态的收敛性，从而提供对终端控制器的吸引子盆的估计。

本公开的一些实施方式基于这样的认识，即，最终控制器设计使用鲁棒的、基于SDP的控制器将系统状态推送到控制器的吸引子盆，并且然后使用由习得的分类器预测的终端控制器。

根据本发明的一些实施方式，提供了一种控制器，以用于通过学习系统的动力学来生成控制系统的策略。所述控制器可以包括：接口控制器，该接口控制器被配置为从设置在所述系统上的传感器获取测量数据；至少一个处理器；以及具有计算机实现的指令存储在其上的存储器，该计算机实现的指令包括模型学习模块和策略学习模块，当由所述至少一个处理器执行时，所述计算机实现的指令使所述控制器执行以下步骤：向所述存储器提供由系统的动力学的已知部分和系统的动力学的未知部分表示的非线性系统模型；通过基于标称策略和关于状态的噪声项使用系统传感器测量系统的动力学来收集系统的状态；通过收集系统的数据来估计控制输入的集合和系统的状态的集合的序列，其中，数据包括系统状态、应用的控制输入和系统状态变化的集合，其中，每个控制输入通过标称策略和附加噪声项计算；利用收集到的系统的数据学习多面体系统，以用于利用线性概率回归模型近似系统的动力学的未知部分；通过在终端状态的邻域内采样初始状态并通过监督学习估计吸引子盆来估计终端控制器的吸引子盆；以及利用估计的多面体系统生成多面体策略，以将系统从初始状态驱动到终端控制器的吸引子盆。

进一步地，根据一些实施方式，提供了一种计算机实现的方法，以用于通过学习系统的动力学来生成控制系统的策略。基于计算机实现的方法要执行的步骤包括：从设置在所述系统上的传感器获取测量数据；向存储器提供由系统的动力学的已知部分和系统的动力学的未知部分表示的非线性系统模型；通过基于标称策略和关于状态的噪声项使用系统的传感器测量系统的动力学来收集系统的状态；通过收集系统的数据来估计控制输入的集合和系统的状态的集合和序列，其中，数据包括系统状态、应用的控制输入和系统状态的变化的集合，其中，每个控制输入通过标称策略和附加的噪声项计算；利用收集到的系统的数据学习多面体系统，以用于利用线性概率回归模型近似系统的动力学的未知部分；通过在终端状态的邻域内采样初始状态并通过监督学习估计吸引子盆来估计终端控制器的吸引子盆；以及利用估计的多面体系统生成多面体策略，以将系统从初始状态驱动到终端控制器的吸引子盆。

将参照附图进一步解释当前公开的实施方式。所示出的附图不一定是按比例绘制的，而是通常将重点放在说明当前公开的实施方式的原理上。

附图说明

[图1A]

图1A示出了根据本公开的一些实施方式提出的策略优化方法的示例。

[图1B]

图1B描述了根据本公开的实施方式，系统动力学的已知部分和未知部分以及系统状态空间中的数据收集过程。

[图2]

图2描述了根据本公开的一些实施方式在使用控制方法计算抛接控制器时所涉及的步骤的序列。

[图3]

图3描述了根据本公开的一些实施方式的真实系统和已知系统的系统轨迹。

[图4]

图4描述了由于系统动力学的未知部分导致的系统的设计轨迹与观测轨迹之间的差异。

[图5]

图5描述了根据本公开的一些实施方式从使用真实系统和模拟系统收集的数据学习的贝叶斯系统。

[图6]

图6描述了根据本公开的一些实施方式，在通过对被控系统下的系统状态进行采样并将分类器模型拟合到采样的数据来学习系统针对给定控制器的吸引域时所涉及的步骤的序列。

[图7]

图7描述了根据本公开的一些实施方式的系统的终端控制器的吸引域。

[图8]

图8描述了根据本公开的一些实施方式的在计算抛接控制器时系统的操作。

[图9]

图9示出了根据本公开的一些实施方式，在系统进入终端控制器的吸引子盆时实施终端控制器的系统上的计算的鲁棒控制的实施。

[图10A]

图10A示出了根据本公开的一些实施方式的反馈学习系统的示意图，其示出了数据收集和利用更多数据学习控制器的不同模块。

[图10B]

图10B示出了根据本公开的一些实施方式的表示控制器的框图，其包括的数据收集和利用更多数据学习控制器的不同模块。

[图11]

图11示出了根据本公开的实施方式的机器人系统的示例，其示出了从初始状态跟踪期望的轨迹的操纵器。

[图12A]

图12A示出了根据本公开的一些实施方式的操纵一个工件的机器人系统的操纵器。

[图12B]

图12B示出了根据本发明的一些实施方式的操纵不同工件的机器人系统的操纵器。

具体实施方式

下文参照附图描述本发明的各种实施方式。应当注意，附图不是按照比例绘制的，并且在整个附图中，具有相似结构或功能的元件由相似的附图标记表示。还应当注意的是，附图仅旨在便利于对本发明的特定实施方式的描述。附图并不旨在作为本发明的穷举描述或作为对本发明范围的限制。另外，结合本发明的特定实施方式描述的方面不一定限于该实施方式，并且可以在本发明的任何其他实施方式中实践。

根据本公开的一些实施方式，具有不确定性的机器学习模型的鲁棒优化对于物理系统中鲁棒控制器的学习和设计是重要的。尽管机器学习和人工智能在过去十年中获得了巨大的进展，但基于学习的控制方面的进展在很大程度上避开了机器人和经典控制系统。强化学习为学习用于很难为其根据物理学创建模型的物理系统的高性能控制器提供了强大的范例。当机器人必须执行摩擦交互来操纵其环境时，或者当机器人必须基于感官观察对其环境的变化做出反应时，这些任务在机器人操纵中很常见。由于缺乏数学模型或已知模型参数的不确定性，为此类任务创建模型很困难。

根据本公开的一些实施方式，大多数无模型强化学习算法缺乏经典的基于模型的控制方法可以提供的对稳定性和渐近收敛的所期望的理论保证。另一方面，基于模型的强化学习方法的性能取决于可用于控制的模型的精确性。虽然高度精确的预测模型可能难以学习，但现代机器学习模型允许学习预测模型中的不确定性。这些不确定性捕获了由于驱动噪声、观测误差或底层系统的已知物理学中的误差而在系统演变中观察到的噪声。这些不确定性可以由适当设计的优化器用来设计鲁棒控制器以将系统状态调节为接近期望轨迹以最终收敛到期望的终端状态。然而，为了使用与习得的模型相关联的不确定性，不确定性需要被适当地表示，并且然后可以被优化器使用。因此，在部分已知系统的鲁棒控制器设计中有三个重要步骤：不确定性估计、不确定性表示和优化过程中不确定性约束的满足。

本公开的一些实施方式将未知系统的控制器学习问题分为两部分。图1A示出了根据本公开的一些实施方式的提出的策略优化方法100的示例。在这种情况下，真实系统的动力学是由已知的动力学和使用从真实系统收集的数据的学习的贝叶斯多面体来描述的。系统在其到达系统的终端控制器的吸引域时使用终端控制器进行操作，并且在其在吸引域之外时使用抛出控制器。控制器的第一部分将系统状态驱动到终端控制器的已知终端区域。这部分被称为抛出控制器130。应注意的是，系统总是从固定的初始状态开始，并且其必须被调节到期望的终端状态(或目标状态)。控制器140的第二部分是终端控制器，该终端控制器在系统进入终端控制器的吸引子盆时被激活。整个学习过程被标记为抛接多面体策略优化(TCPPO)。在110中的系统的示例轨迹114是从初始状态111开始的状态112的序列，系统经过该序列以到达终端区域113。当前公开的一些实施方式学习可用于鲁棒控制器设计的系统动力学的多面体表示122。当前公开的一些实施方式学习鲁棒多面体控制器130以将系统驱动到终端区域113。公开的一些实施方式学习终端控制器140以确保系统状态收敛到期望的终端状态。

本文中公开的一些示例实施方式涉及学习动力系统的未知动力学的问题。图1B描述了根据本公开的实施方式，系统动力学180的已知和未知部分以及系统的状态空间中的数据收集过程161。在这种情况下，系统演变180由已知部分160和未知部分170组成。动力学的未知部分170可归因于复杂系统中未建模的现象、系统中某些子模块的变化或动力学模型的参数的不确定性。学习真实动力学和已知动力学之间的残差可以使用机器学习模块来实现，该机器学习模块在给定当前状态和对系统的控制输入的情况下预测残差。

当前公开的一些实施方式实现了学习具有部分已知动力学的系统的控制器的方法。图2描述了在使用控制方法200计算抛接控制器时所涉及的步骤序列，该控制方法200可以是计算机实现的方法(或程序模块)200，以收集由系统状态、目标状态和已知系统模型160组成的数据。该计算机实现的方法200使用已知系统接受初始探索策略212，以从真实系统收集数据213。该收集到的数据用于学习系统动力学(系统的动力学)的未知部分的贝叶斯模型214。该习得的模型被用来利用半确定规划计算鲁棒策略215，以将系统驱动到终端控制器的终端区域。公开的特定实施方式设计终端控制器216并使用采样和机器学习方法估计其吸引子盆217。

本公开的一些实施方式提供了用于对不确定系统执行鲁棒策略优化的方法。考虑以下非线性系统(非线性系统模型)。

x_k+1＝f(x_k,u_k)+g(x_k,u_k) (1)

其中，f(·,·)和g(·,·)是动力学(系统的动力学)180的已知部分160和未知部分170，并且由于在本公开中考虑的情形中，系统动力学不是完全已知的，我们通常将这些系统称为部分已知系统(因为系统动力学仅部分已知)。非线性系统有多个示例。例如，考虑机器人系统，其可以由机械操纵器臂和类似编码器或相机的传感器组成。该系统的状态可以由机械操纵器的关节角度和速度以及机器人正操纵的对象的姿态来表示。系统动力学表示系统状态随对系统的控制输入的应用的变化的关系(如从式(1)中可以观察到的)。在式(1)中，x_k,u_k为系统的当前状态和控制输入，并且x_k+1为下一个时刻的系统状态。随着控制输入的应用系统从当前状态转变到下一状态的关系由系统动力学表示。对于大多数系统(包括机器人系统)，这种关系在状态和输入上都是非线性的，从而导致非线性系统动力学。这些状态可以使用系统中的编码器和相机来测量。该系统的控制输入可以由以下项组成：施加在机械操纵器所有关节处的扭矩或由操纵器施加在正被操纵对象处的力。系统状态的轨迹是在一定时间范围内的系统状态的序列。类似地，控制轨迹是同一时间范围内的控制输入的序列。状态轨迹可以由序列{x₀,x₁,…,x_T}来表示。类似地，控制轨迹由序列{u₀,u₁,…,u_T}表示。我们将真实180和模拟160分别标记为完全模型和已知模型。因此，我们将针对这两个系统观察到的状态标记为x_real、x_sim、u_real和u_sim。这类问题在机器人和人工智能问题中已经变得非常流行，并且正在作为模拟现实问题而得到积极的研究。这些问题的关键方面是在模拟系统上计算策略，并以最小的微调将其转移到真实系统，以实现数据效率。我们的问题也与这类问题有关，其中函数f(·,·)160可以被假设为系统的已知模拟器，并且目的是设计能够通过学习针对模型不匹配的合适表示以及可以补偿模型不匹配的控制器而可以快速适应真实系统的学习系统。

本公开的一些实施方式做出标准假设：函数f 160和g 170是光滑的且Lipschitz连续的。目标是学习策略π，以将系统从初始状态x₀111驱动到终端状态x_goal∈X_G 113，使得始终满足并且我们将使用系统的已知模型f(·,·)的标称策略标记为π_nom。所提出的工作基于终端区域周围系统的某些假设。

当前公开的一些实施方式161设计了用于数据收集的探索策略以学习鲁棒策略。提出的方法由三个步骤组成：首先，我们使用π_nom+ε收集数据，其中，ε是被添加到标称策略以扰动真实系统161的高斯分布噪声(噪声项)。给定系统的初始状态x_k165，系统使用控制190，控制190使用利用从高斯分布190中采样的噪声扰动的标称策略。这导致下一个时刻的状态的分布163。因此，使用激励策略，一些实施方式捕获在模型学习过程中使用的系统动力学的演变164。收集的数据是系统状态、应用的控制输入以及随着控制输入的应用所导致的系统状态的变化的集合。

本发明公开的一些实施方式涉及估计习得的残差系统动力学的预测中的不确定性的问题。估计习得的残差动力学的不确定性允许通过考虑真实系统动力学和已知系统动力学之间的最坏情况残差动力学来设计(生成)鲁棒控制器。可以通过将残差建模为输入变量的概率函数来估计与习得的残差动力学相关联的不确定性。于是，概率性机器学习模型可以用来表示残差动力学的预测中的不确定性。

本公开的一些实施方式提出了一种用于学习模型的未知部分170中的不确定性的多面体表示122的方法。重要的是要理解，我们学习的多面体表示如从数据中习得的系统动力学(而不是状态)的变化的界限。为了学习这一点，我们使用π＝π_nom+ε收集数据，其中，ε是在探索期间添加到标称策略中的噪声项。在真实系统上实现该策略以对未知函数g(·,·)进行估计。图3描述了根据本公开的一些实施方式的真实系统和已知系统的系统轨迹300。由于系统动力学的未知部分，在应用计算的控制信号时，在设计的系统轨迹310与观测到的系统轨迹312之间存在差异310。

本公开的一些实施方式测量并记录在设计的系统轨迹和观测到的系统轨迹之间的这种差异。本公开的一些实施方式将其标记为模拟系统与真实系统之间的误差动力学320，

Δx(k)＝x_real(k)-x_sim(k)

Δu(k)＝u_real(k)-u_sim(k)

Δx(k+1)＝x_real(k+1)-x_sim(k+1) (2)

然后，式(2)的系统表示在真实系统180和模拟系统160之间的误差动力学320。由(2)表示的系统也被称为真实系统和模拟系统之间的残差动力学，因为这是动力学的不能由模拟系统(或动力系统的已知部分)解释的部分。然后利用使用贝叶斯回归的多面体描述500来近似该系统。即，本公开的一些实施方式使用在时间点t₀,t_f∈N内收集的数据轨迹(N由组成)，来估计包含基于置信界限具有可量化不确定性的真正线性系统表示的多面体系统。一旦收集到该数据，当前公开的一些实施方式使用贝叶斯岭回归(其是一种线性概率回归模型)来近似学习(2)中表示的误差系统。更具体地，(2)的线性误差动力学系统可以建模为Δx(k+1)≈A₀Δx(k)+B₀Δu(k)。然后，我们考虑的回归问题是使用数据学习矩阵A₀和B₀。使用贝叶斯回归，我们估计矩阵A₀和B₀的每个元素的高斯分布。这是通过使相应的对数边际似然最大化来求解的，并且这提供了在(2)中的误差动力学的系统参数上高斯分布。然后利用该概率系统使用估计的概率分布的置信区间来构造多面体误差系统，这因此被用于设计鲁棒多面体控制器。直觉是，误差动力学可能存在于该多面体系统中，这允许我们设计具有稳定性保证的控制器。

当前公开的某些实施方式提出了考虑系统动力学未知部分中的不确定性的多面体表示500的策略优化技术。Δx(k+1)动力学的局部线性近似可以写成

Δx(k+1)≈A₀Δx(k)+B₀Δu(k),

其中，A₀和B₀可以使用许多系统识别方法中的一种来估计，或者通过使用已知/估计的模型信息经由自动微分来线性化。然而，所有这些方法都导致对A和B的点估计，并且没有量化关于这些估计的不确定性。对关于线性表示的不确定性进行量化得到以下形式的多面体描述

Δx(k+1)＝AΔx_k+BΔu_k, (3)

其中A∈P(A₁,A₂)并且B∈P(B₁,B₂)，其中，P(A₁,A₂)表示由顶点A₁和A₂勾画的系统矩阵多面体，并且P(B₁,B₂)表示由顶点B₁和B₂勾画的输入矩阵。

为了更清晰地进行多面体描述，我们提供以下定义和示例。如果非线性系统可以如下表示的话，则其被称为多面体系统

x(k+1)＝A(x_k)x_k+B(x_k)u_k,

其中，针对一些常数矩阵A₀,B₀,和一些状态相关的标量κ(x)(其由一些标量限定上下界限，即，并且例如，考虑非线性系统

针对一些x∈R²，系统矩阵A和B，以及γ₀∈R。我们可以以多面体形式把该系统重写为

x(k+1)＝A(x)x(k)+B(x)u(k),

其中，A(x)≡A并且B(x)＝B+κ(x)[0 1]^Τ，其中，-γ₀≤κ(x)≤γ₀。该示例的顶点矩阵由A₁＝A₂＝A、B₁＝B-[0 1]^Τ和B₂＝B+[0 1]^Τ给出。

图4描述了由于系统动力学未知部分导致的系统400的设计轨迹与观测轨迹之间的差异，图5描述了根据本公开的一些实施方式从使用真实系统和模拟系统收集的数据学习的贝叶斯系统500。

我们提出使用贝叶斯回归来获得顶点矩阵A₁,A₂和B₁,B₂。特别地，我们可以把(3)重写为510

其中贝叶斯回归算法提供A₀,B₀作为点估计(平均值)和(标准偏差)，假设高斯先验：本公开的一些实施方式将该习得的多面体称为贝叶斯多面体。选择置信区间得到顶点矩阵520

以及

对于贝叶斯多面体，其中，κ∈N表示标准偏差的数量，并且与置信区间有关。根据经验，我们发现κ≥4很有效

系统400使用系统动力学的这种习得的多面体表示来生成/计算用于将系统驱动到终端集413的鲁棒多面体策略。考虑到动力学的未知部分和从机器学习模型中获得的估计的不完善性，不具鲁棒性的控制器将无法将系统400从初始状态410驱动到针对终端状态412的所期望的终端集413。不考虑不确定性的控制器将产生发散，导致轨迹414无法到达终端区域。

一旦贝叶斯多面体的顶点已知，系统400就使用标准凸规划方法来构造线性状态反馈控制器，其可以为包含在贝叶斯多面体中的任何线性系统(也就是说，可以表示为顶点矩阵(A₁,B₁)和(A₂,B₂)的凸组合的任何线性系统)提供关于Δx动力学的(局部)稳定性保证。

接下来，我们提出了一个定理，该定理允许我们使用习得的贝叶斯多面体和半确定程序来计算鲁棒控制器(鲁棒多面体策略)。如果存在标量β>0以及矩阵和Y，使得

则，控制器Δu＝KΔx，其中，K＝YS^-1，使系统(3)以衰减率β全局指数稳定。当前公开的一些实施方式使用上述线性矩阵不等式(LMI)来设计指数稳定控制器。一些实施方式使用通过求解(6)得到的控制器增益K来为误差动力学(2)找到全局指数稳定的控制器。

本公开的一些实施方式设计由以下关系式u(x)＝π_nom(x)+KΔx给出的抛出控制器，其中，反馈矩阵K通过求解式(6)中的线性矩阵不等式而得到。

为了将动力学系统的状态调节到期望的终端状态，当前公开的一些实施方式设计了能够保证系统状态收敛到终端状态的终端控制器。控制器的这一部分被表示为接取控制器。然而，任何调节控制器都可以保证仅在其吸引域内收敛。估计一般非线性系统的吸引域在数值以及算法上都具有挑战性。为了实现本公开中所解释的鲁棒控制器，需要估计终端控制器的吸引域。基于这种认识，本公开的一些实施方式估计了终端控制器的吸引域700。控制器的吸引域(或吸引子盆)700是可以经由任何轨迹720随着控制器的应用被驱动到终端状态710的动力学系统的状态的集合。当控制器作用于该集合内的任意状态时，该集合内的系统状态总是收敛于状态x_T710。

本公开的一些实施方式估计系统的吸引域以用于终端控制器。这是基于在系统的终端状态的系统的近似线性动力学模型的假设。另一种可能性是，存在当前公开的一个实施方式，其可以在真实系统上使用类似比例积分(PI)控制器之类的经典无模型方法来实现终端控制器。这两种选项都补充了抛出控制器设计，以将系统调节在终端区域中。我们通过π_term表示终端控制器。虽然存在分析技术来估计线性系统的吸引域，但估计非线性系统的吸引域通常是非常具有挑战性的。针对π_term的吸引域700X_ROA,π700是状态空间的其中控制器π_term指数稳定的部分，即，x∈X_ROA,π，如果limπ_term(x_k)＝x_term，其中，

图6描述了根据本公开的一些实施方式，在通过对被控系统下的系统状态进行采样并将分类器模型拟合到采样的数据来学习针对给定控制器系统的吸引域时所涉及的步骤的序列(计算机实现的方法)600。进一步地，图7描述了根据本公开的一些实施方式的系统的终端控制器700的吸引域。

为了估计π_term的吸引域X_ROA,π610，方法600在终端状态710周围的邻域中采样随机620、630状态，并应用终端控制器以将系统驱动到终端状态640。更正式地，我们使用以下650、660、670来生成用于训练分类器的标签：

y(x₀)＝0,否则 (9)

上式(9)表示，π_term的吸引域是闭环动力学f_real(x,π(x))收敛于终端状态从而π_term可以将系统调节到期望的终端状态的状态的集合。该数据D＝{(x₀,y)}用于训练二值分类器680，该二值分类器可以预测测试状态x～₀是否在控制器的接取池X_ROA,π内，并因此用于激活控制器π_term。应注意的是，我们假设我们的系统可以在在真实系统的终端状态x_term的紧邻域中的状态x₀下被初始化。

图8描述了根据本公开的一些实施方式的在计算抛接控制器时系统中使用的策略800的操作。

利用学习过程的这三个部分，一些实施方式为具有模型不匹配的系统设计了所建议的策略800。更正式地，抛接策略由以下关系给出：

u(x)＝π_nom(x)+KΔx，如果

u(x)＝π_term(x)，如果x∈X_ROA,π (10)

本公开的一些实施方式提供了用于为具有模型不匹配的系统实现抛接策略的计算机实现的方法。该实施方式在操作期间接受系统状态810。训练的分类器模型可以判断820当前状态是否在终端(接取)控制器的吸引域内。如果状态在终端区域840内，则在系统上实现终端控制器。否则，实现830鲁棒多面体控制器(或抛出控制器)。应注意的是，式(10)表明，系统的最终控制策略是在状态空间的不同部分使用不同控制器的混合控制策略。

图9示出了根据本公开的一些实施方式，在系统进入终端控制器的吸引子盆时实现终端控制器的系统上的计算的鲁棒控制900的实现。

系统行为可以在计算的鲁棒控制900中看到，其中，设计的标称轨迹从初始状态910开始的911。由于系统动力学的未知部分，观测到的系统轨迹912偏离了设计轨迹。然而，由于鲁棒多面体控制器，系统被驱动到终端控制器930的吸引子盆。使用终端控制器通过轨迹913将系统驱动到终端状态920。

在这种情况下，反馈学习系统用于电机控制器1000的设计和控制。该系统接受提供给控制器1020的命令(这是期望的目标)1010。该控制器使用标称策略收集探索数据1031。该数据被TCPPO学习方法1040使用以计算新的控制器。其然后被发送回控制器1020，控制器1020更新控制律以控制机器。这个过程不断重复，直到收敛。

图10B示出了根据本公开的一些实施方式的表示控制器(机器人控制系统)50的框图，控制器包括数据收集和利用更多数据学习控制器的不同模块。机器人控制系统50被配置为控制机器人的致动器系统1203。在某些情况下，包括在控制器50中的机器人控制器100B可以是配置为连接到致动器控制器150B以用于控制机器人的运动的硬件。机器人控制器100B包括模型学习模块1300B和策略学习模块1400B，连接到致动器控制器150B、机器人和测量机器人的运动的传感器1201，其中，传感器1201设置在机器人中以检测机器人各个致动器的状态。此外，机器人控制器100B基于机器人的运动的测量数据生成策略参数，其中，机器人控制器100B将策略参数提供给机器人的致动器控制器150B，以更新致动器控制器的策略单元151B。

机器人控制器100B可为硬件电路，可以包括接口控制器110B、处理器120和存储器单元130B。处理器120可以是一个或多于一个的处理器单元，存储器单元130B可以是存储器装置、数据存储装置等。接口控制器110B可以是接口电路，该接口电路可以包括模拟/数字(A/D)和数字/模拟(D/A)转换器，以与机器人的传感器1201和运动控制器150B进行信号/数据通信。此外，接口控制器110B可以包括存储器，以存储要由A/D或D/A转换器使用的数据。传感器1201设置在机器人(机器人臂)的关节或拾取对象机构(例如手指)处，以测量机器人的状态。机器人包括致动器控制器(装置/电路)150B，该致动器控制器包括策略单元151B，以生成动作参数来控制机器人系统1203，该机器人系统根据关节或处理手指的数量控制机器人臂、处理机构或臂与处理机构的组合1203-1、1203-2、1203-3和1203-#n。例如，传感器1201可以包括加速度传感器、定位传感器、扭矩传感器、角度传感器、全球定位系统(GPS)装置、相机、深度相机、距离相机、距离扫描仪等，以测量机器人的运动状态。

接口控制器110B还连接到传感器1201，该传感器测量/获取安装在机器人上的机器人的运动的状态。在某些情况下，当致动器为电机时，致动器控制器150B可以控制驱动机器人臂的角度或通过处理机构进行的对对象的处理的各个电机。在某些情况下，致动器控制器150B可以响应于从策略学习模块1400B生成的策略参数，控制布置在臂上的各个电机的旋转，以使机器人的运动平稳加速或安全减速。此外，根据对象处理机构的设计，致动器控制器150B可以响应于从策略学习模块1400B生成的策略参数控制致动器的长度。

存储器单元130B可以存储计算机可执行程序模块，其包括模型学习模块1300B和策略学习模块1400B。处理器120被配置为执行程序模块1300B和1400B的步骤。在这种情况下，步骤可以包括离线建模，以使用模型学习模块1300B基于机器人的动作状态(运动状态)和来自传感器1201的测量状态生成离线学习状态。所述步骤进一步执行向策略学习模块1400B提供离线状态以生成策略参数，并更新机器人的运动控制器150B的策略151B以基于策略参数操作致动器系统1203。

例如，测量数据可以由操纵器臂关节的角度位置或机器人末端致动器的姿态或被操纵器臂操纵的对象的姿态组成。系统的动力学可以由通过在机器人的各个关节上施加扭矩所获得的关节角位置变化之间的关系来定义。其也可以由当操纵器对对象施加力时对象的姿态变化之间的关系来定义。系统的状态可以由附加有正由机器人操纵的对象的关节角位置和速度来表示。系统的状态可以使用可以被设计成跟踪机器人环境中的对象的编码器或视觉系统(例如相机、深度相机、距离扫描仪)来测量。控制输入的集合是在各个关节上由电机施加以便移动关节或末端致动器位置的扭矩。终端控制器的吸引子盆可以由终端控制器可调节的终端状态邻域中的系统状态的集合来定义。在机械操纵器操纵对象的情况下，终端状态是对象的期望姿态。可以利用确保目标状态收敛到期望状态的经典的控制方法来计算终端控制器。终端控制器的吸引子盆是终端控制器能保证收敛性的终端状态的邻域中的状态的集合。

图11示出了根据本公开的实施方式的机器人系统1100的示例，其示出了从初始状态跟踪期望轨迹的操纵器。图12A和图12B示出了根据本发明的一些实施方式的操纵一个工件1210和不同工件1220的机器人系统1100的操纵器。所提出的控制器50被配置为控制具有附加未知负载1101的机器人系统1100的操纵器臂的移动。操纵器控制器50基于传感器的传感器反馈发送控制命令，以控制负载跟随期望轨迹1120。然而，由于未知负载的存在，与设计的轨迹1120相比，在观测到的轨迹1130中存在一定误差。通过在操纵器控制器50中使用TCPPO控制器来解决这一问题，使机器人能够准确地移动不同的未知对象1210和1220。

Claims

1.一种用于通过学习系统的动力学来生成控制所述系统的策略的控制器，所述控制器包括：

接口控制器，所述接口控制器被配置为从设置在所述系统上的传感器获取测量数据；

至少一个处理器；以及具有计算机实现的指令存储在其上的存储器，所述计算机实现的指令包括模型学习模块和策略学习模块，当由所述至少一个处理器执行时，所述计算机实现的指令使所述控制器执行以下步骤：

向所述存储器提供由所述系统的动力学的已知部分和所述系统的动力学的未知部分表示的非线性系统模型；

基于标称策略和关于所述系统的状态的噪声项通过使用所述系统的所述传感器测量所述系统的动力学来收集所述状态；

通过收集所述系统的数据来估计控制输入的集合和所述系统的状态的集合的序列，其中，所述数据包括系统状态、应用的控制输入和系统状态的变化的集合，其中，所述应用的控制输入中的每一个通过所述标称策略和附加的噪声项计算；

通过利用收集到的所述系统的数据学习多面体系统，以用于利用线性概率回归模型对所述系统的动力学的所述未知部分进行近似；

通过对在终端状态的邻域内的状态进行采样并经由监督式学习估计终端控制器的吸引子盆来估计所述吸引子盆；以及

利用估计的所述多面体系统生成多面体策略，以将所述系统从初始状态驱动到所述终端控制器的所述吸引子盆。

2.根据权利要求1所述的控制器，所述控制器还包括：

实施混合控制策略，所述混合控制策略包括将所述系统驱动到所述终端控制器的所述吸引子盆的鲁棒多面体策略以及使用所述终端控制器将所述系统驱动到期望的终端状态。

3.根据权利要求1所述的控制器，其中，所述控制器还利用所述系统的已知系统模型生成探索策略。

4.根据权利要求1所述的控制器，其中，所述控制器还通过对所述系统实施探索策略并收集状态轨迹和输入轨迹来从所述系统收集数据。

5.根据权利要求1所述的控制器，其中，所述控制器还学习所述系统和所述系统的动力学的已知系统模型之间的残差动力学。

6.根据权利要求1所述的控制器，其中，所述控制器还收集作为在所述系统与已知系统模型之间针对给定控制轨迹的状态轨迹的差异的残差动力学的数据。

7.根据权利要求1所述的控制器，其中，所述控制器还使用贝叶斯优化将概率性机器学习模型用于残差动力学。

8.根据权利要求1所述的控制器，其中，所述控制器还使用贝叶斯模型和预先确定的置信区间估计残差动力学的多面体系统。

9.根据权利要求1所述的控制器，其中，所述控制器还利用所述多面体系统和半确定规划来生成鲁棒多面体控制器。

10.根据权利要求1所述的控制器，其中，生成在所述系统的所述终端状态处的所述终端控制器，以将所述系统驱动到期望的终端状态。

11.根据权利要求1所述的控制器，其中，所述控制器还使用基于机器学习的分类技术估计所述终端控制器的所述吸引子盆。

12.一种用于通过学习系统的动力学来生成控制所述系统的策略的计算机实现的方法，所述计算机实现的方法包括以下步骤：

从设置在所述系统上的传感器获取测量数据；

向存储器提供由所述系统的动力学的已知部分和所述系统的动力学的未知部分表示的非线性系统模型；

通过收集所述系统的数据来估计控制输入的集合和所述系统的状态的集合的序列，其中，所述数据包括系统状态、应用的控制输入和系统状态的变化的集合，其中，所述控制输入中的每一个通过所述标称策略和附加的噪声项计算；

通过利用收集到的所述系统的数据学习多面体系统，以用于利用线性概率回归模型对所述系统的动力学的未知部分进行近似；

通过对在终端状态的邻域内的初始状态进行采样并通过监督式学习估计终端控制器的吸引子盆来估计所述吸引子盆；以及

利用所估计的多面体系统生成多面体策略，以将所述系统从初始状态驱动到所述终端控制器的所述吸引子盆。

13.根据权利要求12所述的计算机实现的方法，所述计算机实现的方法还包括以下步骤：

14.根据权利要求12所述的计算机实现的方法，其中，所述控制器还利用所述系统的已知系统模型生成探索策略。

15.根据权利要求12所述的计算机实现的方法，其中，所述控制器还通过对所述系统实施探索策略并收集状态轨迹和输入轨迹来从所述系统收集数据。

16.根据权利要求12所述的计算机实现的方法，其中，所述控制器还学习所述系统和所述系统的动力学的已知系统模型之间的残差动力学。

17.根据权利要求12所述的计算机实现的方法，其中，所述控制器还收集作为在所述系统与已知系统模型之间针对给定控制轨迹的状态轨迹的差异的残差动力学的数据。

18.根据权利要求12所述的计算机实现的方法，其中，所述控制器还使用贝叶斯优化将概率性机器学习模型用于残差动力学。

19.根据权利要求12所述的计算机实现的方法，其中，所述控制器还使用贝叶斯模型和预先确定的置信区间估计残差动力学的多面体系统。

20.根据权利要求12所述的计算机实现的方法，其中，所述控制器还利用多面体系统和半确定规划来生成鲁棒多面体控制器。

21.根据权利要求12所述的计算机实现的方法，其中，生成在所述系统的终端状态处的终端控制器，以将所述系统驱动到期望的终端状态。

22.根据权利要求12所述的计算机实现的方法，其中，所述控制器还使用基于机器学习的分类技术来估计所述终端控制器的所述吸引子盆。