CN116324635A - 用于控制在其动态中具有不确定性的系统的设备和方法 - Google Patents
用于控制在其动态中具有不确定性的系统的设备和方法 Download PDFInfo
- Publication number
- CN116324635A CN116324635A CN202180070733.0A CN202180070733A CN116324635A CN 116324635 A CN116324635 A CN 116324635A CN 202180070733 A CN202180070733 A CN 202180070733A CN 116324635 A CN116324635 A CN 116324635A
- Authority
- CN
- China
- Prior art keywords
- cost
- state
- optimization
- uncertainty
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0218—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
- G05B23/0224—Process history based detection method, e.g. whereby history implies the availability of large amounts of data
- G05B23/024—Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B17/00—Systems involving the use of models or simulators of said systems
- G05B17/02—Systems involving the use of models or simulators of said systems electric
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0426—Programming the control sequence
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0208—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the configuration of the monitoring system
- G05B23/021—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the configuration of the monitoring system adopting a different treatment of each operating region or a different mode of the monitored system, e.g. transient modes; different operating configurations of monitored system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
- G05B23/0205—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
- G05B23/0259—Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
- G05B23/0286—Modifications to the monitored process, e.g. stopping operation or adapting control
- G05B23/0291—Switching into safety or degraded mode, e.g. protection and supervision after failure
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/20—Pc systems
- G05B2219/24—Pc safety
- G05B2219/24076—Markov model for safety analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
提供了一种用于控制受制于对系统的运行的约束的在其动态中具有不确定性的系统的控制器。所述控制器被配置为获取所述系统的运行的历史数据,并且对于处于当前状态的所述系统,确定将所述系统的状态从所述当前状态转变为下一状态的当前控制动作。根据鲁棒和约束马尔可夫决策过程(RCMDP)来确定所述当前控制动作,所述鲁棒和约束马尔可夫决策过程(RCMDP)使用所述历史数据来优化受制于对所述系统的运行施加所述约束的安全成本的优化的所述系统的运行的性能成本,其中,所述性能成本和所述安全成本中的每个状态和动作对的状态转变由捕获系统的动态的不确定性的多个状态转变来表示。
Description
技术领域
本公开总体上涉及系统的控制,并且更具体地涉及用于控制在其动态(dynamic)中具有不确定性(uncertainty)的受对系统运行的约束的系统的设备和方法。
背景技术
在系统的控制中,可以使用软件或硬件中的一者或其组合来实施的控制器产生对系统的控制命令。控制命令根据需要指导系统的运行,例如,该运行遵循期望的基准轮廓,或者将输出调节到特定值。然而,许多真实世界的系统(例如自主车辆和机器人)在部署时需要满足约束以确保安全运行。此外,真实世界的系统经常受到诸如非定常性、磨损、未校准传感器等的影响。这种影响导致系统动态中的不确定性,并且因此使系统的模型不确定或未知。此外,在系统运行的环境中可能存在不确定性。这种不确定性对系统的控制产生不利影响。
例如,操纵具有不同形状和质量的不同物体的机器人臂导致难以设计用于操纵所有物体的最优控制器。类似地,由于接触动态之间的固有切换,设计用于在具有不同接触几何形状的不同未知表面上操纵已知物体的机器人臂的最优控制器是困难的。因此,需要一种能够控制具有系统运行不确定性的系统的控制器。
发明内容
一些实施方式的目的是控制受制于约束同时具有系统运行不确定性的系统。系统运行的不确定性可能是由于系统的动态不确定性,其可能是由系统的参数地值的不确定性、系统运行的环境的不确定性或这两者引起的。因此,该系统也可称为“不确定系统”。在一些实施方式中,所述系统的动态模型包括至少一个不确定性参数。例如,移动物体的机器人系统的臂的模型可以包括由臂承载的物体的质量的不确定性。用于列车移动的模型可以包括关于当前天气条件下列车车轮与轨道的摩擦的不确定性。
一些实施方式基于采用马尔可夫决策过程(MDP)的原则来控制约束但不确定系统的目标。换句话说,一些实施方式采用MDP来控制受到约束的不确定系统(系统)。MDP是离散时间随机控制过程,其提供用于在结果部分随机且部分在决策者控制下的情况下对决策进行建模的框架。MDP是有利的,因为其建立在在考虑不确定的行动结果的同时保证在预期累积成本方面的最优性的形式框架上。此外,一些实施方式基于以下理解,即MDP对于包括机器人和自动控制的多种不同控制情形是有利的。为此,一些实施方式的目的是扩展MDP以控制受制于约束和不确定性的系统。
一些实施方式基于这样的认识,即MDP可以被扩展以在鲁棒MDP(RMDP)的上下文中覆盖系统运行的不确定性。虽然MDP旨在估计优化成本(这里称为性能成本)的控制动作,但是RMDP旨在针对系统运行的不确定性界限内的系统动态的不同实例来优化性能成本。例如,虽然由机器人系统的臂承载的物体的实际质量可能是未知的,但是可以预先知道定义机器人系统的运行的不确定性的界限的可能值的范围。系统可以具有一个或多个不确定参数。
在许多情况下,RDMP针对由系统运行的不确定性证明的最坏可能条件来优化性能成本。然而,RMDP不适合于约束系统,因为对于最坏可能条件的性能成本的优化可能违反在优化的性能成本之外的强加的约束。
一些实施方式基于这样的认识,即MDP可以被扩展用于在约束MDP(CMDP)的上下文中处理系统的运行的约束。CMDP被设计为确定其中同时考虑多个成本的序列随机决策问题的策略。考虑多种成本允许将约束包括在MDP内。例如,如上所述,一个优化成本可以是性能成本,而另一个成本可以是管理约束满足的安全成本。
为此,一些实施方式的目的是将RMDP和CMDP组合成鲁棒且约束MDP(RCMDP)的公共框架。然而,由于MDP的一些原则对于RMDP和CMDP两者来说是公共的,但是一些其他原则是不同的并且难以协调,因此通过组合RMDP和CMDP来产生公共框架(即RCMDP)是具有挑战性的。例如,虽然RMDP和CMDP在其定义中共享许多特性,但是当计算最优策略时可能出现一些差异。对于无不确定性的系统的假设模型,CMDP的最优策略大体是随机策略。因此,需要以适合于RMDP的方式在CMDP的随机策略构想中考虑系统动态的不确定性。
一些实施方式基于这样的认识,即系统的动态的不确定性可以被转化为系统的状态转变的不确定性。在MDP中,过程进入到其下一状态s'的概率受所选动作的影响。具体地,其由状态转变函数Pa(s,s')给出。因此,下一状态s'取决于当前状态s和决策者的动作a。但是当前状态s和决策者的动作a有条件地独立于先前的状态和动作。换句话说,MDP的状态转变满足马尔可夫特性。
一些实施方式将系统的动态不确定性表示为转变概率例如,系统动态的不确定性可以表示为模糊度集合Ps,a,其是针对每个状态s∈S和动作a∈A而定义的可行转变矩阵的集合,即系统的所有可能的不确定性模型的集合。在下文中,P用于累积地指示针对所有状态s和动作a的Ps,aPs,a。
分别用模糊度集合对性能成本和安全成本进行修改。特别地,模糊度集合分别被合并到性能成本中以产生鲁棒的性能成本,并且被合并到安全成本中以产生鲁棒的安全成本。因此,求解(或公式化)RCMDP意味着在系统的所有可能的不确定模型的集合(模糊度集合)上,在受制于还需要在系统的所有可能的不确定模型的集合上满足的安全成本的情况下,优化性能成本。换句话说,利用模糊度集合的这种修改允许RMDP在性能成本估计中考虑系统动态的不确定性,并且允许CMDP以与性能成本估计一致的方式在约束施加中(即在安全成本中)考虑系统动态的不确定性。
因此,将系统动态的不确定性转化为系统的状态转变上的不确定性允许在单个一致的构想(即,RCMDP)中统一性能成本和安全成本两者的优化。此外,这样的转化是有利的,因为现实或真实状态转变(尽管未知)对于性能成本和安全成本两者是公共的,并且这样的构想加强了这种一致性。为此,RCMDP构想包括模糊度集合,以在受制于对系统运行施加约束的安全成本的优化的情况下优化性能成本。
因此,一些实施方式使用性能成本和安全成本两者的联合多功能优化,其中,性能成本和安全成本中的状态和动作对中的每一个的状态转变由捕获系统运行的不确定性的多个状态转变来表示。这种联合优化引入了性能成本和安全成本的相互依赖性。
另外,一些实施方式执行不平衡联合多功能优化,其中性能成本的优化是主要目标,而安全成本的优化是次要目标。实际上,如果不执行任务,则满足约束是无用的。因此,一些实施方式将安全成本的优化定义为对性能成本的优化的约束。以这种方式,安全成本的优化变得从属于性能成本的优化,因为作为约束的安全成本不具有独立的优化目标,并且仅限制系统执行任务所采取的动作。
一些实施方式基于这样的认识,即性能成本的优化可以受益于极小极大优化的原则,而安全成本的优化可以保持为泛用的。极大极小是用于使最坏情况(最大损耗)场景的可能损耗最小化的决策规则。在RCMDP的上下文中,极小极大优化旨在优化系统的动态不确定参数值的最坏情况场景的性能成本。因为捕获系统运行的不确定性的多个状态转变被包括在性能成本和安全成本两者中,所以通过针对不确定参数的最坏情况值的性能成本的首要极小极大优化确定的在次要的安全成本的优化中针对不确定参数的相同最坏情况值满足约束的动作在不确定参数的现实和真实值对于安全任务性能更有利时同样可以满足约束。
换句话说,如果计算出的控制策略或控制动作使与系统的可能的不确定模型集合的最坏可能的最大成本相对应的性能成本最小化,则其使系统的可能的不确定模型集合内的系统的任何模型的性能成本最小化。类似地,如果计算出的控制策略满足安全成本针对系统的可能的不确定模型的集合的最坏可能的安全累积最大成本的安全约束界限,则其使系统的可能的不确定模型的集合内的系统的任何模型的安全成本最小化。
一些实施方式基于这样的认识,即对系统的运行的约束可以作为禁止其违反的硬约束或不鼓励其违反的软约束而施加。一些实施方式基于这样的理解,即安全成本的优化可以用作软约束,这对于一些控制应用是可接受的,但是在其他应用中是禁止的。为此,对于一些控制应用,需要对系统的运行施加硬约束。在这种情况下,与对性能成本的优化施加约束相比,一些实施方式对安全成本的优化施加硬约束。
对通过系统的运行获得的任务的性能设计约束。因此,应当对性能成本的优化施加约束。这种施加可能与RMDP的原则相矛盾,因为通过性能成本的优化而优化的变量与约束无关。相反,安全成本的优化优化与约束相关的一个或多个变量。因此,对与约束相关的变量施加硬约束更容易。
为此,在RCMDP中,性能成本的优化是针对导致系统动态的不确定性的不确定参数值的最坏情况场景优化性能成本的极小极大优化,并且安全成本的优化对受制于硬约束的优化变量进行优化。
一些实施方式基于以下认识,虽然RCMDP在许多机器人应用中是有价值。然而,由于RCMDP的计算复杂性,其实际应用仍然具有挑战性。因为在许多实际应用中,RCMDP的控制策略计算需要求解具有大量变量的约束线性规划。
一些实施方式基于这样的认识,即可以通过利用李雅普诺夫理论以呈现李雅普诺夫函数并示出其减小来简化RCMDP解。这种方法在本文中称为李雅普诺夫下降法。李雅普诺夫下降法是有利的,因为其允许迭代地控制系统,同时优化用于控制系统的控制策略。换句话说,李雅普诺夫下降法允许用最终(即,迭代地)可以收敛到最优控制的次优但安全的控制动作控制系统来替换在启动控制之前确定最优且安全的控制动作。由于李雅普诺夫下降法所产生的不变性集合,这种替换是可能的。为此,利用李雅普诺夫下降法对性能成本和安全成本进行了优化。
一些实施方式基于这样的认识,即设计李雅普诺夫函数并使其显式化极大地简化、澄清并且在一定程度上统一了用于优化的收敛理论。然而,针对RCMDP的这种约束环境来设计李雅普诺夫函数是具有挑战性的。为此,一些实施方式基于所计算的辅助成本函数来设计李雅普诺夫函数,使得强制要求在当前状态下满足由安全成本定义的安全约束,同时在后续状态转变上减少李雅普诺夫动态。这样的辅助成本函数显式地且建设性地将李雅普诺夫自变量引入到RCMDP框架中,而不需要整体求解不确定系统的约束控制。
因此,一些实施方式用辅助成本函数来诠释安全成本,该辅助成本函数被配置为强制要求在当前状态下满足约束,这与在由次优控制策略施加的后续状态演变上经由贝尔曼算子的李雅普诺夫动态的降低一起导致在每个次优控制策略的所有状态演变上安全约束的满足。计算辅助成本函数和相关联的次优控制策略的该过程的迭代最终导致最优控制策略同时满足约束。
根据一个实施方式,辅助成本函数是鲁棒线性规划优化问题的解,该鲁棒线性规划优化问题的解使辅助成本函数的值最大化,该辅助成本函数的值对于具有动态的不确定性的系统的所有可能状态保持安全约束的满足。根据一个替代实施方式,辅助成本函数是具有由鲁棒线性规划优化问题的解确定的权重的基函数的加权组合。在一些实施方式中,辅助成本函数是定义深度神经网络的基函数的加权组合,神经网络的权重由鲁棒线性规划优化问题的解来确定。
因此,一个实施方式公开了一种控制器,该控制器用于控制受制于对系统运行的约束的在其动态中具有不确定性的系统,所述控制器包括:至少一个处理器;以及存储器,在该存储器上存储有指令,当由所述至少一个处理器执行时,所述指令使所述控制器执行以下操作:获取所述系统的运行的历史数据,所述历史数据包括成对的控制动作和根据相应的控制动作控制的所述系统的状态转变;对于处于当前状态的所述系统,确定将所述系统的状态从所述当前状态转变为下一状态的当前控制动作,其中,根据鲁棒和约束马尔可夫决策过程(RCMDP)来确定所述当前控制动作,所述鲁棒和约束马尔可夫决策过程(RCMDP)使用所述历史数据来优化所述系统的运行的性能成本,所述系统受制于对所述运行施加所述约束的安全成本的优化,其中,所述性能成本和所述安全成本中的状态和动作对中的每一个的状态转变由捕获系统动态的不确定性的多个状态转变来表示;以及根据所述当前控制动作控制所述系统的运行,以将所述系统的状态从当前状态改变为下一状态。
相应地,另一实施方式公开了一种用于控制受制于对系统运行的约束的在其动态中具有不确定性的系统的方法。所述方法包括以下步骤:获取所述系统的运行的历史数据,所述历史数据包括成对的控制动作和根据相应的控制动作控制的所述系统的状态转变;对于处于当前状态的所述系统,确定将所述系统的状态从所述当前状态转变为下一状态的当前控制动作,其中,根据鲁棒和约束马尔可夫决策过程(RCMDP)来确定所述当前控制动作,所述鲁棒和约束马尔可夫决策过程(RCMDP)使用所述历史数据来优化所述系统的运行的性能成本,所述系统受制于对所述运行施加所述约束的安全成本的优化,其中,所述性能成本和所述安全成本中的状态和动作对中的每一个的状态转变由捕获系统动态的不确定性的多个状态转变来表示;以及根据所述当前控制动作控制所述系统的运行,以将所述系统的状态从当前状态改变为下一状态。
附图说明
[图1A]
图1A示出了根据一些实施方式的鲁棒和约束马尔可夫决策过程(RCMDP)的构想的示意图。
[图1B]
图1B示出了根据一些实施方式的用于在与马尔可夫决策过程(MDP)的原则一致的鲁棒马尔可夫决策过程(RMDP)和约束马尔可夫决策过程(CMDP)中考虑系统动态的不确定性的原则的示意图。
[图1C]
图1C示出了根据一些实施方式的包括模糊度集合的RCMDP的构想的示意图。
[图2]
图2示出了根据一些实施方式的用于控制受制于对系统运行的约束的在其动态中具有不确定性的系统的控制器的框图。
[图3]
图3示出了根据一些实施方式的用于设计模糊度集合的示意图。
[图4]
图4示出了根据一些实施方式的李雅普诺夫函数的原则的示意图。
[图5A]
图5A示出了根据一些实施方式的用于确定最优控制策略的RCMDP的基于李雅普诺夫下降法的解的示意图。
[图5B]
图5B示出了根据一些实施方式的用于确定鲁棒李雅普诺夫诱导马尔可夫平稳策略集合内的最优控制策略的鲁棒安全策略迭代(RSPI)算法。
[图5C]
图5C示出了根据一些实施方式的用于确定鲁棒李雅普诺夫诱导马尔可夫平稳策略集合内的最优控制策略的鲁棒安全值迭代(RSVI)算法。
[图6]
图6示出了根据一个实施方式的用于确定辅助成本函数的示意图。
[图7]
图7示出了根据一个实施方式的用于基于基函数确定辅助成本函数的示意图。
[图8]
图8示出了与根据一些实施方式的用于执行操作的控制器集成的机器人系统。
[图9A]
图9A示出了包括与采用一些实施方式的原则的控制器通信的车辆控制器的车辆系统的示意图。
[图9B]
图9B示出了根据一些实施方式的车辆控制器与车辆系统的其他控制器之间的交互的示意图。
[图9C]
图9C示出了通过使用一些实施方式为其产生控制动作的自主或半自主受控车辆的示意图。
[图10]
图10示出了基于CMDP的增强学习(RL)方法、基于RMDP的RL方法和基于李雅普诺夫的鲁棒约束MDP(L-RCMDP)的RL的特性的示意图。
[图11]
图11示出了根据一些实施方式的RCMDP构想的概况的示意图。
具体实施方式
在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对本公开的透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下实践本公开。在其他实例中,设备和方法仅以框图形式示出,以避免使本公开模糊。
当在本说明书和权利要求书中使用时,术语“例如”、“比如”、和“诸如”,以及动词“包括”、“具有”、“包含”和它们的其他动词形式,在与一个或更多个成分或其它项目的列表结合使用时,均被理解为开放的,这意味着该列表不应被视为排除其他附加成分或项目。术语“基于”是指至少部分基于。此外,应当理解,这里使用的措辞和术语是为了描述的目的,不应当被认为是限制性的。本说明书中使用的任何标题仅为方便起见,没有法律或限制作用。
图1A示出了根据一些实施方式的鲁棒和约束马尔可夫决策过程(RCMDP)的构想的示意图。一些实施方式的目的是控制受到约束同时具有系统运行不确定性的系统100。系统100的运行的不确定性可能是由于系统100的动态不确定性,其可能是由系统100的参数值的不确定性、系统100运行的环境的不确定性、或这两者引起的。因此,系统100也可称为“不确定系统”。在一些实施方式中,系统100的动态模型包括至少一个不确定性参数。例如,移动物体的机器人系统的臂的模型可以包括由臂承载的物体的质量的不确定性。用于列车移动的模型可以包括关于当前天气条件下列车车轮与轨道的摩擦的不确定性。
一些实施方式基于采用马尔可夫决策过程(MDP)102的原理来控制约束但不确定的系统的目标。换句话说,一些实施方式采用MDP 102来控制受到约束的不确定系统(系统100)。MDP 102是离散时间随机控制过程,其提供用于在结果部分随机且部分在决策者控制下的情况下对决策进行建模的框架。MDP是有利的,因为其建立在在考虑不确定的行动结果的同时保证在预期累积成本方面的最优性形式框架上。此外,一些实施方式基于以下理解,即MDP 102对于包括机器人和自动控制的多种不同控制情形是有利的。为此,一些实施方式的目的是扩展MDP 102以控制受到约束的系统100。
一些实施方式基于这样的认识,即MDP 102可以被扩展以在鲁棒MDP(RMDP)104的上下文中覆盖系统100的运行的不确定性。虽然MDP 102旨在估计优化成本106(这里称为性能成本)的控制动作,但是RMDP 104旨在针对在系统100的运行不确定性的界限内的系统100的动态的不同实例来优化性能成本106。例如,虽然由机器人系统的臂承载的物体的实际质量可能是未知的,但是可以预先知道定义机器人系统的运行的不确定性的界限的可能值的范围。系统100可以具有一个或多个不确定参数。
在许多情况下,RDMP 104针对由系统100的运行的不确定性证明的最坏可能条件来优化性能成本106。然而,RMDP 104不适合于约束系统,因为对于最坏可能条件的性能成本106的优化可能违反在优化的性能成本之外的强加的约束。
一些实施方式基于这样的认识,即MDP 102可以被扩展用于在约束MDP(CMDP)108的上下文中处理系统100的运行的约束。CMDP 108被设计为确定其中同时考虑多个成本的序列随机决策问题的策略。考虑到多个成本允许将MDP 102的约束包括在内。例如,如上所述,一个优化成本可以是性能成本106,而另一个成本可以是管理约束满足的安全成本110。
为此,一些实施方式的目的是将RMDP 104和CMDP 108组合成鲁棒且约束MDP(RCMDP)112的公共框架。然而,由于MDP 102的许多原则对于RMDP 104和CMDP 108两者来说是公共的,但是许多其他原则是不同的并且难以协调,所以产生公共架构(即,通过组合RMDP 104和CMDP 108来产生RCMDP 112)是具有挑战性的。例如,虽然RMDP和CMDP在其定义中共享许多特性,但是当计算最优策略时可能出现一些差异。对于无不确定性的系统100的假设模型,CMDP 108的最优策略大体是随机策略。因此,需要以适合于RMDP的方式在CMDP108的随机策略构想中考虑系统100的动态的不确定性。
图1B示出了根据一些实施方式的与MDP的原则一致的、用于在RMDP 104和CMDP108中考虑系统100的动态的不确定性114的原则的示意图。一些实施方式基于这样的认识,即系统100的动态的不确定性114可以被转换116为系统100的状态转变118的不确定性。在MDP中,过程进入到其下一状态s'的概率受所选动作的影响。具体地,其由状态转变函数Pa(s,s')给出。因此,下一状态s'取决于当前状态s和决策者的动作a。但是当前状态s和决策者的动作a有条件地独立于先前的状态和动作。换句话说,MDP 102的状态转变满足马尔可夫特性。
一些实施方式将系统100的动态的不确定性114表示为转变概率例如,系统100的动态的不确定性114可以表示为模糊度集合Ps,a s,a,其是针对每个状态s∈S和动作a∈A而定义的可行转变矩阵的集合,即系统100的所有可能的不确定性模型的集合。在下文中,P用于累积地指代针对所有状态s和动作a的Ps,a。
图1C示出了根据一些实施方式的包括模糊度集合P 120的RCMDP 112的构想的示意图。分别用模糊度集合120对性能成本106和安全成本110进行修改。特别地,模糊度集合120分别被合并到性能成本106中以产生鲁棒的性能成本,并且被合并到安全成本110中以产生鲁棒的安全成本。因此,求解(或构想)RCMDP 112意味着在系统100的所有可能的不确定模型的集合(模糊度集合120)上的性能成本106的优化,受制于还需要在系统100的所有可能的不确定模型的集合上满足的安全成本110。换句话说,利用模糊度集合120的这种修改允许RMDP 104在性能成本估计中考虑系统100的动态的不确定性114,并且允许CMDP 108以与性能成本估计一致的方式在约束执行中(即在安全成本110中)考虑系统100的动态的不确定性114。
因此,将系统100的动态的不确定性114转换116为系统100的状态转变的不确定性允许在单个一致的构想(即,RCMDP)中统一性能成本106和安全成本110两者的优化。此外,这样的转换116是有利的,因为现实或真实状态转变(尽管未知)对于性能成本106和安全成本110两者是公共的,并且这样的转换加强了这种一致性。为此,RCMDP 112构想包括模糊度集合120,以在受制于对系统100的运行施加约束的安全成本110的优化的情况下优化性能成本106。
因此,一些实施方式使用性能成本106和安全成本110两者的联合多功能优化,其中,性能成本106和安全成本110中的状态和动作对中的每一个的状态转变由捕获系统100的运行的不确定性的多个状态转变来表示。这种联合优化引入了性能成本106和安全成本110的相互依赖性。
另外,一些实施方式执行不平衡联合多功能优化,其中性能成本106的优化是主要目标,而安全成本110的优化是次要目标。实际上,如果不执行任务,则满足约束是无用的。因此,一些实施方式将安全成本110的优化定义为对性能成本110的优化的约束。以这种方式,安全成本的优化变得从属于性能成本的优化,因为作为约束的安全成本不具有独立的优化目标,并且仅限制系统100执行任务所采取的动作。
此外,一些实施方式根据RCMDP 112确定系统100的当前控制动作122。具体地,RCMDP 112优化受制于对系统100的运行实施约束的安全成本110的优化的性能成本106,以确定当前控制动作122。
图2示出了根据一些实施方式的用于控制受制于对系统100的运行的约束的在其动态中具有不确定性的系统100的控制器200的框图。控制器200连接到系统100。系统100可以是机器人系统、自主车辆系统、暖通空调(HVAC)系统等。控制器200被配置为经由输入接口202获取系统100的运行的历史数据,该历史数据包括成对的控制动作和根据相应的控制动作控制的系统100的状态转变。
控制器200可以具有将控制器200与其他系统和装置连接的多个接口。例如,网络接口控制器(NIC)214适于通过总线212将控制器200连接到网络216。通过网络216,无线地或有线地,控制器200获取系统100的运行的历史数据218,其包括成对的控制动作或根据相应的控制动作受控的系统100的状态转变。
控制器200包括被配置为执行存储的指令的处理器204,以及存储可由处理器204执行的指令的存储器206。处理器204可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。存储器206可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪存存储器或任何其他合适的存储器系统。处理器204通过总线212连接到一个或更多个输入和输出装置。此外,控制器200包括适于存储不同模块的存储装置208,所述不同模块存储用于处理器204的可执行指令。存储装置208可以使用硬盘驱动器、光驱、拇指驱动器、驱动器阵列或其任意组合来实现。存储装置208被配置为存储RCMDP构想的模糊度集合210。模糊度集合210包括系统100的所有可能的不确定模型的集合。
在一些实施方式中,控制器200被配置为针对处于当前状态的系统100确定将系统100的状态从当前状态转变为下一状态的当前控制动作,其中,根据RCMDP来确定当前控制动作,RCMDP使用历史数据来优化系统的运行的性能成本,该性能成本受制于对运行实施约束的安全成本的优化。性能成本和安全成本中的每个状态和动作对的状态转变由捕获系统100的动态的不确定性的多个状态转变来表示。控制器200还被配置为根据当前控制动作来控制系统100的操作,以将系统100的状态从当前状态改变为下一状态。
另外,控制器200可以包括输出接口220。在一些实施方式中,控制器200还被配置为经由输出接口220提交给系统100的控制器,以根据当前控制动作来操作系统100。
RCMDP的数学公式
考虑具有有限数量的状态S={1,...,S}和有限数量的动作A={1,...,A}的RMDP模型。每个动作a∈A可供决策者在每个状态s∈S中采取。在状态s∈S,中采取动作a∈A之后,决策者接收成本c(s,a)∈R并根据真但未知的转变概率∈ΔS转变为下一状态s′。模糊度集合P是针对每个状态s∈S和动作a∈A,定义的可行转变矩阵的集合,即系统100的所有可能的不确定模型的集合。P用于累积地指示针对所有状态s和动作a的Ps,a。
图3示出了根据一些实施方式的用于设计模糊度集合的示意图。在一个实施方式中,使用s,a-矩形模糊度集合,其假定不同状态动作对之间的独立性。使用系统(例如,系统100)的运行的数据集D 300来确定模糊度集合。数据集D 300可以包括系统的成对的控制动作和状态转变。此外,控制器200计算数据集D的均值,并且使用L1-范数302来定义均值周围的模糊度集合306。具体地,使用数据集300上的标称转变概率304周围的L1-范数有界模糊度集合来定义模糊度集合306,如下:
其中,ψs,a≥0是允许偏差的预算。这样的预算可以使用Hoeffding界限计算为:
其中,ns,a是源自状态s和动作a的数据集D中的转变的数量,并且δ是置信度水平。
在不同的实施方式中,使用不同的范数来设计模糊度集合306。例如,一个实施方式可以使用L2范数。在另一实施方式中,可以使用L0范数来设计模糊度集合306。在一些其他实施方式中,可以使用L∞范数来设计模糊度集合306。
或者,在一些实施方式中,可以使用数据驱动和置信区域来定义模糊度集合306。在另一替代实施方式中,可以使用数据集的概率分布的似然性水平来定义模糊度集合306。
针对状态s∈S的平稳随机化策略π(·|s)定义了动作a∈A上的概率分布,并且Π是平稳随机化策略的集合。鲁棒策略θ的鲁棒返回gθ,采样轨迹ξ和模糊度集合306(P)被定义为:
此外,为了适应安全约束,使用CMDP。这里,通过引入附加的即时安全约束成本d(s)∈[0,Dmax]和相关联的约束预算d0∈R+或安全界限作为预期累积约束成本的上限来扩展RMDP模型。对于策略θ,采样轨迹ξ和模糊度集合P的总鲁棒约束返回hθ被定义为:
一些实施方式基于这样的认识,即性能成本的优化可以受益于极小极大优化的原则,而安全成本的优化可以保持为泛化的。极大极小是用于使最坏情况(最大损耗)情况下的可能损耗最小化的决策规则。在RCMDP的上下文中,极小极大优化旨在优化针对系统100的动态的不确定参数的值的最坏情况场景的性能成本。因为捕获系统100的运行的不确定性的多个状态转变被包括在性能成本和安全成本两者中,所以通过针对不确定参数的最坏情况值的性能成本的首要极小极大优化而确定的在安全成本的从属优化中满足对不确定参数的相同最坏情况值的约束的动作在不确定参数的现实和真实值对于安全任务性能更有利时同样可以满足约束。
因此,一些实施方式将以下RCMDP问题公式化:
换句话说,一些实施方式旨在求解RCMDP问题(1),即,在安全约束206下,在系统100的所有可能的不确定模型的集合上优化性能成本,安全约束206也需要在系统100的所有可能的不确定模型的集合上得到满足。根据一个实施方式,通对在系统100的所有可能的不确定模型的集合上的最差性能成本和安全成本施加努力来确保正在计算的控制策略或控制动作实现这一点。如果计算出的控制策略使与系统100的可能的不确定模型集合的最坏可能成本相对应的性能成本最小化,则其使系统100的可能的不确定模型集合内的系统100的任何模型的性能成本最小化。类似地,如果计算出的控制策略满足针对系统100的可能的不确定模型的集合的最坏可能的安全成本的安全约束界限d0的安全成本则其使系统100的可能的不确定模型的集合内的系统100的任何模型上的安全成本最小化。
一些实施方式基于这样的认识,即对系统100的运行的约束可以作为禁止其违反的硬约束或不鼓励其违反的软约束而施加。一些实施方式基于这样的理解,即安全成本的优化可以用作软约束,这对于一些控制应用是可接受的,但是在其他应用中是禁止的。为此,对于一些控制应用,需要对系统100的运行施加硬约束。在这种情况下,与对性能成本的优化施加约束相反,一些实施方式对安全成本的优化施加硬约束。
对通过系统100的运行获得的任务的性能设计约束。因此,应当对性能成本的优化施加约束。这种施加可能与RMDP的原则相矛盾,因为通过性能成本的优化而优化的变量与约束无关。相反,安全成本的优化与约束相关地优化一个或多个变量。因此,对与约束相关的变量更容易施加硬约束。
一些实施方式基于以下认识,即虽然RCMDP公式(1)在许多机器人应用中是有价值的认识。然而,由于其计算复杂性,其实际应用仍然具有挑战性。因为在许多实际应用中,RCMDP的控制策略计算需要具有求解具有大量变量的约束线性问题。
一些实施方式基于这样的认识,即通过使用李雅普诺夫理论来呈现李雅普诺夫函数,可以简化RCMDP解决方案。图4示出了根据一些实施方式的李雅普诺夫函数的原则的示意图。对于要被控制的系统(例如,系统100)400,李雅普诺夫理论允许为该系统设计李雅普诺夫函数402。特别地,李雅普诺夫理论允许设计正定函数,例如系统的能量函数。此外,例如通过测试李雅普诺夫函数的时间导数来检查李雅普诺夫函数是否随时间减小404。如果李雅普诺夫函数随时间减小,则可以推断系统的轨迹是有界的408。如果李雅普诺夫函数没有减小,则推断系统轨迹的有界性没有得到保证406。因此,一些实施方式通过利用李雅普诺夫理论呈现李雅普诺夫函数并显示其减小来简化RCMDP。这种方法称为李雅普诺夫下降法(Lyapunov descent)。
另外,李雅普诺夫下降法是有利的,因为其允许在优化用于控制系统的控制策略的同时迭代地控制系统。换句话说,李雅普诺夫下降法允许用最终(即,迭代地)可以收敛到最优控制的次优但安全的控制动作控制系统来替换在启动控制之前确定最优且安全的控制动作。由于李雅普诺夫下降法所产生的不变性集合,这种替换是可能的。为此,利用李雅普诺夫下降法对性能成本和安全成本进行了优化。
图5A示出了根据一些实施方式的用于确定最优控制策略的RCMDP问题(1)的基于李雅普诺夫下降法的解的示意图。一些实施方式基于这样的认识,即,设计并使用李雅普诺夫函数简化并统一了用于优化的收敛理论。然而,针对RCMDP的受约束环境来设计李雅普诺夫函数是具有挑战性的。
为此,一些实施方式基于辅助成本函数500设计李雅普诺夫函数504。辅助成本函数500被配置为强制要求由安全成本502定义的约束在当前状态下被满足,同时使李雅普诺夫函数在状态转变演进的后续演进上沿着系统100的动态减小。因此,安全成本502用辅助成本函数500来诠释。辅助成本函数500显式且建设性地将李雅普诺夫变量引入到RCMDP公式(1)中,而不需要整体求解不确定系统的约束控制。
因此,对于由公式(1)给出的RCMDP问题,李雅普诺夫函数504可以被给出为
其中,f辅助成本函数500。李雅普诺夫函数(2)相关于辅助成本函数f。
此外,为了基于李雅普诺夫函数(2)确定最优控制策略,控制器200计算鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合506。鲁棒李雅普诺夫诱导的马尔可夫平稳策略的集合被定义为
a.
其中,Ξ`是初始状态集合。贝尔曼算子满足收缩特性,其可写为
因此,
随后,根据李雅普诺夫函数(2),由公式(1)给出的RCMDP问题的可行解可以被给出为
此外,控制器200确定鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合内的最优控制策略508。在一个实施方式中,使用鲁棒安全策略迭代(RSPI)算法来确定鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合内的最优控制策略508。
图5B示出了根据一些实施方式的用于确定最优控制策略的鲁棒安全策略迭代(RSPI)算法。
RSPI算法以可行但次最优的控制策略π0开始。随后,计算相关联的鲁棒李雅普诺夫函数。接下来,计算相关联的鲁棒成本函数cmax.,并且相应的鲁棒成本值函数被计算为此外,在鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合内获得中间策略。重复这样的过程直到达到预定的迭代次数或者直到中间控制策略收敛到稳定的最优控制策略π*。
在一个替代实施方式中,使用鲁棒安全值迭代(RSVI)算法来确定鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合内的最优控制策略508。
图5C示出了根据一些实施方式的用于确定最优控制策略的鲁棒安全值迭代(RSVI)算法。
RSVI算法以可行但次最优的控制策略π0开始。随后,计算相关联的鲁棒李雅普诺夫函数。接下来,计算相关联的鲁棒成本函数cmax.,并且针对相关联的鲁棒李雅普诺夫诱导的马尔可夫平稳策略来计算对应的值函数Qk+1.。此外,在鲁棒李雅普诺夫诱导的马尔可夫平稳策略集合内获得中间控制策略。重复该过程直到达到预定的迭代次数或者直到控制策略收敛到稳定的最优控制策略π*。
图6示出了根据一个实施方式的用于确定辅助成本函数500的示意图。鲁棒线性规划优化问题600由控制器200来求解602,以确定辅助成本函数500。鲁棒线性规划优化问题600由下式给出
辅助成本函数500是由公式(4)给出的鲁棒线性规划优化问题600的解,其中,Lf由等式(2)给出。鲁棒线性规划优化问题600使针对具有系统的动态的不确定性的系统的所有可能状态保持安全约束的满足的辅助成本函数的值最大化,以确定辅助成本函数500。
图7示出了根据一个实施方式的用于基于基函数确定辅助成本函数500的示意图。一些实施方式基于这样的认识,即,基函数700和与基函数相关联的最优权重706的组合可以用于确定辅助成本函数500。具体地,使用的基函数近似来确定辅助成本函数500。的基函数近似被给出为
因此,辅助成本函数500是具有由鲁棒线性规划优化问题704的解确定的权重的基函数的加权组合。
DNN模型用于表示状态s和状态s处的辅助成本函数的值之间的映射。DNN可以是任何深度神经网络,例如全连接网络、卷积网络、剩余网络等。通过求解公式(5)给出的最优问题来训练DNN模型,以获得DNN模型的最优系数,从而获得辅助成本函数的近似。
图8示出了根据一些实施方式的与用于执行操作的控制器200集成的机器人系统800。机器人臂802被配置为在障碍物806a和806b之间操纵的同时执行包括拾取特定形状的物体804的操作。这里,机器人臂802是要被控制的系统,拾取物体804的任务是性能任务,而避障是安全任务。换句话说,一些实施方式的目的是控制机器人臂802(系统)拾取物体804(性能任务),同时避开障碍物806a和806b(安全任务)。物体804或障碍物806a和806b或机器人臂802的模型可能是未知的,因为由于老化和故障,机器人的模型可能是不确定的(换句话说,机器人臂802的动态是不确定的)。
控制器200获取机器人臂802的操作的历史数据。历史数据可以包括成对的控制动作和根据相应控制动作受控的机器人臂802的状态转变。机器人臂802处于当前状态。控制器200可以根据由公式(1)给出的RCMDP来确定当前控制动作或控制策略。由公式(1)给出的RCMDP使用历史数据来优化受制于对拾取物体804的任务施加约束(避障)的安全成本的优化的拾取物体804的任务的性能成本。性能成本和安全成本中的每个状态和动作对的状态转变由捕获机器人臂802的动态的不确定性的多个状态转变来表示。
控制器200根据所确定的当前控制动作或控制策略来控制拾取物体804的任务,以将系统的状态从当前状态改变为下一状态。为此,在机器人系统800的操作期间,控制器200确保在拾取物体804时不撞击障碍物806a和806b,而不管物体804或障碍物806a和806b或机器人臂802上的不确定性如何。
图9A示出了包括与采用一些实施方式的原则的控制器200通信的车辆控制器902的车辆系统900的示意图。车辆900可以是任何类型的轮式车辆,例如客车、公共汽车或流动站。此外,车辆900可以是自主或半自主车辆。例如,一些实施方式控制车辆900的运动。运动的示例包括由车辆900的转向系统904控制的车辆的横向运动。在一个实施方式中,转向系统904由车辆控制器902控制。附加地或另选地,转向系统904可以由车辆900的驾驶员控制。
在一些实施方式中,车辆900可以包括发动机910,该发动机910可以由车辆控制器902或由车辆900的其他部件控制。在一些实施方式中,车辆900可以包括代替发动机910的电动机并且可以由车辆控制器902或由车辆900的其他部件控制。车辆900还可以包括一个或更多个传感器906,以感测周围环境。传感器906的示例包括距离测距仪,例如雷达。在一些实施方式中,车辆900包括一个或更多个传感器908以感测其当前运动参数和内部状态。一个或更多个传感器908的示例包括全球定位系统(GPS)、加速度计、惯性测量单元、陀螺仪、轴旋转传感器、扭矩传感器、偏转传感器、压力传感器和流量传感器。传感器向车辆控制器902提供信息。车辆900可以配备有收发器910,收发器910使得车辆控制器902能够具有通过有线或无线通信信道与一些实施方式的系统200通信的能力。例如,通过收发器910,车辆控制器902从控制器200接收控制动作。
图9B示出了根据一些实施方式的车辆900的车辆控制器902与其他控制器912之间的交互的示意图。例如,在一些实施方式中,车辆900的控制器912是控制车辆900的旋转和加速的转向控制器914和制动/节流控制器916。在这种情况下,车辆控制器902基于控制动作向控制器914和916输出控制命令,以控制车辆900的运动状态。在一些实施方式中,控制器912还包括高级控制器,例如车道保持辅助控制器918,其进一步处理车辆控制器902的控制命令。在这两种情况下,控制器912利用车辆控制器902的输出(即控制命令)来控制车辆900的至少一个致动器,例如车辆900的方向盘和/或制动器,以便控制车辆900的运动。
图9C示出了通过使用一些实施方式为其产生控制动作的自主或半自主受控车辆920的示意图。受控车辆920可以配备有控制器200。控制器200控制受控车辆920以将受控车辆920保持在道路924的特定界限内,并且旨在避开其他非受控车辆,即受控车辆920的障碍物922。对于这种控制,控制器200根据RCMDP确定控制动作。在一些实施方式中,控制动作包括指定受控车辆920的车轮的转向角、车轮的旋转速度和受控车辆920的加速度中的一个或组合的值的命令。基于控制动作,受控车辆920可以例如在左侧926或右侧超过另一车辆,而不撞击车辆926和车辆922(障碍物)。
另外,由公式(1)给出的RCMDP能够用于从模拟到现实世界(Sim2Real)的策略转移。由于在实际应用中,为了减轻无模型增强学习(RL)算法的采样低效率,通常针对模拟环境进行训练。然后将结果转移到现实世界,通常随后进行微调,该过程称为Sim2Real。在安全关键应用中,将RCMDP(公式(1))用于从模拟到现实世界(Sim2Real)的策略转移可以从针对模型不确定性是鲁棒的性能和安全保证中产生收益。
图10示出了基于CMDP的RL 1000方法、基于RMDP的RL 1002方法和基于李雅普诺夫的鲁棒约束MDP(L-RCMDP)的RL 1004的特性的示意图。基于CMDP的RL方法1000表现出的特性列表在框1006中示出。基于CMDP的RL方法1000的特性包括例如性能成本、安全约束、给定或学习的精确模型。然而,基于CMDP的RL 方法1000在性能上没有表现出鲁棒性,在安全性上没有表现出鲁棒性。基于RMDP的RL方法1002的特性列表在框1008中示出。基于RMDP的RL方法1002的特性包括例如性能成本、无安全约束、给定或学习的不确定模型、以及性能的鲁棒性。
基于L-RCMDP的RL 1004表现出的特性列表在框1010中示出。基于L-RCMDP的RL1004可以对应于由公式(1)给出的RCMDP问题。基于L-RCMDP的RL 1004的特性包括例如性能成本、安全约束、给定或学习的不确定模型、鲁棒性能、鲁棒安全约束。根据基于L-RCMDP的RL特性1010可以注意到,与基于CMDP的RL 1000方法和基于RMDP的RL1002方法的特性相比,基于L-RCMDP的RL特性1010表现出有利的特性1012,即鲁棒性能和鲁棒安全约束。由于这种有利的特性1012,基于L-RCMDP的RL 1004可以寻求并保证性能和安全约束两者的鲁棒性。
每种类型的RL方法的特性定义了哪种类型的应用适用于每种类型的RL方法。例如,基于CMDP的RL方法1000可以应用于没有不确定性的约束系统1014,例如具有理想模型和具有已知障碍的理想环境的机器人。基于RMDP的RL方法1002可以应用于具有不确定性的无约束系统1016,例如具有不完美模型和没有障碍的不完美环境的机器人。基于L-RCMDP的RL 1004可以应用于具有不确定性的受约束系统1018,例如具有不完美模型和具有障碍的不完美环境的机器人。
图11示出了根据一些实施方式的RCMDP构想的概况的示意图。性能成本1104与不确定模型集合1100组合形成鲁棒性能成本1106。具体地,不确定模型集合1100被结合在性能成本1104中以产生鲁棒性能成本1106。此外,安全成本1112与同一不确定模型集合1100组合形成鲁棒安全成本1110。特别地,不确定模型集合1100被结合在安全成本1112中以产生鲁棒安全成本1110。鲁棒性能成本1106与鲁棒安全成本1110一起构成RCMDP 1108。上文参照图1A、图1B、图1C和图3详细解释了RCMDP的构想。此外,可以求解构想的RCMDP 1108。求解RCMDP 1108可以指在不确定模型集合1100上,在受制于在不确定模型集合1100上优化安全成本1112的情况下优化性能成本1104。
以上描述仅提供示例性实施方式,并不旨在限制本公开的范围、适用性或配置。相反,示例性实施方式的以上描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的使能描述。预期可在不脱离所附权利要求书中所阐述的所公开主题的精神和范围的情况下对元素的功能和布置进行各种改变。
在以上描述中给出具体细节以提供对实施方式的全面理解。然而,本领域的技术人员可理解,可在没有这些特定细节的情况下实践所述实施方式。例如,所公开的主题中的系统、过程和其它元素可以以框图形式示出为组件,以便不以不必要的细节使实施方式模糊。在其它实例中,可能在没有不必要细节的情况下示出众所周知的过程、结构及技术以避免使实施方式模糊。此外,各个附图中相同的附图标记和标号指示相同的元件。
而且,可以将各个实施方式描述为被描绘为流程、流程图、数据流图、结构图或框图的过程。尽管流程图可将操作描述为顺序过程,但许多操作可并行或同时执行。另外,可以重新安排操作的顺序。过程可在其操作完成时终止,但可具有未在图中论述或包括的额外步骤。此外,并非在所有实施方式中都会发生任何特别描述的过程中的所有操作。过程可以对应于方法、函数、进程、子例程、子程序等。当过程对应于函数时,函数的终止可以对应于函数返回到调用函数或主函数。
此外,所公开的主题的实施方式可以至少部分地手动或自动地实现。可通过使用机器、硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实施。当在软件、固件、中间件或微代码中实现时,用于执行必要任务的程序代码或代码段可以存储在机器可读介质中。处理器可以执行必要的任务。
本文概述的各种方法或过程可被编码为可在采用各种操作系统或平台中的任何一个的一个或更多个处理器上执行的软件。另外,这样的软件可以使用许多合适的编程语言和/或编程或脚本工具中的任何一种来编写,并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常,在各种实施方式中,程序模块的功能可以根据需要进行组合或分布。
本公开的实施方式可以实施为一种方法,已经提供了该方法的示例。作为方法的一部分执行的动作可以以任何合适的方式排序。因此,可以构建其中以不同于所示出的顺序执行动作的实施方式,所述顺序可包括同时执行一些动作,即便它们在说明性实施方式中示出为顺序动作。虽然已经参考某些优选实施方式描述了本公开,但是应当理解,在本公开的精神和范围内可以进行各种其它的改编和修改。因此,所附权利要求的方面覆盖了落入本公开的真实精神和范围内的所有这些变化和修改。
Claims (16)
1.一种用于控制受制于对系统的运行的约束的在其动态中具有不确定性的所述系统的控制器,所述控制器包括:至少一个处理器;以及存储器,在所述存储器上存储有指令,所述指令在由所述至少一个处理器执行时使所述控制器执行以下操作:
获取所述系统的运行的历史数据,所述历史数据包括成对的控制动作和根据相应的控制动作而被控制的所述系统的状态转变;
对于处于当前状态的所述系统,确定将所述系统的状态从所述当前状态转变为下一状态的当前控制动作,其中,根据鲁棒和约束马尔可夫决策过程RCMDP来确定所述当前控制动作,所述鲁棒和约束马尔可夫决策过程RCMDP使用所述历史数据来优化受制于对所述系统的运行施加所述约束的安全成本的优化的所述系统的运行的性能成本,其中,所述性能成本和所述安全成本中的状态和动作对中的每一个的状态转变由捕获所述系统的动态的不确定性的多个状态转变来表示;以及
根据所述当前控制动作控制所述系统的运行,以将所述系统的状态从所述当前状态改变为所述下一状态。
2.根据权利要求1所述的控制器,其中,所述性能成本的优化是针对导致所述系统的动态的不确定性的不确定参数的值的最坏情况场景优化所述性能成本的极小极大优化。
3.根据权利要求1所述的控制器,其中,所述安全成本的优化对受制于硬约束的优化变量进行优化。
4.根据权利要求1所述的控制器,其中,利用李雅普诺夫下降法对所述性能成本和所述安全成本进行优化。
5.根据权利要求1所述的控制器,其中,所述安全成本用辅助成本函数来诠释,所述辅助成本函数被配置为强制要求在所述当前状态下满足所述约束,同时使李雅普诺夫函数在状态转变演进的后续演进上沿着所述系统的动态减小。
6.根据权利要求5所述的控制器,其中,所述辅助成本函数是鲁棒线性规划优化问题的解,所述鲁棒线性规划优化问题的解使针对具有动态的不确定性的所述系统的所有可能状态保持安全约束的满足的所述辅助成本函数的值最大化。
7.根据权利要求6所述的控制器,其中,所述辅助成本函数是具有由所述鲁棒线性规划优化问题的解确定的权重的基函数的加权组合。
8.根据权利要求7所述的控制器,其中,所述辅助成本函数是具有由所述鲁棒线性规划优化问题的解而确定的神经网络的权重的定义所述神经网络的基函数的加权组合。
9.一种用于控制受制于对系统的运行的约束的在其动态中具有不确定性的系统的方法,所述方法包括以下步骤:
获取所述系统的运行的历史数据,所述历史数据包括成对的控制动作和根据相应的控制动作而被控制的所述系统的状态转变;
对于处于当前状态的所述系统,确定将所述系统的状态从所述当前状态转变为下一状态的当前控制动作,其中,根据鲁棒和约束马尔可夫决策过程RCMDP来确定所述当前控制动作,所述鲁棒和约束马尔可夫决策过程RCMDP使用所述历史数据来优化受制于对所述系统的运行施加所述约束的安全成本的优化的所述系统的运行的性能成本,其中,所述性能成本和所述安全成本中的状态和动作对中的每一个的状态转变由捕获所述系统的动态的不确定性的多个状态转变来表示;以及
根据所述当前控制动作控制所述系统的运行,以将所述系统的状态从所述当前状态改变为所述下一状态。
10.根据权利要求9所述的方法,其中,所述性能成本的优化是针对导致所述系统的动态的不确定性的不确定参数地值的最坏情况场景优化所述性能成本的极小极大优化。
11.根据权利要求9所述的方法,其中,所述安全成本的优化对受制于硬约束的优化变量进行优化。
12.根据权利要求9所述的方法,其中,利用李雅普诺夫下降法对所述性能成本和所述安全成本进行优化。
13.根据权利要求9所述的方法,其中,所述安全成本用辅助成本函数来诠释,所述辅助成本函数被配置为强制要求在所述当前状态下满足所述约束,同时使李雅普诺夫函数在状态转变演进的后续演进上沿着所述系统的动态减小。
14.根据权利要求13所述的方法,其中,所述辅助成本函数是鲁棒线性规划优化问题的解,所述鲁棒线性规划优化问题的解使针对具有动态的不确定性的所述系统的所有可能状态保持安全约束的满足的所述辅助成本函数的值最大化。
15.根据权利要求14所述的方法,其中,所述辅助成本函数是具有由所述鲁棒线性规划优化问题的解确定的权重的基函数的加权组合。
16.根据权利要求15所述的方法,其中,所述辅助成本函数是具有由所述鲁棒线性规划优化问题的解确定的神经网络的权重的定义所述神经网络的基函数的加权组合。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202063093385P | 2020-10-19 | 2020-10-19 | |
| US63/093,385 | 2020-10-19 | ||
| US17/123,701 US11640162B2 (en) | 2020-10-19 | 2020-12-16 | Apparatus and method for controlling a system having uncertainties in its dynamics |
| US17/123,701 | 2020-12-16 | ||
| PCT/JP2021/026058 WO2022085251A1 (en) | 2020-10-19 | 2021-07-02 | Apparatus and method for controlling a system having uncertainties in its dynamics |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116324635A true CN116324635A (zh) | 2023-06-23 |
Family
ID=81186360
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202180070733.0A Pending CN116324635A (zh) | 2020-10-19 | 2021-07-02 | 用于控制在其动态中具有不确定性的系统的设备和方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US11640162B2 (zh) |
| EP (1) | EP4229487B1 (zh) |
| JP (1) | JP7520238B2 (zh) |
| CN (1) | CN116324635A (zh) |
| WO (1) | WO2022085251A1 (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119439743A (zh) * | 2024-11-07 | 2025-02-14 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法 |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119596708B (zh) * | 2024-12-05 | 2025-10-10 | 电子科技大学 | 切换拓扑下多机器人系统的固定时间鲁棒合围控制方法 |
| CN119635656B (zh) * | 2025-01-03 | 2025-08-22 | 渤海大学 | 一种单连杆机械臂系统建模与双异步事件触发控制设计方法 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102109820A (zh) * | 2009-12-29 | 2011-06-29 | 三菱电机株式会社 | 用于将连续系统转换成马尔可夫决策过程的方法 |
| WO2019164531A1 (en) * | 2018-02-26 | 2019-08-29 | Nissan North America, Inc. | Centralized shared autonomous vehicle operational management |
| CN110928189A (zh) * | 2019-12-10 | 2020-03-27 | 中山大学 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
| CN111026110A (zh) * | 2019-11-20 | 2020-04-17 | 北京理工大学 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20210178600A1 (en) * | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning |
| US11327449B2 (en) * | 2020-05-29 | 2022-05-10 | Mitsubishi Electric Research Laboratories, Inc. | Nonlinear optimization for stochastic predictive vehicle control |
-
2020
- 2020-12-16 US US17/123,701 patent/US11640162B2/en active Active
-
2021
- 2021-07-02 EP EP21752767.0A patent/EP4229487B1/en active Active
- 2021-07-02 JP JP2023537734A patent/JP7520238B2/ja active Active
- 2021-07-02 CN CN202180070733.0A patent/CN116324635A/zh active Pending
- 2021-07-02 WO PCT/JP2021/026058 patent/WO2022085251A1/en not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102109820A (zh) * | 2009-12-29 | 2011-06-29 | 三菱电机株式会社 | 用于将连续系统转换成马尔可夫决策过程的方法 |
| WO2019164531A1 (en) * | 2018-02-26 | 2019-08-29 | Nissan North America, Inc. | Centralized shared autonomous vehicle operational management |
| CN111026110A (zh) * | 2019-11-20 | 2020-04-17 | 北京理工大学 | 面向含软、硬约束线性时序逻辑的不确定动作规划方法 |
| CN110928189A (zh) * | 2019-12-10 | 2020-03-27 | 中山大学 | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 |
Non-Patent Citations (3)
| Title |
|---|
| REAZUL HASAN RUSSEL 等: "Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization under Model Uncertainty", ARXIV.ORG,CORNLL UNIVERSITY LIBRARY, 10 October 2020 (2020-10-10), pages 1 - 7 * |
| SAUMYA SINHA 等: "Policy iteration for robust nonstationary Markov decision processes", OPTIMIZATION LETTERS, vol. 10, no. 8, 18 May 2016 (2016-05-18), pages 1613 - 1628, XP036075120, DOI: 10.1007/s11590-016-1040-6 * |
| YINLAM CHOW 等: "Lyapunov-based Safe Policy Optimization for Continuous Control", ARXIV.ORG,CONELL UNIVERSITY LIBRARY, 29 January 2019 (2019-01-29), pages 1 - 21 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119439743A (zh) * | 2024-11-07 | 2025-02-14 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法 |
| CN119439743B (zh) * | 2024-11-07 | 2025-11-14 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于最差情况的不确定性系统李雅普诺夫稳定强化学习控制算法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4229487A1 (en) | 2023-08-23 |
| EP4229487B1 (en) | 2025-12-03 |
| WO2022085251A1 (en) | 2022-04-28 |
| JP7520238B2 (ja) | 2024-07-22 |
| US11640162B2 (en) | 2023-05-02 |
| US20220121188A1 (en) | 2022-04-21 |
| JP2023539698A (ja) | 2023-09-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11327449B2 (en) | Nonlinear optimization for stochastic predictive vehicle control | |
| CN114222952B (zh) | 用于强化学习控制的约束适配器 | |
| EP3924884B1 (en) | System and method for robust optimization for trajectory-centric model-based reinforcement learning | |
| Liang et al. | A polytopic model-based robust predictive control scheme for path tracking of autonomous vehicles | |
| CN114502335B (zh) | 用于具有几何约束的非线性机器人系统的轨迹优化的方法和系统 | |
| CN111985614B (zh) | 一种构建自动驾驶决策系统的方法、系统和介质 | |
| CN116324635A (zh) | 用于控制在其动态中具有不确定性的系统的设备和方法 | |
| JP2024520874A (ja) | ガウス分布の仮定密度フィルタによる不確実性伝播に基づく確率論的非線形予測コントローラおよび方法 | |
| CN113498523B (zh) | 用于控制机器对象的操作的装置和方法以及存储介质 | |
| US12038727B2 (en) | System for performing a task according to a reference trajectory | |
| JP7282271B2 (ja) | 混合自律車両隊列の直接および間接制御 | |
| JP2023517142A (ja) | データ駆動型モデル適応を用いる制御のための装置および方法 | |
| WO2017197170A1 (en) | Safely controlling an autonomous entity in presence of intelligent agents | |
| CN113557157A (zh) | 摩擦自适应车辆控制 | |
| Toner et al. | Probabilistically safe mobile manipulation in an unmodeled environment with automated feedback tuning | |
| JP7668951B2 (ja) | 感知によって発見可能な不確実な環境で動作するマシンの制御 | |
| JP2023129360A (ja) | 技術システムによって実行される安全行動を決定するためのデバイス及び方法 | |
| Cubuktepe et al. | Shared control with human trust and workload models | |
| CN118011826A (zh) | 无人机控制策略安全性验证与修正方法及系统 | |
| Cakan et al. | An Explainable RL-Based Speed Adaptation Framework for Autonomous Driving Using a Custom CARLA Environment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |