JP7749145B2 - 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法 - Google Patents
学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法Info
- Publication number
- JP7749145B2 JP7749145B2 JP2024550931A JP2024550931A JP7749145B2 JP 7749145 B2 JP7749145 B2 JP 7749145B2 JP 2024550931 A JP2024550931 A JP 2024550931A JP 2024550931 A JP2024550931 A JP 2024550931A JP 7749145 B2 JP7749145 B2 JP 7749145B2
- Authority
- JP
- Japan
- Prior art keywords
- controller
- policy
- state
- dynamics
- polytopic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Feedback Control In General (AREA)
Description
Claims (10)
- システムの力学を学習することによって、前記システムを制御するポリシーを生成するためのコントローラであって、前記コントローラは、
前記システム上に配置されたセンサからシステム状態を取得するインターフェイスコントローラと、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサにステップを実行させるモデル学習モジュールおよびポリシー学習モジュールを含むコンピュータ実装命令を格納するメモリとを備え、前記ステップは、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、前記メモリに提供するステップと、
前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、適用される前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記ステップはさらに、
前記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、コントローラ。 - 前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項1に記載のコントローラ。
- 前記コントローラはさらに、前記システムと前記システムの前記力学の前記既知のシステムモデルとの間の残差力学を学習する、請求項1に記載のコントローラ。
- 前記コントローラはさらに、前記システムと前記既知のシステムモデルとの間の所与の制御軌道についての状態軌道の差として、残差力学に関するデータを収集する、請求項1に記載のコントローラ。
- 前記コントローラはさらに、ベイズ最適化を使用する残差力学の確率的機械学習モデルを使用する、請求項1に記載のコントローラ。
- 前記コントローラはさらに、前記ポリトピックシステムと半正定値計画とを使用して、ロバストポリシーを構築する、請求項1に記載のコントローラ。
- 前記システムの前記終端状態における前記終端コントローラは、前記システムを所望の終端状態に進めるために生成される、請求項1に記載のコントローラ。
- 前記コントローラはさらに、機械学習ベースの分類技術を使用して、前記終端コントローラの前記アトラクタベイスンを推定する、請求項1に記載のコントローラ。
- システムの力学を学習することによって、前記システムを制御するポリシーを生成するための、コンピュータに実装される方法であって、
前記システム上に配置されたセンサからシステム状態を取得するステップと、
前記システムの前記力学の既知の部分と、前記システムの前記力学の未知の部分とによって表される非線形システムモデルを、メモリに提供するステップと、
前記システムの前記力学の既知の部分を表す公称ポリシーと前記公称ポリシーに追加されたノイズ項とに基づいて、現在の前記システム状態を使用して、次の時刻における前記システム状態を算出するステップと、
前記システムのデータを収集することによって、前記システム状態のセットと制御入力のセットとのシーケンスを推定するステップとを含み、前記データは、前記システム状態の集合と、適用される制御入力と、前記システム状態の変化とを含み、前記制御入力の各々は、前記公称ポリシーと前記ノイズ項とによって計算され、前記方法はさらに、
前記システムの収集された前記データを使用して、前記システムを初期状態から終端コントローラのアトラクタベイスンに進めるためのポリトピックポリシーを生成するために、前記非線形システムモデルを書き換えてポリトピックシステムにするためのポリトピック表現を学習するステップと、
終端状態の近傍の前記システム状態をサンプリングし、教師あり学習により前記システムの前記終端コントローラの前記アトラクタベイスンを推定するステップと、
前記システムを前記初期状態から前記終端コントローラの前記アトラクタベイスンに進めるために、前記ポリトピックポリシーを生成するステップとを含む、方法。 - 前記システムを前記終端コントローラの前記アトラクタベイスンに進め、前記終端コントローラを用いて前記システムを所望の終端状態に進めるロバストポリトピックポリシーを含むハイブリッド制御ポリシーを実装するステップをさらに含む、請求項9に記載のコンピュータに実装される方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/643,604 | 2021-12-10 | ||
| US17/643,604 US12124230B2 (en) | 2021-12-10 | 2021-12-10 | System and method for polytopic policy optimization for robust feedback control during learning |
| PCT/JP2022/034658 WO2023105879A1 (en) | 2021-12-10 | 2022-09-09 | System and method for polytopic policy optimization for robust feedback control during learning |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024541746A JP2024541746A (ja) | 2024-11-11 |
| JP7749145B2 true JP7749145B2 (ja) | 2025-10-03 |
Family
ID=83692648
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024550931A Active JP7749145B2 (ja) | 2021-12-10 | 2022-09-09 | 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US12124230B2 (ja) |
| EP (1) | EP4302245A1 (ja) |
| JP (1) | JP7749145B2 (ja) |
| CN (1) | CN118355336A (ja) |
| WO (1) | WO2023105879A1 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118348894B (zh) * | 2024-06-06 | 2024-08-13 | 浙江吉利控股集团有限公司 | 多面体控制器的控制方法、多面体控制器、车机和车辆 |
| CN119669952B (zh) * | 2024-11-12 | 2025-10-24 | 北京科技大学 | 一种基于强化学习的Sim2Real模型构建方法及装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013222388A (ja) | 2012-04-18 | 2013-10-28 | Nippon Telegr & Teleph Corp <Ntt> | グラフ生成装置、方法、及びプログラム |
| US20160246277A1 (en) | 2015-02-23 | 2016-08-25 | Mitsubishi Electric Research Laboratories, Inc. | Model Predictive Control with Uncertainties |
| US20210178600A1 (en) | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning |
| JP2021152898A (ja) | 2020-03-24 | 2021-09-30 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | ニューラルネットワークと、改善された安定性とを有するコントローラ |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5402334A (en) * | 1992-05-11 | 1995-03-28 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for pseudoperiodic drive |
-
2021
- 2021-12-10 US US17/643,604 patent/US12124230B2/en active Active
-
2022
- 2022-09-09 EP EP22790078.4A patent/EP4302245A1/en active Pending
- 2022-09-09 CN CN202280080844.4A patent/CN118355336A/zh active Pending
- 2022-09-09 JP JP2024550931A patent/JP7749145B2/ja active Active
- 2022-09-09 WO PCT/JP2022/034658 patent/WO2023105879A1/en not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013222388A (ja) | 2012-04-18 | 2013-10-28 | Nippon Telegr & Teleph Corp <Ntt> | グラフ生成装置、方法、及びプログラム |
| US20160246277A1 (en) | 2015-02-23 | 2016-08-25 | Mitsubishi Electric Research Laboratories, Inc. | Model Predictive Control with Uncertainties |
| US20210178600A1 (en) | 2019-12-12 | 2021-06-17 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning |
| JP2021152898A (ja) | 2020-03-24 | 2021-09-30 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | ニューラルネットワークと、改善された安定性とを有するコントローラ |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4302245A1 (en) | 2024-01-10 |
| US12124230B2 (en) | 2024-10-22 |
| US20230185254A1 (en) | 2023-06-15 |
| JP2024541746A (ja) | 2024-11-11 |
| WO2023105879A1 (en) | 2023-06-15 |
| CN118355336A (zh) | 2024-07-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7367233B2 (ja) | 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 | |
| Mahler et al. | Learning accurate kinematic control of cable-driven surgical robots using data cleaning and gaussian process regression | |
| JP7301034B2 (ja) | 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 | |
| KR102421676B1 (ko) | 다관절 로봇의 액추에이터들을 제어하기 위한 시스템 및 방법 | |
| US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
| US20240173854A1 (en) | System and methods for pixel based model predictive control | |
| JP7699660B2 (ja) | 部分的に測定可能なシステムをモデル化および制御するための方法ならびにシステム | |
| JP7749145B2 (ja) | 学習中のロバストなフィードバック制御のポリトピックポリシー最適化のためのシステムおよび方法 | |
| CN114450131A (zh) | 机器人系统的无导数模型学习系统及设计 | |
| CN112638596A (zh) | 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法 | |
| CN119115953A (zh) | 一种基于深度强化学习的遥操作空间机械臂轨迹规划方法 | |
| US20220146997A1 (en) | Device and method for training a control strategy with the aid of reinforcement learning | |
| Widmann et al. | Human motion prediction in human-robot handovers based on dynamic movement primitives | |
| CN114137950A (zh) | 对机器人设备进行社会感知模型预测控制的方法和设备 | |
| Medina et al. | Risk-sensitive interaction control in uncertain manipulation tasks | |
| JP7738779B2 (ja) | 機会制約付き最適化を用いたロバストなロボット操作のためのシステムおよび方法 | |
| US20230095351A1 (en) | Offline meta reinforcement learning for online adaptation for robotic control tasks | |
| Schperberg et al. | Real-to-sim: Predicting residual errors of robotic systems with sparse data using a learning-based unscented kalman filter | |
| Alberto et al. | Computed torque control with variable gains through Gaussian process regression | |
| Gams et al. | Learning of parametric coupling terms for robot-environment interaction | |
| JP2025520219A (ja) | デバイスの動作を制御するためのシステムおよび方法 | |
| Kasaei et al. | SoftManiSim: A Fast Simulation Framework for Multi-Segment Continuum Manipulators Tailored for Robot Learning | |
| Schperberg et al. | Real-to-sim: Deep learning with auto-tuning to predict residual errors using sparse data | |
| Baldauf et al. | Iterative learning-based model predictive control for mobile robots in space applications | |
| Laursen et al. | Adapting parameterized motions using iterative learning and online collision detection |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240522 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240522 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250313 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250415 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250522 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250826 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250922 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7749145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |