JP2023504220A - 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 - Google Patents
軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2023504220A JP2023504220A JP2022558825A JP2022558825A JP2023504220A JP 2023504220 A JP2023504220 A JP 2023504220A JP 2022558825 A JP2022558825 A JP 2022558825A JP 2022558825 A JP2022558825 A JP 2022558825A JP 2023504220 A JP2023504220 A JP 2023504220A
- Authority
- JP
- Japan
- Prior art keywords
- trajectory
- control
- policy
- controller
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
Description
Claims (20)
- 軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコントローラであって、
センサによって測定されたシステム状態、制御データおよび状態変化のタプルを含むデータを受信するように構成されたインターフェイスと、
プロセッサ実行可能プログラムを記憶するためのメモリとを備え、前記プロセッサ実行可能プログラムは、前記インターフェイスを介して受信した前記システムのタスク命令に応答して、所望の期間中の公称状態および制御軌道を時間ステップの関数として生成するための確率的予測学習モデルと、機械学習方法アルゴリズムおよび初期ランダム制御ポリシーを含む制御ポリシーと、公称軌道に沿って偏差を調節するためのローカルポリシーとを含み、
少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサは、
前記初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの前記確率的予測モデルを学習させることと、
前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
フィードフォワード制御および安定化時不変フィードバック制御と共に前記公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力、および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
非線形プログラミングを用いてロバストポリシー最適化を解決することと、
前記解決された最適化問題に従って前記制御データを更新することと、
前記インターフェイスを介して、前記更新された制御データを出力することとを実行するように構成されている、コントローラ。 - 前記システムは、離散時間型動力学システムである、請求項1に記載のコントローラ。
- 軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項1に記載のコントローラ。
- 前記離散時間型動力学システムの軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項3に記載のコントローラ。
- 前記非線形制約は、前記ローカル時不変フィードバックポリシーのシステム動力学および安定化制約である、請求項4に記載のコントローラ。
- 前記時不変ローカルポリシーは、前記ロバスト性制約を満たすように構成され、
前記ロバスト性制約は、現在の時間ステップにおいて最大偏差状態にある前記システムの現在の状態を、次の時間ステップにおいて前記軌道の周りの誤差許容値にプッシュする、請求項1に記載のコントローラ。 - 前記公称軌道に沿った不確実度ローカルセットは、前記システムのフォワード動力学モデルを学習させるために使用された確率関数近似器によって得られる、請求項1に記載のコントローラ。
- 既知セット内の公称軌道に沿った全ての状態における前記システムの前記最大偏差状態は、最適化問題を解決することによって得られる、請求項1に記載のコントローラ。
- 追加の前記ロバスト性制約を有する前記定式化された非線形プログラムは、前記最大偏差状態における前記ロバスト性制約の前記勾配を使用して、前記追加の時定数フィードバックコントローラと共に前記フィードフォワード制御を得るように解決される、請求項1に記載のコントローラ。
- 前記センサの少なくとも1つは、前記インターフェイスを介して無線通信を行う、請求項1に記載のコントローラ。
- 前記センサのうちの少なくとも1つは、深度画像を含む動画を提供する3次元(3D)カメラである、請求項1に記載のコントローラ。
- 前記センサは、前記システムおよび所定の周辺位置に配置される、請求項1に記載のコントローラ。
- 前記所定の周辺位置の少なくとも1つは、前記3Dカメラが前記システムの移動範囲を撮影する視野角によって決定される、請求項12に記載のコントローラ。
- 前記軌道中心コントローラ合成問題は、非線形プログラムである、請求項1に記載のコントローラ。
- 前記ローカルポリシーは、時不変フィードバックポリシーまたはローカル安定化コントローラである、請求項1に記載のコントローラ。
- 前記制御軌道は、開ループ軌道である、請求項1に記載のコントローラ。
- 軌道中心強化学習を行うためのシステムのローカル制御ポリシーを最適化するためのコンピュータ実装方法であって、
初期ランダム制御ポリシーを用いて行われた試行錯誤実験中に収集されたデータセットを使用して、前記システムの確率的予測モデルを学習させることと、
前記確率的予測モデルに関連する平均予測値および不確実度を推定することと、
フィードフォワード制御および安定化時不変フィードバック制御と共に公称軌道を計算するように、軌道中心コントローラ合成問題を定式化することと、
前記学習済み確率的システムモデルを用いて、現在の時間ステップの制御入力を使用する公称システム状態から、前記システムのローカル偏差セットを決定することと、
前記システムの前記ローカル偏差セット内の前記公称システム状態から、最大偏差を有するシステム状態を決定することと、
最大偏差を有する前記システム状態における前記ロバスト性制約の一次導関数を計算することによって、前記ロバスト性制約の勾配を決定することと、
状態および入力制約を満たしながら状態制御軌道のコストを最小化することによって、前記最適なシステム状態軌道、前記フィードフォワード制御入力および前記システム状態を前記公称軌道に調整するためのローカル時不変フィードバックポリシーを決定することと、
非線形プログラミングを用いてロバストポリシー最適化を提供および解決することと、
前記解決された最適化問題に従って前記制御データを更新することと、
前記インターフェイスを介して、前記更新された制御データを出力することとを含む、方法。 - 前記システムは、離散時間型動力学システムである、請求項17に記載の方法。
- 軌道中心制御ポリシーが、時間依存フィードフォワード制御と、前記時間依存フィードフォワード制御を安定化するためのローカル時不変フィードバック制御とによって合成される、請求項17に記載の方法。
- 前記離散時間型動力学システムの前記軌道中心制御ポリシーの合成は、非線形制約を有する非線形最適化プログラムとして定式化される、請求項3に記載の方法。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/712,329 US20210178600A1 (en) | 2019-12-12 | 2019-12-12 | System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning |
| US16/712,329 | 2019-12-12 | ||
| PCT/JP2020/046194 WO2021117845A1 (en) | 2019-12-12 | 2020-12-04 | System and method for robust optimization for trajectory-centric model-based reinforcement learning |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023504220A true JP2023504220A (ja) | 2023-02-01 |
| JP7367233B2 JP7367233B2 (ja) | 2023-10-23 |
Family
ID=74141789
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022558825A Active JP7367233B2 (ja) | 2019-12-12 | 2020-12-04 | 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20210178600A1 (ja) |
| EP (1) | EP3924884B1 (ja) |
| JP (1) | JP7367233B2 (ja) |
| CN (1) | CN114761966A (ja) |
| WO (1) | WO2021117845A1 (ja) |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12198476B2 (en) * | 2019-11-06 | 2025-01-14 | Ohio State Innovation Foundation | Systems and methods for vehicle dynamics and powertrain control using multiple horizon optimization |
| US20210233168A1 (en) * | 2020-01-29 | 2021-07-29 | Jpmorgan Chase Bank, N.A. | Method and system for processing orders on an electronic trading platform |
| SE544261C2 (en) | 2020-06-16 | 2022-03-15 | IntuiCell AB | A computer-implemented or hardware-implemented method of entity identification, a computer program product and an apparatus for entity identification |
| US12265924B1 (en) * | 2020-06-22 | 2025-04-01 | Amazon Technologies, Inc. | Robust multi-agent reinforcement learning |
| US11640162B2 (en) * | 2020-10-19 | 2023-05-02 | Mitsubishi Electric Research Laboratories, Inc. | Apparatus and method for controlling a system having uncertainties in its dynamics |
| EP4060567A1 (en) * | 2021-03-16 | 2022-09-21 | Robert Bosch GmbH | Device and method to improve learning of a policy for robots |
| JP7685885B2 (ja) * | 2021-06-22 | 2025-05-30 | 株式会社日立製作所 | モデル推論装置、方法およびプログラム |
| CN113927596B (zh) * | 2021-10-07 | 2023-08-01 | 西北工业大学 | 一种基于宽度神经学习的时变输出约束机器人遥操作有限时间控制方法 |
| CN113900377B (zh) * | 2021-10-19 | 2023-10-20 | 国网江苏省电力有限公司盐城供电分公司 | 双转子气动系统点对点迭代学习最小能量控制方法 |
| CN115994436B (zh) * | 2021-10-20 | 2024-07-23 | 北京三快在线科技有限公司 | 一种无人设备数据处理的方法及装置 |
| CN114035611B (zh) * | 2021-11-25 | 2024-04-12 | 哈尔滨工业大学 | 可重复使用高超声速飞行器上升段轨迹优化与制导方法 |
| US12124230B2 (en) * | 2021-12-10 | 2024-10-22 | Mitsubishi Electric Research Laboratories, Inc. | System and method for polytopic policy optimization for robust feedback control during learning |
| CN114237184A (zh) * | 2021-12-20 | 2022-03-25 | 杭州电子科技大学 | 一种工业过程的优化学习控制性能提升方法 |
| KR20240158261A (ko) * | 2022-03-02 | 2024-11-04 | 인투이셀 에이비 | 제1 시스템의 시간적 역학 표현을 제공하는 방법, 미들웨어 시스템, 컨트롤러 시스템, 컴퓨터 프로그램 제품 및 비일시적 컴퓨터 판독 가능 저장 매체 |
| CN114952860B (zh) * | 2022-06-22 | 2024-11-26 | 中山大学 | 基于离散时间神经动力学的移动机器人重复运动控制方法及系统 |
| CN115890668B (zh) * | 2022-11-18 | 2024-11-01 | 上海电力大学 | 一种机器人关节模组分散式优化学习控制方法及系统 |
| US20240211746A1 (en) * | 2022-12-22 | 2024-06-27 | International Business Machines Corporation | Realistic safety verification for deep reinforcement learning |
| CN116050800A (zh) * | 2023-02-20 | 2023-05-02 | 长沙理工大学 | 多阶段实时辅助服务市场中分布式能源鲁棒自动调度方法 |
| EP4428774B1 (en) * | 2023-03-10 | 2025-10-01 | Abb Schweiz Ag | Method for robust controlling a water distribution network |
| US12343875B2 (en) * | 2023-03-22 | 2025-07-01 | Mitsubishi Electric Research Laboratories, Inc. | System and method for controlling an operation of a manipulation system |
| CN117086865B (zh) * | 2023-08-02 | 2025-10-31 | 广东工业大学 | 基于输入受限的机械臂跟踪控制方法、系统、设备及介质 |
| CN116968029A (zh) * | 2023-08-11 | 2023-10-31 | 深圳信息职业技术学院 | 具有指定性能约束的多单臂机械手系统的控制方法及系统 |
| CN117325169B (zh) * | 2023-10-24 | 2024-08-23 | 成都大学 | 一种带初态学习的下肢康复机器人控制方法 |
| CN117260736B (zh) * | 2023-11-02 | 2024-04-02 | 北京长木谷医疗科技股份有限公司 | 一种机械臂动力学自适应控制方法、装置及电子设备 |
| CN119442857B (zh) * | 2024-10-18 | 2025-08-12 | 星辰空间(重庆)航空航天装备智能制造有限公司 | 基于人工智能的火箭轨迹优化与实时调整系统 |
| CN119717512B (zh) * | 2024-12-11 | 2025-09-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于不确定性量化的探测器动力下降鲁棒最优制导方法 |
| CN119861568B (zh) * | 2025-01-09 | 2025-11-25 | 湖南大学 | 一种asv-auv混合集群鲁棒模型预测协同控制方法及系统 |
| CN120871645A (zh) * | 2025-09-29 | 2025-10-31 | 南京理工大学 | 基于瓦瑟斯坦距离的多智能体系统双层q学习控制方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008197848A (ja) * | 2007-02-09 | 2008-08-28 | Kakei Gakuen | ファジィ制御装置、レーン走行支援装置、および操舵補助装置 |
| JP2019185529A (ja) * | 2018-04-13 | 2019-10-24 | ファナック株式会社 | 機械学習装置、制御装置、及び機械学習方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4200827A (en) * | 1977-06-29 | 1980-04-29 | International Business Machines Corporation | Positioning system employing feedforward and feedback control |
| US8145329B2 (en) * | 2009-06-02 | 2012-03-27 | Honeywell International Inc. | Method and system for combining feedback and feedforward in model predictive control |
| JP5930753B2 (ja) * | 2012-02-13 | 2016-06-08 | キヤノン株式会社 | ロボット装置の制御方法及びロボット装置 |
| CN110119844B (zh) * | 2019-05-08 | 2021-02-12 | 中国科学院自动化研究所 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
| CN110083160B (zh) * | 2019-05-16 | 2022-04-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的机器人轨迹规划方法 |
-
2019
- 2019-12-12 US US16/712,329 patent/US20210178600A1/en not_active Abandoned
-
2020
- 2020-12-04 JP JP2022558825A patent/JP7367233B2/ja active Active
- 2020-12-04 WO PCT/JP2020/046194 patent/WO2021117845A1/en not_active Ceased
- 2020-12-04 EP EP20838656.5A patent/EP3924884B1/en active Active
- 2020-12-04 CN CN202080084431.4A patent/CN114761966A/zh active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008197848A (ja) * | 2007-02-09 | 2008-08-28 | Kakei Gakuen | ファジィ制御装置、レーン走行支援装置、および操舵補助装置 |
| JP2019185529A (ja) * | 2018-04-13 | 2019-10-24 | ファナック株式会社 | 機械学習装置、制御装置、及び機械学習方法 |
Non-Patent Citations (2)
| Title |
|---|
| KOC, O ET AL.: ""Optimizing the Execution of Dynamic Robot Movements With Learning Control"", IEEE TRANSACTIONS ON ROBOTICS [ONLINE], vol. 35, no. 4, JPN6023019038, May 2019 (2019-05-01), pages 909 - 924, XP011739099, ISSN: 0005059841, DOI: 10.1109/TRO.2019.2906558 * |
| KOLARIC, P ET AL.: ""Local Policy Optimization forTrajectory-Centric Reinforcement Learning"", ARXIV.ORG [ONLINE], JPN6023019037, 2020, pages 1 - 7, ISSN: 0005059842 * |
Also Published As
| Publication number | Publication date |
|---|---|
| CN114761966A (zh) | 2022-07-15 |
| JP7367233B2 (ja) | 2023-10-23 |
| EP3924884A1 (en) | 2021-12-22 |
| EP3924884B1 (en) | 2023-08-30 |
| US20210178600A1 (en) | 2021-06-17 |
| WO2021117845A1 (en) | 2021-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7367233B2 (ja) | 軌道中心モデルに基づく強化学習のロバスト最適化を行うためのシステムおよび方法 | |
| Carron et al. | Data-driven model predictive control for trajectory tracking with a robotic arm | |
| Belkhale et al. | Model-based meta-reinforcement learning for flight with suspended payloads | |
| JP7301034B2 (ja) | 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法 | |
| US20200086480A1 (en) | System and method for controlling actuators of an articulated robot | |
| US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
| KR102239186B1 (ko) | 인공지능 기반 로봇 매니퓰레이터의 자동 제어 시스템 및 방법 | |
| US11281208B2 (en) | Efficient teleoperation of mobile robots via online adaptation | |
| US12038727B2 (en) | System for performing a task according to a reference trajectory | |
| US20220146997A1 (en) | Device and method for training a control strategy with the aid of reinforcement learning | |
| CN119115953A (zh) | 一种基于深度强化学习的遥操作空间机械臂轨迹规划方法 | |
| JP2019185742A (ja) | 制御装置及び制御方法 | |
| CN114137950A (zh) | 对机器人设备进行社会感知模型预测控制的方法和设备 | |
| US12124230B2 (en) | System and method for polytopic policy optimization for robust feedback control during learning | |
| JP2025520219A (ja) | デバイスの動作を制御するためのシステムおよび方法 | |
| JP3868358B2 (ja) | 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム | |
| CN119758719B (zh) | 基于混合状态估计的强化学习四足机器人倒立摆稳定方法 | |
| Siddique et al. | Adaptive Event-triggered Reinforcement Learning Control for Complex Nonlinear Systems | |
| CN118493381A (zh) | 基于持续策略重振的离线到在线可泛化强化学习方法和装置 | |
| JP2024001878A (ja) | 制御ルールを実装するための機械学習モデルをトレーニングするための方法 | |
| US20250326116A1 (en) | System and Method for Controlling Robotic Manipulator with Self-Attention Having Hierarchically Conditioned Output | |
| US20250269521A1 (en) | Device and Method for Natural Language Controlled Industrial Assembly Robotics | |
| CN119567261B (zh) | 机器人任务执行方法、装置、机器人及主动视角选择系统 | |
| Mitrovic | Stochastic optimal control with learned dynamics models | |
| CN120941407A (zh) | 基于深度强化学习的机器人的速度规划方法、系统及装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220527 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220527 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230425 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230601 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231011 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7367233 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |