[go: up one dir, main page]

JP2004118658A5 - - Google Patents

Download PDF

Info

Publication number
JP2004118658A5
JP2004118658A5 JP2002282987A JP2002282987A JP2004118658A5 JP 2004118658 A5 JP2004118658 A5 JP 2004118658A5 JP 2002282987 A JP2002282987 A JP 2002282987A JP 2002282987 A JP2002282987 A JP 2002282987A JP 2004118658 A5 JP2004118658 A5 JP 2004118658A5
Authority
JP
Japan
Prior art keywords
physical system
local model
approximation
local
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002282987A
Other languages
Japanese (ja)
Other versions
JP3868358B2 (en
JP2004118658A (en
Filing date
Publication date
Application filed filed Critical
Priority to JP2002282987A priority Critical patent/JP3868358B2/en
Priority claimed from JP2002282987A external-priority patent/JP3868358B2/en
Publication of JP2004118658A publication Critical patent/JP2004118658A/en
Publication of JP2004118658A5 publication Critical patent/JP2004118658A5/ja
Application granted granted Critical
Publication of JP3868358B2 publication Critical patent/JP3868358B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

理想的なアルゴリズムは、入力データ内の冗長性による数値上の問題を避け、入力値の異常を排除し、学習中の更新処理の計算の複雑さをおさえながらデータ効率を高く維持し、高次元空間での学習をリアルタイムで行なえるようにし、当然のことながら、正確な関数近似が可能でかつ十分に一般化可能である必要がある。さらに、学習制御において関数近似を行なう上で特に問題となるのは、多くの場合、動作範囲が未知であり、上限でしか規定されないということである。そのよう動作範囲を大きく見積もった場合に関数近似を行なう場合、多くの学習パラメータを割当てなければならないので計算コストが高くなる。さらにそれらのパラメータが学習データによる制約を適切に受けていないと、ノイズに対し、オーバーフィッティングしてしまうというおそれもある。一般に、推定すべき関数の複雑さが未知である場合に、学習パラメータの数としていくつを選べばよいかを決定するのは難しく、特に学習をオンラインで行なう場合には困難な問題である。 The ideal algorithm avoids numerical problems due to redundancy in the input data, eliminates anomalies in the input values, maintains high data efficiency while keeping the computational complexity of the update process during learning, high dimensional In order to be able to perform learning in space in real time, it is of course necessary that accurate function approximation be possible and sufficiently generalizable. Furthermore, what is particularly problematic in performing function approximation in learning control is that in many cases the operating range is unknown and can only be defined at the upper limit. When performing function approximation if the estimated increased so the operating range, the computational cost because it must assign a number of learning parameters increases. Furthermore, if these parameters are not properly restricted by the learning data, there is a risk that they will overfit against noise. In general, when the complexity of the function to be estimated is unknown, it is difficult to determine how many to choose as the number of learning parameters, especially when learning is performed online.

パラメータθkを、(xi,yi)または(xi,ei)の形式で与えられるデータから近似する必要がある。ここでyiは学習のターゲットであり、eiは推定誤差ep,I=f(xi)-^f(xi)を近似する誤差信号であって、平均値が0の雑音を含む。 The parameter θ k needs to be approximated from the data given in the form (x i , y i ) or (x i , e i ). Here, y i is a target of learning, and e i is an error signal that approximates the estimation error e p, I = f (x i )-^ f (x i ), and includes noise with an average value of 0. .

K.S.ナレンドラおよびA.M.アナスワミ著、「安定適応システム」プレンティスホール社発行、1989年(K.S.Narendra and A.M.Annaswamy, Stable Adaptive Systems.Prentice Hall,1989.)K. S. Narendra and A. M. Published by Anaswami, "Stabilized Adaptive Systems", Prentice Hall, 1989 (K.S. Narendra and A. M. Annaswamy, Stable Adaptive Systems. Prentice Hall, 1989.) J.−J.E.スロタインおよびW.リー著、「応用非線形制御」、プレンティスホール社発行、1991年(J.-J.E.Slotine and W.Li,Applied Nonlinear Control.Prentice Hall,1991.)J. -J. E. Throtain and W. Lee, "Applied Nonlinear Control", published by Prentice Hall, 1991 (J.-J. E. Slotine and W. Li, Applied Nonlinear Control. Prentice Hall, 1991.) J.−J.E.スロタインおよびW.リー著、「ロボットマニピュレータの適応制御について」、インターナショナル・ジャーナル・オブ・ロボティックス・リサーチ、第6巻第3号、pp.49−50,1987年(J.-J.E.Slotine and W.Li,“On the adaptive control of robot manipulators,” International Journal of Robotics Research,vol.6,no.3,pp. 49-59,1987.)J. -J. E. Throtain and W. Lee, "On adaptive control of robot manipulators", International Journal of Robotics Research, Vol. 6, No. 3, pp. 49-50, 1987 (J.-J.E. Slotine and W. Li, "On the adaptive control of robot manipulators," International Journal of Robotics Research, vol. 6, no. 3, pp. 49-59, 1987.) L.L.ホィットコム、A.A.リッツィおよびD.E.コディシェク著、「ロボットアームのための新たな適応制御を用いた比較実験」、IEEEトランザクションズ・オン・ロボティックス・アンド・オートメーション、第9巻pp.59−70,1993年2月(L.L.Whitcomb,A.A.Rizzi,and D.E.Koditschek,“Comparative experiments with a new adaptive controller for robot arms,” IEEE Transactions on Robotics and Automation,vol.9,pp.59-70,Feb.1993.)L. L. Whitecom, A. A. Rizzi and D.S. E. Kodi Shek, "Comparison Experiment with New Adaptive Control for Robot Arms", IEEE Transactions on Robotics and Automation, Volume 9 pp. 59-70, February 1993 (L. L. Whitcomb, A. A. Rizzi, and D. E. Koditschek, "Comparison experiments with a new adaptive controller for robot arms," IEEE Transactions on Robotics and Automation, vol. 9, pp. 59-70, Feb. 1993.). A.U.レヴィンおよびK.S.ナレンドラ著、「ニューラルネットワークを用いた非線形動システムの制御:可制御性および安定性」、IEEEトランザクションズ・オン・ニューラル・ネットワークス、第4巻、pp.192−206、1993年3月(A.U.Levin and K.S.Narendra,“Control of nonlinear dynamical systems using neural networks:Controllability and stabilization,” IEEE Transactions on Neural Networks,vol.4,pp.192-206,Mar.1993.)A. U. Levin and K. S. Narendra, "Control of Nonlinear Motion Systems Using Neural Networks: Controllability and Stability", IEEE Transactions on Neural Networks, Volume 4, pp. 192-206, March 1993 (A. U. Levin and K. S. Narendra, "Control of nonlinear dynamical systems using neural networks: Controllability and stabilization," IEEE Transactions on Neural Networks, vol. 4, pp. 192- 206, Mar. 1993.). F.−C.チェンおよびH.K.カリル著、「ニューラルネットワークを用いた非線形離散時間システムのクラスの適応制御」、IEEEトランザクションズ・オン・オートマチック・コントロール、第40巻、pp.791−801、1995年5月(F.-C.Chen and H.K.Khalil,“Adaptive control of a class of nonlinear discrete-time systems using neural networks,” IEEE Transactionson Automatic Control,vol.40,pp.791-801,May 1995.)F. -C.I. Chen and H. K. Karil, "Adaptive Control of a Class of Nonlinear Discrete-Time Systems Using Neural Networks," IEEE Transactions on Automatic Control, vol. 791-801, May 1995 (F.-C. Chen and H. K. Khalil, "Adaptive control of a class of nonlinear discrete-time systems using neural networks," IEEE Transactionson Automatic Control, vol. 40, pp. 791-801, May 1995.) R.サナーおよびJ.−J.E.スロタイン著、「直接適応制御のためのガウシアンネットワーク」、IEEEトランザクションズ・オン・ニューラル・ネットワークス、第3巻、pp.837−863,1992年11月(R.Sanner and J.-J.E.Slotine,“Gaussian networks for direct adaptive control,” IEEE Transactions on Neural Networks,vol.3,pp.837-863,Nov.1992.)R. Sanar and J.A. -J. E. Throtain, "Gaussian Network for Direct Adaptive Control", IEEE Transactions on Neural Networks, vol. 837-863, November 1992 (R. Sanner and J.-J. E. Slotine, "Gaussian networks for direct adaptive control," IEEE Transactions on Neural Networks, vol. 3, pp. 837-863, Nov. 1992 .) S.セシャギリおよびH.K.カリル著、「RBFニューラル・ネットワークスを用いた非線形システムの出力フィードバック制御」、IEEEトランザクションズ・オン・ニューラル・ネットワークス、第11巻,pp.69−79,2000年1月(S.Seshagiri and H.K.Khalil,“Output feedback control of nonlinear systems using RBF neural networks,” IEEE Transactions on Neural Networks,vol.11,pp.69-79,Jan.2000.)S. Seshagiri and H. K. Karil, "Output feedback control of nonlinear systems using RBF neural networks", IEEE Transactions on Neural Networks, Vol. 11, pp. 69-79, January 2000 (S. Seshagiri and H. K. Khalil, “Output feedback control of nonlinear systems using RBF neural networks,” IEEE Transactions on Neural Networks, vol. 11, pp. 69-79, Jan. 2000.) J.Y.チョイおよびJ.A.ファレル著、「ピースワイズ線形近似のネットワークを用いた非線形適応制御」、IEEEトランザクションズ・オン・ニューラル・ネットワークス、第11巻、pp.390−401、2000年3月(J.Y.Choi and J.A.Farrell,“Nonlinear adaptive control using networks of piecewise linear approximations,” IEEE Transactions on Neural Networks,vol.11,pp.390-401,Mar.2000.)J. Y. Choi and J.A. A. See Farrell, "Nonlinear Adaptive Control Using a Network of Piecewise Linear Approximations," IEEE Transactions on Neural Networks, Vol. 11, pp. 390-401, March 2000 (J. Y. Choi and J. A. Farrell, "Non-linear adaptive control using networks of piecewise linear approximations," IEEE Transactions on Neural Networks, vol. 11, pp. 390-401, Mar .2000.) C.G.アトキソン、A.W.ムーア、およびS.シャール著、「局所重み付け学習」、アーティフィシャル・インテリジェンス・レビュー、第11巻、第1−5号、pp.11−73、1997年(C.G.Atkeson,A.W.Moore,and S.Schaal,“Locally weighted learning,” Artificial Intelligence Review,vol.11,no.1-5,pp.11-73,1997.)C. G. Ataxone A. W. Moore, and S. Schal, "Locally Weighted Learning", Artificial Intelligence Review, Vol. 11, No. 1-5, pp. 259-324. 11-73, 1997 (CG Atkeson, A.W. Moore, and S. Schaal, “Locally weighted learning,” Artificial Intelligence Review, vol. 11, no. 1-5, pp. 11-73, 1997.) J.−J.E.スロタインおよびW.リー著、「ロボットマニピュレータの複合的適応制御」、オートマチカ、第25巻、第4号、pp.509−519、1989年(J.-J.E.Slotine and W.Li,“Composite adaptive control of robot manipulators,” Automatica,vol.25,no.4,pp.509-519,1989.)J. -J. E. Throtain and W. Lee, "Integrated Adaptive Control of Robot Manipulators", Automata, Vol. 25, No. 4, pp. 509-519, 1989 (J.-J.E. Slotine and W. Li, "Composite adaptive control of robot manipulators," Automatica, vol. 25, no. 4, pp. 509-519, 1989.) S.ヴィジャヤクマールおよびH.オガワ著、「正確なインクリメンタル学習のためのRKHSベースの関数分析」、ニューロコンピューティング、第29巻、第1−3号、pp.85−113、1999年(S.Vijayakumar and H.Ogawa,“RKHS based functional analysis for exact incremental learning,” Neurocomputing,vol.29,no.1-3,pp.85-113,1999.)S. Vijayakumar and H.A. Ogawa, "RKH based functional analysis for accurate incremental learning," Neurocomputing, Vol. 29, No. 1-3, pp. 85-113, 1999 (S. Vijayakumar and H. Ogawa, "RKHS based functional analysis for exact incremental learning," Neurocomputing, vol. 29, no. 1-3, pp. 85-113, 1999.) S.シャールおよびC.G.アトキソン、「局所情報のみからのコンストラクティブ・インクリメンタル学習」、ニューラル・コンピューテーション、第10巻、第8号、pp.2047−2084、1998年(S.Schaal and C.G.Atkeson,“Constructive incremental learning from only local information,” Neural Computation,vol.10,no.8,pp.2047-2084,1998.)S. Shall and C.I. G. Atoxon, "Constructive Incremental Learning from Local Information Only", Neural Computation, Vol. 10, No. 8, pp. 2047-2084, 1998 (S. Schaal and C. G. Atkeson, "Constructive incremental learning from only local information," Neural Computation, vol. 10, no. 8, pp. 2047-2084, 1998.) L.リュングおよびT.ソーダーストローム著、「再帰的同定の理論と実践」、MITプレス発行、1986年(L.Ljung and T.Soederstroem,Theory and Practice of Recursive Identification.MIT Press,1986.)L. Lung and T.W. Sodastrom, "Theory and Practice of Recursive Identification", MIT Press, 1986 (L. Ljung and T. Soederstroem, Theory and Practice of Recursive Identification. MIT Press, 1986.) H.K.カリル著、「非線形系(第2版)」、プレンティスホール社刊、1996年(H.K.Khalil,Nonlinear Systems (2nd Edition).Prentice Hall,1996.)H. K. Karil, "Nonlinear Systems (2nd Edition)", Prentice Hall, 1996 (HK Khalil, Nonlinear Systems (2nd Edition). Prentice Hall, 1996.) S.シャールおよびC.G.アトキソン著、「レセプティブ・フィールド重み付け回帰」、テクニカル・レポートRE−H−209、ATR人間情報処理研究所発行、1997年(S.Schaal and C.G.Atkeson,“Receptive field weighted regression,” Technical report RE-H-209,ATR Human Information Processing Laboratories,1997.)S. Shall and C.I. G. By Atoxon, "Receptive Field Weighted Regression", Technical Report RE-H-209, ATR Human Information Processing Research Institute, 1997 (S. Schaal and CG Atkeson, "Receptive field weighted regression," Technical report RE-H-209, ATR Human Information Processing Laboratories, 1997.) H.ゴミおよびM.カワト著、「フィードバック誤差学習を用いたクローズド・ループ系のためのニューラル・ネットワーク制御」、ニューラル・ネットワークス、第6巻、pp.933−946、1993年(H.Gomi and M.Kawato, “Neural network control for a closed-loop system using feedback-error-learning,” Neural Networks,vol.6,pp.933-946,1993.)H. Garbage and M. Kawato, "Neural Network Control for Closed Loop Systems Using Feedback Error Learning," Neural Networks, Vol. 933-946, 1993 (H. Gomi and M. Kawato, "Neural network control for a closed-loop system using feedback-error-learning," Neural Networks, vol. 6, pp. 933-946, 1993.)

Figure 2004118658
kは重み付けされた入力xkに対する共分散行列の逆行列、θkは当該局所モデルの学習パラメータ、wkは当該局所モデルの重み、eはトラッキング誤差、epkは近似誤差、λは忘却係数、
にしたがって当該局所モデルの学習パラメータの近似^θkを算出するステップと、所定の式により定められる、学習データを表わす関数値yと関数近似^yとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するステップとを含んでもよい。
Figure 2004118658
P k is the inverse matrix of the covariance matrix for the input x k weighted, theta k learning parameters of the local models, w k is the weight of the local model, e is the tracking error, e pk approximation error, lambda forgetting coefficient,
Calculating an approximation ^ θ k of the learning parameter of the local model according to and minimizing an error index defined between the function value y representing the learning data and the function approximation ^ y determined by a predetermined equation And D. optimizing each of the distance metrics.

この発明のさらに他の局面にかかる物理系の制御装置は、物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御装置である。関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められる。この装置は、関数近似の初期構造を規定するための初期化手段と、物理系の実際の状態を表わす状態データを受信するための受信手段と、状態データに基づいて、物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および状態データと関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで関数近似を更新するための更新手段と、更新された関数近似を用い、制御系の制御則にしたがって制御変数の計算を行なうための計算手段と、計算された制御変数を物理系に出力するための出力手段と、受信手段、更新手段、計算手段および出力手段が繰返し動作するよう制御するための制御手段とを含む。 A controller of a physical system according to still another aspect of the present invention approximates the non-linear function describing the dynamics of the physical system by a function approximation obtained by weighting and adding a linear local model. It is a control device of a physical system that controls the physical system. The structure of the local model constituting the function approximation and the respective weights are determined by predetermined learning parameters. This apparatus comprises: initialization means for defining an initial structure of function approximation; receiving means for receiving state data representing an actual state of the physical system; and a target trajectory of the physical system based on the state data Based on the tracking error between the actual trajectory and the approximation error between the state data and the function approximation, learning parameters of each local model are minimized so as to minimize a predetermined error index independently for each local model. Updating means for updating function approximation by updating, calculating means for calculating control variables according to the control law of the control system using the updated function approximation, and the calculated control variables as a physical system And output means for outputting data, and control means for controlling the receiving means, the updating means, the calculating means, and the output means to operate repeatedly.

Figure 2004118658
kは重み付けされた入力xkに対する共分散行列の逆行列、θkは当該局所モデルの学習パラメータ、wkは当該局所モデルの重み、eはトラッキング誤差、epkは近似誤差、λは忘却係数、
にしたがって当該局所モデルの学習パラメータの近似^θkを算出するための手段と、所定の式により定められる、学習データを表わす関数値yと関数近似^yとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するための最適化手段とを含む。
Figure 2004118658
P k is the inverse matrix of the covariance matrix for the input x k weighted, theta k learning parameters of the local models, w k is the weight of the local model, e is the tracking error, e pk approximation error, lambda forgetting coefficient,
Means for calculating the approximation ^ θ k of the learning parameter of the local model according to and the error index defined between the function value y representing the learning data and the function approximation ^ y determined by a predetermined equation And optimizing means for optimizing each of the distance metrics.

図5に、本実施の形態にかかる非線形制御を行なうコントローラ60のブロック図を、コントローラ60に対して制御対象となるロボットなどの物理系からの制御変数の入力を行なうためのセンサ群62A−62Nと、コントローラ60によって制御されて動作するアクチュエータ群64A−64Mとともに示す。コントローラ60は、センサ群62A−62Nからの入力を受ける入力ポート70と、アクチュエータ群64A−64Mが接続される出力ポート72と、入力ポート70および出力ポート72に接続されるCPU(Central Processing Unit)74と、いずれもCPU74に接続されるROM(Read−Only Memory)76、RAM(Random Access Memory)78、ネットワークボード82、およびメモリリーダ80とを含む。ネットワークボード82は外部のネットワーク92に接続される。メモリリーダ80には、集積回路からなるメモリカード90を着脱可能であり、メモリカード90に格納されたデータおよびプログラムをCPU74に供給し、CPU74からのデータを格納することが可能である。 FIG. 5 is a block diagram of the controller 60 that performs non-linear control according to the present embodiment, and a sensor group 62A-62N for inputting control variables from a physical system such as a robot to be controlled to the controller 60. And the actuator group 64A-64M controlled and operated by the controller 60. The controller 60 has a CPU (Central Processing Unit) connected to the input port 70 receiving the input from the sensor group 62A to 62N, the output port 72 to which the actuator group 64A to 64M is connected, and the input port 70 and the output port 72 74 includes a ROM (Read-Only Memory) 76, a RAM (Random Access Memory) 78, a network board 82, and a memory reader 80, all of which are connected to the CPU 74. The network board 82 is connected to an external network 92. A memory card 90 made of an integrated circuit is removable from the memory reader 80. The data and program stored in the memory card 90 can be supplied to the CPU 74, and data from the CPU 74 can be stored.

Figure 2004118658
kは重み付けされた入力xkに対する共分散行列の逆行列であり、θkは学習パラメータであり、wkは前述の重みであり、eはトラッキング誤差であり、epkは近似誤差であり、λは忘却係数である。忘却係数λは、パラメータ更新においてはある程度新しいデータだけを用いるために導入された係数で[0,1]の値をとる。
Figure 2004118658
P k is the inverse matrix of the covariance matrix for the input x k weighted, theta k is the learning parameter, w k is the weight of the above, e is the tracking error, e pk is an approximation error , Λ are oblivion factors. The forgetting factor λ takes a value of [0, 1] with a factor introduced to use only new data to a certain extent in parameter updating.

図9に、図7のステップ122およびステップ124の一例として局所モデルを追加する場合のプログラムのフローチャートを示す。図9を参照して、まずステップ170であるデータ点について計算された全ての重みwkがあるしきい値より小さいか否かが判定される。この判定結果がYESであれば、このデータ点の存在がどの局所モデルにも十分に反映されていないということなので、ステップ172で新規な局所モデルを追加する。この場合の局所モデルの中心 kの初期値はに設定される。その幅には適当な初期値が設定される。たとえば隣接する局所モデルの幅などを初期値に設定するとよい。これは、隣接する局所モデルは、真の関数の隣接する部分に対応しているので、そこでの真の関数の曲率にもそれほど大きな違いはないだろうという推定に基づく。もっとも、ここで新規に追加する局所モデルは以後の更新処理で調整されていくため、上のように幅を選ぶことは必須ではない。ただし、上のように選ぶことにより局所モデルの幅が早期に最適な値に調整されるという効果がある。 FIG. 9 shows a flowchart of a program for adding a local model as an example of steps 122 and 124 of FIG. Referring to FIG. 9, whether initially less than all of the weights w k is the threshold calculated for the data points x is the step 170 is determined. If the determination result is YES, it means that the presence of this data point is not sufficiently reflected in any local model, so a new local model is added in step 172. The initial value of the center c k of the local model in this case is set to x . An appropriate initial value is set to the width. For example, the width of an adjacent local model may be set to an initial value. This is based on the assumption that adjacent local models correspond to adjacent parts of the true function, so the curvature of the true function there will not be much different. However, since the local model to be newly added here is adjusted in the subsequent update processing, it is not essential to select the width as described above. However, selecting as above has an effect that the width of the local model is adjusted to the optimum value at an early stage.

再び図を参照して、ステップ106で計算に使用される制御則の例は以下の
形のものである。
Referring again to FIG. 6 , an example of a control law used in the calculations at step 106 is of the form:

図12は、N(0,0.01)のガウスノイズを測定値に加えたときの非適応的PDコントローラによるトラッキング誤差230と、Γk=10および250Iのトラッキング誤差ベースの適応コントローラのトラッキング誤差232および234と、本実施の形態のRFWR複合適応コントローラによるトラッキング誤差236とを比較して示す。図12に示すように、Γk=250Iのトラッキング誤差ベースの適応コントローラの性能は、ガウスノイズの存在によって大きく低下する。それに対し本実施の形態にかかるRFWR複合適応コントローラは安定でかつ高速な学習を実現していることが分かる。 FIG. 12 shows tracking error 230 by the non-adaptive PD controller when N (0, 0.01) Gaussian noise is added to the measured value, and tracking by the tracking error based adaptive controller of Γ k = 10 I and 250 I The errors 232 and 234 and the tracking error 236 by the RFWR complex adaptive controller of the present embodiment are compared and shown. As shown in FIG. 12, the performance of the tracking error based adaptive controller at Γ k = 250 I is greatly degraded by the presence of Gaussian noise. On the other hand, it can be seen that the RFWR complex adaptive controller according to the present embodiment realizes stable and fast learning.

【符号の説明】
20 目標軌跡、22 実際の軌跡、24 トラッキング誤差、26,40 真の関数、28 関数近似、30 近似誤差、32 カーネル関数、42,44,46 カーネル直径の範囲、42C トレーニング点、52,54,56 局所近似線形関数、60 コントローラ、74 CPU、76 ROM、78 RAM、80 メモリリーダ、82 ネットワークボード、90 メモリカード、92 ネットワーク
[Description of the code]
20 target trajectory, 22 actual trajectory, 24 tracking error, 26, 40 true function, 28 function approximation, 30 approximation error, 32 kernel function, 42, 44, 46 kernel diameter range, 42C training point , 52, 54, 56 local approximation linear function, 60 controller, 74 CPU, 76 ROM, 78 RAM, 80 memory reader, 82 network board, 90 memory card, 92 network

Claims (20)

物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御方法であって、前記関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められ、
前記関数近似の初期構造を規定するステップと、
前記物理系の実際の状態を表わす状態データを受信するステップと、
前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで前記関数近似を更新するステップと、
更新された前記関数近似を用い、前記制御系の制御則にしたがって制御変数の計算を行なうステップと、
計算された前記制御変数を前記物理系に出力するステップと、
前記受信するステップ、更新するステップ、計算を行なうステップ、および出力するステップを繰返し行なうステップとを含む、物理系の制御方法。
A control method of a physical system for controlling a physical system by approximating a non-linear function describing the dynamics of the physical system by a function approximation obtained by weighting and adding a linear local model. The structure of the local model making up the approximation and the respective weights are determined by predetermined learning parameters,
Defining an initial structure of the function approximation;
Receiving state data representing an actual state of the physical system;
Based on the state data, it is determined independently for each local model based on the tracking error between the target trajectory of the physical system and the actual trajectory, and the approximation error between the state data and the function approximation. Updating the function approximation by updating the learning parameters of each local model so as to minimize the error index of
Calculating the control variable according to the control law of the control system using the updated function approximation;
Outputting the calculated control variable to the physical system;
A control method of a physical system, comprising the steps of receiving, updating, performing calculation, and repeatedly performing outputting.
前記関数近似^yは、次の式
Figure 2004118658
ただし
Figure 2004118658
kはk番目の線形モデルの中心位置、
kは所定のカーネル関数により表わされる重み、
で表わされる、請求項1に記載の物理系の制御方法。
The function approximation ^ y is
Figure 2004118658
However
Figure 2004118658
c k is the center position of the k th linear model,
w k is a weight represented by a predetermined kernel function,
The control method of the physical system according to claim 1, represented by
前記重みwkは、
Figure 2004118658
なるカーネル関数で計算される、請求項2に記載の物理系の制御方法。
The weight w k is
Figure 2004118658
The control method of a physical system according to claim 2, wherein the control method is calculated by a kernel function.
前記更新するステップは、
既存の局所モデルの各々について、前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新する第2のステップと、
前記更新する第2のステップで更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するステップと、
前記判定するステップで各局所モデルの学習パラメータが前記所定の条件を充足していると判定されたことに応答して、局所モデルを追加又は削除するステップとを含む、請求項3に記載の物理系の制御方法。
The updating step is
For each of the existing local models, based on the state data, based on tracking errors between the target trajectory of the physical system and the actual trajectory, and an approximation error between the state data and the function approximation A second step of updating the learning parameter to minimize a predetermined error indicator;
Determining whether a learning parameter of each local model updated in the second step of updating satisfies a predetermined condition;
The method according to claim 3, further comprising the steps of: adding or deleting a local model in response to determining that the learning parameter of each local model satisfies the predetermined condition in the determining step. System control method.
前記更新する第2のステップは、
前記局所モデルごとに、
前記状態データおよび前記トラッキング誤差に基づいて前記重みwkを計算するステップと、
前記重みwkを用い、以下の式
Figure 2004118658
kは重み付けされた入力xkに対する共分散行列の逆行列、θkは当該局所モデルの学習パラメータ、wkは当該局所モデルの重み、eはトラッキング誤差、epkは近似誤差、λは忘却係数にしたがって当該局所モデルの学習パラメータの近似^θkを算出するステップと、
所定の式により定められる、学習データを表わす関数値yと関数近似^yとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するステップとを含む、請求項4に記載の物理系の制御方法。
The second step of updating is
For each of the local models,
Calculating the weights w k based on said status data and said tracking error,
Using the weight w k , the following equation
Figure 2004118658
P k is the inverse matrix of the covariance matrix for the input x k weighted, theta k learning parameters of the local models, w k is the weight of the local model, e is the tracking error, e pk approximation error, lambda forgetting Calculating an approximation ^ θ k of the learning parameter of the local model according to the coefficient;
Optimizing each of the distance metrics by minimizing an error indicator defined between the function value y representing the training data and the function approximation y y defined by the predetermined equation. The control method of the physical system as described in.
前記判定するステップは、すべての局所モデルに対して算出された重みwk(k=1〜局所モデルの数)が所定のしきい値未満か否かを判定するステップを含み、
前記追加又は削除するステップは、すべての局所モデルに対して算出された重みwkが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するステップを含む、請求項5に記載の物理系の制御方法。
The determining step includes the step of determining whether the weights w k (k = 1 to the number of local models) calculated for all the local models are less than a predetermined threshold value.
Wherein the step of adding or deleting includes the step of all the weights w k calculated for the local model in response to the determination that below a predetermined threshold, adding a new local model, wherein Item 5. A control method of a physical system according to item 5.
前記追加するステップで追加される局所モデルの中心位置の初期値は、前記状態データに対応するデータ点と等しい位置に選ばれる、請求項6に記載の物理系の制御方法。  The control method of a physical system according to claim 6, wherein an initial value of a center position of the local model added in the adding step is selected to be equal to a data point corresponding to the state data. 前記追加するステップで追加される局所モデルの幅の初期値は、前記追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる、請求項6又は請求項7に記載の物理系の制御方法。The control method of a physical system according to claim 6 or 7, wherein the initial value of the width of the local model added in the adding step is selected to be equal to the width of the local model closest to the added local model. . 前記最適化するステップは、以下の式により定められる誤差指標Jkを最小化するように距離メトリックDk,ijを最適化するステップを含み、
Figure 2004118658
ここでは、以下の勾配降下法が用いられ、
Figure 2004118658
ここで、
Figure 2004118658
であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である、請求項6から請求項8のいずれかに記載の物理系の制御方法。
The optimizing step includes the step of optimizing the distance metric D k, ij so as to minimize the error indicator J k defined by the following equation:
Figure 2004118658
Here, the following gradient descent method is used,
Figure 2004118658
here,
Figure 2004118658
The control method of the physical system according to any one of claims 6 to 8, wherein γ is a scalar quantity that determines the size of the penalty, and α is a learning rate.
コンピュータ上で実行されることにより請求項1から請求項9のいずれかに記載の物理系の制御方法を実行するように構成されたコンピュータプログラムコード手段を含む、物理系の制御のためのコンピュータプログラム。  A computer program for control of a physical system, comprising computer program code means configured to execute the control method of a physical system according to any one of claims 1 to 9 by being executed on a computer. . コンピュータ可読な記憶媒体上に記録された、請求項10に記載の物理系の制御のためのコンピュータプログラム。  A computer program for controlling a physical system according to claim 10, recorded on a computer readable storage medium. 物理系の動力学を記述する非線形関数を、線形の局所モデルに重みを付けて加算することにより得られる関数近似で近似することによって物理系を制御する物理系の制御装置であって、前記関数近似を構成する局所モデルの構造と、それぞれの重みとはそれぞれ所定の学習パラメータにより定められ、
前記関数近似の初期構造を規定するための初期化手段と、
前記物理系の実際の状態を表わす状態データを受信するための受信手段と、
前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、各局所モデルごとに独立に所定の誤差指標を最小化するように各局所モデルの学習パラメータを更新することで前記関数近似を更新するための更新手段と、
更新された前記関数近似を用い、前記制御系の制御則にしたがって制御変数の計算を行なうための計算手段と、
計算された前記制御変数を前記物理系に出力するための出力手段と、
前記受信手段、更新手段、計算手段および前記出力手段が繰返し動作するよう制御するための制御手段とを含む、物理系の制御装置。
A control system for a physical system, which controls a physical system by approximating a non-linear function describing the dynamics of the physical system by a function approximation obtained by weighting and adding a linear local model. The structure of the local model making up the approximation and the respective weights are determined by predetermined learning parameters,
Initialization means for defining an initial structure of the function approximation;
Receiving means for receiving state data representing an actual state of the physical system;
Based on the state data, it is determined independently for each local model based on the tracking error between the target trajectory of the physical system and the actual trajectory, and the approximation error between the state data and the function approximation. Updating means for updating the function approximation by updating learning parameters of each local model so as to minimize an error index of
Calculation means for calculating control variables according to the control law of the control system using the updated function approximation;
Output means for outputting the calculated control variable to the physical system;
A control system for a physical system, comprising: the receiving means, the updating means, the calculating means, and a control means for controlling the output means to operate repeatedly.
前記関数近似^yは、次の式
Figure 2004118658
ただし
Figure 2004118658
kはk番目の線形モデルの中心位置、
kは所定のカーネル関数により表わされる重み、
で表わされる、請求項12に記載の物理系の制御装置。
The function approximation ^ y is
Figure 2004118658
However
Figure 2004118658
c k is the center position of the k th linear model,
w k is a weight represented by a predetermined kernel function,
The control device of a physical system according to claim 12, represented by
前記重みwkは、
Figure 2004118658
なるカーネル関数で計算される、請求項13に記載の物理系の制御装置。
The weight w k is
Figure 2004118658
The controller of a physical system according to claim 13, which is calculated by a kernel function
前記更新手段は、
既存の局所モデルの各々について、前記状態データに基づいて、前記物理系の目標軌跡と実際の軌跡との間のトラッキング誤差、および前記状態データと前記関数近似との間の近似誤差に基づいて、所定の誤差指標を最小化するように学習パラメータを更新するための第2の更新手段と、
前記第2の更新手段により更新された各局所モデルの学習パラメータが所定の条件を充足しているか否かを判定するための判定手段と、
前記判定手段が各局所モデルの学習パラメータが前記所定の条件を充足していると判定したことに応答して、局所モデルを追加又は削除するための手段とを含む、請求項14に記載の物理系の制御装置。
The updating means is
For each of the existing local models, based on the state data, based on tracking errors between the target trajectory of the physical system and the actual trajectory, and an approximation error between the state data and the function approximation Second updating means for updating the learning parameters to minimize a predetermined error indicator;
Determining means for determining whether the learning parameter of each local model updated by the second updating means satisfies a predetermined condition;
And means for adding or deleting a local model in response to the determination means determining that the learning parameter of each local model satisfies the predetermined condition. Control system.
前記第2の更新手段は、
前記局所モデルごとに、
前記状態データおよび前記トラッキング誤差に基づいて前記重みwkを計算するための手段と、
前記重みwkを用い、以下の式
Figure 2004118658
kは重み付けされた入力xkに対する共分散行列の逆行列、θkは当該局所モデルの学習パラメータ、wkは当該局所モデルの重み、eはトラッキング誤差、epkは近似誤差、λは忘却係数にしたがって当該局所モデルの学習パラメータの近似^θkを算出するための手段と、
所定の式により定められる、学習データを表わす関数値yと関数近似^yとの間で定められる誤差指標を最小化することにより、距離メトリックの各々を最適化するための最適化手段とを含む、請求項15に記載の物理系の制御装置。
The second updating means is
For each of the local models,
Means for calculating the weights w k based on said status data and said tracking error,
Using the weight w k , the following equation
Figure 2004118658
P k is the inverse matrix of the covariance matrix for the input x k weighted, theta k learning parameters of the local models, w k is the weight of the local model, e is the tracking error, e pk approximation error, lambda forgetting Means for calculating an approximation ^ θ k of the learning parameter of the local model according to the coefficient;
And optimization means for optimizing each of the distance metrics by minimizing an error indicator defined between a function value y representing the training data and a function approximation y determined by a predetermined equation The control device of a physical system according to claim 15.
前記判定手段は、すべての局所モデルに対して算出された重みwk(k=1〜局所モデルの数)が所定のしきい値未満か否かを判定するための手段を含み、
前記追加又は削除するための手段は、すべての局所モデルに対して算出された重みwkが所定のしきい値未満と判定されたことに応答して、新たな局所モデルを追加するための追加手段を含む、請求項16に記載の物理系の制御装置。
The determining means includes means for determining whether the weights w k (k = 1 to the number of local models) calculated for all the local models are less than a predetermined threshold value,
Said means for adding or deleting, all weights w k calculated for the local model in response to the determination that below a predetermined threshold, additional to add a new local model The control device of the physical system according to claim 16 including means.
前記追加手段により追加される局所モデルの中心位置の初期値は、前記状態データに対応するデータ点と等しい位置に選ばれる、請求項17に記載の物理系の制御装置。  The control device of a physical system according to claim 17, wherein an initial value of a central position of the local model added by the addition means is selected to be equal to a data point corresponding to the state data. 前記追加手段により追加される局所モデルの幅の初期値は、前記追加される局所モデルに最も近い局所モデルの幅に等しく選ばれる、請求項17又は請求項18に記載の物理系の制御装置。  The control device of a physical system according to claim 17 or 18, wherein the initial value of the width of the local model added by the addition means is selected to be equal to the width of the local model closest to the added local model. 前記最適化手段は、以下の式により定められる誤差指標Jkを最小化するように距離メトリックDk,ijを最適化するための手段を含み、
Figure 2004118658
ここでは、以下の勾配降下法が用いられ、
Figure 2004118658
ここで、
Figure 2004118658
であり、γはペナルティの大きさを決めるスカラー量であり、αは学習率である、請求項17から請求項19のいずれかに記載の物理系の制御装置。
The optimization means includes means for optimizing the distance metric D k, ij to minimize an error indicator J k defined by the following equation:
Figure 2004118658
Here, the following gradient descent method is used,
Figure 2004118658
here,
Figure 2004118658
20. The control system of the physical system according to any one of claims 17 to 19, wherein γ is a scalar quantity that determines the size of the penalty, and α is a learning rate.
JP2002282987A 2002-09-27 2002-09-27 Method and apparatus for controlling physical system and computer program for controlling physical system Expired - Fee Related JP3868358B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002282987A JP3868358B2 (en) 2002-09-27 2002-09-27 Method and apparatus for controlling physical system and computer program for controlling physical system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002282987A JP3868358B2 (en) 2002-09-27 2002-09-27 Method and apparatus for controlling physical system and computer program for controlling physical system

Publications (3)

Publication Number Publication Date
JP2004118658A JP2004118658A (en) 2004-04-15
JP2004118658A5 true JP2004118658A5 (en) 2005-05-12
JP3868358B2 JP3868358B2 (en) 2007-01-17

Family

ID=32276990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002282987A Expired - Fee Related JP3868358B2 (en) 2002-09-27 2002-09-27 Method and apparatus for controlling physical system and computer program for controlling physical system

Country Status (1)

Country Link
JP (1) JP3868358B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4193760B2 (en) * 2004-06-29 2008-12-10 日本電気株式会社 Image pattern correction method, simulated image generation method using the same, and pattern appearance inspection method
JP5812389B2 (en) * 2011-04-19 2015-11-11 いすゞ自動車株式会社 Design method, control apparatus and program for nonlinear adaptive model-based control
JP5988419B2 (en) 2012-01-11 2016-09-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Prediction method, prediction system, and program
JP6507512B2 (en) * 2014-07-25 2019-05-08 富士通株式会社 Estimation program, estimation method and estimation apparatus
WO2019155511A1 (en) * 2018-02-06 2019-08-15 Nec Corporation Inverse model predictive control system, inverse model predictive control method, and inverse model predictive control program
JP7384059B2 (en) 2020-02-06 2023-11-21 富士通株式会社 Detection program, detection method and detection device
CN114488813A (en) * 2022-01-26 2022-05-13 青岛科技大学 A Setpoint Update Method for Model-Free Adaptive Control
CN114819136B (en) * 2022-03-21 2025-06-13 韶关学院 Parallel deep convolutional neural network optimization method based on Im2col
CN115309058B (en) * 2022-06-10 2023-06-30 哈尔滨理工大学 A finite-time composite learning control method for dynamically positioned ships
CN115616907B (en) * 2022-09-22 2023-08-04 上海海事大学 Unmanned ship course intelligent planning method and controller
CN118938686B (en) * 2024-08-28 2025-11-25 施耐德电气(中国)有限公司 A method for intelligent optimization of control parameters of a servo motor system

Similar Documents

Publication Publication Date Title
US11914350B2 (en) Manufacturing process control using constrained reinforcement machine learning
US10048658B2 (en) Information processing device, predictive control method, and recording medium
US20200333752A1 (en) Configuring a system which interacts with an environment
CN113874865A (en) Method and device for determining model parameters of a control strategy of a technical system by means of a Bayesian optimization method
JP2004118658A5 (en)
JP7699660B2 (en) Method and system for modeling and controlling a partially scalable system - Patents.com
WO1996012990A1 (en) Model predictive control apparatus and method
WO2019008075A1 (en) A method and apparatus for performing control of a movement of a robot arm
Nguyen-Tuong et al. Learning robot dynamics for computed torque control using local Gaussian processes regression
Sacks et al. Learning sampling distributions for model predictive control
US20210379761A1 (en) Controller and method for selecting evaluation points for a bayesian optimization method
JP3868358B2 (en) Method and apparatus for controlling physical system and computer program for controlling physical system
CN118891136A (en) System and method for flexible robotic manipulation via fast online load estimation
CN113467487A (en) Path planning model training method, path planning device and electronic equipment
CN112292239B (en) Method and device for computer-aided determination of control parameters for a suitable operating technical system
US12246449B2 (en) Device and method for controlling a robotic device
CN118752492A (en) Motion control method for multi-task and multi-robot based on deep reinforcement learning
KR20190099111A (en) A method for devising an optimum control policy, training system, control system, computer program and machine-readable storage medium
US6738688B2 (en) Method of predicting carrying time in automatic warehouse system
CN114770492A (en) Apparatus and method for training a Gaussian process state space model
WO2024180656A1 (en) Learning device, control device, control system, learning method, and storage medium
JP2004265069A (en) Model parameter identification method of virtual passive joint model and its control method
Sendrescu et al. Control of a rotary flexible joint experiment based on reinforcement learning
Herrero et al. Multiobjective tuning of robust PID controllers using evolutionary algorithms
Chinnam et al. Neural network-based quality controllers for manufacturing systems