JP7724621B2 - PID control parameter adjustment method, PID control device, and air conditioner equipped with the same - Google Patents
PID control parameter adjustment method, PID control device, and air conditioner equipped with the sameInfo
- Publication number
- JP7724621B2 JP7724621B2 JP2021031322A JP2021031322A JP7724621B2 JP 7724621 B2 JP7724621 B2 JP 7724621B2 JP 2021031322 A JP2021031322 A JP 2021031322A JP 2021031322 A JP2021031322 A JP 2021031322A JP 7724621 B2 JP7724621 B2 JP 7724621B2
- Authority
- JP
- Japan
- Prior art keywords
- control
- pid control
- value
- pid
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Feedback Control In General (AREA)
Description
本発明は、PID制御パラメータ調整方法、PID制御装置およびこれを備えた空気調和機に関するものである。 The present invention relates to a PID control parameter adjustment method, a PID control device, and an air conditioner equipped with the same.
機械制御や温度制御にPID制御が広く用いられている。設備の導入初期において、PID制御パラメータを決定する際には、オートチューニングが一般的に用いられている。しかし、精密温湿度管理が必要な試験室や検査室等の温湿度をPID制御で行う場合、オートチューニングで得られるPID制御パラメータでは十分な精度が得られないことがある。この場合、PID制御パラメータを調整するために、作業者が出力波形を確認しながら、試行錯誤してPID制御パラメータを調整していた。制御対象装置に適したPID制御パラメータを決定するまでには、時間を要するのが現状である。 PID control is widely used for machine control and temperature control. When initially installing equipment, autotuning is typically used to determine PID control parameters. However, when using PID control for temperature and humidity in test rooms or inspection rooms that require precise temperature and humidity management, the PID control parameters obtained through autotuning may not provide sufficient accuracy. In such cases, to adjust the PID control parameters, workers would adjust them by trial and error while checking the output waveform. Currently, it takes time to determine the PID control parameters that are appropriate for the equipment being controlled.
PID制御パラメータの設定に機械学習の一手法である強化学習を利用する試みがある。特許文献1には、強化学習を利用したPID制御パラメータを決定する技術が開示されている。 There have been attempts to use reinforcement learning, a type of machine learning, to set PID control parameters. Patent Document 1 discloses a technology for determining PID control parameters using reinforcement learning.
強化学習を利用してPID制御パラメータを決定する場合、強化学習の具体的な手段は様々であり、一意に定まるものではない。強化学習のアルゴリズムは、あくまで枠組みを示したもので、環境・行動・報酬のデータ化、環境の状態観測、報酬の計算等のアルゴリズムは、応用する問題に応じて別途、設定する必要がある。 When using reinforcement learning to determine PID control parameters, there are many different specific reinforcement learning methods, and no single method can be determined. The reinforcement learning algorithm merely provides a framework, and algorithms for converting environment, behavior, and reward data, observing environmental conditions, calculating rewards, etc. must be set separately depending on the problem being applied.
強化学習は、所定の回数の実行を完了するか、あるいは所定値以上の報酬(良好な結果)が得られる等、予め設定した条件を満たすと終了する。大きな負荷変動や環境の変化、あるいは設備の経年劣化が起こった場合、得られている学習結果では、十分な制御精度が得られないときがある。この場合、再度PID制御パラメータを調整する必要がある。この調整も設備の導入初期と同様に時間を要していた。
温湿度制御においては、特に精度を要される場合がある。負荷変動や環境変化、あるいは設備の経年劣化が進むと、得られている学習結果からは、制御精度が要求を満たさない状況が発生することがあり、PID制御パラメータの決定に強化学習を適用することは、容易ではなかった。
Reinforcement learning ends when a predetermined condition is met, such as completing a set number of runs or obtaining a reward (good result) greater than or equal to a set value. When large load fluctuations, environmental changes, or equipment deterioration occur, the learning results obtained may not provide sufficient control accuracy. In this case, the PID control parameters must be adjusted again. This adjustment also takes time, just like when the equipment was first installed.
Temperature and humidity control requires particular precision. When load fluctuations, environmental changes, or equipment deterioration progresses, the obtained learning results can lead to situations where the control precision does not meet the required level, making it difficult to apply reinforcement learning to determine PID control parameters.
本発明の目的は、PID制御装置のためのPID制御パラメータの調整方法、特に負荷変動や経年劣化に自動的に対応できるPID制御パラメータの調整方法を提供することである。 The object of the present invention is to provide a method for adjusting PID control parameters for a PID control device, in particular a method for adjusting PID control parameters that can automatically respond to load fluctuations and deterioration over time.
本開示に係るPID制御パラメータ調整方法は、第1の所定時間の間、予め定められたPID制御パラメータで制御対象装置を制御目標値にPID制御するステップと、第1の所定時間の間の制御対象装置の出力データを基に制御評価値を算出するステップと、第1の所定時間のPID制御の制御条件と、PID制御パラメータと、制御評価値を学習データとして記憶するステップと、PID制御装置のPID制御パラメータを更新するステップと、更新したPID制御パラメータを使用して、制御対象装置をPID制御するステップを再度実行するステップを有する。 The PID control parameter adjustment method disclosed herein includes the steps of PID controlling a control target device to a control target value using predetermined PID control parameters for a first predetermined time period; calculating a control evaluation value based on output data from the control target device for the first predetermined time period; storing the control conditions for PID control for the first predetermined time period, the PID control parameters, and the control evaluation value as learning data; updating the PID control parameters of the PID control device; and re-executing the step of PID controlling the control target device using the updated PID control parameters.
本開示に係るPID制御パラメータ調整方法によれば、負荷変動や経年劣化にも自動的に対応できるPID制御パラメータの調整方法を実現できる。 The PID control parameter adjustment method disclosed herein makes it possible to realize a PID control parameter adjustment method that can automatically respond to load fluctuations and deterioration over time.
まず初めに本開示における強化学習について説明するとともに、強化学習に関する言葉の定義を行う。 First, we will explain reinforcement learning in this disclosure and define terms related to reinforcement learning.
(強化学習)
強化学習とは、ある環境下に置かれたエージェントが環境に対して行動をし、その行動により得られる報酬が最大化されるような方策を求めるものである。エージェントが環境に対して行動を起こし、環境が状態の更新と行動の評価を行い、状態と報酬をエージェントに知らせるというステップを時系列的に繰り返し、得られる報酬の合計の期待値が最大化されるように行動価値関数と方策を最適化する。
(Reinforcement learning)
Reinforcement learning is a method of finding a policy that maximizes the reward obtained by an agent placed in a certain environment, taking action in the environment. The agent takes action in the environment, the environment updates the state and evaluates the action, and notifies the agent of the state and reward. This process is repeated chronologically, and the action value function and policy are optimized to maximize the expected value of the total reward obtained.
(本開示の強化学習におけるの状態、行動、報酬の定義)
本開示におけるPID制御パラメータの強化学習において、状態は、PID制御の制御条件であり、具体的には、PID制御の制御目標値と周囲の環境データとする。行動は、強化学習によるPID制御パラメータの更新とする。報酬は、PID制御を所定期間実行した後、制御対象装置の出力データの収束性、応答性、安定性などを演算して得られた値(以降、制御評価値と言う)とする。
(Definitions of state, action, and reward in reinforcement learning in this disclosure)
In the reinforcement learning of PID control parameters in the present disclosure, the state is the control conditions of PID control, specifically, the control target value of PID control and surrounding environmental data. The action is the update of the PID control parameters through reinforcement learning. The reward is a value (hereinafter referred to as a control evaluation value) obtained by calculating the convergence, responsiveness, stability, etc. of the output data of the controlled device after executing PID control for a predetermined period.
課題で述べたように、強化学習が終了した装置においても大きな負荷変動や環境の変化、あるいは制御対象装置の経年劣化が起こり、制御精度が得られなくなった場合には、再度、強化学習が必要になる。設備作業者は、再度の強化学習が必要かどうかを確認する必要がある。確認作業には、出力波形を詳細に分析する必要がある。また、制御結果の異常に気づかないこともあり、管理は煩雑である。 As mentioned in the issue section, even for equipment that has completed reinforcement learning, if there are large load fluctuations, changes in the environment, or deterioration of the equipment being controlled over time, and control accuracy can no longer be achieved, reinforcement learning will be required again. Facility operators must confirm whether reinforcement learning is necessary again. This confirmation process requires detailed analysis of the output waveform. Furthermore, abnormalities in the control results may not be noticed, making management cumbersome.
そこで出願人らは、上述の課題に対応可能なPID制御パラメータの調整方法について種々の検討の結果、本開示のPID制御パラメータの調整方法を得た。本開示におけるPID制御パラメータの調整方法は、次の2つの特徴を有する。第1の特徴は、制御対象装置のPID制御において常に強化学習を続けることである。第2の特徴は、所定期間、PID制御を実行して得られる出力データを一定間隔で記憶し、その出力データの変化過程を含んで、収束性、応答性、安定性を演算する手法を組み込んだことである。 The applicants therefore conducted extensive research into PID control parameter adjustment methods that could address the above-mentioned issues, and as a result, arrived at the PID control parameter adjustment method disclosed herein. The PID control parameter adjustment method disclosed herein has the following two features. The first feature is that reinforcement learning is constantly performed in the PID control of the controlled device. The second feature is that it incorporates a method of storing output data obtained by executing PID control for a predetermined period at regular intervals, and calculating convergence, responsiveness, and stability, including the process by which that output data changes.
第1の特徴により、大きな負荷変動や外気の変化、システムの経年劣化があった場合でも、自動的にPID制御パラメータの修正が可能となる。
第2の特徴により、精度が求められるPID制御において、収束性が高く、応答性がよく、安定性の高いPID制御パラメータを設定可能となる。
The first feature makes it possible to automatically correct the PID control parameters even when there are large load fluctuations, changes in the outside air, or deterioration of the system over time.
The second feature makes it possible to set PID control parameters that have high convergence, good responsiveness, and high stability in PID control that requires precision.
以下、本発明の実施形態について詳細に説明する。以下の説明において、具体的な形状、材料、方向、数値等は、本開示の理解を容易にするための例示であって、用途、目的、仕様等に合わせて適宜変更することができる。 Embodiments of the present invention are described in detail below. In the following description, specific shapes, materials, directions, numerical values, etc. are examples intended to facilitate understanding of the present disclosure and can be modified as appropriate to suit the application, purpose, specifications, etc.
図1に本実施形態のPID制御装置1の構成を示す。PID制御装置1は、PID制御部10、目標設定入力部30、環境データ取得部40、制御データ測定部50、強化学習部60を有する。強化学習のために特有の構成は、制御データ測定部50と強化学習部60である。 Figure 1 shows the configuration of the PID control device 1 of this embodiment. The PID control device 1 has a PID control unit 10, a target setting input unit 30, an environmental data acquisition unit 40, a control data measurement unit 50, and a reinforcement learning unit 60. The components specific to reinforcement learning are the control data measurement unit 50 and the reinforcement learning unit 60.
PID制御部10は、予め設定されたPID制御パラメータに基づいて、制御対象装置20の出力が目標値(制御目標値)に一致するようにPID制御を実行する。制御対象装置20の制御目標値は目標値設定入力部30から取得する。 The PID control unit 10 performs PID control based on preset PID control parameters so that the output of the controlled device 20 matches a target value (control target value). The control target value for the controlled device 20 is obtained from the target value setting input unit 30.
図2は、PID制御部10と制御対象装置20のブロック線図である。KP、KI、KDはそれぞれ、比例ゲイン、積分ゲイン、微分ゲインである。本実施形態のPID制御部10は、後述する強化学習部60からPID制御パラメータの入力を受けて、各ゲインの値を変更するように構成されている。 2 is a block diagram of the PID control unit 10 and the controlled device 20. KP , KI , and KD are proportional gain, integral gain, and differential gain, respectively. The PID control unit 10 of this embodiment is configured to change the value of each gain upon receiving PID control parameters from a reinforcement learning unit 60, which will be described later.
制御対象装置20は、PID制御を実行される対象装置である。具体的には、恒温恒湿室などであるが、これに限定されない。制御対象装置20の出力データは、PID制御部10にフィードバックされ、制御目標値との偏差に基づきPID制御が行われる。 The controlled device 20 is a device on which PID control is performed. Specifically, it may be, but is not limited to, a constant temperature and humidity room. The output data of the controlled device 20 is fed back to the PID control unit 10, and PID control is performed based on the deviation from the control target value.
目標設定入力部30は、制御対象装置20の制御目標値を取得する。目標値設定入力部30が取得した制御目標値は、PID制御部10に送られ、PID制御の制御目標値となる。更に当該制御目標値は、強化学習部60にも送られる。強化学習部60において、制御目標値は、強化学習における状態の値の一部として使用される。 The target setting input unit 30 acquires the control target value of the controlled device 20. The control target value acquired by the target value setting input unit 30 is sent to the PID control unit 10 and becomes the control target value for PID control. The control target value is also sent to the reinforcement learning unit 60. In the reinforcement learning unit 60, the control target value is used as part of the state value in reinforcement learning.
環境データ取得部40は、制御対象装置20の環境データ、例えば、外気温度や室温、湿度を取得する。環境データを取得するための具体的な構成は限定しないが、各種センサからデータを取得するように構成することができる。環境データ取得部40が取得した環境データは、強化学習における状態の値の一部として使用される。 The environmental data acquisition unit 40 acquires environmental data of the controlled device 20, such as the outside air temperature, room temperature, and humidity. The specific configuration for acquiring environmental data is not limited, but it can be configured to acquire data from various sensors. The environmental data acquired by the environmental data acquisition unit 40 is used as part of the state value in reinforcement learning.
制御データ測定部50は、PID制御を実行中の制御対象装置20の出力データを逐次測定して、強化学習部60へ送る。制御データ測定部50の出力データは、制御対象装置20からPID制御部10へフィードバックする出力データと兼用するように構成してもよい。 The control data measurement unit 50 sequentially measures the output data of the controlled device 20 executing PID control and sends it to the reinforcement learning unit 60. The output data of the control data measurement unit 50 may also be configured to be used as the output data fed back from the controlled device 20 to the PID control unit 10.
強化学習部60は、目標値設定入力部30から取得したPID制御の制御目標値と、環境データ取得部40から取得した制御対象装置20の環境データを強化学習における状態の値の一部として記憶する。 The reinforcement learning unit 60 stores the control target value for PID control acquired from the target value setting input unit 30 and the environmental data of the controlled device 20 acquired from the environmental data acquisition unit 40 as part of the state values in reinforcement learning.
強化学習部60は、更にPID制御実行中の制御対象装置20の出力データを制御データ測定部50から取得し記憶する。当該取得された出力データは、PID制御を所定時間実行した後、制御評価値の算出に使用される。 The reinforcement learning unit 60 further acquires and stores output data from the control data measurement unit 50 for the controlled device 20 during PID control execution. After PID control has been executed for a predetermined period of time, the acquired output data is used to calculate the control evaluation value.
強化学習部60は、所定時間、PID制御を実行した後、強化学習における報酬としての制御評価値の算出を行う。制御評価値の算出には、出力データと制御目標値と差分など、制御目標値との関係に基づき演算を行うようにしてもよい。制御評価値の算出については、後で詳細に説明する。 After executing PID control for a predetermined time, the reinforcement learning unit 60 calculates a control evaluation value as a reward in reinforcement learning. The control evaluation value may be calculated based on the relationship between the control target value, such as the difference between the output data and the control target value. The calculation of the control evaluation value will be explained in detail later.
強化学習部60は、制御評価値に基づき、PID制御パラメータを更新して、PID制御部10に送信する。PID制御部10は、更新されたPID制御パラメータと目標設定入力30の制御目標値に基づいて、PID制御を実行する。 The reinforcement learning unit 60 updates the PID control parameters based on the control evaluation value and transmits them to the PID control unit 10. The PID control unit 10 performs PID control based on the updated PID control parameters and the control target value of the target setting input 30.
強化学習部60は、学習結果を保存する機能も有する。本実施形態において、強化学習における状態は、制御目標値と環境データ値である。強化学習における行動は、PID制御パラメータの更新である。具体的には、新たにPID制御のゲインKP、KI、KDを更新することである。強化学習における報酬は、制御評価値である。PID制御パラメータの更新の際には、既に保存されている学習結果が参照される。 The reinforcement learning unit 60 also has a function of saving the learning results. In this embodiment, the state in reinforcement learning is the control target value and the environmental data value. The action in reinforcement learning is the update of the PID control parameters. Specifically, this is the new update of the PID control gains KP , KI , and KD . The reward in reinforcement learning is the control evaluation value. When updating the PID control parameters, the already saved learning results are referenced.
図3に、強化学習部60の構成を示す。強化学習部60は、少なくとも入力部610、制御部620、記憶部630、演算部640、出力部650を有している。 Figure 3 shows the configuration of the reinforcement learning unit 60. The reinforcement learning unit 60 has at least an input unit 610, a control unit 620, a memory unit 630, a calculation unit 640, and an output unit 650.
入力部610は、PID制御および強化学習を実行するために必要なデータを入力する機能を有する。入力部610は、目標値入力部611、環境データ入力部612、出力データ測定部613を有する。目標値入力部611は、目標設定入力部30から制御目標値を取得する。環境データ入力部612は、環境データ取得部40から環境データを取得する。環境データは、恒温恒湿室の制御においては、外気温、室温、湿度等が該当する。出力データ測定部613は、PID制御を実行中の制御対象装置20の出力データを所定の間隔で取得する。出力データ測定部613は、制御データ測定部50から制御対象装置20の出力データを取得する。 The input unit 610 has the function of inputting data necessary to perform PID control and reinforcement learning. The input unit 610 has a target value input unit 611, an environmental data input unit 612, and an output data measurement unit 613. The target value input unit 611 acquires control target values from the target setting input unit 30. The environmental data input unit 612 acquires environmental data from the environmental data acquisition unit 40. In the case of controlling a constant temperature and humidity room, environmental data corresponds to the outside air temperature, room temperature, humidity, etc. The output data measurement unit 613 acquires output data of the controlled device 20 that is executing PID control at predetermined intervals. The output data measurement unit 613 acquires output data of the controlled device 20 from the control data measurement unit 50.
制御部620は、制御時間計測部621を有する。制御時間計測部621は、PID制御部10がPID制御を実行する第1の所定時間T1を計測する。第1の所定時間T1は、一回の強化学習時間に相当する。また、制御時間計測部621は、制御対象装置20から出力されるデータを保存する第2の所定時間T2も計測するように構成されてもよい。尚、第2の所定時間T2は、PID制御部10が計測するように構成してもよい。 The control unit 620 has a control time measurement unit 621. The control time measurement unit 621 measures a first predetermined time T1 during which the PID control unit 10 executes PID control. The first predetermined time T1 corresponds to the time for one reinforcement learning session. The control time measurement unit 621 may also be configured to measure a second predetermined time T2 during which data output from the controlled device 20 is saved. The second predetermined time T2 may also be configured to be measured by the PID control unit 10.
記憶部630は、測定データ記憶部631と学習データ記憶部632を有する。測定データ記憶部631は、出力データ測定部613が取得した制御対象装置20の出力データを受けとり記憶する。例えば、第2の所定時間T2ごとの制御対象装置20の出力データを記憶する。学習データ記憶部632は、測定データ記憶部631のデータを基に、後述する演算部640によって算出された制御評価値を記憶する。 The memory unit 630 has a measurement data memory unit 631 and a learning data memory unit 632. The measurement data memory unit 631 receives and stores the output data of the control target device 20 acquired by the output data measurement unit 613. For example, it stores the output data of the control target device 20 for each second predetermined time T2. The learning data memory unit 632 stores a control evaluation value calculated by the calculation unit 640 (described below) based on the data from the measurement data memory unit 631.
演算部640は、データ演算部641とパラメータ設定部642を有する。データ演算部641は、測定データ記憶部631に記憶された第2の所定時間T2ごとの制御対象装置20の出力データに基づいて、制御評価値を算出する。制御評価値は、学習データの一部として、学習データ記憶部632に記憶される。 The calculation unit 640 has a data calculation unit 641 and a parameter setting unit 642. The data calculation unit 641 calculates a control evaluation value based on the output data of the control target device 20 for each second predetermined time T2 stored in the measurement data storage unit 631. The control evaluation value is stored in the learning data storage unit 632 as part of the learning data.
演算部640のパラメータ設定部642は、次のPID制御において使用されるPID制御パラメータの値を更新する。本実施形態においては、PID制御パラメータの値は、目標値入力部611から取得した制御目標値と、環境データ入力部612から取得した環境データの値に対して、制御評価値が所定値(通常は最大値)となる行動(PID制御パラメータの更新)を学習データから抽出することで更新される。 The parameter setting unit 642 of the calculation unit 640 updates the values of the PID control parameters to be used in the next PID control. In this embodiment, the values of the PID control parameters are updated by extracting from the learning data an action (update of the PID control parameters) that results in a control evaluation value of a predetermined value (usually the maximum value) for the control target value obtained from the target value input unit 611 and the environmental data value obtained from the environmental data input unit 612.
出力部650は、パラメータ出力部651を有する。パラメータ出力部651は、演算部640のパラメータ設定部642が決定したPID制御パラメータを、PID制御部10に送信する。PID制御部10では、送信されたPID制御パラメータに基づき、各ゲインの値が変更される。 The output unit 650 has a parameter output unit 651. The parameter output unit 651 transmits the PID control parameters determined by the parameter setting unit 642 of the calculation unit 640 to the PID control unit 10. The PID control unit 10 changes the values of each gain based on the transmitted PID control parameters.
次に図4~7のフローチャートを参照しつつ、本実施形態の強化学習の詳細について説明する。図4は、強化学習の概略を表すフローチャートである。 Next, we will explain the details of reinforcement learning in this embodiment with reference to the flowcharts in Figures 4 to 7. Figure 4 is a flowchart that shows an overview of reinforcement learning.
ステップS01:初めにPID制御パラメータの初期値を決定する。PID制御パラメータの初期値は、オートチューニングによって決定するように構成してもよい。あるいは手動で設定するようにしてもよい。PID制御パラメータが予め設定されている場合は、その値を使用するようにして、ステップS01を実行しないように構成してもよい。次にステップS02に移る。 Step S01: First, determine the initial values of the PID control parameters. The initial values of the PID control parameters may be determined by autotuning, or may be set manually. If the PID control parameters have been set in advance, the initial values may be used, and step S01 may not be executed. Next, proceed to step S02.
ステップS02:現状のPID制御パラメータで、制御対象装置20のPID制御を実行し、制御対象装置20の出力データを記憶する。制御時間は、第1の所定時間T1である。PID制御実行処理の詳細は図5で説明する。 Step S02: PID control of the controlled device 20 is performed using the current PID control parameters, and the output data of the controlled device 20 is stored. The control time is the first predetermined time T1. Details of the PID control execution process are explained in Figure 5.
ステップS03:記憶された出力データに基づき制御評価値の算出を行う。制御評価値は、PID制御パラメータの良し悪しを決める尺度を反映したものとなる。具体的には、制御結果の収束性、応答性、安定性の観点で制御評価値は算出される。算出された制御評価値は学習データの一部として記憶される。制御評価値算出および学習データ記憶処理の詳細については、図6で説明する。 Step S03: Calculate a control evaluation value based on the stored output data. The control evaluation value reflects a measure for determining the quality of the PID control parameters. Specifically, the control evaluation value is calculated from the perspective of the convergence, responsiveness, and stability of the control results. The calculated control evaluation value is stored as part of the learning data. Details of the control evaluation value calculation and learning data storage process are explained in Figure 6.
ステップS04:PID制御パラメータを更新し、更新されたPID制御パラメータをPID制御部10に送信する。具体的なPID制御パラメータの更新方法については、図7で説明する。次にステップS02に戻り、更新されたPID制御パラメータで、所定時間、PID制御を実行する。 Step S04: The PID control parameters are updated and the updated PID control parameters are sent to the PID control unit 10. A specific method for updating the PID control parameters is described in Figure 7. Next, return to step S02 and execute PID control for a predetermined time using the updated PID control parameters.
図4に示す強化学習のフローチャートで、一般的な強化学習と異なる点は、強化学習の終了条件がない点である。後に説明する強化学習方針によって、制御目標値と環境データに対して、PID制御の制御評価値が悪化した場合に、新たに最適なPID制御パラメータを求めるように、再度強化学習が進行するように構成されている。 The reinforcement learning flowchart shown in Figure 4 differs from general reinforcement learning in that there is no termination condition for reinforcement learning. According to the reinforcement learning policy described later, if the control evaluation value of PID control deteriorates in relation to the control target value and environmental data, reinforcement learning is configured to proceed again so that new optimal PID control parameters are found.
尚、強化学習部60の記憶部630には、常に学習結果が蓄積されていく。従って、記憶部630は常に学習結果が蓄積されていくことを考慮して構成される必要がある。例えば、記憶部630はハードディスク装置で構成してもよい。あるいは、ネットワーク接続したサーバ上に構成してもよい。強化学習が進めば、大きな目標値変動や設備の急な劣化などがない限り、学習結果のデータの増加は緩やかになる。 Note that learning results are constantly being accumulated in the memory unit 630 of the reinforcement learning unit 60. Therefore, the memory unit 630 must be configured to take into account the fact that learning results are constantly being accumulated. For example, the memory unit 630 may be configured as a hard disk drive. Alternatively, it may be configured on a server connected to a network. As reinforcement learning progresses, the increase in learning result data will slow down unless there is a large change in the target value or sudden deterioration of the equipment.
次に図4のフローチャートにおけるステップS02~ステップS04の各処理の詳細について説明する。 Next, we will explain the details of each process in steps S02 to S04 in the flowchart in Figure 4.
(PID制御実行処理)
図5は、図4のステップS02のPID制御実行処理のフローチャートである。PID制御実行処理は、第1の所定時間の間、設定されたPID制御パラメータで、制御対象装置20のPID制御を実行する。第1の所定時間T1の間に制御対象装置20の出力データを取得し、第2の所定時間T2間隔で、出力データを保存する。保存された出力データは、次ステップの制御評価値算出処理において使用される。
(PID control execution process)
5 is a flowchart of the PID control execution process of step S02 in FIG. 4. The PID control execution process executes PID control of the controlled device 20 using set PID control parameters for a first predetermined time. Output data of the controlled device 20 is acquired during the first predetermined time T1, and the output data is saved at intervals of a second predetermined time T2. The saved output data is used in the control evaluation value calculation process in the next step.
ステップS11:PID制御の経過時間を0にセットする。 Step S11: Set the elapsed time of PID control to 0.
ステップS12:現在のPID制御パラメータでPID制御を実行する。 Step S12: Execute PID control using the current PID control parameters.
ステップS13:制御対象装置20の出力データを取得する。ステップS13では、必ずしも出力データの保存は行わない。 Step S13: Obtain output data from the controlled device 20. In step S13, the output data is not necessarily saved.
ステップS14:第2の所定時間T2が経過した場合、次のステップS15へ進む。第2の所定時間T2が経過していない場合は、ステップS12に戻る。 Step S14: If the second predetermined time T2 has elapsed, proceed to the next step S15. If the second predetermined time T2 has not elapsed, return to step S12.
ステップS15:ステップS13で取得した出力データを記憶する。出力データは、測定データ記憶部631に記憶される。これによって、第2の所定時間T2ごとの出力データが記憶されていく。 Step S15: The output data acquired in step S13 is stored. The output data is stored in the measurement data storage unit 631. This allows the output data for each second predetermined time T2 to be stored.
ステップS16:第1の所定時間T1が経過した場合、PID制御実行処理を終了する。第1の所定時間T1が経過していない場合は、ステップS12へ戻る。 Step S16: If the first predetermined time T1 has elapsed, end the PID control execution process. If the first predetermined time T1 has not elapsed, return to step S12.
以上がPID制御実行処理の処理内容である。ここで、第1の所定時間T1は、PID制御を実行する時間であり、例えば1時間に設定されている。第2の所定時間T2は、第1の所定時間T1より短く、出力データを取得する間隔である。例えば、第2の所定時間T2は1秒に設定されている。ここで示した第1の所定時間T1と第2の所定時間T2は例示である。制御対象装置20の物理的な大きさ等によって、出力の安定時間を考慮して、第1の所定時間T1と第2の所定時間T2は適宜変更してもよい。 The above is the processing content of the PID control execution process. Here, the first predetermined time T1 is the time for executing PID control and is set to, for example, one hour. The second predetermined time T2 is shorter than the first predetermined time T1 and is the interval for acquiring output data. For example, the second predetermined time T2 is set to one second. The first predetermined time T1 and second predetermined time T2 shown here are examples. Depending on the physical size of the controlled device 20, etc., and taking into account the time it takes for the output to stabilize, the first predetermined time T1 and second predetermined time T2 may be changed as appropriate.
(制御評価値算出および学習データ記憶処理)
図6は、制御評価値算出および学習データ記憶処理のフローチャートである。制御評価値の算出においては、第1の所定時間T1のPID制御の出力データ(第2の所定時間T2ごとに保存した出力データ)を基に演算を行う。制御評価値の算出における演算は、現在のPID制御パラメータの良し悪しを反映する値として、PID制御の結果が出力目標値に精度よく一致している場合に高い点数となる点数付けをおこなうようにする。
(Control evaluation value calculation and learning data storage processing)
6 is a flowchart of the control evaluation value calculation and learning data storage process. The control evaluation value is calculated based on the PID control output data for the first predetermined time T1 (the output data saved every second predetermined time T2). The calculation for the control evaluation value reflects the quality of the current PID control parameters, and a high score is assigned when the PID control result precisely matches the output target value.
ステップS21:第1の所定時間T1のPID制御の出力データを基に、制御評価値の算出を行う。出力目標値に精度よく一致しているほど制御評価値が高くなるような演算をおこなう。具体的には、恒温恒湿室の制御の場合には、目標温度と計測した出力温度との偏差の値は小さいほど制御は良好である。従って、この場合は、偏差が小さいほど高い制御評価値が算出されるような演算を行う。 Step S21: Calculate a control evaluation value based on the output data of PID control for the first predetermined time T1. Calculations are performed so that the more accurately the output matches the target value, the higher the control evaluation value. Specifically, in the case of control of a constant temperature and humidity chamber, the smaller the deviation between the target temperature and the measured output temperature, the better the control. Therefore, in this case, calculations are performed so that the smaller the deviation, the higher the control evaluation value calculated.
ステップS22:制御評価値の算出が終了すると、学習データの保存を行う。PID制御実行の制御条件(制御目標値、環境データ)とPID制御パラメータと制御評価値を組にして、学習データとして記憶する。これによって、制御条件に対して、どのようにPID制御パラメータを更新すれば、制御評価値が大きくなる(=所望の良好な制御結果が得られる)のかということが学習データとして記憶されることになる。 Step S22: Once calculation of the control evaluation value has been completed, the learning data is saved. The control conditions for PID control execution (control target value, environmental data), PID control parameters, and control evaluation value are paired and stored as learning data. This stores as learning data how to update the PID control parameters for the control conditions to increase the control evaluation value (= obtain the desired good control results).
ステップS23:制御評価値によって、次ステップのPID制御パラメータ更新における学習方針を決定する。詳細は後述する。 Step S23: The learning policy for updating the PID control parameters in the next step is determined based on the control evaluation value. Details will be described later.
制御評価値の算出には、PID制御結果の、(1)収束性、(2)応答性、(3)安定性を反映するように測定データを基に演算を行うが、これに限定されない。 The control evaluation value is calculated based on measurement data to reflect, but is not limited to, (1) convergence, (2) responsiveness, and (3) stability of the PID control results.
(1)収束性については、第2の所定時間T2ごとの出力データの値と制御目標値との差、あるいはその累積値を対応させるようにしてもよい。出力データの値と制御目標値との差が小さいほど、制御精度が良いことになり、収束性は良いと言える。また、時間経過における出力データの値と制御目標値との差の累積値は、どれだけ速く収束したかを反映させた値となる。 (1) Convergence may be measured by the difference between the output data value and the control target value for each second predetermined time T2, or by the cumulative value thereof. The smaller the difference between the output data value and the control target value, the better the control accuracy and the better the convergence. Furthermore, the cumulative value of the difference between the output data value and the control target value over time reflects how quickly the convergence occurred.
(2)応答性については、第2の所定時間T2ごとの出力データの変化幅を対応させるようにしてもよい。一定時間間隔ごとの出力データの変化幅は、出力データの変化率に相当するので、応答性を反映した値となる。 (2) Responsiveness may be measured by the range of change in the output data for each second predetermined time period T2. The range of change in the output data for each fixed time period corresponds to the rate of change in the output data, and therefore is a value that reflects responsiveness.
(3)安定性については、所定の時間経過後の出力データの最大値と最小値の差、あるいは制御目標値を中心として出力データが増減する変化の回数や増減する変化幅と対応させるようにしてもよい。これらの値は、ハンチングが生じているか否か、ハンチングが生じている場合にどの程度であるかを反映した値となっており、安定性を反映している。 (3) Stability may be measured by the difference between the maximum and minimum values of the output data after a predetermined time has elapsed, or by the number of times the output data increases or decreases around the control target value, or the magnitude of the increase or decrease. These values reflect whether hunting is occurring, and if so, the extent of hunting, and therefore reflect stability.
収束性、応答性、安定性の各性能については、複雑に関連しており、完全に切り離して評価できるものではない。従って、制御評価値の算出は、例えば、複数の制御評価値を算出し、係数を掛けて合計した値を採用してもよい。あるいは複数の制御評価値を採用するようにしてもよい。 The performance of convergence, responsiveness, and stability are intricately related and cannot be evaluated completely separately. Therefore, the control evaluation value may be calculated, for example, by calculating multiple control evaluation values, multiplying them by a coefficient, and adding them together. Alternatively, multiple control evaluation values may be used.
以上、説明した制御評価値の算出の方法は、例示である。所定時間内の出力データを基に制御評価値を算出することが重要である。具体的にどのような演算を行うかについては、応用する制御対象に合わせて調整することが可能である。 The method for calculating the control evaluation value explained above is an example. It is important to calculate the control evaluation value based on output data within a specified period of time. The specific calculations performed can be adjusted to suit the control target being applied.
次に学習方針の決定について説明する。学習方針は、後述のPID制御パラメータの更新方法(=強化学習における行動)を決定する。例えば、学習の進行度に応じて、強化学習の方針が変更されるようにすることが好ましい。 Next, we will explain how to determine the learning policy. The learning policy determines how to update the PID control parameters (= behavior in reinforcement learning), which will be described later. For example, it is preferable to change the reinforcement learning policy depending on the progress of learning.
学習方針は、例えば以下のようなものである。
・方針Aは、十分に学習が進んだ後であり、最適なPID制御パラメータを選択する
・方針Bは、経年劣化等の影響の可能性があり、強化学習により新たにPID制御パラメータの修正を進める
・方針Cは、学習の初期の段階であり、データ取得を繰り返し、学習データを蓄積する
The learning policy is as follows:
・Policy A is after sufficient learning has progressed, and optimal PID control parameters are selected. ・Policy B is likely to be affected by aging, etc., and new PID control parameters are revised using reinforcement learning. ・Policy C is in the early stages of learning, and data is repeatedly acquired and learning data is accumulated.
例えば、所定時間のPID制御を実行した制御評価値に基づいて、これらの方針のどの方針を選択するかを決めることができる。
・同じ制御条件と同じPID制御パラメータに対して、同じ制御評価値が得られている場合は方針Aを選択する。
・同じ制御条件と同じPID制御パラメータに対して、前回よりも低い制御評価値が得られた場合は方針Bを選択する。制御評価値の下がり方が大きい場合は、方針Cを選択するようにしてもよい。例えば、制御評価値が10%以上減少した場合には、方針Cとする。
・学習によって得られたデータ数が少ない場合は、無条件に方針Cを選択する。
For example, it is possible to determine which of these strategies to select based on a control evaluation value obtained by executing PID control for a predetermined period of time.
If the same control evaluation value is obtained for the same control conditions and the same PID control parameters, strategy A is selected.
When a lower control evaluation value is obtained than the previous time for the same control conditions and the same PID control parameters, strategy B is selected. When the control evaluation value decreases significantly, strategy C may be selected. For example, when the control evaluation value decreases by 10% or more, strategy C is selected.
If the amount of data obtained by learning is small, policy C is selected unconditionally.
強化学習における状態(制御条件)と行動(PID制御パラメータの更新)に対応する制御評価値によって、学習方針が決定される。 The learning policy is determined by the control evaluation value corresponding to the state (control condition) and action (update of PID control parameters) in reinforcement learning.
(PID制御パラメータ更新処理)
図7は、PID制御パラメータ更新処理のフローチャートである。PID制御パラメータ更新処理では、次のPID制御実行のためにPID制御パラメータを更新する。
(PID control parameter update process)
7 is a flowchart of the PID control parameter update process, in which the PID control parameters are updated for the next PID control execution.
ステップS31:現在の強化学習の学習方針を確認する。学習方針によって、更新方法を変更する。
ステップS32~S34:現在の学習方針に対応するPID制御パラメータの更新を実行する(後述)。
ステップS35:前ステップで更新されたPID制御パラメータをPID制御部10に送信する。
Step S31: Check the current reinforcement learning learning policy. Change the update method depending on the learning policy.
Steps S32 to S34: Update of PID control parameters corresponding to the current learning policy is executed (described later).
Step S35: The PID control parameters updated in the previous step are sent to the PID control unit 10.
本実施形態においては、ステップS32~S34は、学習方針が3つの場合を示している。方針Aの場合は、更新Aを実行する(ステップS32)。方針Bの場合は、更新Bを実行する(ステップS33)。方針Cの場合は、更新Cを実行する(ステップS34)。更新方法は3つの例を示しているが、これに限定されるものではない。 In this embodiment, steps S32 to S34 show the case where there are three learning policies. For policy A, update A is executed (step S32). For policy B, update B is executed (step S33). For policy C, update C is executed (step S34). Three examples of update methods are shown, but the present invention is not limited to these.
以下、方針A~方針Cに対応する更新方法の具体的な内容について例示する。
・方針Aに対応する更新A:制御評価値が最大となる行動(=PID制御パラメータ)を選択する。
・方針Bに対応する更新B:制御評価値が最大となる行動の値に対して、ランダムに増減した値とする。
・方針Cに対応する更新C:ランダムに行動の値を決定する。
以上は、学習方針に対応する更新方法の例であるが、他の更新方法を用いてもよい。
Specific examples of update methods corresponding to policies A to C are given below.
Update A corresponding to policy A: Select the action (=PID control parameter) that maximizes the control evaluation value.
Update B corresponding to policy B: The value is set to a value that is randomly increased or decreased from the value of the action that maximizes the control evaluation value.
Update C corresponding to policy C: The value of the action is determined randomly.
The above are examples of update methods corresponding to the learning policy, but other update methods may also be used.
本実施形態で示したPID制御パラメータの調整方法は、所定回数あるいは所定条件に達したときに強化学習を終了させず、常に強化学習を継続させるという特徴を備える。常に強化学習を継続しているので、常に制御評価値が算出される。制御対象装置において、経年劣化が徐々に進行すると、制御評価値がこれまでの値より低くなる場合が発生するようになる。すると、上述の方針Bの場合に該当するようになる。この場合、PID制御パラメータの更新は、これまでの制御評価値が最大となるPID制御パラメータの値からランダムに増減した値となる。従って、新たなPID制御パラメータの強化学習が進むことになり、これを繰り返すことによって、強化学習における新たな状態に対する最適なPID制御パラメータが学習されることになる。以上によって、経年劣化等によってPID制御パラメータの修正が必要となる場合にも、自動的に対応していくことが可能となる。 The PID control parameter adjustment method described in this embodiment is characterized by the fact that reinforcement learning is not terminated when a predetermined number of times or when a predetermined condition is reached, but is instead constantly continued. Because reinforcement learning is constantly ongoing, a control evaluation value is constantly calculated. As aging progresses in the controlled device, cases will arise in which the control evaluation value becomes lower than its previous value. This corresponds to the above-mentioned strategy B. In this case, the PID control parameters are updated to values that are randomly increased or decreased from the PID control parameter value that maximized the previous control evaluation value. Therefore, reinforcement learning of new PID control parameters progresses, and by repeating this process, optimal PID control parameters for the new state in reinforcement learning are learned. As a result, it is possible to automatically respond to cases in which PID control parameters need to be modified due to aging, etc.
以上説明した本実施形態のPID制御装置の多くの構成はコンピュータを使用したハードウェアおよびソフトウェアによって構成することができる。1つのコンピュータシステムで実現してもよいし、それぞれ別のコンピュータシステムを連携させて実現してもよい。あるいはコンピュータを使用しない構成とすることも可能である。全体システムをどのように構成するかは本開示の本質とは無関係である。 Many of the components of the PID control device of this embodiment described above can be configured using computer-based hardware and software. They may be implemented using a single computer system, or by linking separate computer systems. Alternatively, a configuration that does not use a computer is also possible. How the overall system is configured is irrelevant to the essence of this disclosure.
尚、本実施形態のPID制御装置は、常に強化学習を行うために、学習データが膨大になる可能性がある。このために、記憶部630の記憶容量は、これを考慮したものとする必要がある。記憶部630は、コンピュータシステムの記憶装置、例えば、ハードディスク装置で構成することができる。あるいは、ネットワーク接続したクラウド上の記憶装置を使用する構成としてもよい。この観点で、強化学習部60はコンピュータシステムで構成することが好ましい。 In addition, because the PID control device of this embodiment constantly performs reinforcement learning, there is a possibility that the amount of learning data will become enormous. For this reason, the storage capacity of the storage unit 630 must be determined taking this into consideration. The storage unit 630 can be configured as a storage device of a computer system, for example, a hard disk drive. Alternatively, it may be configured to use a storage device on a cloud connected to a network. From this perspective, it is preferable that the reinforcement learning unit 60 be configured as a computer system.
(応用例)
恒温恒湿室に用いる空気調和機に、本開示のPID制御パラメータ調整方法が適用可能である。恒温恒湿室は、各種の実験室や測定室、クリーンルーム等に広く使用され、高い精度の温湿度制御が求められる。いったん設備が導入されると、長期間に亘って使用されるので、PID制御パラメータを経年劣化に対応して最適化することは必須となる。本開示のPID制御パラメータ調整方法をPID制御装置に組み込んで、空気調和機を制御することによって、経年劣化に自動的に対応できる温湿度制御機能を有する空気調和機が実現できる。尚、温湿度制御に限らず、PID制御を用いた制御装置一般においても、本開示のPID制御パラメータ調整方法は適用可能である。
(Application example)
The PID control parameter adjustment method of the present disclosure can be applied to air conditioners used in constant temperature and humidity rooms. Constant temperature and humidity rooms are widely used in various laboratories, measurement rooms, clean rooms, etc., and require highly accurate temperature and humidity control. Once installed, the equipment is used for a long period of time, so it is essential to optimize the PID control parameters to address deterioration over time. By incorporating the PID control parameter adjustment method of the present disclosure into a PID control device and controlling the air conditioner, an air conditioner with a temperature and humidity control function that can automatically address deterioration over time can be realized. Note that the PID control parameter adjustment method of the present disclosure can be applied not only to temperature and humidity control, but also to general control devices using PID control.
1 PID制御装置、10 PID制御部、20 制御対象装置、30 目標設定入力部、40 環境データ取得部、50 制御データ測定部、60 強化学習部、610 入力部、611 目標値入力部、612 環境データ入力部、613 出力データ測定部、620 制御部、621 制御時間計測部、630 記憶部、631 測定データ記憶部、632 学習データ記憶部、640 演算部、641 データ演算部、642 パラメータ設定部、650 出力部、651 パラメータ出力部、T1 第1の所定時間、T2 第2の所定時間
1 PID control device, 10 PID control unit, 20 Control target device, 30 Target setting input unit, 40 Environmental data acquisition unit, 50 Control data measurement unit, 60 Reinforcement learning unit, 610 Input unit, 611 Target value input unit, 612 Environmental data input unit, 613 Output data measurement unit, 620 Control unit, 621 Control time measurement unit, 630 Memory unit, 631 Measurement data memory unit, 632 Learning data memory unit, 640 Calculation unit, 641 Data calculation unit, 642 Parameter setting unit, 650 Output unit, 651 Parameter output unit, T1 First predetermined time, T2 Second predetermined time
Claims (8)
第1の所定時間の間、予め定められたPID制御パラメータで制御対象装置の温度および湿度の少なくとも一方を示す出力データの値を制御目標値にPID制御する第1のステップと、
前記第1のステップの実行後に、前記第1の所定時間の間の前記制御対象装置の前記出力データの値、前記制御目標値、および、前記出力データの値と前記制御目標値との間の関係を示す式を用いて、制御評価値を算出する第2のステップと、
前記第2のステップの実行後に、前記第1の所定時間のPID制御の制御条件と、前記PID制御パラメータと、前記制御評価値を学習データとして記憶する第3のステップと、
前記第3のステップの実行後に、前記制御評価値に基づいて、前記PID制御装置のPID制御パラメータを更新する第4のステップとを有し、
前記第4のステップの実行後に、前記更新したPID制御パラメータを使用して、前記第1のステップが必ず実行される、PID制御パラメータ調整方法。 1. A method for adjusting PID control parameters for a PID controller, comprising:
a first step of PID-controlling a value of output data indicating at least one of temperature and humidity of a controlled device to a control target value using predetermined PID control parameters for a first predetermined time;
a second step of calculating a control evaluation value using the value of the output data of the control target device during the first predetermined time period , the control target value, and an equation indicating the relationship between the value of the output data and the control target value, after the first step is executed;
a third step of storing, after execution of the second step, the control conditions of the PID control for the first predetermined time, the PID control parameters, and the control evaluation value as learning data;
and a fourth step of updating a PID control parameter of the PID control device based on the control evaluation value after the third step is executed,
a PID control parameter adjusting method, wherein after the fourth step is performed, the first step is always performed using the updated PID control parameters;
前記第1の所定時間より短い第2の所定時間ごとの前記保存された出力データの値と、前記制御目標値との差と、
前記第2の所定時間ごとの前記保存された出力データの値の変化幅と、
前記保存された出力データの値の最大値と最小値の差と、
前記保存された出力データの値が、前記制御目標値を中心として増減する変化の回数、または、変化の幅の少なくとも1つを基に前記制御評価値を算出する、請求項2に記載のPID制御パラメータ調整方法。 The second step includes:
a difference between the value of the stored output data for each second predetermined time period that is shorter than the first predetermined time period and the control target value;
a change range of the value of the stored output data for each second predetermined time;
the difference between the maximum and minimum values of the stored output data;
3. The PID control parameter adjustment method according to claim 2, wherein the control evaluation value is calculated based on at least one of the number of times the value of the stored output data increases or decreases around the control target value, or the width of the change.
前記制御条件と前記PID制御パラメータに対応する前記制御評価値によって決定される学習方針に基づいて、更新方法を選択するステップと、
前記選択した更新方法に基づいて、PID制御パラメータを更新するステップと、
更新した前記PID制御パラメータを、前記PID制御装置に送信するステップを含む、請求項1~3の何れか1項に記載のPID制御パラメータ調整方法。 The fourth step includes:
selecting an update method based on a learning policy determined by the control conditions and the control evaluation values corresponding to the PID control parameters;
updating the PID control parameters based on the selected update method;
4. The PID control parameter adjusting method according to claim 1, further comprising the step of transmitting the updated PID control parameters to the PID control device.
第1の所定時間の間、予め定められたPID制御パラメータで制御対象装置の温度および湿度の少なくとも一方を示す出力データの値を制御目標値にPID制御する第1の処理を実行するPID制御部と、
前記第1の処理の実行後に、前記第1の所定時間の間の前記制御対象装置の前記出力データの値、前記制御目標値、および、前記出力データの値と前記制御目標値との間の関係を示す式を用いて、制御評価値を算出する第2の処理を実行するデータ演算部と、
前記第2の処理の実行後に、前記第1の所定時間のPID制御の制御条件と、前記PID制御パラメータと、前記制御評価値を学習データとして記憶する第3の処理を実行する記憶部と、
前記第3の処理の実行後に、前記制御評価値に基づいて、前記PID制御装置のPID制御パラメータを更新する第4の処理を実行するパラメータ設定部とを備え、
前記第4の処理の実行後に、前記更新したPID制御パラメータを使用して、前記第1の処理が必ず実行される、PID制御装置。 A PID controller,
a PID control unit that executes a first process of PID-controlling a value of output data indicating at least one of temperature and humidity of the control target device to a control target value using predetermined PID control parameters for a first predetermined time;
a data calculation unit that executes, after the execution of the first process, a second process of calculating a control evaluation value using the value of the output data of the control target device during the first predetermined time, the control target value, and an equation indicating the relationship between the value of the output data and the control target value ;
a storage unit that executes a third process of storing, after the execution of the second process, the control conditions of the PID control for the first predetermined time, the PID control parameters, and the control evaluation value as learning data;
a parameter setting unit that executes a fourth process to update a PID control parameter of the PID control device based on the control evaluation value after the third process is executed,
A PID control device in which, after the fourth process is executed, the first process is always executed using the updated PID control parameters.
前記PID制御装置は、
制御対象装置の温度および湿度の少なくとも一方を示す出力データの値を制御目標値にPID制御するPID制御部と、
前記PID制御部の前記制御目標値を設定する目標設定入力部と、
環境条件を取得する環境データ取得部と、
前記制御対象装置の前記出力データの値を測定する制御データ測定部と、
前記PID制御の実行後に、PID制御パラメータを学習する強化学習部とを備え、
前記強化学習部は、
前記目標設定入力部から前記制御目標値を取得し、前記環境データ取得部から前記環境条件を取得し、前記制御データ測定部から前記制御対象装置の前記出力データの値を取得する入力部と、
前記PID制御部の制御時間を制御する制御部と、
前記制御データ測定部から取得した前記制御対象装置の前記出力データの値を記憶する記憶部と、
前記記憶部に記憶した前記制御対象装置の前記出力データの値、前記制御目標値、および、前記出力データの値と前記制御目標値との間の関係を示す式を用いて、制御評価値を算出する機能と、前記制御評価値に基づいて、PID制御パラメータを更新する機能を有する演算部と、
前記演算部の更新した前記PID制御パラメータを前記PID制御部に送信する出力部を有し、
前記PID制御パラメータの学習後に、前記PID制御が必ず実行される、PID制御装置。 A PID control device,
The PID control device
a PID control unit that PID controls a value of output data indicating at least one of the temperature and humidity of the controlled device to a control target value;
a target setting input unit for setting the control target value of the PID control unit;
an environmental data acquisition unit that acquires environmental conditions;
a control data measurement unit that measures the value of the output data of the control target device;
a reinforcement learning unit that learns a PID control parameter after the PID control is executed,
The reinforcement learning unit
an input unit that acquires the control target value from the target setting input unit, acquires the environmental condition from the environmental data acquisition unit, and acquires the value of the output data of the control target device from the control data measurement unit;
a control unit that controls a control time of the PID control unit;
a storage unit that stores the value of the output data of the control target device acquired from the control data measurement unit;
a calculation unit having a function of calculating a control evaluation value using the output data value of the control target device stored in the storage unit, the control target value, and an equation indicating the relationship between the output data value and the control target value, and a function of updating a PID control parameter based on the control evaluation value;
an output unit that transmits the updated PID control parameters of the calculation unit to the PID control unit;
A PID control device in which the PID control is always performed after the PID control parameters are learned.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021031322A JP7724621B2 (en) | 2021-03-01 | 2021-03-01 | PID control parameter adjustment method, PID control device, and air conditioner equipped with the same |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021031322A JP7724621B2 (en) | 2021-03-01 | 2021-03-01 | PID control parameter adjustment method, PID control device, and air conditioner equipped with the same |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022132716A JP2022132716A (en) | 2022-09-13 |
| JP7724621B2 true JP7724621B2 (en) | 2025-08-18 |
Family
ID=83229579
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021031322A Active JP7724621B2 (en) | 2021-03-01 | 2021-03-01 | PID control parameter adjustment method, PID control device, and air conditioner equipped with the same |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7724621B2 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005172387A (en) | 2003-12-15 | 2005-06-30 | Yamatake Corp | Air conditioning controller |
| JP2019117458A (en) | 2017-12-26 | 2019-07-18 | ファナック株式会社 | Control device and machine learning device |
| WO2019193678A1 (en) | 2018-04-04 | 2019-10-10 | 理化工業株式会社 | Control device adjustment assistance device and control device adjustment device |
-
2021
- 2021-03-01 JP JP2021031322A patent/JP7724621B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005172387A (en) | 2003-12-15 | 2005-06-30 | Yamatake Corp | Air conditioning controller |
| JP2019117458A (en) | 2017-12-26 | 2019-07-18 | ファナック株式会社 | Control device and machine learning device |
| WO2019193678A1 (en) | 2018-04-04 | 2019-10-10 | 理化工業株式会社 | Control device adjustment assistance device and control device adjustment device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022132716A (en) | 2022-09-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10121107B2 (en) | Machine learning device and method for optimizing frequency of tool compensation of machine tool, and machine tool having the machine learning device | |
| JP6163526B2 (en) | How to perform an online process run analysis of a batch process | |
| EP1023646A1 (en) | Optimal auto-tuner for use in a process control network | |
| US10549423B2 (en) | Controller and machine learning device | |
| CN111566354B (en) | Method for self-diagnosis of mechanical and/or hydraulic conditions of a centrifugal pump | |
| EP3270240B1 (en) | Adaptive control techniques for ph control or control of other industrial processes | |
| CN105892443B (en) | The diagnostic device and method of operation for monitoring control loop | |
| US11086277B2 (en) | System and method for determining the parameters of a controller | |
| KR101877341B1 (en) | Method for aligning a straightening roller of a straightening roller system | |
| JP7724621B2 (en) | PID control parameter adjustment method, PID control device, and air conditioner equipped with the same | |
| CN119828447B (en) | A steam emission control method based on pilot valve regulation | |
| JP2025505055A (en) | Establishing or improving a simulation model of an electrolyser plant | |
| JP6870330B2 (en) | Data processing device and data processing method | |
| CN117648005B (en) | Equipment control method and system based on air humidity | |
| JP5717950B2 (en) | Model function processing apparatus and method | |
| JP2020099982A (en) | Machine tool thermal displacement correction method, thermal displacement correction program, thermal displacement correction device | |
| WO2015045175A1 (en) | Fuzzy control device and fuzzy control method | |
| JP5066464B2 (en) | Control device and operation method thereof | |
| CN117042905A (en) | Processing condition adjusting device | |
| JP3368182B2 (en) | Material testing machine | |
| JP2022061660A (en) | Control device and control method | |
| JP7414289B2 (en) | State estimation device, state estimation method and program | |
| JP5865138B2 (en) | Method and apparatus for determining control parameters | |
| JP3779511B2 (en) | Controller design equipment | |
| JP7646534B2 (en) | Method, system and program for visualizing internal states of a plant |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240227 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240919 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241022 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20241108 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241206 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250325 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250512 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250708 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250805 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7724621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |