[go: up one dir, main page]

JP6511333B2 - Decision support system and decision support method - Google Patents

Decision support system and decision support method Download PDF

Info

Publication number
JP6511333B2
JP6511333B2 JP2015107193A JP2015107193A JP6511333B2 JP 6511333 B2 JP6511333 B2 JP 6511333B2 JP 2015107193 A JP2015107193 A JP 2015107193A JP 2015107193 A JP2015107193 A JP 2015107193A JP 6511333 B2 JP6511333 B2 JP 6511333B2
Authority
JP
Japan
Prior art keywords
action
player
model
evaluation
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015107193A
Other languages
Japanese (ja)
Other versions
JP2016224512A (en
Inventor
幸二 福田
幸二 福田
泰幸 工藤
泰幸 工藤
谷本 幸一
幸一 谷本
美奈子 鳥羽
美奈子 鳥羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015107193A priority Critical patent/JP6511333B2/en
Publication of JP2016224512A publication Critical patent/JP2016224512A/en
Application granted granted Critical
Publication of JP6511333B2 publication Critical patent/JP6511333B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、意思決定支援システムに関する。   The present invention relates to a decision support system.

専門家の知見を用いて将来生じるであろう情勢や関係者の行動を予測するコンピュータシステムが提案されている。   A computer system has been proposed that uses the expert's knowledge to predict future situations and the actions of persons involved.

例えば、特許文献1(特開平5−204991号公報)には、コンピュータと時系列データベースと登録パターンデータベースと端末装置からなるシステムにおいて、複数のパターンを登録するステップと、時系列データベースから時系列データを読み込み、既に登録されている複数のパターンとの照合をパターン毎,一定期間毎に行うステップと、登録されたパターン間の出現に関する因果関係を分析するステップと、分析結果を表示するステップとからなる時系列データ検索システムが記載されている。特許文献1に記載された時系列データ検索システムは、登録されたパターンと比較した結果に基づいて(ルールベースで)将来動向(アクション)を予測する。   For example, Patent Document 1 (Japanese Patent Application Laid-Open No. 5-204991) includes a step of registering a plurality of patterns in a system consisting of a computer, a time series database, a registration pattern database and a terminal device, time series data from the time series database From the steps of reading and collating with a plurality of patterns already registered for each pattern and for each fixed period, analyzing causality regarding appearance between registered patterns, and displaying analysis results A time series data retrieval system is described. The time-series data search system described in Patent Document 1 predicts future behavior (action on a rule basis) based on a result of comparison with registered patterns.

特開平5−204991号公報Unexamined-Japanese-Patent No. 5-204991

しかし、特許文献1に記載されているようなルールベースの予測システムでは、連鎖モデルを用いて、多くのルールを含むモデルを作成して、次に何が生じるかをシミュレートするものである。このため、ルールベースの予測システムではモデルの作成が困難であった。すなわち、このモデルでは、全ての事象や関係者の行動を考慮しなければならず、専門家の知見を整理して、知見を統合したモデルを作成するために、専門家の知見を分類して、モデルを作成することは困難である。このため、専門家の知識を無理なくモデル化して、将来を予測するシステムが求められている。   However, in the rule-based prediction system as described in Patent Document 1, a chain model is used to create a model including many rules and simulate what will occur next. For this reason, it is difficult to create a model in a rule-based prediction system. That is, in this model, all events and the actions of persons involved must be considered, and the expert's knowledge is classified in order to organize the expert's knowledge and create a model that integrates the knowledge. , It is difficult to create a model. Therefore, there is a need for a system that models expert knowledge without difficulty and predicts the future.

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサとメモリとを有する計算機によって構成される意思決定支援システムであって、前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、前記意思決定支援システムは、前記プロセッサが、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、前記プロセッサが、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、前記プロセッサが、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、前記プロセッサが、指標値から評価値をプレーヤー毎に導出するための評価モデルと、前記プロセッサが、プレーヤーのアクションを選択するアクション選択部と、前記プロセッサが、前記選択された各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定するための調停モデルとを有し、前記意思決定支援システムは、前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、前記アクション選択部は、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーがとり得る複数のアクションを選択し、前記選択された複数のアクション及び当該アクションの確率を出力し、前記意思決定支援システムは、前記調停モデルを用いて、前記アクション選択部が選択した前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定する。 The following is a representative example of the invention disclosed in the present application. That is, it is a decision support system configured by a computer having a processor and a memory, wherein the memory stores a plurality of index values which quantify a plurality of situations necessary for the decision, and the decision support system An action chain model for the processor to derive a next action from a player action, and a reaction model for the processor to derive a next index value from the player action and the index value. An intention model for the processor to derive, for each player, a selection probability representing an intention of the action from the index value; an evaluation model for the processor to derive an evaluation value for each player from the index value; , an action selector for selecting an action of the player, the processor, the election Arbitrates actions of each player is, the and a mediation model to determine the actions of each player, the decision support system, using the action chain model, the player from the action of the player Derive the next action that can be taken, derive the next index value from the action of the player and the index value using the reaction model, and derive the next index derived using the intention model The selection probability of the action of each player is calculated from the value, and using the evaluation model, the action selection unit calculates an evaluation value indicating the degree to which the derived next index value is desirable for each player, The action derived using the action chain model, and the selection probability calculated using the intention model , By using the calculated evaluation value by using the evaluation model, the select multiple actions that each player can take, and outputs the probability of multiple actions and the actions the selected, the decision support The system uses the arbitration model to arbitrate the action of each player selected by the action selector to determine the action of each player .

本発明の代表的な形態によれば、専門家の知見を容易に整理でき、将来生じるであろう情勢やアクションを専門家の知見に基づいて予測することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。   According to the representative form of the present invention, expert's knowledge can be easily organized, and situations and actions that will occur in the future can be predicted based on the expert's knowledge. Problems, configurations, and effects other than those described above will be clarified by the description of the following embodiments.

第1の実施例の意思決定支援システムの物理的な構成を示すブロック図である。It is a block diagram which shows the physical structure of the decision-making assistance system of a 1st Example. 第1の実施例の意思決定支援システムの論理的な構成を示すブロック図である。It is a block diagram showing the logical composition of the decision support system of a 1st example. 第1の実施例のアクション連鎖モデルを説明する図である。It is a figure explaining the action chain model of a 1st Example. 第1の実施例の反応モデルを説明する図である。It is a figure explaining the reaction model of the 1st example. 第1の実施例の意思モデルを説明する図である。It is a figure explaining the intention model of a 1st Example. 第1の実施例の評価モデルを説明する図である。It is a figure explaining the evaluation model of a 1st example. 第1の実施例の意思決定支援システムによる処理のフローチャートである。It is a flowchart of a process by the decision support system of a 1st Example. 第1の実施例のシミュレーション結果出力画面の例を示す図である。It is a figure which shows the example of the simulation result output screen of a 1st Example. 第1の実施例の変形例の意思決定支援システムによる処理のフローチャートである。It is a flowchart of a process by the decision support system of the modification of a 1st Example. 第1の実施例の星取表出力画面の例を示す図である。It is a figure which shows the example of the star | collar table output screen of a 1st Example. 第1の実施例の星取表を構成するためのモンテカルロ木探索を説明する図である。It is a figure explaining the Monte Carlo tree search for comprising the star | bill of 1st Example. 第2の実施例の意思決定支援システムの論理的な構成を示すブロック図である。It is a block diagram showing the logical composition of the decision support system of the 2nd example. 第2の実施例の調停モデルを説明する図である。It is a figure explaining the mediation model of a 2nd example.

図1は、第1の実施例の意思決定支援システムの物理的な構成を示すブロック図である。   FIG. 1 is a block diagram showing the physical configuration of the decision support system of the first embodiment.

本実施例の意思決定支援システムは、複数の計算機(CALC_NODE)と、これら複数の計算機を接続する通信スイッチ(COM_SW)とを有する。   The decision support system of this embodiment has a plurality of computers (CALC_NODE) and a communication switch (COM_SW) that connects the plurality of computers.

各計算機(CALC_NODE)は、プログラムを実行するプロセッサ(CPU)と、データ及びプログラムを格納する一時記憶装置(RAM)及び補助記憶装置(STOR)と、通信スイッチ(COM_SW)と接続される通信デバイス(COM_DEV)とを有する。プロセッサ(CPU)と、一時記憶装置(RAM)と、補助記憶装置(STOR)と、通信デバイス(COM_DEV)とは、バス(BUS)で接続されている。   Each computer (CALC_NODE) is a communication device (CPU) that executes a program, a temporary storage device (RAM) and an auxiliary storage device (STOR) that stores data and programs, and a communication device (COM_SW) connected to a communication device. And (COM_DEV). The processor (CPU), the temporary storage device (RAM), the auxiliary storage device (STOR), and the communication device (COM_DEV) are connected by a bus (BUS).

プロセッサ(CPU)は、一時記憶装置(RAM)に格納されたプログラムを実行する。一時記憶装置(RAM)は、不揮発性の記憶素子であるROM及び揮発性の記憶素子である(RAM)を含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。(RAM)は、D(RAM)(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ(CPU)が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。   A processor (CPU) executes a program stored in a temporary storage device (RAM). The temporary storage device (RAM) includes a ROM, which is a non-volatile storage element, and a RAM, which is a volatile storage element. The ROM stores an immutable program (for example, BIOS). (RAM) is a high-speed volatile memory element such as D (RAM) (Dynamic Random Access Memory), and temporarily stores a program executed by a processor (CPU) and data used when the program is executed Do.

補助記憶装置(STOR)は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置であり、プロセッサ(CPU)が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置(STOR)から読み出されて、記憶装置(RAM)にロードされて、プロセッサ(CPU)によって実行される。   The auxiliary storage device (STOR) is, for example, a large-capacity and non-volatile storage device such as a magnetic storage device (HDD) or a flash memory (SSD), and is used when executing programs and programs executed by a processor (CPU). Store data. That is, the program is read from the auxiliary storage device (STOR), loaded into the storage device (RAM), and executed by the processor (CPU).

通信デバイス(COM_DEV)は、所定のプロトコルに従って、通信スイッチ(COM_SW)を介して、他の装置との通信を制御するネットワークインターフェース装置である。   The communication device (COM_DEV) is a network interface device that controls communication with another device via the communication switch (COM_SW) according to a predetermined protocol.

各計算機(CALC_NODE)は、入力インターフェース及び出力インターフェースを有してもよい。入力インターフェースは、オペレータからの入力を受けるインターフェースであり、具体的には、マウス、キーボード、タッチパネル、マイクなどである。出力インターフェースは、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースであり、ディスプレイ装置やプリンタなどである。   Each computer (CALC_NODE) may have an input interface and an output interface. The input interface is an interface for receiving an input from an operator, and specifically, a mouse, a keyboard, a touch panel, a microphone, and the like. The output interface is an interface that outputs the execution result of the program in a form that can be viewed by an operator, and is a display device, a printer, or the like.

通信スイッチ(COM_SW)に、入力インターフェース及び出力インターフェースを有する端末計算機が接続されてもよい。   A terminal computer having an input interface and an output interface may be connected to the communication switch (COM_SW).

プロセッサ(CPU)が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して各計算機(CALC_NODE)に提供され、非一時的記憶媒体である不揮発性の補助記憶装置(STOR)に格納される。このため、各計算機(CALC_NODE)は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。   The program executed by the processor (CPU) is provided to each computer (CALC_NODE) via removable media (CD-ROM, flash memory, etc.) or via a network, and is a non-transitory storage medium (STOR non-volatile storage) (STOR) Stored in). Therefore, each computer (CALC_NODE) may have an interface for reading data from removable media.

各計算機(CALC_NODE)は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。また、各計算機(CALC_NODE)の各機能部は異なる計算機上で実現されてもよい。   Each computer (CALC_NODE) is a computer system that is configured physically on one computer or on a plurality of logically or physically configured computers, and operates in separate threads on the same computer It may operate on a virtual computer built on multiple physical computer resources. Also, each functional unit of each computer (CALC_NODE) may be realized on a different computer.

図2は、第1の実施例の意思決定支援システムの論理的な構成を示すブロック図である。   FIG. 2 is a block diagram showing the logical configuration of the decision support system of the first embodiment.

本実施例の意思決定支援システムは、アクション連鎖モデル1、反応モデル2、意思モデル4及び評価モデル5の四つのモデルで構成される。具体的には、図2に示す意思決定支援システムは、アクション連鎖モデル1、反応モデル2及び複数のアクション決定部3を有する。アクション決定部3は、意思モデル4、評価モデル5及びアクション選択部6を有し、プレーヤー毎に設けられる。   The decision support system of the present embodiment is composed of four models: action chain model 1, reaction model 2, intention model 4 and evaluation model 5. Specifically, the decision support system shown in FIG. 2 includes an action chain model 1, a reaction model 2, and a plurality of action determination units 3. The action determination unit 3 includes an intention model 4, an evaluation model 5, and an action selection unit 6, and is provided for each player.

アクション連鎖モデル1は、図3に示すように、ルールベースのシミュレータであり、プレーヤーの現在のアクションから次に実行される蓋然性があるアクションを導出する。プレーヤーは、世の中で意思を決定し、行動する(アクションを実行する)主体であり、例えば、国民、行政機関(各省庁)、国会、内閣、外国政府、マスコミなどである。   The action chaining model 1 is a rule-based simulator, as shown in FIG. 3, and derives a probable action to be executed next from the current action of the player. A player is an entity that decides and acts (performs actions) in the world, and is, for example, the people, government agencies (ministries and ministries), parliaments, cabinets, foreign governments, mass communication, and the like.

反応モデル2は、図4に示すように、ルールベースのシミュレータであり、各プレーヤーの現在のアクション及び現在の指標値から次の指標値を導出する。指標値とは、例えば、世の中で生じている事象(情勢の変化)を数値化した指標であり、経済指標(GDP、株価、為替レートなど)、世論調査結果(内閣支持率など)である。   The reaction model 2 is a rule-based simulator as shown in FIG. 4 and derives the next index value from the current action of each player and the current index value. The index value is, for example, an index that quantifies events (changes in the situation) occurring in the world, and is an economic index (GDP, stock price, exchange rate, etc.), opinion poll results (Cabinet approval rate, etc.).

アクション決定部3は、プレーヤー毎に設けられ、各プレーヤーの次のアクションを導出する。   The action determination unit 3 is provided for each player and derives the next action of each player.

意思モデル4は、図5に示すように、次の指標値からアクション意思を導出するシミュレータである。アクション意思は、ある情勢(指標値の組み合わせによって表される)において採用されるアクションを実行する意志の強さを表す数値である。すなわち、各プレーヤーはアクション意思の値が大きいアクションを選択する確率(期待値)が高い。評価モデル5は、図6に示すように、次の指標値から評価値を導出するシミュレータである。評価値は、ある情勢がプレーヤーにとって望ましい程度を表す数値である。   The intention model 4 is a simulator for deriving an action intention from the following index values, as shown in FIG. The action intention is a numerical value representing the strength of the intention to execute the action adopted in a certain situation (represented by a combination of index values). That is, each player has a high probability (expected value) of selecting an action whose action intention value is large. The evaluation model 5 is a simulator for deriving an evaluation value from the following index values as shown in FIG. The evaluation value is a numerical value that represents the degree to which a certain situation is desirable for the player.

アクション選択部6は、当該プレーヤーの次のアクションの蓋然性、アクション意思及び評価値から当該プレーヤーの次のアクションを導出するセレクタである。アクション選択部6は、例えば、意思モデル4から出力されたアクション意思及び評価モデル5から出力された評価値でアクション連鎖モデル1から出力されたアクションに重み付けすることによって、当該プレーヤーの次のアクションを選択する。   The action selection unit 6 is a selector that derives the next action of the player from the probability of the next action of the player, the action intention, and the evaluation value. The action selection unit 6 weights the action output from the action chain model 1 with the action intention output from the intention model 4 and the evaluation value output from the evaluation model 5, for example, to perform the next action of the player. select.

アクション選択部6が導出した次のアクションは、アクション連鎖モデル1に入力され、次のアクションのシミュレーションに用いられる。また、反応モデル2が導出した次の指標値は、反応モデル2に入力され、次の指標値のシミュレーションに用いられる。   The next action derived by the action selection unit 6 is input to the action chaining model 1 and used for simulation of the next action. Further, the next index value derived by the reaction model 2 is input to the reaction model 2 and used for simulation of the next index value.

図3は、第1の実施例のアクション連鎖モデル1を説明する図である。アクション連鎖モデル1は、各プレーヤーのアクションをノードとしたマルコフ決定過程モデルで表されている。各ノードにはプレーヤーがアクションを選択する確率が対応付けられており、ノード間のエッジにはノード間を状態が遷移する確率が対応付けられている。   FIG. 3 is a diagram for explaining the action chaining model 1 of the first embodiment. The action chain model 1 is represented by a Markov decision process model in which each player's action is a node. Each node is associated with a probability that the player selects an action, and an edge between the nodes is associated with a probability that a state transitions between nodes.

図3に示すアクション連鎖モデル1では、プレーヤー1がアクション1、アクション2及びアクション3を選択する確率は、それぞれ、0.3:0.5:0.2である。また、プレーヤー1がアクション1を選択した場合、プレーヤー2は0.8の確率でアクション2を選択する。つまり、プレーヤー2がアクション2を選択する確率は、式1によって表すことができる。
1−((1−0.3)×(1−0.8)) …(式1)
In the action chain model 1 shown in FIG. 3, the probability that the player 1 selects the action 1, the action 2 and the action 3 is 0.3: 0.5: 0.2, respectively. Also, if player 1 selects action 1, player 2 selects action 2 with a probability of 0.8. That is, the probability that player 2 selects action 2 can be expressed by equation 1.
1-((1-0.3) x (1-0.8)) ... (Formula 1)

アクション連鎖モデル1によって、プレーヤーの現在のアクションから蓋然性がある次のアクションを一つ又は複数導出することができる。   The action chaining model 1 can derive one or more next possible actions from the player's current action.

図4は、第1の実施例の反応モデル2を説明する図である。反応モデル2は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表すモデルである。   FIG. 4 is a diagram for explaining the reaction model 2 of the first embodiment. The reaction model 2 is a model that represents the correlation between each index by a causal loop diagram.

反応モデル2は、例えば図4に示すように、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。例えば、指標3と指標2とは正の相関があり、エッジの係数が0.5であれば、指標3が1増加したとき、指標2は0.5増加する。また、指標3と指標5とは負の相関があり、エッジの係数が1.2であれば、指標3が1増加したとき、指標5は1.2減少する。   For example, as shown in FIG. 4, the reaction model 2 can be represented by a graphical model in which a plurality of indices are nodes and nodes are connected by edges. The solid arrows at each edge indicate positive correlation, and the dashed arrows indicate negative correlation. Furthermore, by defining a coefficient for each edge, a system dynamics model representing the behavior of each index can be obtained. The coefficient of each edge is defined as a ratio to the increase or decrease of the index. For example, if the index 3 and the index 2 have a positive correlation, and the edge coefficient is 0.5, when the index 3 is increased by 1, the index 2 is increased by 0.5. Further, the index 3 and the index 5 have a negative correlation, and if the coefficient of the edge is 1.2, the index 5 decreases by 1.2 when the index 3 increases by 1.

なお、離散系シミュレーションを行う場合、計算機内では反応モデル2を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では反応モデル2を一次微分方程式で表すことができる。   In the case of performing discrete system simulation, the reaction model 2 can be represented by a recurrence equation in the computer. Further, when performing continuous system simulation, the reaction model 2 can be represented by a first order differential equation in a computer.

指標には、ストック要素とフロー要素とがある。ストック要素は、例えば、原油の備蓄量など、ある時点における量を示す。また、フロー要素は、例えば、原油の輸入量(生産量)や消費量など、時間帯における変数の流れを示す。ある指標をストック要素とするかフロー要素とするかは、世の中で、その指標が一般的にストック量及びフロー量のいずれとして使われているかによって決定するとよい。また、実際には数値で計測できない量(例えば、リスクインパクト、ナショナリズム)を指標として用いてもよい。このように、ストック要素とフロー要素とを混在させて反応モデル2を構成することによって、有識者の思考をそのままで、制約を設けることなく、モデル化することができる。   There are two types of indicators: stock elements and flow elements. The stock element indicates an amount at a certain point of time, for example, a stock amount of crude oil. In addition, the flow element indicates, for example, the flow of variables in a time zone, such as the import amount (production amount) and consumption amount of crude oil. Whether an index is a stock element or a flow element may be determined according to whether the index is generally used as a stock quantity or a flow quantity in the world. In addition, an amount that can not be actually measured numerically (for example, risk impact, nationalism) may be used as an index. As described above, by composing the reaction model 2 by mixing the stock element and the flow element, it is possible to model the thinking of the expert as it is without setting any constraints.

図5は、第1の実施例の意思モデル4を説明する図である。意思モデル4は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表し、さらに、各プレーヤーのアクションと各指標との相関関係を表すモデルである。   FIG. 5 is a diagram for explaining the intention model 4 of the first embodiment. The intention model 4 is a model that represents the correlation between each index by a causal loop diagram, and further represents the correlation between each player's action and each index.

意思モデル4は、前述した反応モデル2と同様のモデルによって表すことができる。すなわち、意思モデル4は、例えば、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。   The intention model 4 can be represented by the same model as the reaction model 2 described above. That is, the intention model 4 can be represented, for example, by using a plurality of indices as nodes and a graphical model in which nodes are connected by edges. The solid arrows at each edge indicate positive correlation, and the dashed arrows indicate negative correlation. Furthermore, by defining a coefficient for each edge, a system dynamics model representing the behavior of each index can be obtained. The coefficient of each edge is defined as a ratio to the increase or decrease of the index.

意思モデル4において、指標間は互いに相関関係を有するが、プレーヤーのアクションと指標との間は、各プレーヤーのアクションから指標へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各アクションの間のエッジも定義されない。意思モデル4によって、各プレーヤーのアクションの指標への影響をモデル化することができる。   In the intention model 4, the indicators have a correlation with each other, but between the player's action and the indicator, only the edge from the action of each player to the indicator is defined, and the edge in the opposite direction is not defined. Also, the edge between each action is not defined. The intention model 4 can model the influence of each player's action on the indicator.

なお、離散系シミュレーションを行う場合、計算機内では意思モデル4を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では意思モデル4を一次微分方程式で表すことができる。意思モデル4は、反応モデル2と同様に、意思モデル4の指標には、ストック要素とフロー要素とがある。   In the case of discrete system simulation, the intention model 4 can be represented by a recurrence equation in the computer. In the case of continuous system simulation, the intention model 4 can be represented by a first-order differential equation in the computer. Similar to the response model 2, in the intention model 4, the indicators of the intention model 4 include a stock element and a flow element.

図6は、第1の実施例の評価モデル5を説明する図である。評価モデル5は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表し、各プレーヤーのアクションと各指標との相関関係を表し、各指標と各プレーヤーの評価との相関関係を表し、さらに、各指標と各プレーヤーのアクションの意思との相関関係を表すモデルである。評価は、複数の指標の組み合わせによって表される情勢を、各プレーヤーが望ましいと思うかを示す数値である。なお、評価は、指標の数値範囲の組み合わせ毎に異なる評価値を持ってもよい。アクション意思は、各プレーヤーがとり得るアクションと各アクションを選択する確率の組によって表される。   FIG. 6 is a diagram for explaining an evaluation model 5 of the first embodiment. The evaluation model 5 represents the correlation between each index by the causal loop diagram, the correlation between each player's action and each index, the correlation between each index and each player's evaluation, and It is a model that represents the correlation between each indicator and the intention of each player's action. An evaluation is a numerical value which shows whether each player thinks the situation represented by the combination of a plurality of indicators as desirable. The evaluation may have a different evaluation value for each combination of the numerical range of the index. The action intention is represented by a set of actions that each player can take and a probability of selecting each action.

評価モデル5は、前述した反応モデル2と同様のモデルによって表すことができる。すなわち、評価モデル5は、例えば、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。   The evaluation model 5 can be represented by a model similar to the reaction model 2 described above. That is, the evaluation model 5 can be represented by, for example, a graphical model in which a plurality of indices are nodes and nodes are connected by edges. The solid arrows at each edge indicate positive correlation, and the dashed arrows indicate negative correlation. Furthermore, by defining a coefficient for each edge, a system dynamics model representing the behavior of each index can be obtained. The coefficient of each edge is defined as a ratio to the increase or decrease of the index.

評価モデル5において、指標間は互いに相関関係を有するが、プレーヤーのアクションと指標との間は、各プレーヤーのアクションから指標へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各アクションの間のエッジも定義されない。また、各指標と各プレーヤーの評価との間は、各指標から評価へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各指標と各プレーヤーのアクションの意思との間は、各指標からアクションの意思へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。さらに、アクションの意思の間のエッジも定義されない。評価モデル5によって、各指標の各プレーヤーのアクションの意思の強さへの影響をモデル化することができ、各プレーヤーのアクションの評価値を定めることができる。   In the evaluation model 5, the indices have a correlation with each other, but between the player's action and the index, only the edge from each player's action to the index is defined, and the opposite direction edge is not defined. Also, the edge between each action is not defined. Also, between each index and each player's evaluation, only the edge from each index to the evaluation is defined, and no reverse edge is defined. Also, between each index and each player's action intention, only the edge from each index to the action intention is defined, and the reverse direction edge is not defined. Furthermore, the edge between the intentions of the action is not defined. The evaluation model 5 can model the influence of the strength of the intention of each player's action of each index, and can set the evaluation value of each player's action.

なお、離散系シミュレーションを行う場合、計算機内では意思モデル4を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では意思モデル4を一次微分方程式で表すことができる。評価モデル5は、反応モデル2と同様に、評価モデル5の指標には、ストック要素とフロー要素とがある。   In the case of discrete system simulation, the intention model 4 can be represented by a recurrence equation in the computer. In the case of continuous system simulation, the intention model 4 can be represented by a first-order differential equation in the computer. In the evaluation model 5, as with the reaction model 2, the indices of the evaluation model 5 include a stock element and a flow element.

なお、評価モデル5は意思モデル4を含み、意思モデル4は反応モデル2を含む。このため、反応モデル2と意思モデル4と評価モデル5とは、一つのモデルを論理的に区分して構成してもよい。   Evaluation model 5 includes intention model 4, and intention model 4 includes reaction model 2. Thus, the reaction model 2, the intention model 4 and the evaluation model 5 may be configured by logically dividing one model.

反応モデル2、意思モデル4及び評価モデル5において、各ノードが表す事象は多少は関係があるので、ほとんど全てのノード間でエッジが定義できる。しかし、全てのノード間でエッジを定義するとモデルが複雑になるので、相関性が高いエッジ(例えば、係数が所定の閾値より大きいエッジ)によってモデルを構成するとよい。   In the reaction model 2, the intention model 4 and the evaluation model 5, since the events represented by each node are somewhat related, an edge can be defined between almost all nodes. However, since defining the edges between all nodes complicates the model, it is preferable to construct the model by highly correlated edges (eg, edges whose coefficients are larger than a predetermined threshold).

図7は、第1の実施例の意思決定支援システムによる処理のフローチャートである。   FIG. 7 is a flowchart of processing by the decision support system of the first embodiment.

まず、現在の状況及びシミュレーション期間が入力インターフェースに入力されると(S101)繰り返し制御パラメータtの初期値にシミュレーション開始時を設定し、シミュレーション終了時t_endを設定する。入力される現在の状態は、各プレーヤーの現在のアクション及び現在の各指標値を含む。   First, when the current situation and simulation period are input to the input interface (S101), the simulation start time is set to the initial value of the control parameter t repeatedly, and the simulation end time t_end is set. The current state to be input includes the current action of each player and each current index value.

次に、tがt_endより小さいかを判定する(S102)。tがt_endより小さければ、ステップS103及びS105に進む。tがt_end以上であれば、指定された期間のシミュレーション結果が得られたので、処理を終了し、シミュレーション結果出力画面(図8)を出力する。   Next, it is determined whether t is smaller than t_end (S102). If t is smaller than t_end, the process proceeds to steps S103 and S105. If t is equal to or greater than t_end, the simulation result of the designated period is obtained, so the processing is ended and the simulation result output screen (FIG. 8) is output.

ステップS103では、アクション連鎖モデル1を駆動し、プレーヤーの現在のアクションから蓋然性がある次のアクションを導出し、補助記憶装置(STOR)に格納する(S104)。また、ステップS105では、反応モデル2を駆動し、各プレーヤーの現在のアクション及び現在の指標値から次の指標値を導出し、補助記憶装置(STOR)に格納する(S106)。   In step S103, the action chaining model 1 is driven to derive the next action likely from the player's current action, and the next action is stored in the auxiliary storage device (STOR) (S104). In step S105, the reaction model 2 is driven, the next index value is derived from the current action of each player and the current index value, and is stored in the auxiliary storage device (STOR) (S106).

ステップS103〜S106の処理は、並行して実行することができるが、アクション連鎖モデル1を起動する処理(S103)と、反応モデル2を駆動する処理(S105)とを順に実行してもよい。   The processes of steps S103 to S106 can be performed in parallel, but the process of activating the action chain model 1 (S103) and the process of driving the reaction model 2 (S105) may be sequentially performed.

次に、全てのプレーヤーについて、意思モデル4及び評価モデル5を駆動する(S107、S109)。ステップS107〜S110の処理は、並行して実行することができるが、意思モデル4を起動する処理(S107)と、評価モデル5を駆動する処理(S109)とを順に実行してもよい。   Next, the intention model 4 and the evaluation model 5 are driven for all players (S107, S109). The processes of steps S107 to S110 can be performed in parallel, but the process of activating the intention model 4 (S107) and the process of driving the evaluation model 5 (S109) may be sequentially performed.

ステップS107では、意思モデル4を駆動し、次の指標値から各プレーヤーのアクション意思を導出し、補助記憶装置(STOR)に格納する(S108)。また、ステップS109では、評価モデル5を駆動し、次の指標値から評価値を導出し、補助記憶装置(STOR)に格納する(S110)。   In step S107, the intention model 4 is driven to derive the action intention of each player from the next index value, and the action intention is stored in the auxiliary storage device (STOR) (S108). In step S109, the evaluation model 5 is driven, an evaluation value is derived from the next index value, and is stored in the auxiliary storage device (STOR) (S110).

その後、アクション選択部6が、当該プレーヤーの次のアクションの蓋然性、アクション意思及び評価値を勘案して当該プレーヤーの次のアクションを決定し、補助記憶装置(STOR)に格納する(S111)。   After that, the action selecting unit 6 determines the next action of the player in consideration of the probability of the next action of the player, the action intention, and the evaluation value, and stores the next action in the auxiliary storage device (STOR) (S111).

全てのプレーヤーの次のアクションが決定した後、反応モデル2が出力した次の指標値を現在の指標値に設定して、反応モデル2の時刻を一つ進める(S112)。そして、繰り返し制御パラメータtに1を加算して(S113)、ステップS102に戻る。なお、tに加算される1は、シミュレーションを実行する時間間隔を示し、オペレータが(例えば、1日を)予め設定するとよい。   After the next action of all players is determined, the next index value output from the reaction model 2 is set as the current index value, and the time of the reaction model 2 is advanced by one (S112). Then, 1 is added to the repetition control parameter t (S113), and the process returns to step S102. Note that 1 added to t indicates a time interval for executing the simulation, and the operator may set (for example, one day) in advance.

以上の処理によって、シミュレーション期間中の各プレーヤーのアクションを導出できる。   By the above processing, the action of each player during the simulation period can be derived.

図8は、第1の実施例のシミュレーション結果出力画面1000の例を示す図である。シミュレーション結果出力画面1000は、時間の経過に伴って各プレーヤーが選択するアクションを表し、出力インターフェース(ディスプレイ装置)に表示される。例えば、図8に示すように、縦方向にプレーヤーが列記され、横方向にシミュレーション結果の時刻が列記された表形式で、各プレーヤーの各時刻におけるアクションが表示される。シミュレーション結果出力画面1000によって、ユーザは各プレーヤーがとるアクションを時系列に知ることができる。   FIG. 8 is a view showing an example of the simulation result output screen 1000 of the first embodiment. The simulation result output screen 1000 represents the action selected by each player as time passes, and is displayed on the output interface (display device). For example, as shown in FIG. 8, the action at each time of each player is displayed in the form of a table in which the players are listed vertically and the times of simulation results are listed horizontally. The simulation result output screen 1000 allows the user to know the actions taken by each player in time series.

次に、第1の実施例の変形例について説明する。以下に説明する変形例では、星取表を用いて各プレーヤーのアクションを選択する。   Next, a modification of the first embodiment will be described. In the variation described below, a star calendar is used to select each player's action.

図9は、第1の実施例の変形例の意思決定支援システムによる処理のフローチャートである。   FIG. 9 is a flowchart of processing by the decision support system of the modification of the first embodiment.

まず、現在の状況及びシミュレーション期間が入力インターフェースに入力されると(S121)、繰り返し制御パラメータtの初期値をシミュレーション開始時に設定し、シミュレーション終了時t_endを設定する。入力される現在の状態には、各プレーヤーの現在のアクション及び現在の各指標値が含まれる。   First, when the current situation and the simulation period are input to the input interface (S121), the initial value of the repetitive control parameter t is set at the start of the simulation, and the simulation end time t_end is set. The current state to be input includes the current action of each player and the current index value.

次に、tがt_endより小さいかを判定する。tがt_endより小さければ、ステップS103及びS105に進む(S122)。tがt_end以上であれば、指定された期間のシミュレーション結果が得られたので、処理を終了し、シミュレーション結果出力画面(図8)を出力する。   Next, it is determined whether t is smaller than t_end. If t is smaller than t_end, the process proceeds to steps S103 and S105 (S122). If t is equal to or greater than t_end, the simulation result of the designated period is obtained, so the processing is ended and the simulation result output screen (FIG. 8) is output.

次に、全てのプレーヤーが取り得るアクションの選択肢の全ての組み合わせを列挙し(S123)、列挙された全ての組み合わせについて、アクション連鎖モデル1及び反応モデル2をt+αまで駆動し、各プレーヤーの次のアクション及び次の指標値を導出し、補助記憶装置(STOR)に格納する(S124)。αは、星取表に記載される各アクションのスコアを計算するうえで、時刻tにおいて予測が考慮される将来の時間である。   Next, enumerate all combinations of action options that all players can take (S123), drive action chain model 1 and reaction model 2 to t + α for all the listed combinations, and follow each player's next The action and the next index value are derived and stored in the auxiliary storage device (STOR) (S124). α is a future time at which the prediction is considered at time t in calculating the score of each action described in the star catalog.

その後、全てのプレーヤーについて、意思モデル4及び評価モデル5を駆動し、各プレーヤーのアクション意思及び評価値を導出し、補助記憶装置(STOR)に格納する(S125)。   Thereafter, for all players, the intention model 4 and the evaluation model 5 are driven, the action intention and the evaluation value of each player are derived, and stored in the auxiliary storage device (STOR) (S125).

その後、時刻t+αでの評価値に基づいて星取表を作成し(S126)、星取表を用いて、時刻tにおけるプレーヤーのアクションを決定し、補助記憶装置(STOR)に格納する(S127)。具体的には、星取表は自分の評価と他のプレーヤーの評価とを記載した表で、後述するように、適切なアクションを選択するために用いられる。   Thereafter, a star list is created based on the evaluation value at time t + α (S126), and the player's action at time t is determined using the star list and stored in the auxiliary storage device (STOR) (S127). Specifically, the star calendar is a table describing one's evaluation and the evaluations of other players, and is used to select an appropriate action as described later.

全てのプレーヤーの次のアクションが決定した後、反応モデル2が出力した次の指標値を現在の指標値に設定して、反応モデル2の時刻を一つ進める(S128)。そして、繰り返し制御パラメータtに1を加算して(S129)、ステップS122に戻る。   After the next action of all players is determined, the next index value output from the reaction model 2 is set as the current index value, and the time of the reaction model 2 is advanced by one (S128). Then, 1 is added to the repetitive control parameter t (S129), and the process returns to step S122.

以上の処理によって、シミュレーション期間中の各プレーヤーのアクションを、他人のアクションを考慮しつつシミュレートできる。   By the above processing, it is possible to simulate each player's action during the simulation period while considering other people's actions.

図10は、第1の実施例の星取表出力画面1100の例を示す図である。星取表出力画面は、シミュレーション結果出力画面1000(図8)において、アクションの欄を選択することによって、出力インターフェース(ディスプレイ装置)に表示される。なお、星取表は、二人のプレーヤーのアクションの関係を表すので、オペレータは、シミュレーション結果出力画面1000においてアクションの欄を選択した後に、相手方のプレーヤーを選択する。   FIG. 10 is a diagram showing an example of the star calendar output screen 1100 according to the first embodiment. The star calendar output screen is displayed on the output interface (display device) by selecting the action column on the simulation result output screen 1000 (FIG. 8). Since the star calendar indicates the relationship between the actions of the two players, the operator selects the player of the other party after selecting the action column on the simulation result output screen 1000.

なお、星取表は、計算機の内部では、図11に示すモンテカルロ木によって構成するとよい。   In addition, it is good to comprise a star calendar with the Monte Carlo tree shown in FIG. 11 inside a computer.

まず、画面の内容について説明する。図10に示す星取表出力画面1100は、二人のプレーヤーの関係を示し、縦方向にプレーヤー1のアクションが列記され、横方向にプレーヤー2のアクションが列記された星取表1110を含む。また、画面の下部には「戻る」ボタン1120が設けられている。オペレータが「戻る」ボタン1120を操作することによって、シミュレーション結果出力画面1000に戻ることができる。   First, the contents of the screen will be described. The star calendar output screen 1100 shown in FIG. 10 shows the relationship between the two players, and includes a star calendar 1110 in which the actions of player 1 are listed vertically and the actions of player 2 are listed horizontally. At the bottom of the screen, a "return" button 1120 is provided. The operator can return to the simulation result output screen 1000 by operating the “Return” button 1120.

次に、星取表の内容について説明する。図10に示す星取表は、プレーヤー1のアクションとプレーヤー2のアクションとの組において、プレーヤー1の評価とプレーヤー2の評価とが組になって記録される。評価は、図10に示すように記号で表してもよいし、数値で表してもよい。星取表を用いることによって、複数のプレーヤーの評価値を総合した評価したアクションを決定することができる。   Next, the contents of the star calendar will be described. In the star calendar shown in FIG. 10, in the set of the action of the player 1 and the action of the player 2, the evaluation of the player 1 and the evaluation of the player 2 are recorded as a set. The evaluation may be represented by symbols as shown in FIG. 10 or may be represented by numerical values. By using the star calendar, it is possible to determine an evaluated action that integrates the evaluation values of a plurality of players.

次に、星取表を用いてアクションを選択する方法について、自分がプレーヤー1であり、相手がプレーヤー2である場合を説明する。MinMax法を用いて、想定される最大の損害が最小になるようにアクションを決定する。   Next, the case where you are the player 1 and the other party is the player 2 will be described as to the method of selecting an action using the star calendar. Using the MinMax method, determine the action so as to minimize the expected maximum damage.

例えば、プレーヤーが二人の場合、星取表の各行(自分のアクションが同じ行)に着目して、相手(プレーヤー2)の評価値が最も良いアクションにおけるプレーヤー1の評価値(MinMax評価値)が最も良いアクションを、自プレーヤーの次のアクションに決定する。図示した場合、プレーヤー1のアクションはアクション2に決定する。   For example, when there are two players, focusing on each row of the star list (the row where their action is the same), the evaluation value (MinMax evaluation value) of Player 1 in the action with the best evaluation value of the opponent (Player 2) is Determine the best action as your player's next action. In the case illustrated, the action of player 1 is determined to be action 2.

また、プレーヤーが3人以上である場合、自分(プレーヤー1)のアクションについて、他プレーヤーのアクションを順に(そのプレーヤーの評価値が最も高いアクションを選ぶとして)固定した上で、自分の評価値が最も高いアクションに決定する。以下、具体的に説明する。   In addition, when there are three or more players, the actions of other players are sequentially fixed (as the action with the highest evaluation value of the player is selected) for the action of the player (player 1), and then the evaluation value of the player is one. Determine the highest action. The details will be described below.

プレーヤーが3人の場合は、以下のステップでアクションを決める。   If there are three players, decide the action in the following steps.

ステップ1:自分(プレーヤー1)のアクションをアクション1に設定する。   Step 1: Set your own action (player 1) to action 1.

その状態で、プレーヤー2とプレーヤー3との2人のゲームを考える。
ステップ1−1:プレーヤー2を自プレーヤーとして、上記のプレーヤーが2人の方法(星取表によるMinMax)によって、プレーヤー2のアクションを決める。
ステップ1−2:プレーヤー3を自プレーヤーとして、上記のプレーヤーが2人の方法(星取表によるMinMax)によって、プレーヤー3のアクションを決める。
In that state, consider a game of two players, Player 2 and Player 3.
Step 1-1: With player 2 as the player, the above-mentioned player decides the action of player 2 by two methods (MinMax according to the star calendar).
Step 1-2: With player 3 as his player, the above-mentioned player decides the action of player 3 by two methods (MinMax according to the star calendar).

以上で決まった各プレーヤーのアクション(プレーヤー1=アクション1、プレーヤー2=ステップ1−1で決めたアクション、プレーヤー3=ステップ1−2で決めたアクション)の組み合わせにおける、自分(プレーヤー1)の評価値を、プレーヤー1のアクション1における評価値に設定する。   Evaluation of oneself (player 1) in the combination of each player's action decided as above (player 1 = action 1, player 2 = action decided at step 1-1, player 3 = action decided at step 1-2) The value is set to the evaluation value in action 1 of player 1.

ステップ2:自分(プレーヤー1)のアクションをアクション2に設定する。   Step 2: Set your own (player 1) action to action 2.

また、前述と同様の方法で、プレーヤー1のアクション2における評価値を決める。   Also, the evaluation value in the action 2 of the player 1 is determined in the same manner as described above.

ステップ3:自分(プレーヤー1)のアクションの数だけ、ステップ1の計算を行い、自分(プレーヤー1)にとっての評価値が最も良いアクションを決定する。   Step 3: The calculation of step 1 is performed by the number of actions of one's own (player 1), and the evaluation value for one's own (player 1) determines the best action.

さらに、プレーヤーが4人の場合は、以下のステップでアクションを決定する。   Furthermore, if there are four players, the action is determined in the following steps.

ステップ4:自分(プレーヤー1)のアクションを固定する。その結果、プレーヤー2〜4のプレーヤーが3人のゲームとなる。
ステップ4−1:3人のゲームにおいて、プレーヤー2を自プレーヤーとして、上記のプレーヤーが3人の方法によって、プレーヤー2のアクションを決める。
ステップ4−2:3人のゲームにおいて、プレーヤー3を自プレーヤーとして、上記のプレーヤーが3人の方法によって、プレーヤー3のアクションを決める。
ステップ4−3:3人のゲームにおいて、プレーヤー4を自プレーヤーとして、上記のプレーヤーが3人の方法によって、プレーヤー4のアクションを決める。
Step 4: Fix your (Player 1) action. As a result, the players 2 to 4 become three games.
Step 4-1: In the game of three players, with player 2 as the player, the above player decides the action of player 2 by the method of three players.
Step 4-2: In 3 games, with player 3 as the player, the above-mentioned player decides the action of player 3 in 3 ways.
Step 4-3: In the three-player game, with the player 4 as the player, the above-mentioned player decides the action of the player 4 by the three-way method.

以上で決まった各プレーヤーのアクション(プレーヤー1=アクション1、プレーヤー2〜4=ステップ4−1〜4−3で決めたアクション)の組み合わせにおける、自分(プレーヤー1)の評価値を、プレーヤー1のアクション1における評価値に設定する。
ステップ5:自分(プレーヤー1)のアクションの数だけ、ステップ4の計算を行い、自分(プレーヤー1)にとっての評価値が最も良いアクションを決定する。
The evaluation value of player 1 (player 1) in the combination of each player's action decided as above (player 1 = action 1, player 2 = 4 actions determined in steps 4-1 to 4-3) Set to the evaluation value in action 1.
Step 5: The calculation of Step 4 is performed by the number of actions of one's own (player 1), and the evaluation value for one's own (player 1) determines the best action.

図11は、第1の実施例の星取表を構成するためのモンテカルロ木探索を説明する図である。   FIG. 11 is a diagram for explaining a Monte Carlo tree search for constructing the star table of the first embodiment.

すなわち、図10を用いて前述した方法では、全プレーヤーの全てのアクションの組み合わせを計算するので、計算量が多い。このため、モンテカルロ木探索(Monte-Carlo Tree Search)を用いることで、少ない計算量で同様の処理を近似的に実行することができる。なお、モンテカルロ木の計算を無限回行うと、全プレーヤーの全てのアクションの組み合わせを計算した場合と同じ結果が得られる。   That is, in the method described above with reference to FIG. 10, since the combination of all actions of all players is calculated, the amount of calculation is large. Therefore, by using Monte-Carlo Tree Search, it is possible to approximately execute the same process with a small amount of calculation. Note that if you calculate the Monte Carlo tree infinitely, you get the same result as if you calculated all the action combinations of all players.

図11に示すモンテカルロ木探索では、プレーヤー1〜4の4人によるゲームで、各プレーヤーが、アクション1、2のいずれかを選択可能な場合、自分(プレーヤー1)のアクション1における評価値を計算する処理を示す。   In the Monte Carlo tree search shown in FIG. 11, in the game by four players 1 to 4, when each player can select one of the actions 1 and 2, the evaluation value of his own (player 1) is calculated Show the process to

まず、自分(プレーヤー1)がアクション1を選択する。次に、プレーヤー2〜4のうちから1人をランダム(等確率)に選択する。以下、プレーヤー2を選択した場合を説明する。プレーヤー2は、子ノードにおいて、プレーヤー2にとって評価値の平均値が高いアクションを選択する。   First, oneself (player 1) selects action 1. Next, one of the players 2 to 4 is randomly selected (equal probability). Hereinafter, the case where the player 2 is selected will be described. The player 2 selects an action having a high average evaluation value for the player 2 at the child node.

次に、プレーヤー3又は4の1人をランダム(等確率)に選択する。以下、プレーヤー3を選択した場合を説明する。プレーヤー3は、子ノードにおいて、プレーヤー3にとって評価値の平均値が高いアクションを選択する。最後に、プレーヤー4が、子ノードにおいて、プレーヤー4にとって評価値の平均値が高いアクションを選択する。   Next, one player 3 or 4 is randomly selected (equal probability). Hereinafter, the case where the player 3 is selected will be described. The player 3 selects an action having a high average evaluation value for the player 3 at the child node. Finally, the player 4 selects an action having a high average evaluation value for the player 4 at the child node.

以上の処理によって、時刻X+0における、各プレーヤーのアクションの組が決定する。   By the above processing, the set of actions of each player at time X + 0 is determined.

さらに、先読みをする場合、以下の処理を実行する。   Furthermore, in the case of prefetching, the following processing is performed.

まず、プレーヤー1〜4の1人をランダム(等確率)に選択し、子ノードにおいて、選択されたプレーヤーにとって評価値が高いアクションを選択する。その後、残りのプレーヤーについて、前述と同様に、ランダムにプレーヤーを選択し、アクションを決定する。ある程度まで木を展開した後、ランダム・プレイアウトによって、全てのプレーヤーがランダムにアクションを選択して、時刻を進める。そして、予め定めておいた先読み回数に達したときの各プレーヤーの評価値を計算する。最後に、それまで通ってきた木の各ノードを逆に辿って、ノードに付けられている評価値に、先読み時の評価値を追加して平均値を求め、評価値を更新する。   First, one of the players 1 to 4 is randomly selected (equal probability), and a child node selects an action having a high evaluation value for the selected player. Then, for the remaining players, as described above, randomly select players and determine an action. After expanding the tree to some extent, all players randomly select an action and advance the time by random playout. Then, the evaluation value of each player when the number of pre-read times set in advance is reached is calculated. Finally, each node of the tree that has passed through is traced backwards, the evaluation value at the time of prefetching is added to the evaluation value attached to the node, the average value is obtained, and the evaluation value is updated.

以上の処理を、数百回程度行った後、ルートノードに付されているプレーヤー1の評価値が、プレーヤー1のアクション1の評価値となる。   After performing the above processing several hundreds times, the evaluation value of the player 1 attached to the root node becomes the evaluation value of the action 1 of the player 1.

以上の処理を、自分(プレーヤー1)がとり得る各アクションについて行い、最も自分(プレーヤー1)にとっての評価値が良いアクションを選択する。   The above processing is performed for each action that can be taken by oneself (player 1), and the action with the highest evaluation value for oneself (player 1) is selected.

このように、星取表によって、ユーザはアクションが導出された理由を知ることができる。   Thus, the star calendar allows the user to know why the action was derived.

以上に説明したように、本発明の第1の実施例によると、アクション連鎖モデル1、反応モデル2、意思モデル4及び評価モデル5を用いて意思決定支援システムを構成するので、専門家の知見を容易に整理してモデル化することができる。このため、専門家の知見に基づいて将来生じるであろう情勢やアクションを予測することができる。特に、意思モデル4と評価モデル5を分けてモデル化するので、意思要因と抑制要因とを分けることができ、専門家の知見を加工することなくモデルに取り込むことができる。   As described above, according to the first embodiment of the present invention, since the decision support system is configured using the action chain model 1, the reaction model 2, the intention model 4 and the evaluation model 5, the expert knowledge Can be easily organized and modeled. For this reason, it is possible to predict situations or actions that will occur in the future based on expert's knowledge. In particular, since the intention model 4 and the evaluation model 5 are divided and modeled, the intention factor and the suppression factor can be separated, and the expert's knowledge can be taken into the model without processing.

<第2の実施例>
次に、本発明の第2の実施例について説明する。第2の実施例の意思決定支援システムは、アクション連鎖モデル1、反応モデル2、意思モデル4、評価モデル5及び調停モデル7の五つのモデルで構成される。第2の実施例では、前述した第1の実施例と同じ構成及び処理の説明は省略し、異なる構成及び処理について説明する。
Second Embodiment
Next, a second embodiment of the present invention will be described. The decision support system of the second embodiment comprises five models of an action chain model 1, a reaction model 2, an intention model 4, an evaluation model 5 and a mediation model 7. In the second embodiment, description of the same configuration and processing as those of the first embodiment described above is omitted, and different configurations and processing are described.

図12は、第2の実施例の意思決定支援システムの論理的な構成を示すブロック図である。   FIG. 12 is a block diagram showing the logical configuration of the decision support system of the second embodiment.

第2の実施例の意思決定支援システムは、アクション連鎖モデル1、反応モデル2、複数のアクション決定部3及び調停モデル7を有する。アクション決定部3は、意思モデル4、評価モデル5及びアクション選択部6を有し、プレーヤー毎に設けられる。   The decision support system of the second embodiment includes an action chain model 1, a reaction model 2, a plurality of action determination units 3, and an arbitration model 7. The action determination unit 3 includes an intention model 4, an evaluation model 5, and an action selection unit 6, and is provided for each player.

アクション連鎖モデル1、反応モデル2、意思モデル4、評価モデル5及びアクション選択部6は、前述した第1の実施例と同じである。なお、第2の実施例のアクション決定部3は、各プレーヤー毎に取り得る複数のアクションを、その選択率と共に出力する。   The action chain model 1, the reaction model 2, the intention model 4, the evaluation model 5, and the action selection unit 6 are the same as those in the first embodiment described above. Note that the action determining unit 3 of the second embodiment outputs a plurality of actions that can be taken for each player, together with their selection rates.

調停モデル7は、複数のアクション決定部3から出力されたアクションを調停して、各プレーヤーのアクションを決定する。例えば、各プレーヤーが取り得るアクションには、相反するものがある。調停モデル7は、これらの関係を用いて、同時に行うことができるアクションの組み合わせを選択し、各プレーヤーのアクションを決定する。   The arbitration model 7 mediates the actions output from the plurality of action determination units 3 to determine the action of each player. For example, there are contradictory actions that each player can take. The arbitration model 7 uses these relationships to select a combination of actions that can be performed simultaneously, and to determine each player's action.

具体的には、調停モデル7は、アクション選択部6から出力された複数のアクションの選択率を計算し、各プレーヤー毎に選択率が最も高いアクションを選択し、各プレーヤーのアクションに決定する。   Specifically, the arbitration model 7 calculates the selection rates of the plurality of actions output from the action selection unit 6, selects the action with the highest selection rate for each player, and determines the action for each player.

図13は、第2の実施例の調停モデル7を説明する図である。調停モデル7は、コーザル・ループ・ダイアグラムによって各指標間(ストック要素、フロー要素、状態要素)の相関関係を表すモデルである。   FIG. 13 is a diagram for explaining the arbitration model 7 of the second embodiment. The arbitration model 7 is a model that represents the correlation between each index (stock element, flow element, state element) by means of a causal loop diagram.

例えば、図示した調停モデル7では、ストック要素1、2、3、4を、それぞれ、x1、x2、x3、x4とし、状態要素1、2を、それぞれ、y1、y2とし、各エッジの係数(k1〜k9)を定める。なお、状態要素は、現在の状態を表す数字であり、例えば、プレーヤー1が現在、アクション1を行っている場合に1、アクション1以外を行っている場合に0などと定めることができる。   For example, in the illustrated arbitration model 7, the stock elements 1, 2, 3 and 4 are x1, x2, x3 and x4, respectively, and the state elements 1 and 2 are y1 and y2, respectively. Define k1 to k9). The state element is a number representing the current state. For example, it can be defined as 1 when the player 1 is currently performing the action 1 and 0 when the player 1 is performing other than the action 1.

図示したように、ストック要素及び状態要素によって、ストック要素へ流入するフローの量や、ストック要素から流出するフローの量が決まり、ストック要素の量が啓示的に変化する。   As illustrated, the stock element and the state element determine the amount of flow that flows into the stock element and the amount of flow that flows out of the stock element, and the amount of the stock element changes in an explicit manner.

前述のように定義した場合、離散系シミュレーションにおいて、時刻t+1における各ストック要素の値は以下の漸化式によって計算することができる。
x1(t+1)=k1×y1(t)+k2×x4(t)−k3×x3(t)
x2(t+1)=x1(t)+k3×x3(t)−k4×x4(t)
x3(t+1)=k5×x4(t)−k6×x1(t)
x4(t+1)=k7×x1(t)−k8×x3(t)−k9×y2(t)
When defined as described above, in discrete system simulation, the value of each stock element at time t + 1 can be calculated by the following recurrence formula.
x1 (t + 1) = k1 × y1 (t) + k2 × x4 (t) −k3 × x3 (t)
x2 (t + 1) = x1 (t) + k3 × x3 (t) −k4 × x4 (t)
x3 (t + 1) = k5 x 4 (t)-k6 x x 1 (t)
x4 (t + 1) = k7 × x1 (t) −k8 × x3 (t) −k9 × y2 (t)

また、連続系シミュレーションにおいて、各ストック要素の値は以下の微分方程式によって計算することができる。
d[x1(t)]/dt=k1×y1(t)+k2×x4(t)−k3×x3(t)
d[x2(t)]/dt=x1(t)+k3×x3(t)−k4×x4(t)
d[x3(t)]/dt=k5×x4(t)−k6×x1(t)
d[x4(t)]/dt=k7×x1(t)−k8×x3(t)−k9×y2(t)
Also, in continuous system simulation, the value of each stock element can be calculated by the following differential equation.
d [x1 (t)] / dt = k1 * y1 (t) + k2 * x4 (t) -k3 * x3 (t)
d [x2 (t)] / dt = x1 (t) + k3 * x3 (t) -k4 * x4 (t)
d [x3 (t)] / dt = k5 x 4 (t)-k6 x x 1 (t)
d [x 4 (t)] / dt = k7 x x 1 (t)-k8 x 3 (t)-k9 x y 2 (t)

調停モデル7では、ストック要素及び状態要素によってフロー量を制御することによって、複数のストック要素を関連付けて制御し、各プレーヤーがアクションを選択する確率(選択率)を決定し、各プレーヤーのアクションを調停することができる。   In mediation model 7, a plurality of stock elements are associated and controlled by controlling the flow amount according to the stock element and the state element, the probability (selection rate) that each player selects an action is determined, and each player's action is It can be arbitrated.

以上に説明したように、本発明の第2の実施例によると、調停モデル7が、アクション選択部6が選択した各プレーヤーのアクションを調停して、各プレーヤーのアクションを決定するので、複数プレーヤーのアクションの調停を考慮せず、モデル1、2、4、5を作成することができる。すなわち、アクションの調停と切り離してモデルを作成することができる。   As described above, according to the second embodiment of the present invention, the arbitration model 7 mediates the action of each player selected by the action selecting unit 6 to determine the action of each player, so that the plurality of players can be determined. Models 1, 2, 4, 5 can be created without consideration of the action's mediation. That is, it is possible to create a model separately from action arbitration.

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。   The present invention is not limited to the embodiments described above, and includes various modifications and equivalent configurations within the scope of the appended claims. For example, the embodiments described above are described in detail to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to those having all the configurations described. Also, part of the configuration of one embodiment may be replaced with the configuration of another embodiment. In addition, the configuration of another embodiment may be added to the configuration of one embodiment. In addition, with respect to a part of the configuration of each embodiment, another configuration may be added, deleted, or replaced.

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。   In addition, each configuration, function, processing unit, processing means, etc. described above may be realized by hardware, for example, by designing part or all of them with an integrated circuit, etc., and the processor realizes the respective functions. It may be realized by software by interpreting and executing the program to

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。   Information such as a program, a table, and a file for realizing each function can be stored in a memory, a hard disk, a storage device such as a solid state drive (SSD), or a recording medium such as an IC card, an SD card, or a DVD.

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。   Further, control lines and information lines indicate what is considered to be necessary for explanation, and not all control lines and information lines necessary for mounting are shown. In practice, it can be considered that almost all configurations are mutually connected.

CALC_NODE 計算機
CPU プロセッサ
RAM 一時記憶装置
STOR 補助記憶装置
COM_SW 通信スイッチ
COM_DEV 通信デバイス
1 アクション連鎖モデル
2 反応モデル
3 アクション決定部
4 意思モデル
5 評価モデル
6 アクション選択部
7 調停モデル
CALC_NODE Computer CPU Processor RAM Temporary Storage Device STOR Auxiliary Storage Device COM_SW Communication Switch COM_DEV Communication Device 1 Action Chaining Model 2 Reaction Model 3 Action Determination Unit 4 Intention Model 5 Evaluation Model 6 Action Selection Unit 7 Arbitration Model

Claims (6)

プロセッサとメモリとを有する計算機によって構成される意思決定支援システムであって、
前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、
前記意思決定支援システムは、
前記プロセッサが、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、
前記プロセッサが、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、
前記プロセッサが、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、
前記プロセッサが、指標値から評価値をプレーヤー毎に導出するための評価モデルと、
前記プロセッサが、プレーヤーのアクションを選択するアクション選択部と
前記プロセッサが、前記選択された各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定するための調停モデルとを有し、
前記意思決定支援システムは、
前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、
前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、
前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、
前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、
前記アクション選択部は、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーがとり得る複数のアクションを選択し、前記選択された複数のアクション及び当該アクションの確率を出力し、
前記意思決定支援システムは、前記調停モデルを用いて、前記アクション選択部が選択した前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定することを特徴とする意思決定支援システム。
A decision support system comprising a computer having a processor and a memory, the system comprising:
The memory stores a plurality of index values that quantify a plurality of situations necessary for decision making,
The decision support system is
An action chain model for the processor to derive a next action from a player action;
A reaction model for the processor to derive the next index value from the player's action and the index value;
An intention model for the processor to derive, for each player, a selection probability representing the intention of the action from the index value;
An evaluation model for the processor to derive an evaluation value for each player from the index value;
An action selection unit for selecting an action of the player by the processor ;
The processor having an arbitration model for coordinating the actions of each of the selected players to determine the actions of each of the players ;
The decision support system is
The action chain model is used to derive the next action that the player can take from the action of the player,
The following index value is derived from the action of the player and the index value using the reaction model,
Using the intention model, calculate the selection probability of the action of each player from the derived next index value,
Using the evaluation model, calculate an evaluation value indicating the degree to which the derived next index value is desirable for each player,
The action selection unit uses the action derived using the action chain model, the selection probability calculated using the intention model, and the evaluation value calculated using the evaluation model. Selecting a plurality of actions that the player can take , and outputting the selected actions and the probability of the actions;
A decision support system characterized in that the decision support system mediates the action of each player selected by the action selection unit using the mediation model to determine the action of each player .
請求項1に記載の意思決定支援システムであって、  The decision support system according to claim 1, wherein
前記アクション選択部は、前記選択された各プレーヤーのアクションを時系列に表示するための画面データを出力することを特徴とする意思決定支援システム。  The said action selection part outputs the screen data for displaying the action of each said selected player in time series, The decision support system characterized by the above-mentioned.
請求項1に記載の意思決定支援システムであって、  The decision support system according to claim 1, wherein
前記アクション選択部は、前記複数のプレーヤーのアクションの組について、前記各プレーヤーの評価を表示するための画面データを出力することを特徴とする意思決定支援システム。  The decision support system according to claim 1, wherein the action selection unit outputs screen data for displaying an evaluation of each of the plurality of players.
プロセッサとメモリとを有する計算機が実行する意思決定支援方法であって、  A decision support method executed by a computer having a processor and a memory, the method comprising:
前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、  The memory stores a plurality of index values that quantify a plurality of situations necessary for decision making,
前記計算機は、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、指標値から評価値をプレーヤー毎に導出するための評価モデルと前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定するための調停モデルを有し、  The calculator generates an action chain model for deriving the next action from the player action, a reaction model for deriving the next index value from the player action and the index value, and an action intention from the index value. The action model of each player is determined by mediation of the action model of the player and the evaluation model for deriving the evaluation value for each player from the index value, and the action model of the player. Have an arbitration model for
前記方法は、  The method is
前記プロセッサが、前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、前記メモリに格納し、  The processor derives the next action that the player can take from the action of the player using the action chain model, and stores it in the memory.
前記プロセッサが、前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、前記メモリに格納し、  The processor derives the next index value from the action of the player and the index value using the reaction model, and stores the next index value in the memory,
前記プロセッサが、前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、前記メモリに格納し、  The processor uses the intention model to calculate the selection probability of the action of each player from the derived next index value, and stores it in the memory.
前記プロセッサが、前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、前記メモリに格納し、  The processor uses the evaluation model to calculate an evaluation value representing the degree to which the derived next index value is desirable for each player, and stores the evaluation value in the memory.
前記プロセッサが、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーのアクションを選択し、前記メモリに格納し、  The processor uses the action derived using the action chain model, the selection probability calculated using the intention model, and the evaluation value calculated using the evaluation model. Select an action and store it in the memory,
前記プロセッサが、前記調停モデルを用いて、前記選択された前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定することを特徴とする意思決定支援方法。  A decision support method, wherein the processor arbitrates the actions of the selected players using the mediation model to determine the actions of the players.
請求項4に記載の意思決定支援方法であって、  It is the decision support method according to claim 4,
前記プロセッサは、前記選択された各プレーヤーのアクションを時系列に表示するための画面データを出力することを特徴とする意思決定支援方法。  A method of supporting decision making, wherein the processor outputs screen data for displaying the actions of the selected players in time series.
請求項4に記載の意思決定支援方法であって、  It is the decision support method according to claim 4,
前記プロセッサは、前記複数のプレーヤーのアクションの組について、前記各プレーヤーの評価を表示するための画面データを出力することを特徴とする意思決定支援方法。  7. The decision support method according to claim 1, wherein the processor outputs screen data for displaying an evaluation of each player for a set of actions of the plurality of players.
JP2015107193A 2015-05-27 2015-05-27 Decision support system and decision support method Active JP6511333B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015107193A JP6511333B2 (en) 2015-05-27 2015-05-27 Decision support system and decision support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015107193A JP6511333B2 (en) 2015-05-27 2015-05-27 Decision support system and decision support method

Publications (2)

Publication Number Publication Date
JP2016224512A JP2016224512A (en) 2016-12-28
JP6511333B2 true JP6511333B2 (en) 2019-05-15

Family

ID=57748147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015107193A Active JP6511333B2 (en) 2015-05-27 2015-05-27 Decision support system and decision support method

Country Status (1)

Country Link
JP (1) JP6511333B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110772794B (en) * 2019-10-12 2023-06-16 广州多益网络股份有限公司 Intelligent game processing method, device, equipment and storage medium
CN111798044B (en) * 2020-06-30 2023-07-25 国网甘肃省电力公司武威供电公司 RIES Operation Planning Simulation Method Based on Improved Minimum Cross Entropy
CN111931513B (en) * 2020-07-08 2023-11-14 泰康保险集团股份有限公司 Text intention recognition method and device
CN117933745B (en) * 2024-01-08 2024-08-27 深业智慧科技(深圳)有限公司 Intelligent park data visual analysis method and system based on big data processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227208A (en) * 2003-01-22 2004-08-12 Matsushita Electric Ind Co Ltd User adaptive behavior determination device and behavior determination method
JP3940684B2 (en) * 2003-02-24 2007-07-04 株式会社東芝 Capital investment risk assessment method and system, and program therefor
JP2004362066A (en) * 2003-06-02 2004-12-24 Fujitsu Ltd Behavior data analysis method and behavior data analysis program
JP2005258697A (en) * 2004-03-10 2005-09-22 Fuji Heavy Ind Ltd Control system and control method
JP2006035388A (en) * 2004-07-28 2006-02-09 Riyuukoku Univ LEARNING DEVICE, OPERATION OBJECT HAVING THE SAME, LEARNING METHOD, LEARNING PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM CONTAINING THE SAME
US20110106736A1 (en) * 2008-06-26 2011-05-05 Intuitive User Interfaces Ltd. System and method for intuitive user interaction
JP5398414B2 (en) * 2008-09-18 2014-01-29 本田技研工業株式会社 Learning system and learning method
JP2010287028A (en) * 2009-06-11 2010-12-24 Sony Corp Information processing apparatus, information processing method, and program
JP5552009B2 (en) * 2010-09-22 2014-07-16 インターナショナル・ビジネス・マシーンズ・コーポレーション Method, program, and apparatus for determining optimal action in consideration of risk
JP2013242761A (en) * 2012-05-22 2013-12-05 Internatl Business Mach Corp <Ibm> Method, and controller and control program thereof, for updating policy parameters under markov decision process system environment
JP2014130520A (en) * 2012-12-28 2014-07-10 International Business Maschines Corporation Method, computer system, and computer program for optimizing scheme for selecting action maximizing expectation return while suppressing risk

Also Published As

Publication number Publication date
JP2016224512A (en) 2016-12-28

Similar Documents

Publication Publication Date Title
US10496436B2 (en) Method and apparatus for automatically scheduling jobs in computer numerical control machines using machine learning approaches
JP6511333B2 (en) Decision support system and decision support method
JP6414363B2 (en) Prediction system, method and program
JP2014211837A (en) Event analysis device and computer program
Dutt et al. Making instance-based learning theory usable and understandable: the instance-based learning tool
JP2021064049A (en) Calculator system and mathematical model generation support method
JP2018147280A (en) Data analysis device and data analysis method
JP4890806B2 (en) Prediction program and prediction device
Schlossnagle Monitoring in a DevOps world
CN111558404B (en) Microfluidic chip droplet path planning method, device, equipment and storage medium
Nicholas et al. The effect of interruption on the decision-making process
JP7288189B2 (en) Job power prediction program, job power prediction method, and job power prediction device
JP7249580B2 (en) Application method, application program and application device
CN109785197A (en) A kind of Learning behavior analyzing method and device
JP6568488B2 (en) Calculator and calculation method of analysis index
JP6301853B2 (en) Secular change prediction system
JP6520199B2 (en) Extraction method, information processing apparatus, and extraction program
JP6449578B2 (en) Purchase forecast analysis system and program thereof
JP4196764B2 (en) Cause / route estimation method and cause estimation apparatus
CN112990636B (en) Computer system and scheduling system verification method
JP3889716B2 (en) Evaluation apparatus and evaluation program
JP7639834B2 (en) Accuracy calculation program, accuracy calculation method, and information processing device
JP7572815B2 (en) Test support device and program
Vanhoucke Schedule risk analysis
WO2024134796A1 (en) Information processing device, simulation method, and simulation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190408

R150 Certificate of patent or registration of utility model

Ref document number: 6511333

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150