JP2009003537A - calculator - Google Patents
calculator Download PDFInfo
- Publication number
- JP2009003537A JP2009003537A JP2007161456A JP2007161456A JP2009003537A JP 2009003537 A JP2009003537 A JP 2009003537A JP 2007161456 A JP2007161456 A JP 2007161456A JP 2007161456 A JP2007161456 A JP 2007161456A JP 2009003537 A JP2009003537 A JP 2009003537A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- parallel processing
- parallel
- cpu
- execution time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
【課題】プロセッサの有効活用を図りながら、障害発生時の信頼性及びリアルタイムなフォールトトレラント機能を有する計算機を提供する。
【解決手段】障害発生時の信頼性及びリアルタイムフォールトトレラント機能が要求される処理を逐次実行部121、122が実行し、その他の処理を並列処理部123が実行する。逐次実行部では各プロセッサが常用系125、待機系126に配置され、常用系及び待機系で対応するプロセッサ(101と103及び102と104)において同一の処理を実行させる。逐次実行部プロセッサの常用系故障発生時には待機系プロセッサが常用系に切り換ることでホットスタンバイを実現する。さらに故障したプロセッサが復旧した場合、待機系として動作する。また、並列処理部プロセッサによってタスクを並列処理させ、並列処理部プロセッサの故障発生時には他の並列処理部プロセッサが故障したプロセッサのタスクを実行する。
【選択図】図1Provided is a computer having a reliability and a real-time fault tolerant function when a failure occurs while effectively utilizing a processor.
The sequential execution units 121 and 122 execute processes requiring reliability and a real-time fault tolerant function when a failure occurs, and the parallel processing unit 123 executes other processes. In the sequential execution unit, the processors are arranged in the active system 125 and the standby system 126, and the same processing is executed in the corresponding processors (101 and 103 and 102 and 104) in the active system and the standby system. When a normal system failure occurs in the sequential execution unit processor, the standby system is switched to the normal system to realize hot standby. When the failed processor is restored, it operates as a standby system. In addition, tasks are processed in parallel by the parallel processing unit processor, and when a failure occurs in the parallel processing unit processor, the task of the processor in which another parallel processing unit processor has failed is executed.
[Selection] Figure 1
Description
この発明は、例えば、イベント入力に対する処理速度が要求され、処理の遅延が容認されないシステムにおけるリアルタイム性及び抗たん性の確保を主目的とした分散並列処理技術に関するものである。 The present invention relates to a distributed parallel processing technique whose main purpose is to ensure real-time performance and resilience in a system that requires a processing speed for event input and does not allow processing delay, for example.
一般的に、分散処理と冗長処理の両方を要求されるシステムでは、計算リソース有効活用の観点から常用系/待機系の方式はとらず、全CPU(Central Processing Unit)を用いて分散処理を実施する。
処理性能向上と信頼性向上を同時に実現するための発明として、例えば特開2002−342300号公報(名称:分散処理システム及び分散処理方法並びに分散処理制御プログラム)(以下、特許文献1という)が開示されている。
In general, systems that require both distributed processing and redundant processing do not use the regular / standby system from the viewpoint of effective use of computing resources, and perform distributed processing using all CPUs (Central Processing Units). To do.
As an invention for simultaneously realizing improvement in processing performance and reliability, for example, Japanese Patent Laid-Open No. 2002-342300 (name: distributed processing system, distributed processing method, and distributed processing control program) (hereinafter referred to as Patent Document 1) is disclosed. Has been.
特許文献1記載の技術は、冗長化されたコンピュータモジュール資源を利用して、分散処理と冗長処理を組み合わせて実施することで処理性能向上と信頼性向上とを同時に実現する。
具体的には、故障発生時に、重要度の低いタスクから先に停止させて機能/性能を縮退させることで、重要なタスクに関する信頼性や機能/性能を維持可能とし、限られた資源を最も重要な目的に振り分けることができるとしている。
従って、特許文献1に記載の技術は、タスクに重要度の高いものと低いものとがある場合に大きな効果を発揮する。
The technique described in
Specifically, when a failure occurs, it is possible to maintain the reliability and function / performance related to the important task by stopping the less important task first and degrading the function / performance. It can be allocated to important purposes.
Therefore, the technique described in
ところが、処理時間に制限のあるタスクを実行中のCPUが故障した場合、他CPUに処理を割り振り、再度計算を実施しなければならないため実行時間の制限を確保できない可能性がある。
また、イベント入力による処理であるため計算結果を保証できない可能性も含み、これらを許容できないシステムの計算機としては致命的な問題となる。
However, if a CPU that is executing a task with a limited processing time fails, processing must be allocated to another CPU and recalculated, so that there is a possibility that the execution time limit cannot be secured.
In addition, since the processing is based on event input, there is a possibility that the calculation result cannot be guaranteed, and this is a fatal problem for a computer in a system that cannot accept these results.
上記問題を許容できないシステムの例として戦闘システムの計算機が挙げられるが、当該計算機では射撃システムからの脅威目標入力時等のイベント入力に対するリアルタイム性及び冗長性の確保のため、複数搭載しているCPUを常用系/待機系に2分割しホットスタンバイ方式(常時、常用系及び待機系が動作し、イベント入力に対して常用系及び待機系の両方で計算を実施)の構成としていた。 An example of a system that cannot tolerate the above problem is a combat system computer. In this computer, a plurality of CPUs are installed to ensure real-time performance and redundancy for event inputs such as when a threat target is input from a shooting system. The system is divided into a normal system / standby system and is configured in a hot standby system (always operating the normal system and the standby system, and the event input is calculated in both the normal system and the standby system).
上記の計算機では、計算機のCPUを常用系/待機系に分割する構成とし、常用系及び待機系では対応するCPUが同一の処理を行う。
任意の常用系CPUに異常が発生した場合、全てのCPUが常用系から待機系に切り換わる。
このようなシステムではフォールトトレラントの機能を重視しているため、計算機が高負荷となる状況においても半数のCPUは有効を活用することができない。
また、常用系の1CPUが故障した場合、全ての常用系CPUが待機系に移行するため、常用系の正常なCPUは計算に使用することができなくなるという課題がある。
When an abnormality occurs in any regular CPU, all the CPUs are switched from the regular system to the standby system.
In such a system, since the fault tolerant function is emphasized, half of the CPUs cannot utilize the effectiveness even in a situation where the computer is heavily loaded.
In addition, when one normal CPU fails, all the normal CPUs shift to the standby system, which causes a problem that normal normal CPUs cannot be used for calculation.
特許文献1のシステムではCPUを有効に活用できるが故障発生時のリカバリ時間及び信頼性における課題があり、上記の常用系/待機系構成とするシステムではフォールトトレラント機能を重視しているため、半数のCPUを有効に活用できないという課題が存在する。
In the system of
そこで、本発明は、故障発生時の切換え時間/信頼性を重視しながら、計算機に搭載されるCPUを効果的に利用する計算機構成を提供することを主な目的の一つとする。 Therefore, one of the main objects of the present invention is to provide a computer configuration that effectively uses a CPU mounted on a computer while placing importance on the switching time / reliability when a failure occurs.
本発明に係る計算機は、
常用系プロセッサと、常用系プロセッサの障害発生時に常用系プロセッサを代替する待機系プロセッサとを備える第一の処理部と、
二以上の並列処理プロセッサを備え、二以上の並列処理プロセッサが協働して分散並列処理を行う第二の処理部と、
前記第二の処理部に含まれる二以上の並列処理プロセッサのうち前記第一の処理部に含まれるプロセッサとの通信を伴う処理を実行していたいずれかの並列処理プロセッサに障害が発生した際に、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、前記障害プロセッサ実行処理において前記障害並列処理プロセッサの通信先であった常用系プロセッサ及び待機系プロセッサの少なくともいずれかに前記引継ぎ並列処理プロセッサを通知するプロセッサ管理部とを有することを特徴とする。
The computer according to the present invention is:
A first processing unit including an active processor and a standby processor that replaces the active processor when a failure occurs in the active processor;
A second processing unit that includes two or more parallel processors, and the two or more parallel processors cooperate to perform distributed parallel processing;
When a failure occurs in any one of the two or more parallel processing processors included in the second processing unit that is executing processing involving communication with the processor included in the first processing unit Is designated as a takeover parallel processing processor that takes over the faulty processor execution process that was being executed by the faulty parallel processing processor in which the fault occurred, and was the communication destination of the faulty parallel processing processor in the faulty processor execution process And a processor management unit that notifies the takeover parallel processing processor to at least one of a normal processor and a standby processor.
第一の処理部に含まれるプロセッサとの通信を伴う処理を実行していた並列処理プロセッサに障害が発生した際にも、プロセッサ管理部が、引継ぎ並列処理プロセッサを通信相手であった第一の処理部のプロセッサに通知するので、フォールトトレラント機能を有する第一の処理部とプロセッサ資源の有効活用のために分散並列処理を行う第二の処理部とを並存させる構成が可能となり、プロセッサ資源の有効活用を図りながら、障害発生時の信頼性及びリアルタイムなフォールトトレラント機能を確保することができる。 Even when a failure occurs in the parallel processing processor that is executing processing involving communication with the processor included in the first processing unit, the processor management unit sets the takeover parallel processing processor as the first communication partner. Since the processor of the processing unit is notified, a configuration in which a first processing unit having a fault-tolerant function and a second processing unit that performs distributed parallel processing for effective utilization of processor resources can be performed in parallel. While making effective use, it is possible to ensure reliability at the time of failure and a real-time fault-tolerant function.
実施の形態1.
図1は、実施の形態1に係る計算機1のプロセッサ構成の概要を示すシステム構成図である。
従来システムとの差を明確にするため、従来システムの構成を図8に示す。
図1において101〜110は計算機1に搭載されるネットワーク130で接続されているCPUである。
CPUは、逐次実行部121、122、並列処理部123及び並列管理部124に分類される。
逐次実行部として動作するCPUは、逐次実行部CPU又は逐次実行部プロセッサと表記する。
並列処理部として動作するCPUは、並列処理部CPU又は並列処理部プロセッサと表記する。
並列管理部として動作するCPUは、並列管理部CPU又は並列管理部プロセッサと表記する。
また、CPUは、逐次実行部121、122及び並列管理部124については、常用系125と待機系126にも分類される。
常用系に分類されているCPUは、常用系CPU又は常用系プロセッサと表記する。
待機系に分類されているCPUは、待機系CPU又は待機系プロセッサと表記する。
FIG. 1 is a system configuration diagram illustrating an overview of a processor configuration of a
In order to clarify the difference from the conventional system, the configuration of the conventional system is shown in FIG.
In FIG. 1, 101 to 110 are CPUs connected by a network 130 mounted on the
The CPU is classified into
A CPU that operates as a sequential execution unit is referred to as a sequential execution unit CPU or a sequential execution unit processor.
A CPU that operates as a parallel processing unit is referred to as a parallel processing unit CPU or a parallel processing unit processor.
A CPU that operates as a parallel management unit is referred to as a parallel management unit CPU or a parallel management unit processor.
The CPU is also classified into a
A CPU classified as a regular system is referred to as a regular system CPU or a regular processor.
A CPU classified as a standby system is referred to as a standby system CPU or a standby system processor.
逐次実行部121、122は、常用系プロセッサ101、102と、常用系プロセッサの障害発生時に常用系プロセッサを代替する待機系プロセッサ103、104とを備える。逐次実行部121、122は、第一の処理部の例である。
並列処理部123は、二以上の並列処理部プロセッサ(並列処理プロセッサ)105〜108を備え、二以上の並列処理部プロセッサ105〜108が協働して分散並列処理を行う。並列処理部123は、第二の処理部の例である。
並列管理部124は、常用系プロセッサ109と、常用系プロセッサの障害発生時に常用系プロセッサを代替する待機系プロセッサ110とを備える。並列管理部124は、プロセッサ管理部の例である。
また、並列管理部124では、並列処理部123に含まれる二以上の並列処理部プロセッサ105〜108のうち逐次実行部121、122に含まれるプロセッサとの通信を伴う処理を実行していたいずれかの並列処理部プロセッサに障害が発生した際に、常用系プロセッサ109又は待機系プロセッサ110が、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、障害プロセッサ実行処理において障害並列処理プロセッサの通信先であった逐次実行部121、122の常用系プロセッサ及び待機系プロセッサの少なくともいずれかに引継ぎ並列処理プロセッサを通知する。
The
The parallel processing unit 123 includes two or more parallel processing unit processors (parallel processing processors) 105 to 108, and the two or more parallel
The
In addition, the
本実施の形態では、障害発生時の信頼性及びリアルタイムフォールトトレラント機能を要求される処理を逐次実行部121、122によって実行し、その他の処理を並列処理部123によって実行する。逐次実行部121、122では各プロセッサが常用系125又は待機系126に配置され、常用系及び待機系で対応するプロセッサ(101と103及び102と104)において同一の処理を実行させる。逐次実行部プロセッサの常用系故障発生時には待機系プロセッサが常用系に切り換ることでホットスタンバイを実現する。さらに故障したプロセッサが復旧した場合、待機系として動作する。また、並列処理部プロセッサによってタスクを並列処理させ、並列処理部プロセッサの故障発生時には他の並列処理部プロセッサが故障したプロセッサのタスクを実行する。
このような構成により、システム全体の処理性能が求められるシステムにおいて、特定の処理に対する障害発生時の信頼性及びリアルタイムなフォールトトレラント機能を有する計算機1が実現される。
In this embodiment, the processing that requires the reliability at the time of failure and the real-time fault tolerant function is executed by the
With such a configuration, in a system in which the processing performance of the entire system is required, the
また、図1において、111〜114は、逐次実行部CPU101〜104に静的に配置され実行されるタスクを示す。
また、115〜118は、並列処理部CPU105〜108にて動的に割り振られ実行されるタスクを示す。
119〜120は、並列管理部CPU109、110にて処理される並列処理部123を管理するためのタスク(並列処理部の稼動状況監視、負荷状況監視、並列処理部CPU数の計算及び並列処理部タスク管理)及び計算機内の通信を管理するためのタスクを示す。
In FIG. 1,
計算機1に搭載されるCPU数及び逐次実行部/並列処理部/並列管理部の構成数は図1の通りでなくて良いが、以下に示す構成とする必要がある。
逐次実行部121、122の常用系CPU数と待機系CPU数は同じとし、1以上とする。
並列処理部123のCPU数は、2以上とする。
並列管理部124のCPU数は、1以上でかつ常用系/待機系で同数とし1CPUを推奨とする。また、並列管理部124は、常用系/待機系という冗長構成になっていることが望ましいが、これは必須ではなく、並列管理部124が単一のCPUで構成されていてもよい。
図1における常用系及び待機系は電源系統を別に持っている。常用系、待機系で独立した電源としなくても良いが、図4に示す電源系統異常時の冗長性が失われる。図4については、後に詳述する。
The number of CPUs mounted in the
The number of regular CPUs and the number of standby CPUs in the
The number of CPUs in the parallel processing unit 123 is two or more.
The number of CPUs of the
The normal system and standby system in FIG. 1 have separate power supply systems. Although it is not necessary to use independent power sources for the normal system and the standby system, the redundancy at the time of abnormality of the power system shown in FIG. 4 is lost. FIG. 4 will be described in detail later.
図1に示す構成において、CPU故障時の切換え時間及び計算結果の保証を要求されるタスクを逐次実行部121、122で実行する。
逐次実行部121、122では静的なタスク配置を行い常用系/待機系の対応するCPUで同じ処理を常時実施させることで、障害時の高速な切換えを実現する。
逐次実行部121、122に入力されるイベントは全て常用系及び待機系両方に入力し処理する。
逐次実行部CPUにおける静的なタスク割り当ては、障害時のCPU切換えによる通信相手の変更を考慮し、可能な限り他の逐次実行部CPUと通信しないようにすることが望ましい。
In the configuration shown in FIG. 1, the
The
All events input to the
It is desirable that static task assignment in the sequential execution unit CPU should not communicate with other sequential execution unit CPUs as much as possible in consideration of changes in the communication partner due to CPU switching at the time of failure.
図2、図3は、図1に示す構成のシステムにおけるCPU障害時のCPU及び通信の切換え動作例である。
図2は、逐次実行部と並列処理部で通信を行っていない場合のCPU切り換え動作例、図3は逐次実行部と並列処理部で通信中におけるCPU切り換え動作例を示す。
図1と同様に、101〜104は逐次実行部CPU、105〜108は並列処理部CPU、109及び110は並列管理部CPUを示す。
また、211、212及び311、312は障害発生前におけるCPU間通信例、213、214及び313、314は障害発生後のCPU間通信例である。
2 and 3 show an example of the CPU and communication switching operation at the time of CPU failure in the system having the configuration shown in FIG.
FIG. 2 shows an example of CPU switching operation when communication is not performed between the sequential execution unit and the parallel processing unit, and FIG. 3 shows an example of CPU switching operation during communication between the sequential execution unit and the parallel processing unit.
As in FIG. 1, 101 to 104 are sequential execution unit CPUs, 105 to 108 are parallel processing unit CPUs, and 109 and 110 are parallel management unit CPUs.
図2において、逐次実行部CPU101が故障した場合、対応する逐次実行部CPU103の処理結果をシステムとして使用する。このときCPU102は常用系として処理を続行し、CPU102の通信相手はCPU101からCPU103に変更される。
CPU104はCPU102の待機リソースである。CPU101が故障から復旧した場合、CPU103の処理結果を使用するが、CPU103が故障した場合には再度CPU101の計算結果を利用する。
In FIG. 2, when the sequential
The
図2において、並列処理部108が故障した場合、並列処理部109は正常動作しているCPU105〜107で運用を継続する。
つまり、CPU108が故障した時、並列管理部CPU109が故障を検知し、CPU108に割り振っているタスクをCPU105〜107のいずれかのCPUに割り振る。
図2の例では、並列管理部CPU109は、CPU105をCPU108の処理の割り振り先として指定している。故障が発生したCPU108が障害並列処理プロセッサの例であり、CPU108の処理を割り振られたCPU105が引継ぎ並列処理プロセッサの例である。
そして、CPU108と故障前に通信していたCPU107は、並列管理部CPU109の指示によりCPU108のタスクを割り当てられたCPU105と通信を再開する。
In FIG. 2, when the
That is, when the
In the example of FIG. 2, the parallel
Then, the
図3は、逐次実行部と並列処理部にまたがった通信状態でCPU故障が発生した場合における動作例である。
逐次実行部CPU101と並列処理部CPU107が通信311を行っている状態で逐次実行部CPU101が故障した場合、CPU107の通信相手は並列管理部CPU109の指示によりCPU103に切り換わり313の通信を行う。
同様に、逐次実行部CPU102と並列処理部CPU108が通信312を行っている状態で並列処理部CPU108が故障した場合、CPU108のタスクは並列管理部CPU109により並列処理部CPU105〜107のいずれかに割り振られ、CPU102の通信相手は並列管理部CPU109の指示により、CPU108のタスクを割り当てられたCPU105に切り換り、314の通信を行う。また、この場合、CPU102の待機系として動作しているCPU104にも、CPU108のタスクが割り当てられたCPU105が通知される。
図3においても、故障が発生したCPU108が障害並列処理プロセッサの例であり、CPU108の処理を割り振られたCPU105が引継ぎ並列処理プロセッサの例である。
FIG. 3 shows an operation example in the case where a CPU failure occurs in a communication state extending over the sequential execution unit and the parallel processing unit.
When the sequential
Similarly, if the parallel
Also in FIG. 3, the
このように、本実施の形態では、並列管理部CPU109、110は、並列処理部CPU105〜108のうち逐次実行部CPU101〜104との通信を伴う処理を実行していたいずれかの並列処理部CPUに障害が発生した際に、障害が発生した並列処理部CPUが実行中であった処理を引き継いで実行する並列処理部CPUを指定し、障害が発生した並列処理部CPUの通信先であった逐次実行部CPUの常用系CPU及び待機系CPUの双方(常用系CPU又は待機系CPUの一方に障害が発生している場合は、他方のみ)に障害が発生した並列処理部CPUの処理を引継ぐ並列処理部CPUを通知する。
As described above, in the present embodiment, the parallel
次に、図9及び図10を参照して、本実施の形態に係る計算機1の動作例を説明する。
Next, an operation example of the
図9及び図10は、実施の形態1においてCPU異常が発生した場合のタスク及び通信切換えの動作を示すフローチャートである。
異常発生CPU(以下CPU(1)と呼ぶ)が逐次実行部CPU、並列処理部CPUまたは並列管理部CPUであるかによって動作が異なる(ステップ901)。
FIG. 9 and FIG. 10 are flowcharts showing task and communication switching operations when a CPU abnormality occurs in the first embodiment.
The operation differs depending on whether the abnormality occurrence CPU (hereinafter referred to as CPU (1)) is the sequential execution unit CPU, the parallel processing unit CPU, or the parallel management unit CPU (step 901).
CPU(1)が逐次実行部CPUである場合、待機系CPUが稼動中であれば(ステップ902でYES)、待機系CPUが常用系CPUに切り換る(ステップ903)。このとき、逐次実行部CPUに対する通信は常用系及び待機系CPU両方に対して実施することとしており、また逐次実行部CPUからの送信では待機系CPUはメッセージを送信しないが、待機系CPUは通信相手を知っていることから通信切換処理は発生しない。つまり、逐次実行部CPUに故障が発生した場合は、待機系CPUが稼動中であれば、並列管理部CPUが介在することなく、待機系CPUが常用系CPUの処理を引き継ぐ。また、逐次実行部CPUの待機系CPUは、通信相手である並列処理部CPUを知っているため、待機系CPUは、故障した常用系CPUと通信中であった並列処理部CPUに対してメッセージを送信することができ、並列管理部CPUが並列処理部CPUに通信相手を通知する必要がない。
一方、ステップ902において待機系CPUが停止している場合、常用系CPUの処理を切換えるCPUが存在しないため、当該CPUの機能がなくなった状態での縮退運転となる。
When CPU (1) is a sequential execution unit CPU, if the standby CPU is in operation (YES in step 902), the standby CPU is switched to the regular CPU (step 903). At this time, communication with the sequential execution unit CPU is performed for both the active system and the standby CPU, and the standby system CPU does not transmit a message in the transmission from the sequential execution unit CPU, but the standby system CPU communicates. The communication switching process does not occur because the partner is known. That is, when a failure occurs in the sequential execution unit CPU, if the standby CPU is operating, the standby CPU takes over the processing of the normal CPU without the parallel management unit CPU intervening. Further, since the standby CPU of the sequential execution unit CPU knows the parallel processing unit CPU that is the communication partner, the standby CPU sends a message to the parallel processing unit CPU that is communicating with the failed normal CPU. The parallel management unit CPU does not need to notify the parallel processing unit CPU of the communication partner.
On the other hand, when the standby CPU is stopped in
ステップ901において、CPU(1)が並列処理部CPUである場合、以下のフローを全て並列管理部CPUが処理する。
ステップ904にて、CPU(1)のタスクを割り当てるCPU(以下CPU(2)と呼ぶ)を並列管理部CPUが決定する。
次に、ステップ905で、CPU(1)のタスクが他CPUとの通信処理を含むかどうか並列管理部CPUが判断する。
当該タスクが通信を含まない場合(ステップ905でNO)、ステップ904で選定したCPU(2)にCPU(1)のタスクを割り当てる(ステップ906)。
一方、CPU(1)のタスクに通信が含まれる場合(ステップ905でYES)、通信相手CPU(以下CPU(3)と呼ぶ)が逐次実行部CPU、並列処理部CPUまたは並列管理部CPUであるかによって処理が異なる(ステップ907)。
このとき、当該タスクに含まれる通信が逐次実行部CPU、並列処理部CPUまたは並列管理部CPUの組み合わせとなる場合、タスク切換え処理を除く全ての通信相手毎のフロー(ステップ908〜913)を実施した後、タスク切換え処理を実施する(ステップ906または921)。
なお、並列管理部CPUは、並列処理部CPUへのタスク割り当て時に、割り当てしたタスクが通信を含むかどうかを判定し、通信を含む場合は通信相手属性を記録する。各タスクが通信を含むかどうか及び通信相手の属性は、並列管理部CPUが、確認できるように事前にパラメータを設定する。
このため、並列管理部CPUは、ステップ905においてCPU(1)のタスクに通信処理が含まれるか否かを判断することができ、ステップ907において通信相手CPU(3)の属性を判断することができる。
In
In
Next, in
If the task does not include communication (NO in step 905), the task of CPU (1) is assigned to CPU (2) selected in step 904 (step 906).
On the other hand, when communication is included in the task of CPU (1) (YES in step 905), the communication partner CPU (hereinafter referred to as CPU (3)) is the sequential execution unit CPU, parallel processing unit CPU, or parallel management unit CPU. The processing differs depending on whether or not (step 907).
At this time, when the communication included in the task is a combination of the sequential execution unit CPU, the parallel processing unit CPU, or the parallel management unit CPU, the flow (
The parallel management unit CPU determines whether or not the assigned task includes communication when assigning a task to the parallel processing unit CPU, and records the communication partner attribute if communication is included. Whether or not each task includes communication and the attribute of the communication partner are set in advance so that the parallel management unit CPU can confirm them.
Therefore, the parallel management unit CPU can determine whether or not the communication process is included in the task of the CPU (1) in
CPU(3)が並列処理部CPUである場合、CPU(3)に通信相手の変更(CPU(1)からCPU(2))を並列管理部CPUが通知し(ステップ908)、CPU(2)にCPU(1)のタスクを割り当てる(ステップ906)。
CPU(3)が逐次実行部CPUである場合、並列管理部CPUは、CPU(3)に該当する常用系CPU及び待機系CPUが稼動中であるか確認する(ステップ909)。
常用系及び待機系とも稼動中である場合(ステップ909でYES)、CPU(3)に該当する常用系CPU及び待機系CPUの両方に通信相手の変更(CPU(1)からCPU(2))を通知し(ステップ910)、CPU(2)にCPU(1)のタスクを割り当てる(ステップ906)。
CPU(3)の常用系CPU又は待機系CPUの一方が停止している場合(ステップ909でNO、ステップ911でYES)、稼動中のCPU(3)に通信相手の変更(CPU(1)からCPU(2))を通知し(ステップ912)、CPU(2)にCPU(1)のタスクを割り当てる(ステップ906)。
CPU(3)が常用系/待機系ともに停止している場合(ステップ909でNO、ステップ911でNO)、CPU(3)との通信に同期通信を含むかどうか確認し(ステップ913)、同期通信を含まない場合、CPU(2)にCPU(1)のタスクを割り当て(ステップ906)、同期通信を含む場合、CPU(1)のタスクを破棄する(ステップ914)。
CPU(3)との通信に同期通信が含まれる場合には、CPU(3)が常用系/待機系ともに停止している状況で、CPU(2)にタスクを割り振ると、CPU(2)は稼動を停止しているCPU(3)からのメッセージを待ち続けることになり、CPU(2)がデッドロックの状態に陥ってしまうことから、これを防止するため、同期通信が含まれる場合には、CPU(1)のタスクを破棄することとしている。
CPU(3)が並列管理部CPUである場合、並列管理部CPUは並列処理部CPUの通信を管制しているため、通信切換え処理は不要であり、ステップ921のタスク切換え処理を行う。
When the CPU (3) is the parallel processing unit CPU, the parallel management unit CPU notifies the CPU (3) of the change of the communication partner (CPU (1) to CPU (2)) (step 908), and the CPU (2) The task of CPU (1) is assigned to (step 906).
When the CPU (3) is the sequential execution unit CPU, the parallel management unit CPU confirms whether the normal system CPU and the standby system CPU corresponding to the CPU (3) are operating (step 909).
When both the normal system and the standby system are operating (YES in step 909), the communication partner is changed to both the normal CPU and the standby CPU corresponding to the CPU (3) (CPU (1) to CPU (2)). (Step 910), and the task of CPU (1) is assigned to CPU (2) (step 906).
When either the normal CPU or the standby CPU of the CPU (3) is stopped (NO in
When the CPU (3) is stopped for both the active system and the standby system (NO in
When synchronous communication is included in the communication with the CPU (3), when the task is allocated to the CPU (2) in a situation where the CPU (3) is stopped for both the normal system and the standby system, the CPU (2) In order to prevent this, since the CPU (2) will continue to wait for a message from the CPU (3) that has stopped operating, and the CPU (2) will fall into a deadlock state. , The task of CPU (1) is to be discarded.
When the CPU (3) is the parallel management unit CPU, the parallel management unit CPU controls the communication of the parallel processing unit CPU, so that the communication switching process is unnecessary, and the task switching process of
また、ステップ901においてCPU(1)が並列管理部CPUである場合、並列管理部の待機系CPUが稼動中であれば(ステップ914でYES)、待機系CPUが常用系CPUに切り換り(ステップ915)、並列管理部CPUが並列処理部CPUの全てに対して並列管理部CPUの切換えを通知する(ステップ916)。
他方、ステップ914において、並列管理部CPUが常用系及び待機系ともに停止状態である場合、並列管理部では稼動状態のCPUは存在せず、並列処理部CPUは並列管理部CPUと通信しない限り、タスク処理を続行する(ステップ917)。
並列処理部CPUが並列管理部CPUとの通信が必要になった場合(ステップ918でYES)、並列処理部CPUの一方が再起動するまで待機状態となる(ステップ919)。
ステップ919において並列管理部CPUの一方が再起動した場合、再起動した並列管理部CPUが、並列処理部CPUの全てに再起動通知を実施(ステップ916)し、処理を継続する。
If the CPU (1) is the parallel management unit CPU in
On the other hand, when the parallel management unit CPU is in a stopped state in
When the parallel processing unit CPU needs to communicate with the parallel management unit CPU (YES in step 918), the CPU waits until one of the parallel processing units CPU is restarted (step 919).
When one of the parallel management units CPU is restarted in
図4は、図1に示す構成のシステムにおける電源系異常時のCPU切換え動作例を示す。
CPU101、102、105、106、109で構成される常用系413とCPU103、104、107、108、110で構成される待機系414は、独立した電源系である電源1(411)及び電源2(412)を持つ。
なお、図4の常用系413、待機系414の区別は、電源系統における区別であり、図1の常用系125及び待機系126とは必ずしも一致していない。
具体的には、図1では、並列処理部CPUであるCPU105〜108は、常用系/待機系に区別されていないが、図4では電源系統として、CPU105、106は常用系に区別され、CPU107、108は待機系に区別されている。
常用系電源である電源1(411)に異常が発生した場合、常用系CPU101、102、105、106、109の処理が待機系CPU103、104、107、108、110での処理に切り換る。
つまり、常用系電源である電源1(411)に障害が発生した際に、逐次実行部の常用系CPU101、102が実行していた処理を逐次実行部の待機系CPU103、104が引き継いで実行し、並列処理部CPU105、106が実行していた処理を並列処理部CPU107、108が引き継いで実行し、並列管理部の常用系CPU109が実行していた処理を並列管理部の待機系CPU110が引き継いで実行する。
例えば、電源1の障害発生前には周期処理Cを行っていたCPU107及びCPU108は、電源1の障害発生によりCPU105及びCPU106が行っていた周期処理A及び周期処理Bを引き継ぎ、電源1の障害発生後は、周期処理A〜Cを行うこととなる。
なお、常用系413から待機系414への切換は、図9に示す処理による。具体的には、図9のステップ901のCPU(1)の対象を逐次実行部CPU、並列処理部CPU、並列管理部CPUの全てとし、逐次実行部CPU101、102については、ステップ902移行の処理を行い、並列処理部CPU104、106については、ステップ904移行の処理を行い、並列管理部CPU109については、ステップ914の処理を行うことにより、常用系413から待機系414への切換が行われる。
FIG. 4 shows an example of the CPU switching operation when the power supply system is abnormal in the system having the configuration shown in FIG.
An
The distinction between the
Specifically, in FIG. 1, the
When an abnormality occurs in the power supply 1 (411) that is the normal system power supply, the processing of the
That is, when a failure occurs in the power supply 1 (411) that is the normal power supply, the
For example, the
Note that switching from the
次に、並列管理部による並列処理部へのタスク割り当ての動作例を示す。
並列処理部へのタスク割り当ては分散/並列処理分野における一般的な方法で良いが、ここではタスクの実行時間予測を用いて並列処理させるCPUを計算し、負荷の低いCPUに割り当てる方式とする。
Next, an operation example of task assignment to the parallel processing unit by the parallel management unit will be described.
Task allocation to the parallel processing unit may be a general method in the distributed / parallel processing field, but here, a CPU to be processed in parallel is calculated using task execution time prediction, and is assigned to a CPU with a low load.
図5は、ユーザの要求を満たす範囲で可能な限り少ないCPUでタスクを実行する方式である。
なお、以下では、障害発生前の並列管理部CPUによる並列処理部CPUのタスク割り当てを前提として説明するが、図5に示す方式を障害発生後の並列処理部CPUのタスク割り当てに適用してもよい。
FIG. 5 shows a system in which tasks are executed with as few CPUs as possible within a range that satisfies user requirements.
In the following, the description will be made on the assumption that the task of the parallel processing unit CPU by the parallel management unit CPU before the failure occurs, but the method shown in FIG. 5 may be applied to the task allocation of the parallel processing unit CPU after the failure occurs. Good.
先ず、ユーザにて実行時間閾値X及び短縮時間閾値Yを定義する(X及びYは0より大きい値とする)。
実行時間閾値Xは、ひとつの処理に許容できる実行時間を入力し、Xを下回る実行時間で処理可能な最少のCPUで実行させる。つまり、実行時間閾値Xは、並列処理部プロセッサによる分散並列処理の実行時間の上限許容値を示す。
短縮時間閾値Yは、CPU使用数を1増加させた場合に要求する実行時間の短縮時間であり、Yを満たさない場合、Xを下回る処理時間でなくともCPU数を増加させずに処理させる。つまり、短縮時間閾値Yは、並列処理部プロセッサの数を一つ増加させた際の実行時間の短縮幅に対する下限許容値を示す。
First, the user defines an execution time threshold value X and a shortened time threshold value Y (X and Y are set to values larger than 0).
As the execution time threshold value X, an execution time allowable for one process is input, and the execution time threshold X is executed by the minimum CPU capable of processing with an execution time lower than X. That is, the execution time threshold value X indicates the upper limit allowable value of the execution time of distributed parallel processing by the parallel processing unit processor.
The shortening time threshold Y is a shortening time of the execution time required when the number of CPU usage is increased by 1. When Y is not satisfied, the processing is performed without increasing the number of CPUs even if the processing time is not less than X. That is, the shortening time threshold Y indicates a lower limit allowable value with respect to the shortening range of the execution time when the number of parallel processing unit processors is increased by one.
並列管理部CPUは、計算機1に搭載されるCPU数をNとし、タスクの実行時間P(1)〜P(N)を予測する(ステップ501)。P(1)は、1つのCPUによりタスクを実行した際の予測実行時間であり、P(N)は、N個のCPUによる分散並列処理によりタスクを実行した際の予測実行時間である。
並列管理部CPUは、CPU数1の時の予測実行時間(P(1))がX以下であるか判定(ステップ502、503)し、条件を満たす場合(ステップ503でYES)は並列処理部CPUにおいて最も負荷率が低いCPUにタスクを割り当てる。
ステップ503で条件を満たさなかった場合(ステップ503でNO)、並列管理部CPUは、CPU使用数を1増加させた場合にユーザが定義した実行時間短縮要求(短縮時間閾値Y)を満足するか判定し(ステップ504)、条件を満足する場合(ステップ504でYES)はCPUを1増加した場合(ステップ505)におけるステップ503の判定を実施し、最大CPU数となるまで繰り返す。
ステップ504の条件を満足しない場合(ステップ504でNO)、又は最大CPU数における割り振り判定が合格した場合(ステップ506でYES)、並列管理部CPUは、並列処理部の負荷状況を参照し(ステップ507)、タスクをn個のCPUで実行するために分割する(ステップ508)。
そして、並列管理部CPUは、分割したタスクを負荷率の低いCPUから順に割り当てる(ステップ509)。ただし最大CPU数で実行する場合には負荷状況の参照は省き全CPUに分割したタスクを割り当てる。
The parallel management unit CPU predicts task execution times P (1) to P (N), where N is the number of CPUs installed in the computer 1 (step 501). P (1) is a predicted execution time when a task is executed by one CPU, and P (N) is a predicted execution time when a task is executed by distributed parallel processing by N CPUs.
The parallel management unit CPU determines whether the predicted execution time (P (1)) when the number of CPUs is 1 is equal to or less than X (
If the condition is not satisfied in step 503 (NO in step 503), does the parallel management unit CPU satisfy the user-defined execution time reduction request (reduction time threshold Y) when the CPU usage number is increased by 1? If it is determined (step 504) and the condition is satisfied (YES in step 504), the determination in
If the condition of
Then, the parallel management unit CPU assigns the divided tasks in order from the CPU with the lowest load factor (step 509). However, when executing with the maximum number of CPUs, the load status is not referred to, and divided tasks are assigned to all CPUs.
図5に示す処理の具体例を図11に示す。
図11(A)において、CPU数n=1の場合、予測実行時間P(1)は、実行時間閾値Xよりも大きく、また、P(2)−P(1)における短縮幅は、短縮時間閾値Yよりも大きい。
このため、並列管理部CPUは、CPU数を一つ増加させて、CPU数n=2とする。この場合、予測実行時間P(2)は、実行時間閾値Xよりも大きく、また、P(3)−P(2)における短縮幅は、短縮時間閾値Yよりも大きい。
このため、並列管理部CPUは、CPU数を一つ増加させて、CPU数n=3とする。この場合、予測実行時間P(3)は、実行時間閾値Xよりも小さいので、並列管理部CPUは、3つのCPUで当該タスクを実行することを決定する。
A specific example of the process shown in FIG. 5 is shown in FIG.
In FIG. 11A, when the number of CPUs n = 1, the predicted execution time P (1) is larger than the execution time threshold value X, and the reduction width in P (2) -P (1) is the reduction time. It is larger than the threshold Y.
For this reason, the parallel management unit CPU increases the number of CPUs by one and sets the number of CPUs n = 2. In this case, the predicted execution time P (2) is larger than the execution time threshold value X, and the shortening range in P (3) -P (2) is larger than the shortening time threshold value Y.
For this reason, the parallel management unit CPU increments the number of CPUs by one to set the number of CPUs n = 3. In this case, since the predicted execution time P (3) is smaller than the execution time threshold value X, the parallel management unit CPU determines to execute the task with three CPUs.
図11(B)では、CPU数n=1の場合、予測実行時間P(1)は、実行時間閾値Xよりも大きく、また、P(2)−P(1)における短縮幅は、短縮時間閾値Yよりも大きい。
このため、並列管理部CPUは、CPU数を一つ増加させて、CPU数n=2とする。この場合、予測実行時間P(2)は、実行時間閾値Xよりも大きいが、P(3)−P(2)における短縮幅が、短縮時間閾値Yよりも小さいので、並列管理部CPUは、2つのCPUで当該タスクを実行することを決定する。
In FIG. 11B, when the number of CPUs n = 1, the predicted execution time P (1) is larger than the execution time threshold value X, and the reduction width in P (2) -P (1) is the reduction time. It is larger than the threshold Y.
For this reason, the parallel management unit CPU increases the number of CPUs by one and sets the number of CPUs n = 2. In this case, the predicted execution time P (2) is larger than the execution time threshold value X, but since the reduction width in P (3) -P (2) is smaller than the reduction time threshold value Y, the parallel management unit CPU The two CPUs are determined to execute the task.
このように、並列管理部CPUは、並列処理部CPUによる分散並列処理の実行時間の上限許容値を実行時間閾値としてユーザから取得し、並列処理部CPUの数を一つ増加させた際の実行時間の短縮幅に対する下限許容値を短縮時間閾値としてユーザから取得し、並列処理部CPUの数を一つずつ増加させながら特定のタスクを分散並列処理により実行する際の予測実行時間を算出し、各々の予測実行時間と実行時間閾値とを比較するとともに、各々の予測実行時間から並列処理部CPUを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較し、予測実行時間と実行時間閾値との比較結果及び予測実行時間の短縮幅と短縮時間閾値との比較結果に基づき、特定のタスクを割り当てる並列処理部CPUの数を決定する。
具体的には、並列管理部CPUは、予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値未満の場合に、当該予測実行時間の並列処理部CPUの数を、特定のタスクを割り当てる並列処理部CPUの数として決定し、予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値以上の場合に、並列処理部CPUの数を一つ増加させた予測実行時間と実行時間閾値とを比較し、比較の結果、当該予測実行時間が実行時間閾値以下である場合に、当該予測実行時間の並列処理部CPUの数を、特定のタスクを割り当てる並列処理部CPUの数として決定し、当該予測実行時間が実行時間閾値を超える場合に、当該予測実行時間から並列処理部CPUを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較する。
As described above, the parallel management unit CPU obtains from the user the upper limit allowable time of the distributed parallel processing by the parallel processing unit CPU as an execution time threshold, and executes when the number of parallel processing units CPU is increased by one. Obtaining the lower limit allowable value for the reduction width of time from the user as a reduction time threshold, calculating the predicted execution time when executing a specific task by distributed parallel processing while increasing the number of parallel processing units CPU one by one, Each predicted execution time is compared with the execution time threshold value, and the shortening range from each predicted execution time to the predicted execution time when the parallel processing unit CPU is increased by one is compared with the reduced time threshold value. Based on the comparison result between the execution time and the execution time threshold, and the comparison result between the shortening range of the predicted execution time and the reduction time threshold, the number of parallel processing units CPU to which a specific task is assigned is determined.
Specifically, when the parallel management unit CPU compares the reduction width of the predicted execution time with the reduction time threshold, and the reduction width is less than the reduction time threshold, the parallel management unit CPU determines the number of parallel processing units CPU of the predicted execution time. The number of parallel processing units CPU to which a specific task is assigned is determined, and as a result of comparing the shortening range of the predicted execution time with the shortening time threshold value, The predicted execution time increased by one and the execution time threshold value are compared, and if the comparison result shows that the predicted execution time is less than or equal to the execution time threshold value, the number of parallel processing units CPU of the predicted execution time is specified Decrease as the number of parallel processing units CPU to which tasks are assigned, and when the predicted execution time exceeds the execution time threshold, the reduction range from the predicted execution time to the predicted execution time when the number of parallel processing units CPU is increased by one When Comparing the reduced time threshold.
このように、実施の形態1に示す計算機構成とすることで、特定タスクの実行時間の保証及び計算機全体の抗たん性の確保を実現し、かつ障害発生時における処理性能の低下を最低限に抑えることを可能とする。 As described above, by adopting the computer configuration shown in the first embodiment, it is possible to guarantee the execution time of a specific task and ensure the resilience of the entire computer, and minimize the degradation of processing performance when a failure occurs. It is possible to suppress.
本実施の形態では、複数のプロセッサから構成され、処理を分散処理する分散処理システムであって、各々のプロセッサが選択的に常用系及び待機系として稼動し、前記システムに入力される処理の一部のタスクを並列処理するための手段と、前記分散並列処理に故障許容処理を併せて行わせる故障許容処理手段を含む分散並列処理装置について説明した。 In the present embodiment, the distributed processing system is configured by a plurality of processors and performs distributed processing. Each processor selectively operates as an active system and a standby system, and one of processes input to the system. A distributed parallel processing device including means for parallel processing of the tasks of a part and fault tolerance processing means for performing fault tolerance processing together with the distributed parallel processing has been described.
また、本実施の形態では、故障許容手段の一部は、分散並列処理を実施しない管理プロセッサに設けられ、分散並列処理及び故障許容手段を併せて実行するプロセッサと、並列分散処理を実行するプロセッサと、故障許容処理を実行するプロセッサから構成される分散並列処理装置について説明した。 In this embodiment, part of the fault tolerance means is provided in a management processor that does not perform distributed parallel processing, and a processor that executes both distributed parallel processing and fault tolerance means, and a processor that executes parallel distributed processing. The distributed parallel processing device composed of processors that execute fault tolerance processing has been described.
また、本実施の形態では、物理的に電源系統を複数持ち、それぞれの電源系統にプロセッサを配置する手段と、選択的に電源系統を選択し切り換える手段と、電源系統の異常を検出する手段と、電源系統異常時に別系統の電源系へ切り換える手段を含む分散並列処理装置について説明した。 Further, in the present embodiment, there are means for physically having a plurality of power supply systems, a means for arranging a processor in each power supply system, means for selectively selecting and switching the power supply system, means for detecting an abnormality in the power supply system, The distributed parallel processing device including means for switching to a power system of another system when the power system is abnormal has been described.
実施の形態2.
図6は、実施の形態2に係る計算機1のプロセッサ構成の概要を示すシステム構成図である。
逐次実行部CPU601〜604、並列処理部CPU605〜608、計算機常用系613、待機系614の構成は、図1に示す実施の形態1と同一である。
実施の形態2では、図6に示す並列処理部のタスク609〜612が図1における並列処理部タスク115〜118と異なり、図1に示す並列管理部124が存在しない。
つまり、図1に示す並列管理部CPUのタスク119〜120の一部又は全てを図6の並列処理部タスク609〜612で処理する。
図1の並列管理部の処理全てを図6の並列処理部で処理しても良いが、ここでは処理負荷を考慮して並列処理部の負荷状況の監視及び図5に示す並列処理部CPU数計算は実施しないこととする。
FIG. 6 is a system configuration diagram showing an overview of the processor configuration of the
The configurations of the sequential execution units CPU601 to 604, the parallel processing units CPU605 to 608, the computer
In the second embodiment, the parallel
That is, some or all of the
1 may be processed by the parallel processing unit of FIG. 6, but here the load status of the parallel processing unit is monitored in consideration of the processing load and the number of CPUs of the parallel processing unit shown in FIG. No calculations will be performed.
図6に示す逐次実行部CPU及び並列処理部CPUにおいて障害が発生した場合の動作は、図2及び図3に示す実施の形態1と同様であるが、逐次実行部と並列処理部にまたがる通信の管制については、並列処理部CPUが実施する。 The operation when a failure occurs in the sequential execution unit CPU and the parallel processing unit CPU shown in FIG. 6 is the same as that of the first embodiment shown in FIGS. 2 and 3, but communication across the sequential execution unit and the parallel processing unit. This control is performed by the parallel processing unit CPU.
このように、本実施の形態では、並列処理部(第二の処理部)に含まれる並列処理部プロセッサが、実施の形態1で示した並列管理部(プロセッサ管理部)として動作し、実施の形態1で示した並列管理部と同様に、逐次実行部プロセッサとの通信を伴う処理を実行していたいずれかの並列処理部プロセッサに障害が発生した際に、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、障害プロセッサ実行処理において障害並列処理プロセッサの通信先であった常用系プロセッサ及び待機系プロセッサの少なくともいずれかに引継ぎ並列処理プロセッサを通知する。 Thus, in the present embodiment, the parallel processing unit processor included in the parallel processing unit (second processing unit) operates as the parallel management unit (processor management unit) described in the first embodiment, and Similar to the parallel management unit described in the first aspect, when a failure occurs in any of the parallel processing units that were executing processing involving communication with the sequential execution unit processor, the failed parallel processing processor in which the failure occurred Specifies the takeover parallel processing processor that takes over the faulty processor execution process that was executing and executes the faulty processor execution process. At least one of the active processor and standby processor that was the communication destination of the faulty parallel processing processor in the faulty processor execution process Notify the takeover parallel processing processor.
並列処理部CPUにおいてCPU障害が発生した場合のタスク割り振りについては、特許文献1に示される方式等、一般的に公開されている方式で構わない。
ここでは図7に示すように、障害が発生したCPUのタスクを割り当てるCPUは、CPU番号順に順次配置することとする。
図7の701〜708は並列処理部CPUであり、説明を容易にするため図2と構成を変更している。
並列処理部において1回目のCPU故障709が発生した場合、CPU番号#2のCPU701にCPU故障709が発生したCPU705のタスクを割り当てる。
次に、CPU障害710が発生した場合は、CPU番号#3のCPU702にCPU障害710が発生したCPU703のタスクを割り当てる。
さらに、CPU障害711が発生した場合には、CPU番号#4であるCPU703は故障しているためCPU番号#5のCPU704にCPU障害711が発生したCPU707のタスクを割り振る。
As for task allocation when a CPU failure occurs in the parallel processing unit CPU, a generally disclosed method such as the method disclosed in
Here, as shown in FIG. 7, the CPU to which the task of the CPU in which the failure has occurred is sequentially arranged in the order of the CPU number.
When the
Next, when the
Further, when the
図7の方式の場合、各CPUが正常動作CPU数(又は障害発生CPU数)及び正常動作CPU番号(又は障害発生CPU番号)を認識できるよう、各CPUは自分の動作状況を定期的に他CPUに報告する。また各CPUで同一の並列タスク管理情報を共有し、かつ各CPUが全ての処理を実行することができるようにプログラム配置することで、障害発生CPUのタスクを別CPUが代行することが可能となる。 In the case of the method of FIG. 7, each CPU periodically changes its own operation status so that each CPU can recognize the number of normal operation CPUs (or the number of faulty CPUs) and normal operation CPU numbers (or faulty CPU numbers). Report to CPU. In addition, each CPU can share the same parallel task management information, and by arranging the program so that each CPU can execute all the processing, it is possible for another CPU to substitute the task of the failed CPU. Become.
このように、実施の形態2(図6)に示す計算機構成とすることで、特定タスクの実行時間の保証及び計算機全体の抗たん性の確保を実現し、かつ障害発生時における処理性能の低下を最低限に抑えることを可能とする。
また、実施の形態1(図1)に示す構成に比較してCPU数を2以上減らすことが可能である。
As described above, by adopting the computer configuration shown in the second embodiment (FIG. 6), it is possible to guarantee the execution time of a specific task and ensure the resilience of the entire computer, and to reduce the processing performance when a failure occurs. Can be minimized.
In addition, the number of CPUs can be reduced by two or more compared to the configuration shown in Embodiment 1 (FIG. 1).
以上、本実施の形態では、故障許容手段は、プロセッサの各々に設けられ、任意のプロセッサが故障した場合の常用系及び待機系の切り換え手段と、並列処理を実行しているプロセッサが故障した場合の他プロセッサへのタスク割り振り手段と、各々のプロセッサが分散並列処理と併せて、前記故障許容手段を処理させる手段を含む分散並列処理装置について説明した。 As described above, in the present embodiment, the fault tolerance means is provided in each of the processors, and the switching means between the normal system and the standby system when an arbitrary processor fails, and when the processor executing parallel processing fails A distributed parallel processing apparatus including task allocation means for other processors and means for causing each processor to process the fault tolerance means together with distributed parallel processing has been described.
最後に、実施の形態1、2に示した計算機1のハードウェア構成例について説明する。
図12は、実施の形態1、2に示す計算機1のハードウェア資源の一例を示す図である。
なお、図12の構成は、あくまでも計算機1のハードウェア構成の一例を示すものであり、計算機1のハードウェア構成は図12に記載の構成に限らず、他の構成であってもよい。
Finally, a hardware configuration example of the
FIG. 12 is a diagram illustrating an example of hardware resources of the
Note that the configuration of FIG. 12 is merely an example of the hardware configuration of the
計算機1は、図1、図6等に示したように、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
通信ボード915、キーボード902、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
The
The
The
The
通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)などに接続されていても構わない。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
The
The
上記プログラム群923には、実施の形態1、2の説明において「逐次実行部」、「並列処理部」、「並列管理部」として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
The
ファイル群924には、実施の形態1、2の説明において、「〜の判断」、「〜の計算」、「〜の比較」、「〜の算出」、「〜の割り当て」、「〜の設定」、「〜の登録」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1、2で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
In the description of the first and second embodiments, the
The “˜file” and “˜database” are stored in a recording medium such as a disk or a memory. Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the
Information, data, signal values, variable values, and parameters are stored in the main memory, registers, cache memory, and buffers during the CPU operations of extraction, search, reference, comparison, calculation, processing, editing, output, printing, and display. It is temporarily stored in a memory or the like.
The arrows in the flowcharts described in the first and second embodiments mainly indicate input / output of data and signals. The data and signal values are the memory of the
また、実施の形態1、2の説明において「〜部」の動作として説明しているものは、「〜ステップ」、「〜手順」、「〜処理」であってもよい。 In addition, what is described as the operation of “˜unit” in the description of the first and second embodiments may be “˜step”, “˜procedure”, and “˜processing”.
このように、実施の形態1、2に示す計算機1は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備え、所定の処理をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
Thus, the
1 計算機、121 逐次実行部、122 逐次実行部、123 並列処理部、124 並列管理部、125 常用系、126 待機系、413 常用系、414 待機系、613 常用系、614 待機系。 1 computer, 121 sequential execution unit, 122 sequential execution unit, 123 parallel processing unit, 124 parallel management unit, 125 regular system, 126 standby system, 413 regular system, 414 standby system, 613 regular system, 614 standby system.
Claims (10)
二以上の並列処理プロセッサを備え、二以上の並列処理プロセッサが協働して分散並列処理を行う第二の処理部と、
前記第二の処理部に含まれる二以上の並列処理プロセッサのうち前記第一の処理部に含まれるプロセッサとの通信を伴う処理を実行していたいずれかの並列処理プロセッサに障害が発生した際に、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、前記障害プロセッサ実行処理において前記障害並列処理プロセッサの通信先であった常用系プロセッサ及び待機系プロセッサの少なくともいずれかに前記引継ぎ並列処理プロセッサを通知するプロセッサ管理部とを有することを特徴とする計算機。 A first processing unit including an active processor and a standby processor that replaces the active processor when a failure occurs in the active processor;
A second processing unit that includes two or more parallel processors, and the two or more parallel processors cooperate to perform distributed parallel processing;
When a failure occurs in any one of the two or more parallel processing processors included in the second processing unit that is executing processing involving communication with the processor included in the first processing unit Is designated as a takeover parallel processing processor that takes over the faulty processor execution process that was being executed by the faulty parallel processing processor in which the fault occurred, and was the communication destination of the faulty parallel processing processor in the faulty processor execution process And a processor management unit for notifying at least one of a normal processor and a standby processor of the takeover parallel processing processor.
常用系プロセッサと、常用系プロセッサの障害発生時に常用系プロセッサを代替する待機系プロセッサとを備え、
常用系プロセッサ及び待機系プロセッサの少なくともいずれかが、
前記第一の処理部に含まれるプロセッサとの通信を伴う処理を実行していたいずれかの並列処理プロセッサに障害が発生した際に、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、前記障害プロセッサ実行処理において前記障害並列処理プロセッサの通信先であった常用系プロセッサ及び待機系プロセッサの少なくともいずれかに前記引継ぎ並列処理プロセッサを通知することを特徴とする請求項1に記載の計算機。 The processor management unit
An active processor and a standby processor that replaces the active processor in the event of a failure of the active processor,
At least one of an active processor and a standby processor
The fault that the faulty parallel processing processor in which the fault occurred was executing when a fault occurred in any of the parallel processing processors that were executing processing involving communication with the processor included in the first processing unit The takeover parallel processing processor which designates a takeover parallel processing processor to take over and execute the processor execution processing, and is set as at least one of a normal processor and a standby processor which are communication destinations of the faulty parallel processing processor in the faulty processor execution processing The computer according to claim 1, wherein:
前記プロセッサ管理部として動作し、前記第一の処理部に含まれるプロセッサとの通信を伴う処理を実行していたいずれかの並列処理プロセッサに障害が発生した際に、障害が発生した障害並列処理プロセッサが実行中であった障害プロセッサ実行処理を引き継いで実行する引継ぎ並列処理プロセッサを指定し、前記障害プロセッサ実行処理において前記障害並列処理プロセッサの通信先であった常用系プロセッサ及び待機系プロセッサの少なくともいずれかに前記引継ぎ並列処理プロセッサを通知することを特徴とする請求項1又は2に記載の計算機。 One or more parallel processing processors included in the second processing unit,
Fault parallel processing in which a fault has occurred when a fault has occurred in any of the parallel processing processors operating as the processor management unit and executing processing involving communication with the processor included in the first processing unit Designating a takeover parallel processing processor to take over the failed processor execution process that was being executed by the processor, and at least one of a normal processor and a standby processor that were communication destinations of the failed parallel processing processor in the failed processor execution process The computer according to claim 1 or 2, wherein the takeover parallel processing processor is notified to any one of them.
前記障害並列処理プロセッサが実行していた障害プロセッサ実行処理に他のいずれかの並列処理プロセッサとの通信が含まれる場合に、前記障害プロセッサ実行処理において前記障害並列処理プロセッサの通信先であった並列処理プロセッサに前記引継ぎ並列処理プロセッサを通知することを特徴とする請求項1〜3のいずれかに記載の計算機。 The processor management unit
When the fault processor execution process executed by the fault parallel processor includes communication with any other parallel processor, the parallel that was the communication destination of the fault parallel processor in the fault processor execution process 4. The computer according to claim 1, wherein the processor is notified of the takeover parallel processing processor.
前記第一の処理部の待機系プロセッサ、前記第二の処理部に含まれる残りの並列処理プロセッサ、及び前記プロセッサ管理部の待機系プロセッサは、待機系電源に接続され、前記待機系電源から電力を供給され、
前記常用系電源に障害が発生した際に、前記第一の処理部の常用系プロセッサが実行していた処理を前記第一の処理部の待機系プロセッサが引き継いで実行し、前記第二の処理部に含まれる一部の並列処理プロセッサが実行していた処理を前記第二の処理部に含まれる残りの並列処理プロセッサが引き継いで実行し、前記プロセッサ管理部の常用系プロセッサが実行していた処理を前記プロセッサ管理部の待機系プロセッサが引き継いで実行することを特徴とする請求項2に記載の計算機。 The normal processor of the first processing unit, some parallel processing processors included in the second processing unit, and the normal processor of the processor management unit are connected to a normal power supply, and the normal power supply Powered,
The standby processor of the first processing unit, the remaining parallel processors included in the second processing unit, and the standby processor of the processor management unit are connected to a standby system power supply, and power is supplied from the standby system power supply. Supplied
When a failure occurs in the normal power supply, the standby processor of the first processing unit takes over and executes the processing that was performed by the normal processor of the first processing unit, and the second processing The processing executed by a part of the parallel processing processors included in the processing unit was executed by the remaining parallel processing processors included in the second processing unit, and was executed by the normal processor of the processor management unit. The computer according to claim 2, wherein the standby processor of the processor management unit takes over and executes the processing.
並列処理プロセッサによる分散並列処理の実行時間の上限許容値を実行時間閾値として取得し、
並列処理プロセッサの数を一つ増加させた際の実行時間の短縮幅に対する下限許容値を短縮時間閾値として取得し、
並列処理プロセッサの数を一つずつ増加させながら特定のタスクを分散並列処理により実行する際の予測実行時間を算出し、各々の予測実行時間と実行時間閾値とを比較するとともに、各々の予測実行時間から並列処理プロセッサを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較し、予測実行時間と実行時間閾値との比較結果及び予測実行時間の短縮幅と短縮時間閾値との比較結果に基づき、前記特定のタスクを割り当てる並列処理プロセッサの数を決定することを特徴とする請求項1〜5のいずれかに記載の計算機。 The processor management unit
Get the upper limit of the execution time of distributed parallel processing by the parallel processor as the execution time threshold,
Get the lower limit allowable value for the execution time reduction width when the number of parallel processing processors is increased by one as the reduction time threshold,
Calculate the predicted execution time when executing a specific task by distributed parallel processing while increasing the number of parallel processors one by one, compare each predicted execution time with the execution time threshold, and each predicted execution Compares the reduction range from the time to the predicted execution time when the number of parallel processors is increased by one and the reduction time threshold, the comparison result between the predicted execution time and the execution time threshold, and the reduction range and reduction time of the predicted execution time. 6. The computer according to claim 1, wherein the number of parallel processing processors to which the specific task is assigned is determined based on a comparison result with a threshold value.
予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値未満の場合に、当該予測実行時間の並列処理プロセッサの数を、前記特定のタスクを割り当てる並列処理プロセッサの数として決定し、
予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値以上の場合に、並列処理プロセッサの数を一つ増加させた予測実行時間と実行時間閾値とを比較し、比較の結果、当該予測実行時間が実行時間閾値以下である場合に、当該予測実行時間の並列処理プロセッサの数を、前記特定のタスクを割り当てる並列処理プロセッサの数として決定し、当該予測実行時間が実行時間閾値を超える場合に、当該予測実行時間から並列処理プロセッサを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較することを特徴とする請求項6に記載の計算機。 The processor management unit
As a result of comparing the predicted execution time reduction width with the reduction time threshold, if the reduction width is less than the reduction time threshold, the number of parallel processing processors to which the specific task is assigned is determined as the number of parallel processing processors with the predicted execution time. Determined as
As a result of comparing the reduction width of the predicted execution time and the reduction time threshold, if the reduction width is equal to or greater than the reduction time threshold, the prediction execution time obtained by increasing the number of parallel processors by one and the execution time threshold are compared. As a result of the comparison, when the predicted execution time is less than or equal to the execution time threshold, the number of parallel processing processors of the predicted execution time is determined as the number of parallel processing processors to which the specific task is assigned, and the predicted execution time The reduced time threshold is compared with a shortened range from the predicted execution time to a predicted execution time when the number of parallel processing processors is increased by one when the execution time threshold is exceeded. calculator.
特定のタスクを割り当てる並列処理プロセッサの数を決定するプロセッサ管理部とを有し、
前記プロセッサ管理部は、
並列処理プロセッサによる分散並列処理の実行時間の上限許容値を実行時間閾値として取得し、
並列処理プロセッサの数を一つ増加させた際の実行時間の短縮幅に対する下限許容値を短縮時間閾値として取得し、
並列処理プロセッサの数を一つずつ増加させながら特定のタスクを分散並列処理により実行する際の予測実行時間を算出し、各々の予測実行時間と実行時間閾値とを比較するとともに、各々の予測実行時間から並列処理プロセッサを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較し、予測実行時間と実行時間閾値との比較結果及び予測実行時間の短縮幅と短縮時間閾値との比較結果に基づき、前記特定のタスクを割り当てる並列処理プロセッサの数を決定することを特徴とする計算機。 Two or more parallel processors that cooperate to perform distributed parallel processing;
A processor management unit that determines the number of parallel processing processors to which a specific task is assigned;
The processor management unit
Get the upper limit of the execution time of distributed parallel processing by the parallel processor as the execution time threshold,
Get the lower limit allowable value for the execution time reduction width when the number of parallel processing processors is increased by one as the reduction time threshold,
Calculate the predicted execution time when executing a specific task by distributed parallel processing while increasing the number of parallel processors one by one, compare each predicted execution time with the execution time threshold, and each predicted execution Compares the reduction range from the time to the predicted execution time when the number of parallel processors is increased by one and the reduction time threshold, the comparison result between the predicted execution time and the execution time threshold, and the reduction range and reduction time of the predicted execution time. A computer which determines the number of parallel processing processors to which the specific task is assigned based on a comparison result with a threshold value.
予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値未満の場合に、当該予測実行時間の並列処理プロセッサの数を、前記特定のタスクを割り当てる並列処理プロセッサの数として決定し、
予測実行時間の短縮幅と短縮時間閾値とを比較した結果、短縮幅が短縮時間閾値以上の場合に、並列処理プロセッサの数を一つ増加させた予測実行時間と実行時間閾値とを比較し、比較の結果、当該予測実行時間が実行時間閾値以下である場合に、当該予測実行時間の並列処理プロセッサの数を、前記特定のタスクを割り当てる並列処理プロセッサの数として決定し、当該予測実行時間が実行時間閾値を超える場合に、当該予測実行時間から並列処理プロセッサを一つ増加させた際の予測実行時間までの短縮幅と短縮時間閾値とを比較することを特徴とする請求項8に記載の計算機。 The processor management unit
As a result of comparing the predicted execution time reduction width with the reduction time threshold, if the reduction width is less than the reduction time threshold, the number of parallel processing processors to which the specific task is assigned is determined as the number of parallel processing processors with the predicted execution time. Determined as
As a result of comparing the reduction width of the predicted execution time and the reduction time threshold, if the reduction width is equal to or greater than the reduction time threshold, the prediction execution time obtained by increasing the number of parallel processors by one and the execution time threshold are compared. As a result of the comparison, when the predicted execution time is less than or equal to the execution time threshold, the number of parallel processing processors of the predicted execution time is determined as the number of parallel processing processors to which the specific task is assigned, and the predicted execution time 9. The shortened time threshold is compared with the shortened range from the predicted execution time to the predicted execution time when the number of parallel processors is increased by one when the execution time threshold is exceeded. calculator.
前記特定のタスクを、決定した並列処理プロセッサの数で分割するとともに、各並列処理プロセッサの負荷状況を調査し、負荷が少ない並列処理プロセッサから順に、分割したタスクを割り当てることを特徴とする請求項8又は9に記載の計算機。 The processor management unit
The specific task is divided by the determined number of parallel processing processors, the load state of each parallel processing processor is investigated, and the divided tasks are allocated in order from the parallel processing processor having the smallest load. The computer according to 8 or 9.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007161456A JP2009003537A (en) | 2007-06-19 | 2007-06-19 | calculator |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007161456A JP2009003537A (en) | 2007-06-19 | 2007-06-19 | calculator |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009003537A true JP2009003537A (en) | 2009-01-08 |
Family
ID=40319890
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007161456A Pending JP2009003537A (en) | 2007-06-19 | 2007-06-19 | calculator |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009003537A (en) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010176511A (en) * | 2009-01-30 | 2010-08-12 | Nec Infrontia Corp | Hot standby system and hot standby method |
| JP2010176162A (en) * | 2009-01-27 | 2010-08-12 | Fujitsu Ltd | Power supply design program, method and device, and computer network |
| JP2011039740A (en) * | 2009-08-10 | 2011-02-24 | Ntt Data Corp | Server management system, server management method, and program |
| JP5379906B2 (en) * | 2010-02-26 | 2013-12-25 | 株式会社日立製作所 | Computer, computer control method, and computer control program |
| WO2016132432A1 (en) * | 2015-02-16 | 2016-08-25 | 三菱電機株式会社 | Processor and microcomputer |
| CN113900856A (en) * | 2021-10-08 | 2022-01-07 | 中国农业银行股份有限公司 | A data processing method and related equipment |
-
2007
- 2007-06-19 JP JP2007161456A patent/JP2009003537A/en active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010176162A (en) * | 2009-01-27 | 2010-08-12 | Fujitsu Ltd | Power supply design program, method and device, and computer network |
| US8321827B2 (en) | 2009-01-27 | 2012-11-27 | Fujitsu Limited | Power supply design |
| JP2010176511A (en) * | 2009-01-30 | 2010-08-12 | Nec Infrontia Corp | Hot standby system and hot standby method |
| JP2011039740A (en) * | 2009-08-10 | 2011-02-24 | Ntt Data Corp | Server management system, server management method, and program |
| JP5379906B2 (en) * | 2010-02-26 | 2013-12-25 | 株式会社日立製作所 | Computer, computer control method, and computer control program |
| WO2016132432A1 (en) * | 2015-02-16 | 2016-08-25 | 三菱電機株式会社 | Processor and microcomputer |
| CN113900856A (en) * | 2021-10-08 | 2022-01-07 | 中国农业银行股份有限公司 | A data processing method and related equipment |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4920391B2 (en) | Computer system management method, management server, computer system and program | |
| US7062674B2 (en) | Multiple computer system and method for assigning logical computers on the same system | |
| US8832372B2 (en) | Network storage systems having clustered raids for improved redundancy and load balancing | |
| US11221935B2 (en) | Information processing system, information processing system management method, and program thereof | |
| US7328367B2 (en) | Logically partitioned computer system and method for controlling configuration of the same | |
| CN103201724B (en) | Providing application high availability in highly-available virtual machine environments | |
| US8281007B2 (en) | Cluster control apparatus, cluster control method, and computer product | |
| US8694827B2 (en) | Job migration in response to loss or degradation of a semi-redundant component | |
| JP5526784B2 (en) | Degenerate configuration design system and method | |
| JP2008152594A (en) | Highly reliable multi-core processor computer | |
| CN1892612A (en) | Cluster availability management method and system | |
| JP2005115751A (en) | Computer system and method for detecting fault signs in computer system | |
| CN101216793A (en) | Method and device for recovering from failure of a multiprocessor system | |
| US8713352B2 (en) | Method, system and program for securing redundancy in parallel computing system | |
| JP2009003537A (en) | calculator | |
| JP4491482B2 (en) | Failure recovery method, computer, cluster system, management computer, and failure recovery program | |
| EP2645635B1 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
| JP5632820B2 (en) | Wide-area distributed configuration change system | |
| CN117112296A (en) | Troubleshooting methods, devices, electronic equipment and storage media for redundant systems | |
| JP4920248B2 (en) | Server failure recovery method and database system | |
| JP2009069963A (en) | Multiprocessor system | |
| JP4572581B2 (en) | Database processing method and system, and processing program therefor | |
| KR101447024B1 (en) | Error restoration method of distributed multi-layer system for weapon based on service-scale | |
| JP5353378B2 (en) | HA cluster system and clustering method thereof | |
| JP2016224490A (en) | Redundant system |