[go: up one dir, main page]

JP2005267051A - 通信システム異常検出方法および計算機システム - Google Patents

通信システム異常検出方法および計算機システム Download PDF

Info

Publication number
JP2005267051A
JP2005267051A JP2004076500A JP2004076500A JP2005267051A JP 2005267051 A JP2005267051 A JP 2005267051A JP 2004076500 A JP2004076500 A JP 2004076500A JP 2004076500 A JP2004076500 A JP 2004076500A JP 2005267051 A JP2005267051 A JP 2005267051A
Authority
JP
Japan
Prior art keywords
communication
abnormality
reception
transmission
timer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004076500A
Other languages
English (en)
Inventor
Takeo Ogawa
武雄 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004076500A priority Critical patent/JP2005267051A/ja
Publication of JP2005267051A publication Critical patent/JP2005267051A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】 通信システム異常検出で一般的に使われている方法は、ハートビートを定期的に送信するサーバと応答クライアントが必要で、無駄な通信負荷が発生し、通信システムのノード数が増えれば増えるほど、システムの通信性能に影響を与えてしまう問題がある。また、ハートビートサーバが異常になると、通信システム異常検出できない、または、サーバ処理の代行処理が必要となるなどシステムが複雑となる問題がある。
【解決手段】 送信処理を開始と同時にタイマを起動する送信プログラムと受信処理を開始と同時にタイマを停止する受信プログラムと、タイマがタイムアウトする時間を設定することができるプログラムと、タイマのタイムアウトを受けて異常を識別・通知する異常処理プログラムを計算機システムに具備し、これらのプログラム群をアプリケーションが通常必要なCPU間通信に使うだけで通信システム異常検出が可能となる。
【選択図】 図1

Description

この発明は、プログラムによる通信システム異常を検出可能な通信システム異常検出方法および計算機システムに関するものである。
信頼性を要求するマルチプロセッサシステムでは、H/Wを冗長構成とするか、H/W対称性をもたせて縮退処理を行なうことができるような設計が行なわれる。このようなシステムでは、プロセッサやプロセッサ間の通信システム異常を検出する方法として、ハートビートを送信、監視するサーバを通信システムに具備し、各通信ノードとハートビート監視サーバ間で、正常情報のやりとりが途絶えると異常を検出する従来技術が知られている(例えば、特許文献1参照)。
特許第3419979号公報(第1図)
本発明は、通信システム異常検出でハートビートを使うと、定期的にハートビートを送信するサーバと応答クライアントが必要で、無駄な通信負荷が発生し、通信システムのノード数が増えれば増えるほど、システムの通信性能に影響を与えてしまう課題と、ハートビートサーバが異常になると、通信システム異常検出できない、または、サーバ処理の代行処理が必要となりシステムが複雑となる課題を解決する手段を提供するものである。
本発明による通信システム異常検出方法は、送信処理およびこの送信処理の開始と略同時にタイマを起動する送信ステップと、受信処理およびこの受信処理の開始と略同時にタイマを停止する受信ステップと、上記タイマがタイムアウトする時間を設定するタイムアウト設定ステップと、上記タイマのタイムアウトを受けて異常を識別して通知する異常処理ステップと、所定のアプリケーションを実行するアプリケーションステップと、通信路との通信を行う通信ステップとを具備した複数のプロセッサ相互の通信異常を検出する通信システム異常検出方法において、上記アプリケーションステップが必要とするプロセッサ間通信について、上記送信ステップ、上記受信ステップ、上記タイムアウト設定ステップ、上記異常処理ステップの各ステップ群により、通信相手プロセッサまたは上記通信路が異常であることを検知する様したものである。
本発明による計算機システムは、送信処理およびこの送信処理の開始と略同時にタイマを起動する送信手段と、受信処理およびこの受信処理の開始と略同時にタイマを停止する受信手段と、上記タイマがタイムアウトする時間を設定するタイムアウト設定手段と、上記タイマのタイムアウトを受けて異常を識別して通知する異常処理手段と、所定のアプリケーションを実行するアプリケーション手段と、通信路との通信を行う通信手段とを具備した複数のプロセッサ相互の通信異常を検出する計算機システムにおいて、上記アプリケーション手段が必要とするプロセッサ間通信について、上記送信手段、上記受信手段、上記タイムアウト設定手段、上記異常処理手段の各手段群により、通信相手プロセッサまたは上記通信路が異常であることを検知する様にしたものである。
本発明は、アプリケーションがデータ送信してからデータ受信するまでの所要時間を把握することで、アプリケーションが通常必要とするデータ送受信を行なっているだけあり、プロセッサまたは通信路異常を検出することが可能となり、ハートビート監視のために余計な処理や装置を必要としない。
また、アプリケーションがデータ送信からACK情報を受信するまでの時間を把握することで、アプリケーションが通常必要とするデータ送信を行なっているだけであり、プロセッサまたは通信路の異常を検出することが可能となり、ハートビート監視のために余計な処理や装置を必要としない。
実施の形態1.
以下、図を用いて、この発明に係る実施の形態1について説明する。図1は、実施の形態1による通信システム構成を示している。複数のプロセッサ1が通信装置2と通信路3を介して、複数接続されている。アプリケーション4は、送信プログラム5と受信プログラム6を介して他のプロセッサとCPU間通信を行なう。アプリケーション4は、データ送信とデータ受信を1つの単位として実行するものとする。
つまり、データ送信を行なうと、データ処理結果を受けるために、データ受信を行なう。または、逆にデータ受信によって受けたデータを処理した結果をデータ送信する。このデータのやりとりにかかる時間は、一定の時間を超えることがないように設計されている時、この送受信にかかる最大所要時間をタイムアウト時間と定義し、このタイムアウト時間を設定することができるタイムアウト設定プログラム7を具備する。また、タイマ10のタイムアウト発生時に異常プロセッサを識別し、アプリケーション4への異常通知手段を有する、異常処理プログラム8を具備する。
図2は、各プログラムとアプリケーション4、通信装置2との関係を示した図である。
図2を使って、各プログラムの動作を個別に説明する。タイムアウト設定プログラム7は、アプリケーション4からタイムアウト時間を受けて(9)、タイマ10にタイムアウト時間設定を行なう(11)。送信プログラム5は、アプリケーション4から送信要求を受けて(12)、データを通信装置2に送出(13)すると同時に、タイマ10の動作開始を指示する(14)。受信プログラム6は、通信装置2からデータを受信(15)するとタイマ10の動作停止を指示し(16)、受信したデータをアプリケーション4に渡す(17)。異常処理プログラム8は、タイマ10がタイムアウトを検出すると処理が呼び出され(18)、異常が発生していることをアプリケーション4に通知する(19)。
図3は、アプリケーション4が図2で示したプログラム群を使って、異常検出を行なう方法の一例を示したフローチャートである。アプリケーション4は、マスタとスレーブで別れているものとし、双方がお互いの異常を検出することができる必要があるものとする。
始めに、マスタのフローチャートを説明する。マスタが処理開始すると、タイムアウト設定プログラム7を呼び出して、タイムアウト時間を設定する(M1)。次に、送信プログラム5を呼び出して、スレーブにデータを送信する(M2)。次に、受信プログラム6を呼び出して、スレーブから処理済のデータを受信できるようにする(M3)。次に、受信したデータを処理する(M4)。次に、送信プログラム5を呼び出して、スレーブにデータを送信する(M5)。以下、(M3)から(M5)までの一連の処理を繰り返す(C〜D間)。
次に、スレーブのフローチャートを説明する。スレーブが処理開始すると、タイムアウト設定プログラム7を呼び出して、タイムアウト時間を設定する(S1)。次に、受信プログラム6を呼び出して、マスタからデータを受信できるようにする(S2)。次に、データを受信したらデータ処理を行なう(S3)。次に、送信プログラム5を呼び出して、マスタに処理結果を送信する(S4)。以下、(S2)から(S4)までの一連の処理を繰り返す(A〜B間)。ここでマスタとスレーブで設定するタイムアウト時間は次のようになる。
マスタのタイムアウト時間は、(M2)開始から(M3)完了までにかかる時間であるが、これはスレーブでのAからBまでの通信にかかる時間とデータ処理にかかる時間の合計である。同様に、スレーブのタイムアウト時間は、(S4)開始から(S2)完了までにかかる時間であるが、これはマスタでのCからDまでの通信にかかる時間とデータ処理にかかる時間の合計である。もし、設定したタイムアウト時間が経過しても受信プログラムがデータを受信できないときは、タイマ10がタイムアウトを検出することにより異常処理プログラム8が起動されて、アプリケーション4に異常が発生していることが通知される。
このように、アプリケーション4は、データを送信してからデータを受信するまでの所要時間を把握することで、アプリケーション4が通常必要と想定するデータ送受信を行なっているだけで、プロセッサまたは通信路の通信異常を検出することが可能となり、ハートビート監視のために余計な処理や装置を必要としない。
実施の形態2.
以下、図を用いてこの発明に係る実施の形態2について説明する。図4は、実施の形態2による受信プログラム6の構成を示している。通信装置2からデータを受ける(15)と、受信プログラム6は受信データをデータ識別処理20において通常データ或いはACKデータに識別する。受信データが通常データの場合は、通常データ受信処理21がデータ受信処理と同時に、ACK情報を送信元に送信(22)する。受信データがACKデータの場合は、ACK受信処理23がタイマ10を停止する。
図5は、2つのプロセッサ構成を例に、プロセッサ1aがプロセッサ1bにデータ送信するときの処理の流れを説明した図である。図5では、処理の説明に必要なブロックのみ記述しているが、プロセッサ1aと1bは同じ構成をしている。プロセッサ1aの送信プログラム5が通信装置2aにデータを送信すると、通信路3を経由してデータが通信装置2bに届く。
受信プログラム6bは、通信装置2bから受信(15b)したデータを通常データとして識別し、ACK情報を送信元に対して送信する(22b)。ACK情報は、同様に通信路3を経由してプロセッサ1aの受信プログラム6aに受信(15a)される。受信プログラム6aは、ACK情報を識別すると、タイマを停止する。もし、設定したタイムアウト時間が経過しても、ACK情報がプロセッサ1aの受信プログラム6aで受信されなければ、タイマ10がタイムアウトして、異常処理プログラム8が異常を検知する。
図6は、アプリケーション4が図5で示したプログラム群を使って、異常検出を行なう方法の一例を示したフローチャートである。アプリケーション4は、マスタとスレーブで別れているものとし、データのやりとりはマスタからスレーブの一方向のみとする。ここでは、マスタのフローチャートのみ説明する。マスタが処理開始すると、タイムアウト設定プログラム7を呼び出して、タイムアウト時間を設定する(N1)。
次に、送信プログラム5を呼び出して、スレーブにデータを送信する(N2)。次に任意のデータ処理を行なう(N3)。以下、(N2)と(N3)を繰り返す。実施の形態2によるタイムアウト時間は、送信プログラムが送信を開始してから、ACK情報を受信するまでの所要時間である。スレーブの受信プログラム6は、データを受信するとすぐにACK信号を送信する。受信側アプリケーションの状態によらないため、タイムアウト時間は、ほぼ一定となる。
このように、アプリケーション4は、データ送信からACK情報を受信するまでの時間を把握することで、アプリケーション4が通常必要と想定するデータ送信を行なっているだけで、プロセッサまたは通信路の通信異常を検出することが可能となり、ハートビート監視のために余計な処理や装置を必要としない。
つまり、実施の形態2による形態では実施の形態1のように、アプリケーション4が送受信の両方を行なわない場合でも異常の検出が可能となる。
この発明による実施の形態1における計算機システム構成図である。 この発明による実施の形態1における各プログラムとアプリケーション、通信装置との関係を示した図である。 この発明による実施の形態1におけるアプリケーションのフローチャートを示した図である。 この発明による実施の形態2における受信プログラムの構成を示した図である。 この発明による実施の形態2における各プログラムとアプリケーション、通信装置との関係関係を示した図である。 この発明による実施の形態2におけるアプリケーションのフローチャートを示した図である。
符号の説明
1 プロセッサ、 2 通信装置、 3 通信路、 4 アプリケーション、 5 送信プログラム、 6 受信プログラム、 7 タイムアウト設定プログラム、 8 異常処理プログラム、 10 タイマ、 20 データ識別処理、 21 通常データ受信処理、 23 ACK受信処理。

Claims (4)

  1. 送信処理およびこの送信処理の開始と略同時にタイマを起動する送信ステップと、
    受信処理およびこの受信処理の開始と略同時にタイマを停止する受信ステップと、
    上記タイマがタイムアウトする時間を設定するタイムアウト設定ステップと、
    上記タイムアウト設定ステップのタイムアウト結果を受けて異常を識別して通知する異常処理ステップと、
    所定のアプリケーションを実行するアプリケーションステップと、
    通信路との通信を行う通信ステップと、
    を具備した複数のプロセッサ相互の通信異常を検出する通信システム異常検出方法において、
    上記アプリケーションステップが必要とするプロセッサ間通信について、上記送信ステップ、上記受信ステップ、上記タイムアウト設定ステップ、上記異常処理ステップの各ステップ群により、上記タイムアウトする時間が経過しても上記受信ステップがデータを受信できない場合に、通信相手プロセッサまたは上記通信路が異常であることを検知する様にしたことを特徴とする通信システム異常検出方法。
  2. 送信処理およびこの送信処理の開始と略同時にタイマを起動する送信手段と、
    受信処理およびこの受信処理の開始と略同時にタイマを停止する受信手段と、
    上記タイマがタイムアウトする時間を設定するタイムアウト設定手段と、
    上記タイムアウト設定手段のタイムアウト結果を受けて異常を識別して通知する異常処理手段と、
    所定のアプリケーションを実行するアプリケーション手段と、
    通信路との通信を行う通信手段と、
    を具備した複数のプロセッサ相互の通信異常を検出する計算機システムにおいて、
    上記アプリケーション手段が必要とするプロセッサ間通信について、上記送信手段、上記受信手段、上記タイムアウト設定手段、上記異常処理手段の各手段群により、上記タイムアウトする時間が経過しても上記受信手段がデータを受信できない場合に、通信相手プロセッサまたは上記通信路が異常であることを検知する様にしたことを特徴とする計算機システム。
  3. 送信処理およびこの送信処理の開始と略同時にタイマを起動し、送信先からの応答パケットを受けると、このタイマを停止する送信ステップと、
    上記タイマがタイムアウトする時間を設定するタイムアウト設定ステップと、
    常に受信待機し、受信する受信データを通常データ或いはACKデータに識別し、上記応答パケットを送信元に返送する受信ステップと、
    上記タイムアウト設定ステップのタイムアウト結果を受けて異常を識別して通知する異常処理ステップと、
    所定のアプリケーションを実行するアプリケーションステップと、
    通信路との通信を行う通信ステップと、
    を具備した複数のプロセッサ相互の通信異常を検出する通信システム異常検出方法において、
    上記アプリケーションステップが必要とするCPU間通信について、上記送信ステップ、上記受信ステップ、上記タイムアウト設定ステップ、上記異常処理ステップの各ステップ群により、上記設定したタイムアウトする時間が経過しても、上記ACKデータが上記受信ステップで受信されない場合に、通信相手プロセッサ、または上記通信路が異常であることを検知できる様にしたことを特徴とする通信システム異常検出方法。
  4. 送信処理およびこの送信処理の開始と略同時にタイマを起動し、送信先からの応答パケットを受けると、このタイマを停止する送信手段と、
    上記タイマがタイムアウトする時間を設定するタイムアウト設定手段と、
    常に受信待機し、データを受信すると、上記応答パケットを送信元に返送する受信手段と、
    上記タイムアウト設定手段のタイムアウト結果を受けて異常を識別して通知する異常処理手段と、
    所定のアプリケーションを実行するアプリケーション手段と、
    通信路との通信を行う通信手段と、
    を具備した複数のプロセッサ相互の通信異常を検出する計算機システムにおいて、
    上記アプリケーション手段が必要とするCPU間通信について、上記送信手段、上記受信手段、上記タイムアウト設定手段、上記異常処理手段の各手段群により、上記設定したタイムアウトする時間が経過しても、上記ACKデータが上記受信手段で受信されない場合に、通信相手プロセッサ、または上記通信路が異常であることを検知できる様にしたことを特徴とする計算機システム。
JP2004076500A 2004-03-17 2004-03-17 通信システム異常検出方法および計算機システム Pending JP2005267051A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004076500A JP2005267051A (ja) 2004-03-17 2004-03-17 通信システム異常検出方法および計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004076500A JP2005267051A (ja) 2004-03-17 2004-03-17 通信システム異常検出方法および計算機システム

Publications (1)

Publication Number Publication Date
JP2005267051A true JP2005267051A (ja) 2005-09-29

Family

ID=35091559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004076500A Pending JP2005267051A (ja) 2004-03-17 2004-03-17 通信システム異常検出方法および計算機システム

Country Status (1)

Country Link
JP (1) JP2005267051A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214823B2 (en) 2007-03-30 2012-07-03 Fujitsu Limited Cluster system, process for updating software, service provision node, and computer-readable medium storing service provision program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214823B2 (en) 2007-03-30 2012-07-03 Fujitsu Limited Cluster system, process for updating software, service provision node, and computer-readable medium storing service provision program

Similar Documents

Publication Publication Date Title
KR100557399B1 (ko) 네트웍 매체 링크상태 기능을 이용한 컴퓨터 클러스터링시스템의 가용도 개선방법
JP4695705B2 (ja) クラスタシステムおよびノード切り替え方法
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
JP6183931B2 (ja) クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。
JP2005267051A (ja) 通信システム異常検出方法および計算機システム
JP4131263B2 (ja) マルチノードシステム、ノード装置、ノード間クロスバスイッチ及び障害処理方法
JP2006172050A (ja) ホットスタンバイ式2重化システム
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP2017183905A (ja) 通信装置、通信障害復旧方法および通信障害復旧プログラム
JP2007058708A (ja) 多重系システム
JP5082147B2 (ja) マルチノードシステム、ノード間スイッチ及びデータ中継方法
JP2002116920A (ja) クラスタシステム、クラスタシステムにおける監視方法およびコンピュータプログラム
JP4038648B2 (ja) ネットワークシステムおよび制御方法
JP4692419B2 (ja) ネットワーク装置及びそれに用いる冗長切替え方法並びにそのプログラム
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JP5790420B2 (ja) 通信装置、障害検出方法および障害検出プログラム
JP2019168739A (ja) 並列計算システム
JP2003050753A (ja) 自動復旧Webサーバー運用システム
JP2013254333A (ja) 多重系制御システム及びその制御方法
JP2002207647A (ja) サーバ監視方式
JPH06290126A (ja) 計算機システム障害監視方式
JP2008077324A (ja) サーバ・クライアントシステム
KR20000041926A (ko) 아이피씨 시스템에서 특정 프로세서에 대한 재시동장치 및방법
JP2002330191A (ja) 異常検出方式、及び、異常検出システム
CN116961739A (zh) 一种光传输设备、业务设备、业务传输的方法和系统