[go: up one dir, main page]

JP4172807B2 - 障害発生の原因箇所の発見を支援する技術 - Google Patents

障害発生の原因箇所の発見を支援する技術 Download PDF

Info

Publication number
JP4172807B2
JP4172807B2 JP2006243845A JP2006243845A JP4172807B2 JP 4172807 B2 JP4172807 B2 JP 4172807B2 JP 2006243845 A JP2006243845 A JP 2006243845A JP 2006243845 A JP2006243845 A JP 2006243845A JP 4172807 B2 JP4172807 B2 JP 4172807B2
Authority
JP
Japan
Prior art keywords
component
candidate
log
components
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006243845A
Other languages
English (en)
Other versions
JP2008065668A (ja
Inventor
康裕 鈴木
泰久 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006243845A priority Critical patent/JP4172807B2/ja
Priority to US11/844,549 priority patent/US20080065928A1/en
Publication of JP2008065668A publication Critical patent/JP2008065668A/ja
Application granted granted Critical
Publication of JP4172807B2 publication Critical patent/JP4172807B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、障害発生の原因箇所の発見を支援する技術に関する。特に、本発明は、複数のコンポーネントを含む情報システムにおいて、障害発生の原因となるコンポーネントの発見を支援する技術に関する。
近年の情報システムは大規模かつ複雑であり、障害が発生してもその原因箇所の発見が困難な場合が多い。例えば、原因箇所を発見するための問題判別(Problem Determination)は、多くの専門家(SME:Subject Matter Expert)による経験的知識や試行錯誤に依存している。専門家による問題判別のアプローチの一つとして、イベントログの解析が行われている。イベントログの解析は、例えば、障害の報告されたコンポーネントのイベントログを精査して、障害発生前後に発生したイベントのエラーメッセージの内容を調査することを内容とする。
しかしながら、大規模かつ複雑な情報システムにおいて、障害の報告されたコンポーネントと、その根本原因となるコンポーネントとは異なる場合が多い。したがって、障害の発生したコンポーネントの専門家は、そのコンポーネントに根本原因が無いことが分かると、他のコンポーネントの専門家に対し根本原因の調査を依頼する。依頼された専門家は、自己の担当するコンポーネントに根本原因が無いことが分かると、更に他の専門家に調査を依頼する。このように、原因箇所を発見するまでには、多くの専門家が相互に調査を依頼し合い、多くの時間が費やされる場合が多かった。
障害箇所の検出に関する参考技術として特許文献1を挙げる。特許文献1は、利用中のサービスに障害が発生した際に、ネットワーク依存グラフ上の依存関係を辿ることにより、障害の原因等となりうるサービスの集合を抽出することを内容とする(特許文献1の請求項1などを参照。)。そして、原因追究時にも正常動作しているサービスなどを当該集合から取り除くことで、障害箇所を含む範囲を徐々に絞り込んでいく(特許文献1の請求項12などを参照。)。これにより、障害箇所を含むと推測される範囲をできる限り狭く限定することを目的とする(特許文献1の発明の効果の記載などを参照。)。
特開平11−259331号公報
特許文献1の技術は、調査すべき範囲を、サービスが正常動作しているかどうかなど、現在の動作状況に基づいて絞り込む。しかしながら、近年の情報システムは継続的な運用が求められるところ、障害発生後直ちにシステムは再起動され、原因の追究開始までに既にシステムは正常動作している場合が多い。したがって、現在の動作状況を解析に用いるのは現実的ではない場合が多い。このような場合、原因追究に用いることができるのはイベントのログなど、過去に収集されたデータに限られるが、特許文献1ではそのようなログの活用については言及されていない。
また、特許文献1の技術は、初めに調査範囲を広く定めてそれを徐々に限定するアプローチを基本とするから、調査に参加する専門家の数は結果として非常に多くなる可能性がある。さらに、特許文献1の技術は、障害原因を調査すべき範囲を示すものであり、範囲が決定された後にその範囲内をどの様な順序で調査するべきかを指示することはできず、調査が効率的でない場合がある。
そこで本発明は、上記の課題を解決することのできる支援システム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の1つの側面においては、複数のコンポーネントを含む情報システムにおいて、障害発生の原因箇所の発見を支援する支援システムであって、コンポーネントをノードとし、コンポーネント同士が直接に依存する関係をリンクで表した依存グラフを記憶する記憶部と、障害の発生したコンポーネントの検出に応じ、当該コンポーネントにおいて生じたイベントのログを表示するログ表示部と、利用者の指示に応じ、障害の発生したコンポーネントに依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択する選択部と、選択した候補コンポーネントにおいて生じたイベントのログを、ログ表示部にさらに表示させる表示制御部とを備え、選択部は、さらに、利用者の指示に応じ、候補コンポーネントに依存グラフ上で隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択する支援システムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明を実施するための最良の形態(以下、実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、情報システム10および支援システム20の接続関係を示す。情報システム10は、複数の情報処理装置、例えば、情報処理装置100−1〜6を備える。情報処理装置100−1〜6のそれぞれは、ハードウェアのコンポーネントおよびソフトウェアのコンポーネントによって構成されている。また、情報処理装置100−1〜6は、電気通信回線を介して接続されており、相互に通信して処理をすすめる。なお、情報処理装置100−1〜6のそれぞれは、互いに同一の大型汎用計算機上に設けられ、その一部ずつを使用して物理的に分割して、または時分割して使用する論理的な情報処理装置であってよい。即ち、本実施形態における情報処理装置とは、物理的な態様を問わず、情報システム10の障害を検知し修復するシステム管理者にとって、他の装置とは独立にイベントログを取得でき、他の装置に対する障害対応とは独立に障害対応をすることができる装置をいう。
また、情報システム10は、支援システム20に接続されている。支援システム20は、情報システム10内のそれぞれのコンポーネントにおいて生じたイベントのログを収集する。また、支援システム20は、情報システム10内の何れかのコンポーネントにおいて発生した障害を検出する。例えば、支援システム20は、情報システム10内の障害モニタリングシステムから、重度の障害が発生した旨の警告を受け付けてもよい。
本実施形態に係る支援システム20は、障害を検出した場合に、収集した各種のログを、障害との関連の強さの順に選択して表示することで、利用者による原因発見のための分析作業を効率化することを目的とする。
図2は、支援システム20の機能構成を示す。支援システム20は、依存グラフ記憶部200と、障害検出部210と、ログ表示部220と、ログDB225と、選択部230と、表示制御部240と、選択除外部250とを有する。依存グラフ記憶部200は、コンポーネントをノードとし、コンポーネント同士が直接に依存する関係をリンクで表した依存グラフを記憶する。障害検出部210は、情報システム10内の障害監視用サーバや障害監視エージェントから受けた警告に基づき、情報システム10内で障害の発生したコンポーネントを検出する。ログ表示部220は、障害の発生したコンポーネントの検出に応じ、そのコンポーネントにおいて生じたイベントのログをログDB225から読み出して利用者に対し表示する。ログDB225は、障害の発生の有無に関わらず例えば定期的に情報システム10から収集されたイベントのログを記憶している。
ログ表示部220は、障害の発生したコンポーネントのログを見た利用者から、さらに他のコンポーネントのログを表示する指示を受け付ける。選択部230は、利用者の指示に応じ、障害の発生したコンポーネントに依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択する。選択した候補コンポーネントを識別する情報は、表示制御部240に対し出力される。表示制御部240は、選択したその候補コンポーネントにおいて生じたイベントのログを、ログ表示部220にさらに表示させる。ログ表示部220は、候補コンポーネントのログを見た利用者から、さらに他のコンポーネントのログを表示する指示を受け付ける。選択部230は、利用者の指示に応じ、既に選択した候補コンポーネントに依存グラフ上で隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択する。選択された新たな候補コンポーネントのログは、表示制御部240によってログ表示部220においてさらに表示される。
ログ表示部220は、候補コンポーネントから除外するべきコンポーネントの指定を利用者からさらに受け付けてもよい。この場合、選択除外部250は、既に候補コンポーネントとして選択してイベントのログを表示したコンポーネントのうち、利用者に指定されたコンポーネントを、候補コンポーネントから除外する。これを受けて、表示制御部240は、候補コンポーネントから除外されたコンポーネントのログを、ログ表示部220の表示から除外する。
図3aは、依存グラフ記憶部200に記憶されるデータの第1例を示す。依存グラフ記憶部200に記憶される依存グラフにおいて、各ノードは、何れかの情報処理装置100のハードウェアの少なくとも一部を構成するコンポーネント、または、何れかの情報処理装置100において動作するソフトウェアの少なくとも一部を構成するコンポーネントを示す。より具体的には、各ノードは、例えば、何れかの情報処理装置100のハードウェア、情報処理装置100で動作するオペレーティングシステム、そのオペレーティングシステム上で動作するミドルウェア、および、そのミドルウェア上で動作するアプリケーションプログラムの何れかである。
そして、依存グラフ記憶部200が記憶する依存グラフは、同一の情報処理装置100で動作する複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係を垂直方向のリンクで表す。具体的には、ノード310はアプリケーションプログラムを表し、ノード320はミドルウェアを表し、ノード330はオペレーティングシステムを表し、ノード340はハードウェアを表し、これらのノードは同一の情報処理装置100で動作する。そして、ノード310によって表されるアプリケーションプログラムは、ノード320によって表されるミドルウェアにより起動されて動作するから、ノード310およびノード320は垂直方向のリンクで接続される。同様に、ミドルウェアとオペレーティングシステムとの間でデータが授受されるから、ノード320およびノード330は垂直方向のリンクで接続される。また、ノード330およびノード340についても同様に垂直方向のリンクで接続される。なお、図中では、ノード320から見て垂直方向の上側にはノード310のみが接続されているが、複数のアプリケーションプログラムが動作する場合には、ノード320から見て垂直方向の上側に複数のノードが接続されていてもよい。
このように、複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係とは、例えば、一のコンポーネントおよび他のコンポーネントが処理の呼出先および呼出元となる関係、または、一のコンポーネントおよび他のコンポーネントがデータを授受する関係をいう。呼出元および呼出先となる関係とは、例えば、API(Application Programming Interface)などの関数の呼出元および呼出先となる関係をいい、その関数の呼出に引数がパラメータとして与えられているか否かを問わない。また、一のコンポーネントが他のコンポーネントの動作を前提に動作する関係とは、例えば、コンポーネントと、そのコンポーネントを動作させる基盤環境となるコンポーネントとの関係であってもよい。例えば、アプリケーションプログラムとそのプログラムを動作させる基盤環境であるミドルウェアの関係である。
また、依存グラフ記憶部200が記憶する依存グラフは、それぞれが互いに異なる情報処理装置100で動作する複数のコンポーネントが互いに通信する関係を水平方向のリンクで表す。例えば、ノード320として表されたミドルウェアは、他の情報処理装置において動作する他のミドルウェアを表すノード350と通信するから、ノード320およびノード350は水平方向のリンクで接続される。同様に、ノード320は、さらに他の情報処理装置において動作する他のミドルウェアを表すノード360と、水平方向のリンクで接続される。ノード320によって表されるミドルウェアは、ノード350によって表されるミドルウェアを中継して、ノード370によって表されるミドルウェアとも通信しているが、直接の通信ではないのでノード320およびノード370はリンクで接続されない。
より詳細には、複数のコンポーネントが互いに通信する関係とは、例えば、あるコンポーネントがデータの送信先となる他のコンポーネントを指定して当該他のコンポーネントに対しデータを送信する関係をいう。これに代えて、複数のコンポーネントが互いに通信する関係とは、通信回線に接続された記憶装置を媒介とし、その記憶装置にデータを書き込むコンポーネントおよび書込んだそのデータを読み出すコンポーネントの関係であってもよい。この場合の記憶装置は、本実施形態に係る支援システム20による障害検出の対象外であり、このような記憶装置を媒介としたデータの授受は、これら2つのコンポーネントが直接に通信する関係とみなす。さらに他の例として、複数のコンポーネントが互いに通信する関係とは、これらのコンポーネントが同一の大型汎用計算機上で動作する場合においては、これらのコンポーネントが共有のメモリ空間を媒介としてデータを授受する関係であってもよい。さらには、複数のコンポーネントが互いに通信する関係とは、NFS(Network File System)において、異なる情報処理装置において動作するコンポーネント(この場合は、オペレーティングシステム)が、同一の記憶領域に対してアクセス可能となる関係であってもよい。
なお、本図では説明の都合上、水平方向のリンクは、ミドルウェアの階層に属するコンポーネント同士を接続するもののみを図示した。これに加えて、水平方向のリンクは、アプリケーションプログラムの階層に属するコンポーネント同士をさらに接続してよいし、ハードウェアの階層に属するコンポーネント同士をさらに接続してもよい。これらの接続は、例えば、ハードウェアの階層にあっては有線または無線による通信回線の接続を示し、ミドルウェアの階層にあっては情報の授受の他、リモートプロシジャーコールなどの呼び出し関係を示し、アプリケーションプログラムの階層にあってはアプリケーションプログラム間での情報の授受を示す。なお、アプリケーションプログラム間での情報の授受は、実際にはオペレーティングシステムに対するAPIの呼出によって実現され、オペレーティングシステム間でデータが送受信されるが、このようなデータの送受信は、アプリケーションプログラム間の通信とみなし、オペレーティングシステム間の通信とはみなさない。一方で、オペレーティングシステム間の通信とは、オペレーティングシステムが自律的に他のオペレーティングシステムと通信することをいい、アプリケーションプログラムの要求による通信ではない。
以上、図3aに示す依存グラフは、依存グラフ中のノードはコンポーネントを表し、依存グラフ中のリンクは、通信の送信元となるコンポーネントおよび送信先となるコンポーネントの関係、あるいは、データの出力元となるコンポーネントおよび出力先となるコンポーネントの関係を表している。
これに加えて、依存グラフ記憶部200は、コンポーネント同士が互いに依存する関係を表すリンクを、リンクの種類を示す属性に対応付けて記憶してもよい。例えば、依存グラフ記憶部200は、それぞれが互いに異なる情報処理装置100で動作する複数のコンポーネントが互いに通信する関係を示すリンクを、通信の種類を示す属性に対応付けて記憶する。通信の種類を示す属性とは、例えば通信プロトコルなどであってもよいし、通信の頻度や転送されるデータ量であってもよい。さらに他の例として、依存グラフ記憶部200は、無向リンクのみならず有向リンクを含む有向グラフを依存グラフとして記憶してもよい。有向リンクは、通信の方向や依存の方向を表す。即ち、ノードAからノードBにデータが送信されるがノードBからノードAにデータが送信されない場合には、ノードAからノードBに対する有向リンクが記憶される。また、ノードAがノードBの動作を前提に動作する場合には、ノードAからノードBに対する有向リンクが記憶される。動作の前提となる関係とは、例えば、プログラムとそのプログラムを動作させる基盤環境との関係をいう。具体的には、アプリケーションプログラムはそのプログラムを動作させる基盤環境であるミドルウェアをいう。この場合、選択部230は、ノードAからノードBに対する有向リンクが存在する場合には、ノードAから見てノードBは隣接関係にあるが、ノードBから見てノードAは隣接関係に無いと判断する。
図3bは、依存グラフ記憶部200に記憶されるデータの第2例を示す。それぞれの情報処理装置100においては、その情報処理装置100で動作するアプリケーションプログラムの動作状態を監視し、障害が発生したか否かを監視させる目的で、動作監視用のプログラム(以下、監視エージェントと称す)が動作している場合がある。具体的には、本図中に示すように、アプリケーションプログラム310が動作する情報処理装置100においては、その情報処理装置100上で動作するアプリケーションプログラムの動作を監視するために、監視エージェント321が動作している。また、他のそれぞれの情報処理装置100においては、監視エージェント351、監視エージェント361および監視エージェント371が動作している。
これらの監視エージェントは、他の情報処理装置100で動作する監視サーバプログラム390に対し、当該監視サーバプログラムにおいて監視結果を収集させるために、監視結果を送信する。このような監視結果の送信関係は、依存グラフ記憶部200において依存グラフ中の監視用リンクとして、他のリンクとは区別可能に記憶されてよい。このリンクを図3bにおいては点線で示す。この場合、好ましくは、選択部230は、利用者の指示に応じて、監視用リンクまたはその他のリンクの何れかを選択し、その一方のみを介して既に選択されている候補コンポーネントと隣接するコンポーネントを、候補コンポーネントとして選択する。これにより、監視処理や監視結果の通知処理自体の異常が原因で、通常のアプリケーションプログラムにおいて異常が発生したかのように判断された場合においても、異常の原因箇所を絞り込んで原因発見を効率化できる。
図4は、ログDB225のデータ構造の一例を示す。ログDB225は、コンポーネント毎に、そのコンポーネントから収集されたイベントのログを記憶している。例えば、ログDB225は、コンポーネントの1つであるウェブアプリケーションサーバプログラムについて、そのウェブアプリケーションサーバプログラムを識別する番号7に対応付けて、そのアプリケーションサーバプログラムにおいて発生したイベントの発生時刻、そのイベントが障害を示す場合における障害の重大度、および、そのイベントの内容を自然言語で記述したメッセージを記憶する。一例として、このプログラムにおいて、2006年6月12日10時28分0秒には、XXという処理の初期化が失敗しており、それを障害と見た場合の重大度は100分の10である。なお、ここでいう障害とは、障害検出部210によって検出される障害を含んでもよいが、障害検出部210によって検出される重大な障害よりも重大度が低く障害検出部210によっては検出されない障害を含んでよい。
図5は、ログ表示部220の表示例を示す。ログ表示部220は、トポロジー・ビュー510と、シーケンス・ビュー520と、テーブル・ビュー530と、指示ボタン540と、指示ボタン550と、指示ボタン560と、指示ボタン570と、指示ボタン580とを表示する。トポロジー・ビュー510は、依存グラフ記憶部200に記憶されている依存グラフを表示する。表示した依存グラフにおいて、障害が検出されたコンポーネントを示すノードには斜線が付され、他のノードとは識別可能に表示される。また、既に選択された候補ノードにも斜線が付され、他のノードとは識別可能に表示される。シーケンス・ビュー520は、障害が検出されたコンポーネントおよび既に選択した候補コンポーネントについて、イベントのログのダイジェストを表示する。
具体的には、シーケンス・ビュー520は、イベントのログを予め定められた期間毎に分割した複数の分割ログのそれぞれを、当該分割ログに記録された障害の重大度を示すシンボルによって表し、それぞれのシンボルをイベントの発生順に配列して、コンポーネント毎に表示する。たとえば、HTTPサーバプログラムのコンポーネントにおいて、該当期間内にはイベントが発生していないから、イベントの発生を示す矩形状のシンボルは表示されない。一方で、アプリケーションサーバプログラムのコンポーネントにおいて、該当期間の後半で重大度がやや高い障害が記録されているので、斜線の付された矩形状のシンボルが2つ記録されている。シンボルには、対応するログに記録された障害の重要度に応じた色彩や模様が付されてもよい。
テーブル・ビュー530は、シーケンス・ビュー520に表示されたシンボルの何れかが利用者から指定されると、指定されたそのシンボルとして表された分割ログの内容を表示する。表示されるログは、分割された期間、例えば1分や1時間分のログであり、その内容の具体例は図3を参照して説明したログの内容と同様である。
指示ボタン540、指示ボタン550、および指示ボタン560のそれぞれは、障害原因を探索する指示を利用者から受け付けるためのボタンである。指示ボタン540は、探索の方向を指定しないで支援システム20の裁量で探索範囲を拡大する指示(IE:Intelligent Expansion)を受け付けるためのボタンであり、指示ボタン550は、障害原因を垂直方向に探索する指示(VE:Vertical Expansion)を受け付けるためのボタンであり、指示ボタン560は、障害原因を水平方向に探索する指示(HE:Horizontal Expansion)を受け付けるためのボタンである。例えば、選択部230は、指示ボタン550に対する指示に応じ、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、新たな候補コンポーネントとして選択する。これを受けて、表示制御部240は、新たに選択されたその候補コンポーネントのログをシンボル化してシーケンス・ビュー520中に表示させる。
指示ボタン570は、指定したコンポーネントを候補コンポーネントから除外するための指示を受け付けるボタンである。例えば、利用者がトポロジー・ビュー510上であるノードを指定したうえで指示ボタン570を選択すると、選択除外部250は、指定されたそのノードによって表されるコンポーネントを候補コンポーネントから除外する。そして、表示制御部240は、除外されたその候補コンポーネントのログを、シーケンス・ビュー520およびテーブル・ビュー530の表示から除外する。
指示ボタン580は、監視用リンクを介して障害原因を探索する指示を受け付けるボタンである。例えば、利用者がトポロジー・ビュー510上であるノードを指定したうえで指示ボタン580を選択すると、選択部230は、そのノード(即ち、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに相当)を監視する監視エージェントを選択する。この場合、トポロジー・ビュー510には、図3bに示した監視用リンクに基づく依存グラフが表示されてよい。そして、選択部230は、選択したその監視エージェントと、依存グラフ上で監視用リンクを介して隣接するコンポーネントを候補コンポーネントとして選択する。これにより、障害原因の追究過程で、監視用システムの障害が疑われる場合には、探索に用いる依存グラフのトポロジーを変化させることができる。
図6は、表示されるログの範囲を徐々に拡大させる処理のフローチャートを示す。障害検出部210は、情報システム10内の障害モニタリングシステムから受けた警告に基づき、情報システム10内で障害の発生したコンポーネントを検出する(S600)。ログ表示部220は、障害の発生したコンポーネントの検出に応じ、そのコンポーネントにおいて生じたイベントのログをログDB225から読み出して利用者に対し表示する(S610)。そして、ログ表示部220は、障害の発生したコンポーネントのログを見た利用者から、さらに他のコンポーネントのログを表示する指示を受け付ける。
受け付けた指示が、方向を指定しない探索の指示(IE)である場合に、選択部230は、前回の探索の方向が水平方向であったかを判断する(S630)。水平方向であったことを条件に(S630:YES)、選択部230は、前回の指示と異なる方向、即ち垂直方向のリンクを介して、既に選択した候補コンポーネントに依存グラフ上で隣接するコンポーネントを、新たな候補コンポーネントとして選択する(S640)。一方、水平方向でなかったことを条件に(S630:NO)、選択部230は、水平方向のリンクを介して、既に選択した候補コンポーネントに依存グラフ上で隣接するコンポーネントを、新たな候補コンポーネントとして選択する(S650)。前回の指示が無い場合、即ち初めての指示の場合には、選択部230は、垂直方向のリンクを介して隣接するコンポーネントを候補コンポーネントとすることが望ましい。同一の情報処理装置で動作するコンポーネントの方が他の情報処理装置のコンポーネントより関連が強い場合が多く、また、ログの分析作業も比較的簡便に行うことができるからである。
また、選択部230は、障害原因を垂直方向に探索する指示(VE)に応じ(S660:YES)、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、新たな候補コンポーネントとして選択する(S670)。また、選択部230は、障害原因を水平方向に探索する指示(HE)に応じ(S680:YES)、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに依存グラフ上で水平方向のリンクを介して隣接するコンポーネントを、新たな候補コンポーネントとして選択する(S685)。
次に、選択除外部250は、指定したコンポーネントを候補コンポーネントから除外する指示を受けたかを判断する(S690)。当該除外する指示を受けたことに応じ(S690:YES)、選択除外部250は、利用者に指定されたそのコンポーネントを候補コンポーネントから除外し、表示制御部240は、除外されたそのコンポーネントのログをログ表示部220の表示から除外する(S695)。
図7は、水平方向に探索範囲を拡大する処理のフローチャートを示す。S650またはS680において、まず、選択部230は、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに依存グラフ上で水平方向のリンクを介して隣接する全てのコンポーネントを選択する(S700)。選択部230は、例えばマウスでクリックするなどして利用者から予め選択された候補コンポーネントについてのみ、その候補コンポーネントに隣接するコンポーネントを選択してもよいし、全ての候補コンポーネントについてその何れかに隣接するコンポーネントを選択してもよい。
また、あるコンポーネントに隣接するコンポーネントは、リンクに対応付けて依存グラフ記憶部200に記憶された属性、または、リンクが有向リンクであればその方向に基づいて判断されてもよい。即ち例えば、選択部230は、障害検出部210によって検出された障害が、ある通信プロトコル(例えばTCP/IPプロトコル)による通信の障害である場合には、その通信プロトコルを属性とするリンクを介して隣接するコンポーネントのみを選択してもよい。また、選択部230は、あるコンポーネントから他のコンポーネントに対して有向リンクが接続されている場合には、当該コンポーネントに隣接するコンポーネントとして当該他のコンポーネントを選択し、当該他のコンポーネントに隣接するコンポーネントとして当該コンポーネントは選択しない。このように、リンクに対応付けられた属性や方向を有効に利用すれば、障害原因の探索範囲をより狭めることができ、その後の解析作業の負担を軽減できる。
そして、選択部230は、選択したそれぞれのコンポーネントについて、既にそのコンポーネントのログを表示させたか否かを判断する(S710)。未だ表示していないことを条件に(S710:NO)、選択部230は、そのコンポーネントを新たな候補コンポーネントとして選択する(S720)。
なお、未だログを表示させていない場合であっても、障害の重大さを示す重大度が予め定められた基準値以上の障害が発生していない場合には、選択部230は、そのコンポーネントを新たな候補コンポーネントとして選択しなくてもよい。例えば、選択部230は、隣接するそれぞれのコンポーネントのログをログDB225から読み出したうえで、それぞれのログに記録されたイベントに対応する障害の重要度を読み出す。そして、選択部230は、あるコンポーネントについて読み出したそれぞれのイベントの重要度が何れも基準値以下であれば、そのコンポーネントを候補コンポーネントとして選択しない。軽微な障害ですら発生していないコンポーネントは、障害の根本原因とはなりにくいからである。
そして、隣接するコンポーネントの全てについて判断が完了すれば(S730:YES)、表示制御部240は、新たに選択した候補コンポーネントにおいて生じたイベントのログを、ログDB225から読み出して、ログ表示部220にさらに表示する(S740)。判断の終了していないコンポーネントがあれば(S730:NO)、選択部230は、S710に処理を戻す。
図8は、垂直方向に探索範囲を拡大する処理のフローチャートを示す。S640またはS670において、まず、選択部230は、障害の発生したコンポーネントまたは既に選択した候補コンポーネントに依存グラフ上で垂直方向のリンクを介して隣接する全てのコンポーネントを選択する(S800)。選択部230は、例えばマウスでクリックするなどして利用者から予め選択された候補コンポーネントについてのみ、その候補コンポーネントに隣接するコンポーネントを選択してもよいし、全ての候補コンポーネントについてその何れかに隣接するコンポーネントを選択してもよい。
そして、選択部230は、選択したそれぞれのコンポーネントについて、既にそのコンポーネントのログを表示させたか否かを判断する(S810)。未だ表示していないことを条件に(S810:NO)、選択部230は、そのコンポーネントを新たな候補コンポーネントとして選択する(S820)。そして、隣接するコンポーネントの全てについて判断が完了すれば(S830:YES)、表示制御部240は、新たに選択した候補コンポーネントにおいて生じたイベントのログを、ログDB225から読み出して、ログ表示部220にさらに表示する(S840)。判断の終了していないコンポーネントがあれば(S830:NO)、選択部230は、S810に処理を戻す。
以上、図1から図8までを参照して説明したように、本実施形態に係る支援システム20によれば、コンポーネント同士の依存関係を3次元構造に視覚化して利用者に提示したうえで、垂直方向の探索および水平方向の探索を区別して指定させることができる。また、ログを表示するコンポーネントの範囲は、障害の発生したコンポーネントを中心として利用者の指示に応じ徐々に拡大させることができる。また、選択されたコンポーネントのログは、期間毎に分割されシンボル化されて時系列に配列されて表示される。これにより、利用者は、コンポーネント同士の関係を水平方向および垂直方向の依存関係に整理して認識し、ログの参照順序の指針とすることができる。また、原因追究の段階に応じ必要となった情報を必要となったときに順次追加して参照することができる。
図9は、本実施形態の変形例におけるログ表示部220の表示例を示す。本例は、図5に示す表示例の変形として、利用者の指示に基づき各コンポーネントに優先度を付して表示する例を示す。具体的には、表示制御部240は、既に選択された候補コンポーネント、候補コンポーネントとして選択されなかったコンポーネント、および、候補コンポーネントとして選択されてから候補コンポーネントから除外されたコンポーネントの順に優先して、例えば左側から順に配列してログ表示部220に表示させる。具体的には、HTTPサーバプログラム(HTTPサーバ)およびウェブアプリケーションサーバプログラム(APサーバ)は、候補コンポーネントとして選択されているので、表示制御部240は、これらのコンポーネントのログを示すシンボルを、画面左側に分類して表示する。他方、DBサーバプログラム1(DBサーバ1)およびDBサーバプログラム2(DBサーバ2)は、候補コンポーネントとして選択されなかったので、表示制御部240は、これらのコンポーネントのログを示すシンボルを、画面中央に分類して、2番目に優先して表示する。そして、DBサーバプログラム3(DBサーバ3)は、候補コンポーネントとして選択されてから除外されたので、表示制御部240は、このコンポーネントのログを示すシンボルを、画面右側に分類して、3番目に優先して表示する。このように、ログまたはそのシンボルは、利用者の指定に基づく優先度に従って分類されて表示されてもよい。このような表示によれば、原因発見の上で重要なログを区別して表示しつつも、候補から一旦除外され重要度の低いコンポーネントのログも画面上に表示させることができる。
図10は、支援システム20として機能する情報処理装置900のハードウェア構成の一例を示す。情報処理装置900は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置900が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置900の起動時にCPU1000が実行するブートプログラムや、情報処理装置900のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置900に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置900にインストールされて実行される。プログラムが情報処理装置900等に働きかけて行わせる動作は、図1から図9において説明した支援システム20における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、情報システム10および支援システム20の接続関係を示す。 図2は、支援システム20の機能構成を示す。 図3aは、依存グラフ記憶部200に記憶されるデータの第1例を示す。 図3bは、依存グラフ記憶部200に記憶されるデータの第2例を示す。 図4は、ログDB225のデータ構造の一例を示す。 図5は、ログ表示部220の表示例を示す。 図6は、表示されるログの範囲を徐々に拡大させる処理のフローチャートを示す。 図7は、水平方向に探索範囲を拡大する処理のフローチャートを示す。 図8は、垂直方向に探索範囲を拡大する処理のフローチャートを示す。 図9は、本実施形態の変形例におけるログ表示部220の表示例を示す。 図10は、支援システム20として機能する情報処理装置900のハードウェア構成の一例を示す。
符号の説明
10 情報システム
20 支援システム
100 情報処理装置
200 依存グラフ記憶部
210 障害検出部
220 ログ表示部
225 ログDB
230 選択部
240 表示制御部
250 選択除外部
310 ノード
320 ノード
321 ノード
330 ノード
340 ノード
350 ノード
351 ノード
360 ノード
361 ノード
370 ノード
371 ノード
390 ノード
510 トポロジー・ビュー
520 シーケンス・ビュー
530 テーブル・ビュー
540 指示ボタン
550 指示ボタン
560 指示ボタン
570 指示ボタン
580 指示ボタン
900 情報処理装置

Claims (10)

  1. 複数のコンポーネントを含む複数の情報システムにおいて、障害発生の原因箇所の発見を支援する支援システムであって、
    それぞれの前記コンポーネントは、何れかの情報処理装置のハードウェアの少なくとも一部、または、何れかの情報処理装置で動作するソフトウェアの少なくとも一部であり、
    コンポーネントをノードとし、同一の情報処理装置で動作する複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係を垂直方向のリンクで表し、かつ、それぞれが互いに異なる情報処理装置で動作する複数のコンポーネントが互いに通信する関係を水平方向のリンクで表した依存グラフを記憶する記憶部と、
    障害の発生したコンポーネントの検出に応じ、当該コンポーネントにおいて生じたイベントのログを表示するログ表示部と、
    利用者の指示に応じ、障害の発生したコンポーネントに前記依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択する選択部と、
    選択した前記候補コンポーネントにおいて生じたイベントのログを、前記ログ表示部にさらに表示させる表示制御部と
    を備え、
    前記選択部は、障害原因を垂直方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、
    障害原因を水平方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で水平方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択する
    支援システム。
  2. 前記選択部は、既に選択した前記候補コンポーネントに前記依存グラフ上で隣接するコンポーネントにおいて、障害の重大さを示す重大度が予め定められた基準値以上の障害が発生していないことを条件に、当該コンポーネントを新たな候補コンポーネントとして選択しない
    請求項1に記載の支援システム。
  3. 前記記憶部は、コンポーネント同士が互いに依存する関係を表すリンクを、リンクの種類を示す属性に対応付けて記憶し、
    前記選択部は、前記依存グラフにおいて、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに、発生した障害の種類に予め対応付けられた属性に対応するリンクを介して隣接するコンポーネントを、新たな候補コンポーネントとして選択する
    請求項1または2に記載の支援システム。
  4. 前記ログ表示部は、イベントのログを予め定められた期間毎に分割した複数の分割ログのそれぞれを、当該分割ログに記録された障害の重大度を示すシンボルによって表し、それぞれのシンボルをイベント発生順に配列して、コンポーネント毎に表示し、さらに、
    利用者から受けたシンボルの指定に応じ、指定された当該シンボルとして表された分割ログを表示する
    請求項1から3のいずれかに記載の支援システム。
  5. 既に候補コンポーネントとして選択してイベントのログを表示したコンポーネントのうち、利用者に指定されたコンポーネントを、候補コンポーネントから除外する選択除外部を更に備え、
    前記表示制御部は、候補コンポーネントから除外された前記コンポーネントのログを、前記ログ表示部の表示から除外する
    請求項1から4のいずれかに記載の支援システム。
  6. 既に候補コンポーネントとして選択してイベントのログを表示したコンポーネントのうち、利用者に指定されたコンポーネントを、候補コンポーネントから除外する選択除外部を更に備え、
    前記表示制御部は、候補コンポーネント、候補コンポーネントとして選択されなかったコンポーネント、候補コンポーネントとして選択されてから候補コンポーネントから除外されたコンポーネントとに分類して、前記ログ表示部にイベントのログを表示させる
    請求項1から4のいずれかに記載の支援システム。
  7. 前記記憶部は、他のコンポーネントにおいて障害が発生したか否かを監視するプログラムである監視エージェントが、監視結果を収集する監視サーバプログラムに対し監視結果を送信する関係を表す監視用リンクを、他のリンクとは区別可能に表した依存グラフを記憶し、
    前記選択部は、監視用リンクを介して障害原因を探索する指示に応じ、障害の発生したコンポーネントまたは候補コンポーネントを監視する監視エージェントと、前記依存グラフ上で前記監視用リンクを介して隣接するコンポーネントを候補コンポーネントとして選択する
    請求項1から6のいずれかに記載の支援システム。
  8. 複数のコンポーネントを含む複数の情報システムにおいて、障害発生の原因箇所の発見を支援する方法であって、
    それぞれのコンポーネントは、何れかの情報処理装置のハードウェアの少なくとも一部、または、何れかの情報処理装置で動作するソフトウェアの少なくとも一部であり、
    コンポーネントをノードとし、同一の情報処理装置で動作する複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係を垂直方向のリンクで表し、かつ、それぞれが互いに異なる情報処理装置で動作する複数のコンポーネントが互いに通信する関係を水平方向のリンクで表した依存グラフを記憶し、
    障害の発生したコンポーネントの検出に応じ、当該コンポーネントにおいて生じたイベントのログを表示し、
    利用者の指示に応じ、障害の発生したコンポーネントに前記依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択し、
    選択した前記候補コンポーネントにおいて生じたイベントのログをさらに表示させ、
    障害原因を垂直方向に探索する利用者の指示があった場合は、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、障害原因を水平方向に探索する利用者の指示があった場合には、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で水平方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、選択した前記候補コンポーネントにおいて生じたイベントのログをさらに表示させる
    方法。
  9. 複数のコンポーネントを含む複数の情報システムにおいて、障害発生の原因箇所の発見を支援する支援システムとして、情報処理装置を機能させるプログラムであって、
    それぞれの前記コンポーネントは、何れかのコンピュータのハードウェアの少なくとも一部、または、何れかのコンピュータで動作するソフトウェアの少なくとも一部であり、
    前記情報処理装置を、
    コンポーネントをノードとし、同一のコンピュータで動作する複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係を垂直方向のリンクで表し、かつ、それぞれが互いに異なるコンピュータで動作する複数のコンポーネントが互いに通信する関係を水平方向のリンクで表した依存グラフを記憶する記憶部と、
    障害の発生したコンポーネントの検出に応じ、当該コンポーネントにおいて生じたイベントのログを表示するログ表示部と、
    利用者の指示に応じ、障害の発生したコンポーネントに前記依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択する選択部と、
    選択した前記候補コンポーネントにおいて生じたイベントのログを、前記ログ表示部にさらに表示させる表示制御部
    として機能させ、
    前記選択部は、障害原因を垂直方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、
    障害原因を水平方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で水平方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択する
    プログラム。
  10. 複数のコンポーネントを含む複数の情報システムにおいて、障害発生の原因箇所の発見を支援する支援システムであって、
    それぞれの前記コンポーネントは、何れかの情報処理装置のハードウェアの少なくとも一部、または、何れかの情報処理装置で動作するソフトウェアの少なくとも一部であり、
    コンポーネントをノードとし、同一の情報処理装置で動作する複数のコンポーネントのうちの一のコンポーネントが他のコンポーネントの動作を前提に動作する関係を垂直方向のリンクで表し、かつ、それぞれが互いに異なる情報処理装置で動作する複数のコンポーネントが互いに通信する関係を水平方向のリンクで表した依存グラフを記憶する記憶部と、
    障害の発生したコンポーネントの検出に応じ、当該コンポーネントにおいて生じたイベントのログを表示するログ表示部と、
    利用者の指示に応じ、障害の発生したコンポーネントに前記依存グラフ上で隣接するコンポーネントを、障害原因の候補となる候補コンポーネントとして選択する選択部と、
    選択した前記候補コンポーネントにおいて生じたイベントのログを、前記ログ表示部にさらに表示させる表示制御部と、
    既に候補コンポーネントとして選択してイベントのログを表示したコンポーネントのうち、利用者に指定されたコンポーネントを、候補コンポーネントから除外する選択除外部と
    を備え、
    前記選択部は、障害原因を垂直方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で垂直方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、
    障害原因を水平方向に探索する指示に応じ、障害の発生した前記コンポーネントまたは既に選択した前記候補コンポーネントに前記依存グラフ上で水平方向のリンクを介して隣接するコンポーネントを、既にログを表示させていないことを条件に、新たな候補コンポーネントとして選択し、
    方向を指定しない探索の指示に応じ、水平方向または垂直方向のうち前回の探索の方向と異なる方向のリンクを介して、既に選択した前記候補コンポーネントに前記依存グラフ上で隣接するコンポーネントを、新たな候補コンポーネントとして選択し、
    前記表示制御部は、候補コンポーネントから除外された前記コンポーネントのログを、前記ログ表示部の表示から除外する
    支援システム。
JP2006243845A 2006-09-08 2006-09-08 障害発生の原因箇所の発見を支援する技術 Expired - Fee Related JP4172807B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006243845A JP4172807B2 (ja) 2006-09-08 2006-09-08 障害発生の原因箇所の発見を支援する技術
US11/844,549 US20080065928A1 (en) 2006-09-08 2007-08-24 Technique for supporting finding of location of cause of failure occurrence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006243845A JP4172807B2 (ja) 2006-09-08 2006-09-08 障害発生の原因箇所の発見を支援する技術

Publications (2)

Publication Number Publication Date
JP2008065668A JP2008065668A (ja) 2008-03-21
JP4172807B2 true JP4172807B2 (ja) 2008-10-29

Family

ID=39171189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006243845A Expired - Fee Related JP4172807B2 (ja) 2006-09-08 2006-09-08 障害発生の原因箇所の発見を支援する技術

Country Status (2)

Country Link
US (1) US20080065928A1 (ja)
JP (1) JP4172807B2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4682993B2 (ja) * 2007-02-16 2011-05-11 富士ゼロックス株式会社 画像形成装置及びプログラム
WO2010010621A1 (ja) * 2008-07-24 2010-01-28 富士通株式会社 トラブルシュート支援プログラム,トラブルシュート支援方法及びトラブルシュート支援装置
JP5423677B2 (ja) * 2008-08-04 2014-02-19 日本電気株式会社 障害解析装置、コンピュータプログラムおよび障害解析方法
JP5140633B2 (ja) * 2008-09-04 2013-02-06 株式会社日立製作所 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
JP5444673B2 (ja) * 2008-09-30 2014-03-19 富士通株式会社 ログ管理方法、ログ管理装置、ログ管理装置を備えた情報処理装置、及びプログラム
JP5258040B2 (ja) * 2008-10-30 2013-08-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP5220556B2 (ja) * 2008-10-30 2013-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
JP5220555B2 (ja) * 2008-10-30 2013-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 障害イベントの検出を支援する装置、障害イベントの検出を支援する方法及びコンピュータプログラム
US8117500B2 (en) * 2009-04-30 2012-02-14 Accenture Global Services Gmbh Systems and methods for identifying a relationship between multiple interrelated applications in a mainframe environment
JP5353540B2 (ja) * 2009-08-05 2013-11-27 富士通株式会社 動作履歴収集装置、動作履歴収集方法およびプログラム
US8392760B2 (en) * 2009-10-14 2013-03-05 Microsoft Corporation Diagnosing abnormalities without application-specific knowledge
EP2498186A4 (en) * 2009-11-04 2013-04-10 Fujitsu Ltd OPERATING MANAGEMENT DEVICE AND OPERATING MANAGEMENT PROCESS
US8245082B2 (en) * 2010-02-25 2012-08-14 Red Hat, Inc. Application reporting library
US20110227925A1 (en) * 2010-03-16 2011-09-22 Imb Corporation Displaying a visualization of event instances and common event sequences
US8185780B2 (en) 2010-05-04 2012-05-22 International Business Machines Corporation Visually marking failed components
WO2012046293A1 (ja) * 2010-10-04 2012-04-12 富士通株式会社 障害監視装置、障害監視方法及びプログラム
CN102467438A (zh) * 2010-11-12 2012-05-23 英业达股份有限公司 利用基板管理控制器取得储存装置故障信号的方法
JP5685922B2 (ja) * 2010-12-17 2015-03-18 富士通株式会社 管理装置、管理プログラム、および管理方法
US8671186B2 (en) * 2011-03-08 2014-03-11 Hitachi, Ltd. Computer system management method and management apparatus
US9122602B1 (en) * 2011-08-31 2015-09-01 Amazon Technologies, Inc. Root cause detection service
JP6031224B2 (ja) * 2011-09-27 2016-11-24 Kddi株式会社 障害発生箇所診断システム
US8904350B2 (en) * 2011-12-21 2014-12-02 International Business Machines Corporation Maintenance of a subroutine repository for an application under test based on subroutine usage information
US8806277B1 (en) * 2012-02-01 2014-08-12 Symantec Corporation Systems and methods for fetching troubleshooting data
WO2013168495A1 (ja) * 2012-05-10 2013-11-14 日本電気株式会社 階層型確率モデル生成システム、階層型確率モデル生成方法、およびプログラム
JP6057750B2 (ja) * 2013-02-04 2017-01-11 日本電信電話株式会社 ログ可視化操作画面制御システム及び方法
JP6238221B2 (ja) 2013-03-19 2017-11-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ソフトウェアの実行を監視する装置、方法およびプログラム
CN103309805B (zh) * 2013-04-24 2015-09-16 南京大学镇江高新技术研究院 xUnit框架下面向对象软件中测试目标的自动化选择方法
US10791148B2 (en) * 2013-04-29 2020-09-29 Moogsoft Inc. System in communication with a managed infrastructure
CN104516730B (zh) 2013-09-29 2017-11-10 国际商业机器公司 一种数据处理方法和装置
WO2015140842A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 システムを監視する情報処理装置及び監視方法
US20150281011A1 (en) * 2014-04-01 2015-10-01 Ca, Inc. Graph database with links to underlying data
US10503577B2 (en) 2015-06-01 2019-12-10 Hitachi, Ltd. Management system for managing computer system
CN106909485B (zh) * 2015-12-23 2020-10-23 伊姆西Ip控股有限责任公司 用于确定存储系统性能下降的原因的方法和设备
US10402255B1 (en) * 2016-01-22 2019-09-03 Veritas Technologies Llc Algorithm for aggregating relevant log statements from distributed components, which appropriately describes an error condition
AU2017220066A1 (en) * 2016-02-18 2018-08-30 New Relic, Inc. Identifying the root cause of an issue observed during application execution
CN107332680A (zh) * 2016-04-28 2017-11-07 苏宁云商集团股份有限公司 一种系统监控方法及装置
EP3549350A4 (en) 2016-11-29 2021-03-24 Intel Corporation MILLIMETRIC WAVE CHASSIS INTERCONNECTION TECHNOLOGIES
US20180150256A1 (en) * 2016-11-29 2018-05-31 Intel Corporation Technologies for data deduplication in disaggregated architectures
WO2018131147A1 (ja) * 2017-01-13 2018-07-19 株式会社日立製作所 管理システム、管理装置、および管理方法
US10528415B2 (en) * 2017-02-28 2020-01-07 International Business Machines Corporation Guided troubleshooting with autofilters
JP6981063B2 (ja) * 2017-06-28 2021-12-15 富士通株式会社 表示制御プログラム、表示制御方法、及び表示制御装置
JP7305588B2 (ja) * 2020-03-19 2023-07-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ流通制御装置、方法およびプログラム
JP7330920B2 (ja) * 2020-03-19 2023-08-22 エヌ・ティ・ティ・コミュニケーションズ株式会社 データ流通制御装置、方法およびプログラム
US11704185B2 (en) * 2020-07-14 2023-07-18 Microsoft Technology Licensing, Llc Machine learning-based techniques for providing focus to problematic compute resources represented via a dependency graph
US11789842B2 (en) * 2021-10-11 2023-10-17 Dell Products L.P. System and method for advanced detection of potential system impairment
JP7667520B2 (ja) * 2022-02-21 2025-04-23 日本電信電話株式会社 探索装置、探索方法、及び、探索プログラム
KR102679450B1 (ko) * 2023-10-11 2024-07-01 쿠팡 주식회사 서버 및 이의 에러 분석 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06501118A (ja) * 1990-09-17 1994-01-27 ケーブルトロン・システムス・インコーポレーテッド モデル準拠のインテリジェンスを使用するネットワーク管理システム
US6154849A (en) * 1998-06-30 2000-11-28 Sun Microsystems, Inc. Method and apparatus for resource dependency relaxation
US7218624B2 (en) * 2001-11-14 2007-05-15 Interdigital Technology Corporation User equipment and base station performing data detection using a scalar array
US7152157B2 (en) * 2003-03-05 2006-12-19 Sun Microsystems, Inc. System and method for dynamic resource configuration using a dependency graph

Also Published As

Publication number Publication date
US20080065928A1 (en) 2008-03-13
JP2008065668A (ja) 2008-03-21

Similar Documents

Publication Publication Date Title
JP4172807B2 (ja) 障害発生の原因箇所の発見を支援する技術
JP4872944B2 (ja) 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
US7472179B2 (en) System management method for a data center
JP5571847B2 (ja) 複数の制御システムの異常を検知する異常検知システム
JP4199322B2 (ja) 情報処理装置及び情報処理装置のエラー採取方法
KR102549129B1 (ko) 디바이스 장애 통합 관리 플랫폼 제공 방법
JP2005025483A (ja) ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
CN111614483A (zh) 链路监控方法、装置、存储介质及计算机设备
EP2639696B1 (en) Analysis method and information processing apparatus
US7496795B2 (en) Method, system, and computer program product for light weight memory leak detection
EP4270183A1 (en) Public cloud tenant service management method and device
JP2003006067A (ja) 管理情報収集支援プログラムおよび管理情報収集支援装置
JP4434457B2 (ja) アクセスログの監視支援方法およびそのシステム、並びに統合監視装置
KR100500836B1 (ko) 매트로 이더넷망의 장애처리 장치 및 그 방법
JPH11212826A (ja) 障害情報出力方式及び装置
JP6168209B2 (ja) 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2008005118A (ja) ネットワーク監視システム
JP2018142092A (ja) 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム
JP2004164552A (ja) データ表示システムとデータ表示方法およびプログラム
JP2009182934A (ja) 障害監視装置及び障害監視方法並びにそのためのプログラム
JP5655639B2 (ja) 監視装置、監視方法、プログラム及び監視システム
JP2011146073A (ja) 運用管理装置、運用管理システム、情報処理方法、及び運用管理プログラム
JP2010146154A (ja) 障害対応手段判定装置及びコンピュータプログラム及び障害対応手段判定方法
JP2006202293A (ja) 資産情報の一元管理を行うコンピュータシステム
JP2023136444A (ja) 解析プログラム、解析方法、および情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20080206

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080811

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees