JP2009086896A - Computer failure prediction system and failure prediction method - Google Patents
Computer failure prediction system and failure prediction method Download PDFInfo
- Publication number
- JP2009086896A JP2009086896A JP2007254218A JP2007254218A JP2009086896A JP 2009086896 A JP2009086896 A JP 2009086896A JP 2007254218 A JP2007254218 A JP 2007254218A JP 2007254218 A JP2007254218 A JP 2007254218A JP 2009086896 A JP2009086896 A JP 2009086896A
- Authority
- JP
- Japan
- Prior art keywords
- data
- failure
- learning
- computer
- failure occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
Abstract
【課題】コンピュータから種々の運用履歴データを捕捉して故障の要因を突き止め、代替用のコンピュータの用意を極小化を図ることができるコンピュータの障害予測システムおよび方法を提供する。
【解決手段】センター監視部21は、複数のハードウェア機器22a〜22nのサンプルデータaのログを格納するシステムログ格納DB23と、システムログ格納DB23からサンプルデータaを入力してハードウェア機器22a〜22nの障害発生までの時間の実測値から障害発生予測の重み付けを演算処理して得られた教師データbに基づいて学習データcを生成する学習用データ演算手段24と、学習データcを入力して故障モデル(所望数式)を規定し、任意のハードウェア機器22の障害発生時間予測データkを生成する学習済障害発生モデル規定手段25と、任意のハードウェア機器22の障害発生時間予測データkを入力して表示データeを出力する出力部27を備える。
【選択図】図1Disclosed is a computer failure prediction system and method capable of capturing various operation history data from a computer, determining the cause of the failure, and minimizing the provision of a replacement computer.
A center monitoring unit (21) stores a system log storage DB (23) for storing logs of sample data (a) of a plurality of hardware devices (22a-22n), and inputs the sample data (a) from the system log storage DB (23). The learning data calculation means 24 for generating learning data c based on the teacher data b obtained by calculating the weight of failure occurrence prediction from the actual measured value of the time until the occurrence of the failure 22n, and the learning data c are input. The failure model (desired mathematical formula) is defined, and the learned failure occurrence model defining means 25 for generating the failure occurrence time prediction data k of any hardware device 22 and the failure occurrence time prediction data k of any hardware device 22 And an output unit 27 that outputs the display data e.
[Selection] Figure 1
Description
この発明は、対象物から計測すべきデータを収集する保守対象のネットワークコンピュータに対して、通信回線を介して保守装置を接続することにより、ネットワークコンピュータの状態を監視するコンピュータの障害予測システムおよび障害予測方法に関する。 The present invention relates to a computer failure prediction system for monitoring the status of a network computer by connecting a maintenance device via a communication line to a maintenance target network computer that collects data to be measured from an object, and the failure It relates to the prediction method.
従来、この種のコンピュータの障害予測システムおよび障害予測方法システムにあっては、例えば特開2004−247019(特許文献1)に開示されているように、コンピュータの障害発生を予測するにあたり、統計的算出手段により算出された統計量およびデータ蓄積手段により蓄積されている過去の統計量を基にコンピュータの安定性を統計的に定量評価する手法が用いられていた。 Conventionally, in this type of computer failure prediction system and failure prediction method system, as disclosed in, for example, Japanese Patent Application Laid-Open No. 2004-247019 (Patent Document 1), when predicting a computer failure occurrence, A method of statistically and quantitatively evaluating the stability of the computer based on the statistics calculated by the calculation means and the past statistics accumulated by the data storage means has been used.
このコンピュータの障害予測システムの定量評価手法は、図7に示すように、
計測装置に対して保守装置を通信接続し、計測装置の障害予測を行うようにしたものである。この保守装置は、データベースから得られる計測装置の各識別機能ごとの分布データから算出される統計量を用いて、計測装置の安定性を統計的に定量評価し、計測装置に障害が発生すると予測できる場合は、オペレータ用端末装置および保守用端末装置に警告を発するようにしたものである。
As shown in FIG. 7, the quantitative evaluation method of this computer failure prediction system is as follows.
A maintenance device is communicatively connected to the measuring device to predict a failure of the measuring device. This maintenance device uses the statistics calculated from the distribution data for each identification function of the measurement device obtained from the database to statistically evaluate the stability of the measurement device and predicts that a failure will occur in the measurement device If possible, a warning is issued to the operator terminal device and the maintenance terminal device.
図7は、従来のコンピュータの障害予測システムの実施形態を示すブロック図である。 FIG. 7 is a block diagram showing an embodiment of a conventional computer failure prediction system.
図7に示すコンピュータの障害予測システム1は、計測装置2に対して保守装置3を通信接続し、計測装置2の障害予測を行うようにしている。
The computer
計測装置2は、対象物を識別する機能を有しており、例えば対象物を同定したり、複数の段階に判定したりする。同定機能は、計測装置2の性能に関わる重要な機能であり、絶対的な判断基準を持った機能であるが、判定機能は、人間の主観的/官能的な判断に基づく相対的な判断基準を持った機能であり、機械の性能としては同定機能ほど重要なものではないとする。また、同定機能は、複数の検査項目で判断しており、いずれかの項目がNGと識別したなら、計測装置2としてはNGと出力するようになっている。
The
保守装置3は、データベース4から得られる計測装置2の各識別機能ごとの統計量および計測装置2から得られる各識別機能ごとの分布データから算出される統計量を用いて、計測装置2の安定性を統計的に定量評価し、計測装置2に障害が発生すると予測できる場合は、オペレータ用端末装置5に警告を発するようになっている。
The maintenance device 3 uses the statistics for each identification function of the
この保守装置3は、自律的に動作し、定期的に計測装置2の状態を監視している。定期的な監視は、計測装置2から得られる分布データから算出される統計量およびデータベース4に蓄積されている複数日の正常な分布データから得られた統計量を基に、計測装置2の安定性を定量評価することで行っている。
The maintenance device 3 operates autonomously and periodically monitors the state of the
また、保守装置3は、通信回線6を介して計測装置2からの分布データを受信する分布データ受信部7、受信された分布データから統計量を算出する統計量算出手段8と、この統計量算出手段8から得られる計測装置2の統計量をデータベース4に記録(格納)する統計量記録部9と、分布データ受信部7で受信された分布データをデータベース4に記録(格納)する分布データ記録部10と、データベース4から得られる計測装置2の複数日の統計量を読み込む統計量読込部11と、読み込まれた統計量と統計量算出手段8から得られる統計量とを用いて、計測装置2に障害が発生するかを予測する定量評価手段12と、定量評価手段13にて計測装置2に障害が発生すると予測できる場合に、オペレータ用端末装置5および保守用端末装置13に警告を表示する報知手段としての警告通知部14から構成される。
The maintenance device 3 includes a distribution
統計量読込部11は、データベース4から得られる計測装置2の複数日の統計量を全ての識別機能/検査項目ごとの読込み、定量評価手段12へ送信する。
The statistic reading unit 11 reads the statistics of the
また、定量評価手段12は、識別機能/検査項目ごとのヒストグラムなどの統計量およびデータベース4から得られる分数日の統計量を用いて、計測装置2の障害発生を予測する。
Further, the quantitative evaluation means 12 predicts the occurrence of a failure in the
従来のコンピュータの障害予測システム1によれば、上述の定量評価手段12を各計測装置2ごとに行うことで、保守対象となる計測装置2の障害発生を事前に予測することができ、また、障害が発生した場合でも迅速に対応することができるものである。
しかしながら、従来のコンピュータの障害予測システムによれば、保守対象となる計測装置の障害発生を事前に予測することができ、また、障害が発生した場合でも迅速に対応することができるものであるが、
その障害発生の事前予測精度において、運用されているコンピュータからの画一的なデータからは必ずしも論理的、合理的な予測がなされていないため、障害が発生の場合に備えて代替用のコンピュータを常に且つ十分に備えておかねばならず、そのための準備コストも相応にかかっていた。
However, according to a conventional computer failure prediction system, it is possible to predict in advance the occurrence of a failure in a measuring device to be maintained, and to respond quickly even if a failure occurs. ,
In the accuracy of predicting the occurrence of a failure, logical and reasonable predictions are not necessarily made from uniform data from the computer in operation, so a replacement computer should be prepared in case of failure. It was necessary to always and fully prepare, and the preparation costs for that were also appropriate.
本発明は、以上の点に鑑みてなされたもので、運用されているコンピュータから種々の運用履歴データを捕捉して故障の原因や要因を突き止め、これを活用することにより結果的により一層の障害発生の事前予測精度を向上させ、代替用のコンピュータの用意を極小化して準備コストの低減化を図ることができるコンピュータの障害予測システムおよび障害予測方法を提供することを目的とする。 The present invention has been made in view of the above points, and by capturing various operation history data from an operating computer to determine the cause and cause of the failure, and utilizing this, further failure as a result It is an object of the present invention to provide a computer failure prediction system and failure prediction method capable of improving the prior prediction accuracy of occurrence and minimizing the preparation of a replacement computer to reduce the preparation cost.
上記目的を達成するために、本発明によれば、ネットワークコンピュータの運用管理を行うセンター監視部と、コンピュータネットワークを構成する複数のハードウェア機器とを具備し、前記センター監視部は、前記複数のハードウェア機器のサンプルデータのログを格納するシステムログ格納DBと、前記システムログ格納DBから前記サンプルデータを入力して前記ハードウェア機器の障害発生までの時間の実測値から障害発生予測の重み付けを演算処理して得られた教師データに基づいて学習データを生成する学習用データ演算手段と、前記学習データを入力して故障モデル(所望数式)を規定し、任意のハードウェア機器の障害発生時間予測データを生成する学習済障害発生モデル規定手段と、前記学習済障害発生モデル規定手段へ、前記複数のハードウェア機器の中から任意のハードウェア機器のサンプルデータを入力する入力部と、前記学習済障害発生モデル規定手段から、前記任意のハードウェア機器の障害発生時間予測データを入力して表示データを出力する出力部と、を備えたことを特徴とするコンピュータの障害予測システムを提供する。 In order to achieve the above object, according to the present invention, a center monitoring unit that performs operation management of a network computer, and a plurality of hardware devices that constitute a computer network, the center monitoring unit includes the plurality of hardware devices. A system log storage DB that stores a log of sample data of a hardware device, and a weight for predicting a failure occurrence from an actual measurement value until the failure of the hardware device is input by inputting the sample data from the system log storage DB Learning data calculation means for generating learning data based on the teacher data obtained by the calculation processing, a failure model (desired mathematical formula) is defined by inputting the learning data, and the failure occurrence time of any hardware device To learned fault occurrence model defining means for generating prediction data, and to learned fault occurrence model defining means An input unit for inputting sample data of an arbitrary hardware device from the plurality of hardware devices, and input of failure occurrence time prediction data of the arbitrary hardware device from the learned failure occurrence model defining means There is provided a computer failure prediction system comprising an output unit for outputting display data.
上記目的を達成するために、本発明によれば、システムログ格納DBが複数のハードウェア機器からサンプルデータを格納するステップ<st1>と、学習用データ演算手段の学習用データ格納DBが、前記サンプルデータを入力し、機器の障害発生までの時間の実測値を格納するステップ<st2>と、学習用データ演算手段の学習機能手段が、サンプルデータおよび教師データをニューラルネットワークの学習機能により学習させて学習データを生成するステップ<st3>と、学習済障害発生モデル規定手段により、ニューラルネットワークの学習機能により学習済みモデルを生成しデータ格納するステップ<st4>と、入力部から学習済障害発生モデル規定手段へ、任意のハードウェア機器のサンプルデータを入力し、前記学習済みモデルと照合して障害発生時間予測データを生成するステップ<st5>と、出力部が前記障害発生時間予測データに基づき表示データを出力するステップ<st6>と、を具備することを特徴とするコンピュータの障害予測方法を提供する。 In order to achieve the above object, according to the present invention, the system log storage DB stores sample data from a plurality of hardware devices <st1>, and the learning data storage DB of the learning data calculation means Step <st2> in which sample data is input and an actual measurement value of the time until the failure of the device is stored, and the learning function means of the learning data calculation means causes the learning function of the neural network to learn the sample data and the teacher data. Generating learning data by step <st3>, generating a learned model by the learning function of the neural network by means of the learned failure occurrence model defining means and storing the data <st4>, and learning failure occurrence model from the input unit Input the sample data of any hardware device to the prescribing means. A computer comprising: a step <st5> of generating failure occurrence time prediction data by collating with a model; and a step <st6> in which an output unit outputs display data based on the failure occurrence time prediction data. Provide a failure prediction method.
本発明によれば、運用されているコンピュータから種々の運用履歴データを捕捉して故障の原因や要因を突き止め、これを活用することにより結果的により一層の障害発生の事前予測精度を向上させ、代替用のコンピュータの用意を極小化して準備コストの低減化を図ることができるコンピュータの障害予測システムおよび障害予測方法を提供することができる。 According to the present invention, various operation history data is captured from an operating computer to find out the cause and factor of the failure, and by using this, the prior prediction accuracy of further failure occurrence is improved as a result, It is possible to provide a computer failure prediction system and a failure prediction method capable of minimizing the provision of an alternative computer and reducing the preparation cost.
本発明のコンピュータの障害予測システムに係る実施形態について、添付図面を参照して説明する。 An embodiment according to a computer failure prediction system of the present invention will be described with reference to the accompanying drawings.
図1は、本発明のコンピュータの障害予測システムの全体構成を示すブロック図である。 FIG. 1 is a block diagram showing the overall configuration of a computer failure prediction system according to the present invention.
図1に示すコンピュータの障害予測システム20は、ネットワークコンピュータの運用管理を行うセンター監視部21と、コンピュータネットワークを構成する複数のハードウェア機器(以下、HW機器という。)22a〜22nとを具備する。
A computer
このセンター監視部21は、HW機器22a〜22nや他のHW機器のそれぞれが全く予告なしに障害や故障を起し、急に「クリティカル」、「ワーニング」あるいは「Notice」等の警告ないしは通知が発生する前に、任意のHW機器について監視することができる。
The
このセンター監視部21は、特定地域の中央に1ヶ所設けられ、周辺機器として、数百前後サイトとしての複数のHW機器22a〜22nが設けられる。
The
このHW機器22a〜22nは、出荷レベルでの検査では不可能なログデータがないので、予知ができず、急に「ワーニング」等の使用停止処分になる場合がある。このため、HW機器22a〜22nからは、当該HW機器のログ情報としてのサンプルデータa(a1〜an)を常時または随時に採取して利用することにより対策をとることができる。
Since the
このため、コンピュータの障害予測システム20のセンター監視部21には、HW機器22a〜22nのサンプルデータa(a1〜an)を格納するシステムログ格納DB23が設けられる。
For this reason, the
また、センター監視部21には、システムログ格納DB23からサンプルデータaを入力して前記HW機器22a〜22nの障害発生までの時間の実測値から障害発生予測の重み付けを演算処理して得られた教師データbに基づいて学習データcを生成する学習用データ演算手段24と、学習データcを入力して故障モデル(所望数式)を規定し、任意のHW機器22の障害発生時間予測データkを生成する学習済障害発生モデル規定手段25と、学習済障害発生モデル規定手段25へ、複数のHW機器22a〜22nの中から任意のHW機器22のサンプルデータaを入力する入力部26と、学習済障害発生モデル規定手段25から、任意のHW機器22の障害発生時間予測データkを入力して表示データeを出力する出力部27が設けられる。
Further, the
一方、サイトとして設けられHW機器22a〜22nは、当該HW機器22a〜22nのそれぞれに発生する特定ハードウェア機器のシステムログ情報データであるサンプルデータ(入力データ)aを生成する。
On the other hand, the
このHW機器22a〜22nは、図1に示すように、例えばHW機器(1)22aは、サンプル出力装置30aを備え、運用中に得たサンプルデータa1を作成して逐次システムログ格納DB23へ出力するように構成される。このサンプル出力装置30aは、ハードディスクドライブ(HDD)30a1,中央演算処理装置(CPU)30a2およびメモリー(MEM)30a3を備えている。これらのHDD30a1,CPU30a2およびMEM30a3の働きにより、サンプル出力装置30aの運用データが収集・蓄積され、図2に示すように、サンプルデータa1としてシステムログ格納DB23へ出力できる機能を備える。
As shown in FIG. 1, for example, the HW device (1) 22a includes a
サンプル出力装置30b〜30nについても、サンプル出力装置30aと同様にサンプルデータa2〜anとしてシステムログ格納DB23へ出力できる機能を備える。
Similarly to the
図2は、コンピュータの障害予測システム20に用いられるサンプルデータ(入力データ)の例を示す図である。
FIG. 2 is a diagram illustrating an example of sample data (input data) used in the computer
図2に示すサンプルデータaの、例えばHW機器(1)は、「当該日1日前データ」,「当該日2日前データ」‥「当該日N日前データ」として、それぞれ変数(1),変数(2)‥変数(n)のデータが数字または記号(図示せず)により得られるようになっている。
For example, the HW device (1) of the sample data a shown in FIG. 2 has a variable (1) and a variable (1 day before the day),
なお、HW機器(2)〜HW機器(n)については、HW機器(1)と同様であるので説明を省略する。 Since the HW device (2) to the HW device (n) are the same as the HW device (1), the description thereof is omitted.
システムログ格納DB23は、HW機器(1)〜HW機器(n)から、図2に示すように、サンプルデータaを入力し、学習用データ演算手段24側へ出力するものである。
The system
学習用データ演算手段24は、学習用データ格納DB24aおよび学習機能手段24bを備える。
The learning data calculation means 24 includes a learning
学習用データ格納DB24aは、図1および図3に示すように、システムログ格納DB23から出力されたサンプルデータaの変数および教師データbを入力し、学習機能手段24bにて学習させるようにしている。
As shown in FIGS. 1 and 3, the learning
図3は、コンピュータの障害予測システム20の学習済データ演算手段24の演算前の状態を示す説明図である。
FIG. 3 is an explanatory diagram showing a state before calculation of the learned data calculation means 24 of the
図3に示す学習用データ格納DB24aは、サンプルデータaに基づいて、障害に関連するデータを抽出した教師データbを生成する。この教師データbは、図4に示すように、変数(1)を求めることである。図4は、コンピュータの障害予測システム20に用いられるサンプルデータ(教師データ)の例を示している。
The learning
学習用データ格納DB24aは、サンプルデータaの変数および教師データbを入力し、障害発生までの時間が予測できるように、予め記憶された演算数式に組み込む変数(1)が選定されるようにしたデータベースである。演算数式については図示しないが、変数(1)〜変数(n)までの時間(秒)が演算され、総合的に障害発生までの予測時間が計算され、それぞれ学習済障害発生モデル規定手段25に出力されるようになっている。
The learning
学習機能手段24bは、図5に示すように、学習データcを得る前段階の状態であり、ニューラルネットワーク(NN)に入力し学習を済ませた段階である。 As shown in FIG. 5, the learning function means 24b is in a state before obtaining the learning data c, and is a stage where the learning data c is input to the neural network (NN) and learning is completed.
図5は、学習を済ませた学習済データ演算手段24の演算後の状態を示している。 FIG. 5 shows a state after calculation of the learned data calculation means 24 that has completed learning.
図5に示すニューラルネットワーク(NN)は、図6の学習機能手段24bに示すように、不良値除去、正規化処理およびニューラルネット(NN)による学習によりデータの重み付けを行った結果得られた学習データcを学習済障害発生モデル規定手段25側へ出力するものである。 The neural network (NN) shown in FIG. 5 is a learning obtained as a result of weighting data by removing defective values, normalizing processing, and learning using a neural network (NN), as shown in the learning function means 24b of FIG. Data c is output to the learned failure occurrence model defining means 25 side.
学習済障害発生モデル規定手段25は、学習機能手段24bから学習データcを入力し、この学習データcと学習済みモデルと照合して障害発生時間予測データkを生成する機能を有する。
The learned failure occurrence
すなわち、この障害発生時間予測データkの生成機能は、図6の学習済障害発生モデル規定手段25に示すように、ニューラルネットワーク(NN)による学習後にデータの重み付けを行った結果得られた障害発生時間予測データkが生成され、予測処理および逆正規化処理行った後、学習済障害発生モデル規定手段25側へ出力するものである。 That is, the failure occurrence time prediction data k generation function is the failure occurrence obtained as a result of weighting data after learning by the neural network (NN) as shown in the learned failure occurrence model defining means 25 in FIG. Temporal prediction data k is generated, subjected to prediction processing and denormalization processing, and then output to the learned failure occurrence model defining means 25 side.
障害発生時間予測データkを求めるに当たっては、学習済障害発生モデル規定手段25に保存された障害発生モデルに対して、入力部26から入力した該当するHW機器のサンプルデータaとを照合することにより得られた結果である。
In determining the failure occurrence time prediction data k, the failure occurrence model stored in the learned failure occurrence
この照合(比較)手法には、既存するシェフェの方法あるいはテューキーの方法を用いることができる。 For this collation (comparison) method, an existing Scheffe method or Tukey method can be used.
これらの手法で求められた障害発生時間予測データkは、時間予測データのみならず、機種単位あるいは固有の機器の型番に応じて、時間予測データを異ならせたりするなど両方の分析結果を合わせ出力ことができる。 The failure occurrence time prediction data k obtained by these methods is not only the time prediction data, but also outputs both analysis results such as different time prediction data depending on the model unit or the model number of the specific device. be able to.
入力部26は、HW機器(1)〜HW機器(n)の中から特定したHW機器のサンプルデータaが入力されて、このHW機器の障害発生予測を行うことができる。また、例えばHW機器(1)の障害発生予測を行う場合、サンプルデータa1の他に、HW機器(1)の使用環境データdを含めて障害発生時間予測データkを得ることができる。更にまた、サンプルデータaを採取したHW機器(1)〜HW機器(n)以外の別個のHW機器(図示せず)についても、このHW機器のサンプルデータa´を入力して障害発生予測を行うことができる。この場合は、学習済障害発生モデル規定手段25には、規定されたモデルには、サンプルデータa´は反映されていないが、サンプル採取のHW機器と同一機種や類似機種の場合には、近似した障害発生時間予測データkを得ることができる。
The
出力部27は、学習済障害発生モデル規定手段25から出力された障害発生時間予測データkを入力し、この障害発生時間予測データkに基づいた、例えば特定HW機器(1)の障害発生時間の予測値を表示データ、例えば画像表示データeとして出力されるようになっている。
The
なお、表示データeは、対象となるHW機器(1)〜HW機器(n)のそれぞれの障害発生までの時間表またはグラフにより障害発生モデルとして画面表示しすることもできる。 The display data e can also be displayed on the screen as a failure occurrence model by a timetable or graph until the failure occurrence of each of the target HW devices (1) to (n).
次に、コンピュータの障害予測システム20の作用について、図6参照して説明する。
Next, the operation of the computer
図6は、コンピュータの障害予測システム20の障害予測システムの作用を示すフロー図である。
FIG. 6 is a flowchart showing the operation of the failure prediction system of the computer
図6に示すフローに従い作用を説明する。 The operation will be described according to the flow shown in FIG.
システムログ格納DB23が複数のHW機器22からサンプルデータaを格納するステップ<st1>と、学習用データ演算手段24の学習用データ格納DB24aが、前記サンプルデータaを入力し、機器の障害発生までの時間の実測値を格納するステップ<st2>と、学習用データ演算手段24の学習機能手段24bが、サンプルの入力データ成分aまたは((a+d)あるいはa´)および教師データbをニューラルネットワークの学習機能により学習させて学習データcを生成するステップ<st3>と、学習済障害発生モデル規定手段25により、ニューラルネットワークの学習機能により学習済みモデルを生成しデータ格納するステップ<st4>と、入力部から学習済障害発生モデル規定手段25へ、任意のHW機器22のサンプルデータaを入力し、前記学習済みモデルと照合して障害発生時間予測データkを生成するステップ<st5>と、出力部が前記障害発生時間予測データkを入力して表示データeを出力するステップ<st6>と、の各ステップを踏むことにより、センター監視部21の監視オペレータHは、HW機器(1)22aが障害発生予測警報kを受けたHW機器であることを認知することができる。
Step <st1> in which the system
障害予測システム10によれば、学習用データ演算手段24を設け、この学習用データ演算手段24により、種々の運用履歴データを捕捉して故障の原因や要因を基にした学習済み故障モデルという一つの基準を作成し、この基準の範囲内か否かで運用されているコンピュータの障害発生を予測することができるようにしたので、より一層の障害発生の事前予測精度を向上させ、代替用のコンピュータの用意を極小化して準備コストの低減化を図ることができるコンピュータの障害予測システムおよび障害予測方法を提供することができる。
According to the
20 障害予測システム
21 センター監視部
22(22a〜22n) ハードウェア(HW)機器
23 システムログ格納DB
24 学習用データ演算手段
24a 学習用データ格納DB
24b 学習機能手段
25 学習済障害発生モデル規定手段
26 入力部
27 出力部
30a〜30n サンプル出力装置
a(a1〜an),a´ サンプルデータ(入力データ)
b 教師データ
c 学習データ(出力データ)
d 使用環境データ
e 表示データ
k 障害発生時間予測データ
20
24 learning data calculation means 24a learning data storage DB
24b Learning function means 25 Learned failure occurrence model defining means 26
b Teacher data c Learning data (output data)
d Usage environment data e Display data k Failure occurrence time prediction data
Claims (7)
前記センター監視部は、前記複数のハードウェア機器のサンプルデータのログを格納するシステムログ格納DBと、
前記システムログ格納DBから前記サンプルデータを入力して前記ハードウェア機器の障害発生までの時間の実測値から障害発生予測の重み付けを演算処理して得られた教師データに基づいて学習データを生成する学習用データ演算手段と、
前記学習データを入力して故障モデル(所望数式)を規定し、任意のハードウェア機器の障害発生時間予測データを生成する学習済障害発生モデル規定手段と、
前記学習済障害発生モデル規定手段へ、前記複数のハードウェア機器の中から任意のハードウェア機器のサンプルデータを入力する入力部と、
前記学習済障害発生モデル規定手段から、前記任意のハードウェア機器の障害発生時間予測データを入力して表示データを出力する出力部と、を備えたことを特徴とするコンピュータの障害予測システム。 A center monitoring unit for managing the operation of a network computer, and a plurality of hardware devices constituting a computer network,
The center monitoring unit includes a system log storage DB that stores a log of sample data of the plurality of hardware devices,
Learning data is generated based on teacher data obtained by calculating the weight of failure prediction from the measured value of time until the failure of the hardware device by inputting the sample data from the system log storage DB Learning data calculation means;
A learning failure occurrence model defining means for inputting the learning data to define a failure model (desired mathematical formula) and generating failure occurrence time prediction data of an arbitrary hardware device;
An input unit for inputting sample data of any hardware device from the plurality of hardware devices to the learned failure occurrence model defining means;
A computer failure prediction system comprising: an output unit that inputs failure occurrence time prediction data of any hardware device from the learned failure occurrence model defining means and outputs display data.
前記学習用データ格納DBから前記教師データを入力して学習データを生成するようにしたことを特徴とする請求項1〜3のいずれかに記載のコンピュータの障害予測システム。 The learning data calculation means is a learning data storage DB for storing teacher data in which sample data is inputted from the system log storage DB and weights of failure occurrence prediction are weighted from actual measured values until the failure of the hardware device. ,
The computer failure prediction system according to claim 1, wherein learning data is generated by inputting the teacher data from the learning data storage DB.
学習用データ演算手段の学習用データ格納DBが、前記サンプルデータを入力し、機器の障害発生までの時間の実測値を格納するステップ<st2>と、
学習用データ演算手段の学習機能手段が、サンプルデータおよび教師データをニューラルネットワークの学習機能により学習させて学習データを生成するステップ<st3>と、
学習済障害発生モデル規定手段により、ニューラルネットワークの学習機能により学習済みモデルを生成しデータ格納するステップ<st4>と、
入力部から学習済障害発生モデル規定手段へ、任意のハードウェア機器のサンプルデータを入力し、前記学習済みモデルと照合して障害発生時間予測データを生成するステップ<st5>と、
出力部が前記障害発生時間予測データに基づき表示データを出力するステップ<st6>と、
を具備することを特徴とするコンピュータの障害予測方法。 A step <st1> in which the system log storage DB stores sample data from a plurality of hardware devices;
Step <st2> in which the learning data storage DB of the learning data calculation means inputs the sample data and stores an actual measurement value of the time until the failure of the device;
A step <st3> in which the learning function means of the learning data calculation means generates the learning data by learning the sample data and the teacher data by the learning function of the neural network;
A step <st4> of generating a learned model and storing data by a learning function of the neural network by means of a learned failure occurrence model defining means;
Step <st5> of inputting sample data of an arbitrary hardware device from the input unit to the learned failure occurrence model defining means and generating failure occurrence time prediction data by collating with the learned model;
A step <st6> in which an output unit outputs display data based on the failure occurrence time prediction data;
A computer failure prediction method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007254218A JP2009086896A (en) | 2007-09-28 | 2007-09-28 | Computer failure prediction system and failure prediction method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007254218A JP2009086896A (en) | 2007-09-28 | 2007-09-28 | Computer failure prediction system and failure prediction method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009086896A true JP2009086896A (en) | 2009-04-23 |
Family
ID=40660265
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007254218A Pending JP2009086896A (en) | 2007-09-28 | 2007-09-28 | Computer failure prediction system and failure prediction method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009086896A (en) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106254138A (en) * | 2016-08-31 | 2016-12-21 | 广州和运科技发展有限公司 | Machine room intelligent operational system failure analysis methods |
| KR101858377B1 (en) | 2014-02-28 | 2018-05-15 | 미츠비시 쥬고 기카이 시스템 가부시키가이샤 | Monitoring device, monitoring method, and program |
| KR20180130295A (en) * | 2017-05-29 | 2018-12-07 | 주식회사 케이티 | Apparatus for predicting failure of communication network and method thereof |
| WO2019142331A1 (en) * | 2018-01-19 | 2019-07-25 | 株式会社日立製作所 | Failure prediction system and failure prediction method |
| JP2020144555A (en) * | 2019-03-05 | 2020-09-10 | ダイキン工業株式会社 | Control system of equipment |
| CN111660687A (en) * | 2019-03-08 | 2020-09-15 | 精工爱普生株式会社 | Failure time estimation device, machine learning device, and failure time estimation method |
| JP2021082948A (en) * | 2019-11-19 | 2021-05-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Threshold value output device, threshold value output method, and threshold value output program |
| WO2023281688A1 (en) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | Registration device, registration method, and program |
| US11609561B2 (en) * | 2019-11-15 | 2023-03-21 | Halliburton Energy Services, Inc. | Value balancing for oil or gas drilling and recovery equipment using machine learning models |
| JP7657864B2 (en) | 2023-07-26 | 2025-04-07 | 東芝エレベータ株式会社 | Elevator abnormality detection device and elevator abnormality detection method |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0683728A (en) * | 1991-12-19 | 1994-03-25 | American Teleph & Telegr Co <Att> | Method and apparatus for error prediction |
| JPH0696053A (en) * | 1992-09-11 | 1994-04-08 | Fujitsu Ltd | Product failure prediction method |
| JP2003271422A (en) * | 2002-03-18 | 2003-09-26 | Fujitsu Ltd | Preventive maintenance determination processing method, preventive maintenance determination processing program, and maintenance management method |
| JP2007199976A (en) * | 2006-01-26 | 2007-08-09 | Hitachi Information Systems Ltd | Failure prediction system and failure prediction program |
-
2007
- 2007-09-28 JP JP2007254218A patent/JP2009086896A/en active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0683728A (en) * | 1991-12-19 | 1994-03-25 | American Teleph & Telegr Co <Att> | Method and apparatus for error prediction |
| JPH0696053A (en) * | 1992-09-11 | 1994-04-08 | Fujitsu Ltd | Product failure prediction method |
| JP2003271422A (en) * | 2002-03-18 | 2003-09-26 | Fujitsu Ltd | Preventive maintenance determination processing method, preventive maintenance determination processing program, and maintenance management method |
| JP2007199976A (en) * | 2006-01-26 | 2007-08-09 | Hitachi Information Systems Ltd | Failure prediction system and failure prediction program |
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101858377B1 (en) | 2014-02-28 | 2018-05-15 | 미츠비시 쥬고 기카이 시스템 가부시키가이샤 | Monitoring device, monitoring method, and program |
| CN106254138A (en) * | 2016-08-31 | 2016-12-21 | 广州和运科技发展有限公司 | Machine room intelligent operational system failure analysis methods |
| KR102291615B1 (en) * | 2017-05-29 | 2021-08-18 | 주식회사 케이티 | Apparatus for predicting failure of communication network and method thereof |
| KR20180130295A (en) * | 2017-05-29 | 2018-12-07 | 주식회사 케이티 | Apparatus for predicting failure of communication network and method thereof |
| WO2019142331A1 (en) * | 2018-01-19 | 2019-07-25 | 株式会社日立製作所 | Failure prediction system and failure prediction method |
| US11403160B2 (en) | 2018-01-19 | 2022-08-02 | Hitachi, Ltd. | Fault predicting system and fault prediction method |
| JPWO2019142331A1 (en) * | 2018-01-19 | 2020-12-03 | 株式会社日立製作所 | Failure prediction system and failure prediction method |
| JP7003159B2 (en) | 2018-01-19 | 2022-01-20 | 株式会社日立製作所 | Failure prediction system and failure prediction method |
| JP2020144555A (en) * | 2019-03-05 | 2020-09-10 | ダイキン工業株式会社 | Control system of equipment |
| JP7389314B2 (en) | 2019-03-05 | 2023-11-30 | ダイキン工業株式会社 | Air conditioner control system |
| CN111660687A (en) * | 2019-03-08 | 2020-09-15 | 精工爱普生株式会社 | Failure time estimation device, machine learning device, and failure time estimation method |
| US11609561B2 (en) * | 2019-11-15 | 2023-03-21 | Halliburton Energy Services, Inc. | Value balancing for oil or gas drilling and recovery equipment using machine learning models |
| JP2021082948A (en) * | 2019-11-19 | 2021-05-27 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Threshold value output device, threshold value output method, and threshold value output program |
| JP7311402B2 (en) | 2019-11-19 | 2023-07-19 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | Threshold output device, threshold output method and threshold output program |
| WO2023281688A1 (en) * | 2021-07-08 | 2023-01-12 | 日本電信電話株式会社 | Registration device, registration method, and program |
| JPWO2023281688A1 (en) * | 2021-07-08 | 2023-01-12 | ||
| JP7605318B2 (en) | 2021-07-08 | 2024-12-24 | 日本電信電話株式会社 | Registration device, registration method, and program |
| JP7657864B2 (en) | 2023-07-26 | 2025-04-07 | 東芝エレベータ株式会社 | Elevator abnormality detection device and elevator abnormality detection method |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2009086896A (en) | Computer failure prediction system and failure prediction method | |
| CN106951984B (en) | Dynamic analysis and prediction method and device for system health degree | |
| US20200371858A1 (en) | Fault Predicting System and Fault Prediction Method | |
| EP3413154B1 (en) | Equipment diagnostic device, equipment diagnostic method, and equipment diagnostic program | |
| US7437281B1 (en) | System and method for monitoring and modeling system performance | |
| US6834256B2 (en) | Method and system for determining motor reliability | |
| US10963797B2 (en) | System for analyzing machine data | |
| CN107408226A (en) | Asset health scoring and uses thereof | |
| JP2003114294A (en) | Power plant monitoring, diagnosis, inspection, and maintenance systems | |
| KR20190021560A (en) | Failure prediction system using big data and failure prediction method | |
| CN119482974B (en) | An operation method and system based on electric power measurement and control instrument | |
| CN113642618B (en) | Method and equipment for training screw device state prediction model | |
| CN110703743A (en) | Equipment failure prediction and detection system and method | |
| JP2019028834A (en) | Abnormal value diagnostic device, abnormal value diagnostic method, and program | |
| US7617313B1 (en) | Metric transport and database load | |
| CN119850195B (en) | Operation and maintenance management method and system based on digital twin | |
| JP6832890B2 (en) | Monitoring equipment, monitoring methods, and computer programs | |
| CN118246872A (en) | Computer room early warning method, device, equipment, storage medium and computer program product | |
| CN117744033A (en) | Data fluctuation early warning method and device, nonvolatile storage medium and electronic equipment | |
| WO2022133825A1 (en) | Method and device for evaluating remaining useful life of element, functional module and system, and system | |
| CN118534290B (en) | Method, system, equipment and storage medium for testing power supply chip | |
| CN117952318A (en) | Industrial garden carbon emission data management system and method based on big data | |
| CN116467593A (en) | Equipment abnormality prediction method, device and computer storage medium | |
| JP2009301341A (en) | Service system, service system management method, and program | |
| CN115424106A (en) | Pallet detection method, device, electronic equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100415 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100513 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111206 |