JP2017199250A - Computer system, data analysis method, and computer - Google Patents
Computer system, data analysis method, and computer Download PDFInfo
- Publication number
- JP2017199250A JP2017199250A JP2016090661A JP2016090661A JP2017199250A JP 2017199250 A JP2017199250 A JP 2017199250A JP 2016090661 A JP2016090661 A JP 2016090661A JP 2016090661 A JP2016090661 A JP 2016090661A JP 2017199250 A JP2017199250 A JP 2017199250A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- entry
- analysis process
- feature amount
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
本発明は、ネットワークを介して送受信されるデータを用いた分析処理を実行する分析器を複数備えるシステムの管理方法に関する。 The present invention relates to a system management method including a plurality of analyzers that execute analysis processing using data transmitted and received via a network.
近年、ビッグデータといわれる大量の情報を収集し、収集した大量の情報を利用するソリューションが期待されている。このような大量の情報を利用したソリューションの1つとしてネットワーク運用管理がある。 In recent years, a solution that collects a large amount of information called big data and uses the collected large amount of information is expected. One of the solutions using such a large amount of information is network operation management.
ビッグデータを利用したネットワーク運用管理技術では、ネットワーク装置を流れる情報がパケットレベルで分析される。この技術は、侵入検知システム(IDS:Intrusion Detection System)等の分野で使われている。 In network operation management technology using big data, information flowing through a network device is analyzed at a packet level. This technique is used in fields such as an intrusion detection system (IDS).
IDSには、シグネチャ型IDS及びアノマリ型IDSが存在する。シグネチャ型IDSは、通過する情報が登録されたパターンと一致するか否かを判定することによって、不正アクセスを検知する。一方、アノマリ型IDSは、通過する情報を分析することによってパターンに登録されていない未知の不正アクセスを検知する。より具体的には、アノマリ型IDSは、正常なトラフィックを用いた機械学習に基づいて学習モデルを生成し、通過する情報と学習モデルとを比較することによって、正常なトラフィックであるか否かを判定する。 The IDS includes a signature type IDS and an anomaly type IDS. The signature type IDS detects unauthorized access by determining whether or not the passing information matches the registered pattern. On the other hand, the anomaly type IDS detects unknown unauthorized access that is not registered in the pattern by analyzing passing information. More specifically, the anomaly type IDS generates a learning model based on machine learning using normal traffic, and compares whether the information is passed with the learning model to determine whether the traffic is normal traffic. judge.
前述したような機械学習に基づく分析は、不正アクセスの検知だけでなく、複数の装置が分散配置されたシステムにおいて各装置の動作品質の保証及び装置管理等、様々な分野での応用が期待されている。 The above-described analysis based on machine learning is expected not only to detect unauthorized access but also to be applied in various fields such as guaranteeing the operation quality of each device and device management in a system in which multiple devices are distributed. ing.
アノマリ型IDSは、検知率が低く、また、誤検知率が高いといった問題がある。前述の問題の解決方法として、不正アクセスの種類毎に専門の分析器を用いることによって検知精度(分析精度)を向上させる方法が考えられる。別の解決方法としては、複数の分析器を統合することによって性能の高い一つの分析器を構成するアンサンブル学習法が考えられる(例えば、特許文献1参照)。 Anomaly-type IDS has a problem that the detection rate is low and the false detection rate is high. As a method for solving the above-described problem, a method of improving detection accuracy (analysis accuracy) by using a specialized analyzer for each type of unauthorized access is conceivable. As another solution, an ensemble learning method that constitutes one analyzer with high performance by integrating a plurality of analyzers is conceivable (for example, see Patent Document 1).
特許文献1には、「不正アクセスによって引き起こされる異常を、トラヒック量や通信範囲の異常、通信手順の異常、送受信データの異常の3種類として定義した複数グループに分類し、グループ毎の検出に特化した特徴量を用いた検出モジュールを備えたシステムを構成して不正アクセスの検出を行う。タイムスロット型、フロー・カウント型、フロー・ペイロード型の各グループの検出に特化した特徴量を用いた検出モジュールを備え、各検出モジュールの検出結果の論理和を最終的な出力結果とするシステムを構成し、いずれかの検出モジュールが異常と判断するとシステムがアラートを警告することにより不正アクセスの検出を行う」ことが記載されている。 Patent Document 1 states that “abnormalities caused by unauthorized access are classified into multiple groups defined as three types of traffic volume, communication range abnormality, communication procedure abnormality, and transmission / reception data abnormality. Configures a system equipped with a detection module that uses specialized features to detect unauthorized access, and uses feature features specialized for detection of time slot type, flow count type, and flow payload type groups. The system detects the unauthorized access by alerting an alert when any of the detection modules is determined to be abnormal. To do ".
しかし、特許文献1に記載の方法では、複数の分析器が並列的に動作するため、処理負荷が大きくなり、また、処理時間が長くなるという問題がある。したがって、特許文献1に記載の方法ではシステム性能が低下する。そのため、分析精度を向上させるとともに、分析処理に用いられる計算機リソース量を削減する技術が求められている。 However, the method described in Patent Document 1 has a problem that the processing load becomes large and the processing time becomes long because a plurality of analyzers operate in parallel. Therefore, the method described in Patent Document 1 degrades the system performance. Therefore, there is a need for a technique for improving the accuracy of analysis and reducing the amount of computer resources used for analysis processing.
分析処理に用いられる計算機リソース量を削減する方法として、特許文献2に記載された技術が知られている。特許文献2には、「ゲートウェイ装置は、第1ネットワーク上の1ないし複数の機器の動作情報を取得して解析装置に送信する動作情報取得部を備え、解析装置は、動作情報を用いて機器の障害解析を行う障害解析部を備え、動作情報取得部は、取得した動作情報のうち重要度の高いものをあらかじめ定められた重要度にしたがって絞り込んだ上で解析装置300に送信する」ことが記載されている。 As a method of reducing the amount of computer resources used for analysis processing, a technique described in Patent Document 2 is known. Patent Document 2 states that “the gateway device includes an operation information acquisition unit that acquires operation information of one or more devices on the first network and transmits the operation information to the analysis device. A failure analysis unit that performs a failure analysis of the operation information, and the operation information acquisition unit narrows down the highly important pieces of the acquired operation information according to a predetermined importance and transmits them to the analysis apparatus 300. Have been described.
特許文献2の技術では予めルールを定義する必要があるため、未知の情報については、従来と同様に全ての分析器が分析を行う必要がある。そのため、分析処理に使用する計算機リソース量を削減することができない。 Since the technique of Patent Document 2 needs to define a rule in advance, it is necessary for all analyzers to analyze unknown information as in the conventional case. Therefore, the amount of computer resources used for analysis processing cannot be reduced.
本発明は、複数の機械学習に基づく分析を行うシステムにおいて、分析精度の向上及び分析処理に使用する計算機リソース量の削減を目的とする。 An object of the present invention is to improve analysis accuracy and reduce the amount of computer resources used for analysis processing in a system that performs analysis based on a plurality of machine learnings.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の計算機を備える計算機システムであって、前記複数の計算機の各々は、プロセッサ、前記プロセッサに接続されるメモリ、前記プロセッサに接続され、他の装置と接続するためのインタフェースを有し、前記複数の計算機は、ネットワークを介して送受信されるデータを用いた分析処理を実行する分析部を複数含む分析制御部を有する計算機と、前記データを用いて前記複数の分析部の各々が使用する特徴量を算出する特徴量算出部、及び使用する前記分析部を選択する振分部を有する計算機と、を含み、前記振分部は、前記複数の分析部の各々が使用する前記特徴量、前記分析処理の種別、及び分析処理の結果を含むエントリを複数含む振分情報を管理し、前記分析処理の結果は、前記分析処理が必要であるか否かを示す値であり、前記振分部は、前記振分情報を参照して、前記データから算出された特徴量に類似する特徴量を含む類似エントリを検索し、前記類似エントリに含まれる前記分析処理の結果に基づいて、実行する前記分析処理を選択し、前記振分部によって選択された分析処理を実行する前記分析部は、前記データから算出された特徴量を用いた分析処理を実行し、前記分析処理の結果を前記振分部に送信し、前記振分部は、前記分析処理の結果を受信した場合、前記データから算出された特徴量、前記分析処理の種別、及び前記分析処理の結果を含むエントリを前記振分情報に追加することを特徴とする。 A typical example of the invention disclosed in the present application is as follows. That is, a computer system including a plurality of computers, each of the plurality of computers has a processor, a memory connected to the processor, an interface connected to the processor and connected to another device, The plurality of computers are used by a computer having an analysis control unit including a plurality of analysis units that execute analysis processing using data transmitted and received via a network, and each of the plurality of analysis units using the data. A feature amount calculating unit that calculates a feature amount, and a computer having a distribution unit that selects the analysis unit to be used, and the distribution unit includes the feature amount used by each of the plurality of analysis units, The distribution information including a plurality of entries including the type of the analysis process and the result of the analysis process is managed, and the result of the analysis process indicates whether the analysis process is necessary or not. The distribution unit refers to the distribution information, searches for a similar entry including a feature amount similar to the feature amount calculated from the data, and results of the analysis process included in the similar entry The analysis unit to be executed is selected based on the analysis unit, and the analysis unit that executes the analysis process selected by the allocating unit executes the analysis process using the feature amount calculated from the data, and the analysis The processing result is transmitted to the allocating unit, and when the allocating unit receives the result of the analysis process, the characteristic amount calculated from the data, the type of the analysis process, and the result of the analysis process are transmitted. An entry including the information is added to the distribution information.
本発明によれば、振分情報に基づいて分析部が選択されるため、分析処理に使用する計算機リソース量を削減できる。また、分析部の分析結果を振分情報に反映することによって、分析精度を向上させることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。 According to the present invention, since an analysis unit is selected based on distribution information, the amount of computer resources used for analysis processing can be reduced. Also, the analysis accuracy can be improved by reflecting the analysis result of the analysis unit in the distribution information. Problems, configurations, and effects other than those described above will become apparent from the following description of embodiments.
以下、本発明の実施例を、図面を用いて説明する。なお、以下で説明する実施例は一例にすぎず、本発明が適用される実施例は、以下の実施例に限られるわけではない。さらに、以下に示した実施例は単独で適用してもよいし、複数又は全ての実施例を組み合わせて適用しても構わない。 Embodiments of the present invention will be described below with reference to the drawings. In addition, the Example described below is only an example, and the Example to which the present invention is applied is not limited to the following Example. Furthermore, the embodiments shown below may be applied singly or in combination of a plurality or all of the embodiments.
図1は、実施例1の計算機システムの構成例を示す図である。 FIG. 1 is a diagram illustrating a configuration example of a computer system according to the first embodiment.
計算機システムは、データセンタ100及び複数の端末101から構成される。データセンタ100及び複数の端末101は外部NW105を介して接続される。
The computer system includes a
データセンタ100は、NW装置102、計算機103、及び分析装置104を含む。なお、各装置は二つ以上存在してもよい。計算機103及び分析装置104は、NW装置102に接続する。
The
NW装置102は、ネットワークを介して外部の装置及び内部装置を接続する装置である。NW装置102は、例えば、スイッチ、ルータ、及びゲートウェイ等が考えられる。NW装置102は、端末101及び計算機103との間で送受信されるデータをミラーリングし、ミラーリングされたデータを分析装置104に送信する。
The
計算機103は、端末101からの処理要求に基づいて各種処理を実行する。例えば、計算機103は、Webサーバ及びデータベースサーバ等として、端末101にサービスを提供する。なお、本実施例は、計算機103の構成、及び計算機103が提供するサービスの種別等に限定されない。
The
分析装置104は、NW装置102を通過するデータ(パケット)又は当該データのログをNW装置102から取得し、当該データを分析することによってデータの搾取、データの破壊、データの改ざん、及び計算機103に機能不全等を目的とした不正アクセスを検知する。以下の説明では、NW装置102を通過するデータ又は当該データのログを観測データとも記載する。
The
不正アクセスとしては、DoS(Denial of Service)攻撃、U2R(User to Root)攻撃、R2L(Remote to Local)攻撃、及びProbe攻撃等が知られている。 As unauthorized access, DoS (Denial of Service) attack, U2R (User to Root) attack, R2L (Remote to Local) attack, Probe attack, and the like are known.
DoS攻撃は、大量のデータ又は異常データを送信することによって、データを受信したシステムを稼働できない状態にする攻撃である。U2R攻撃及びR2L攻撃は、異常データを送信することによって、システムに不正に侵入する攻撃である。また、Probe攻撃は、システムのサービス及びプロトコル等を調査する攻撃である。 A DoS attack is an attack that renders a system that has received data inoperable by transmitting a large amount of data or abnormal data. The U2R attack and the R2L attack are attacks that illegally enter a system by transmitting abnormal data. The Probe attack is an attack for investigating system services and protocols.
分析装置104は、ハードウェアとして、CPU110、メモリ111、記憶装置112、及びI/F113を有する。各構成は内部バス等を介して互いに接続される。なお、端末101、NW装置102、及び計算機103のハードウェアは分析装置104と同一であるものとする。
The
CPU110は、メモリ111に格納されるプログラムを実行する。CPU110がプログラムを実行することによって、分析装置104が有する機能を実現できる。以下の説明では、機能部を主語に処理を説明する場合、CPU110が当該機能部を実現するプログラムを実行していることを示す。
メモリ111は、CPU110が実行するプログラムを格納する。また、メモリ111は、プログラムが処理に使用するワークエリアを含む。メモリ111に格納されるプログラムについては後述する。
The
記憶装置112は、情報を永続的に格納する。記憶装置112は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等が考えられる。記憶装置112は、各種情報を格納する記憶部130として使用される。記憶装置112に格納される情報については後述する。
The
I/F113は、他の装置と接続するためのインタフェースである。I/F113は、例えば、ネットワークインタフェースが考えられる。
The I /
メモリ111に格納されるプログラムについて説明する。メモリ111は、特徴量算出部120、振分部121、及び分析制御部122を実現するプログラムを格納する。
A program stored in the
特徴量算出部120は、観測データを用いて、分析処理に使用する各種特徴量を算出する。
The feature
分析制御部122は、複数の分析処理を実行する。本実施例の分析制御部122は、DoS攻撃、U2R攻撃、R2L攻撃、及びProbe攻撃のそれぞれを検知するための分析部(分析器)を有する。各分析部は、それぞれの攻撃を検知するための分析処理を実行する。
The
各分析部が分析処理に使用する特徴量は異なる場合がある。本実施例では、以下のような特徴量が用いられる。 The feature amount used by each analysis unit for analysis processing may be different. In the present embodiment, the following feature amounts are used.
U2R攻撃分析部201(図2参照)及びR2L攻撃分析部202(図2参照)は、一つのパケットから算出される特徴量を用いて分析処理を実行する。U2R攻撃及びR2L攻撃は、パケットに含まれる異常データに起因するためである。 The U2R attack analysis unit 201 (see FIG. 2) and the R2L attack analysis unit 202 (see FIG. 2) execute an analysis process using a feature amount calculated from one packet. This is because the U2R attack and the R2L attack are caused by abnormal data included in the packet.
DoS攻撃分析部200(図2参照)は、複数のパケットを集約したフローから算出される特徴量を用いて分析処理を実行する。DoS攻撃は、通信量及び通信範囲の異常に起因するためである。 The DoS attack analysis unit 200 (see FIG. 2) executes an analysis process using a feature amount calculated from a flow in which a plurality of packets are aggregated. This is because the DoS attack is caused by an abnormality in the communication amount and communication range.
Probe攻撃分析部203(図2参照)は、フローから算出された特徴量又は一定期間に取得した複数のパケットから算出された特徴量を用いて分析処理を実行する。Probe攻撃は、通信量及び通信範囲の異常に起因する場合、又は、通信手順の異常に起因する場合があるためである。 The probe attack analysis unit 203 (see FIG. 2) executes an analysis process using the feature amount calculated from the flow or the feature amount calculated from a plurality of packets acquired in a certain period. This is because the Probe attack may be caused by an abnormality in the communication amount and the communication range, or may be caused by an abnormality in the communication procedure.
Probe攻撃の一つである「IPsweep」は、不特定のIPアドレスに対してpingを実行し、稼働しているシステムを特定する攻撃である。「IPsweep」を検知するためには、例えば、同一の送信元から送信されるパケットの数を特徴量として用いればよい。 “IPsweep”, which is one of the probe attacks, is an attack that pings an unspecified IP address and identifies an operating system. In order to detect “IPsweep”, for example, the number of packets transmitted from the same transmission source may be used as the feature amount.
分析部が分析処理に使用する特徴量の種別は、一つでもよいし、また、複数でもよい。本発明は、分析処理に使用する特徴量に限定されない。 There may be one or more types of feature quantities used by the analysis unit for the analysis processing. The present invention is not limited to the feature amount used for the analysis process.
振分部121は、特徴量算出部120によって算出された各種特徴量に基づいて、分析処理の実行を指示する分析部を選択する。
The allocating
記憶装置112によって実現される記憶部130に格納される情報について説明する。記憶部130は、ログ情報140、特徴量情報群141、振分情報群142、及び学習データ群143を格納する。なお、記憶部130に格納される情報は、メモリ111に格納されてもよい。
Information stored in the
ログ情報140は、NW装置102から取得した観測データをログとして管理する情報である。ログ情報140には、タイムスタンプ、送信元のIPアドレス、パケットサイズ等を含むエントリが複数含まれる。
The
特徴量情報群141は、各分析部が使用する特徴量を管理する情報である。振分情報群142は、分析部を選択するための情報である。学習データ群143は、各分析部が機械学習に使用する学習データを管理する情報である。
The feature
図2は、実施例1の分析装置104のソフトウェア構成の詳細を説明する図である。なお、各機能部を接続する線は、論理的な接続関係を示す。
FIG. 2 is a diagram illustrating details of the software configuration of the
まず、分析制御部122、特徴量情報群141、振分情報群142、及び学習データ群143の詳細について説明する。
First, details of the
分析制御部122は、DoS攻撃分析部200、U2R攻撃分析部201、R2L攻撃分析部202、及びProbe攻撃分析部203を含む。各分析部は、特徴量情報群141を参照して、受信した観測データに関連する分析処理を実行する。
The
特徴量情報群141は、パケット特徴量情報210、フロー特徴量情報211、及び周期特徴量情報212を含む。
The feature
パケット特徴量情報210は、パケット単位の特徴量を管理する情報である。フロー特徴量情報211は、フロー単位の特徴量を管理する情報である。周期特徴量情報212は、任意の時間範囲の観測データを用いて算出される特徴量を管理する情報である。
The packet
振分情報群142は、パケット用振分情報220、フロー用振分情報221、及び周期用振分情報222を含む。
The
パケット用振分情報220は、パケット単位の特徴量に基づいて、分析部を選択するための情報である。フロー用振分情報221は、フロー単位の特徴量に基づいて、分析部を選択するための情報である。周期用振分情報222は、任意の時間範囲の観測データを用いて算出される特徴量に基づいて、分析部を選択するための情報である。
The
なお、分析に使用する特徴量の組合せが複数存在するため、パケット用振分情報220、フロー用振分情報221、及び周期用振分情報222は複数存在する。
Since there are a plurality of combinations of feature amounts used for analysis, there are a plurality of
学習データ群143は、DoS攻撃分析用学習データ230、U2R攻撃分析用学習データ231、R2L攻撃分析用学習データ232、Probe攻撃分析用学習データ233を含む。各学習データには、正常な通信の特徴量を含むデータが含まれる。
The learning
DoS攻撃分析用学習データ230は、DoS攻撃分析部200が使用する学習データである。U2R攻撃分析用学習データ231は、U2R攻撃分析部201が使用する学習データである。R2L攻撃分析用学習データ232は、R2L攻撃分析部202が使用する学習データである。Probe攻撃分析用学習データ233は、Probe攻撃分析部203が使用する学習データである。
The DoS attack
次に、分析装置104の処理の流れについて説明する。
Next, the processing flow of the
分析制御部122に含まれる分析部は、学習データ群143に格納される学習データを用いて機械学習を実行する。なお、機械学習は、周期的に実行されてもよいし、ユーザからの指示を受け付けた場合に実行されてもよい。
The analysis unit included in the
特徴量算出部120は、NW装置102から受信した観測データをログ情報140に格納し、ログ情報140を用いて各種特徴量を算出する。例えば、特徴量算出部120は、パケット単位の特徴量、フロー単位の特徴量、及び任意の時間範囲の観測データの特徴量を算出する。
The feature
特徴量算出部120は、算出された特徴量を特徴量情報群141に格納し、その後、振分部121に処理の開始を指示する。
The feature
振分部121は、特徴量情報群141及び振分情報群142に基づいて、異常を示す特徴量であるか否かを判定する。異常を示す特徴量であると判定された場合、振分部121は、特徴量情報群141及び振分情報群142に基づいて、受信した観測データに関連する分析処理を実行する分析部を選択する。
Based on the feature
振分部121は、分析制御部122に選択された分析部の実行を指示する。具体的には、振分部121は、選択された分析部に対応する分析関数を呼び出し、算出された特徴量を引数として分析制御部122に入力する。
The
なお、振分部121が実行する処理の詳細は、図4を用いて説明する。
Details of processing executed by the allocating
分析制御部122は、呼び出された分析関数に対応する分析部に分析処理の実行を指示する。分析部は、引数として入力された特徴量に基づいて、不正アクセスを検知するための分析処理を実行する。分析制御部122は、分析部によって実行された分析処理の結果を振分部121に出力する。
The
振分部121は、分析処理の結果に基づいて振分情報群142を更新する。
The
以上で説明したように、振分部121は、異常を示す特徴量を検知した場合、特徴量情報群141及び振分情報群142に基づいて分析処理を実行する分析部を選択する。これによって、必要な分析処理のみが実行されるため、分析装置104が使用する計算機リソース量を削減できる。また、分析処理の結果に基づいて振分情報群142が更新されるため、分析装置104における不正アクセスの検知精度が向上する。
As described above, the
図3は、実施例1の振分情報群142に含まれる振分情報の一例を示す図である。図3では、フロー用振分情報221の一例を示す。
FIG. 3 is a diagram illustrating an example of distribution information included in the
フロー用振分情報221は、特徴量301、分析種別302、及び分析結果303を含むエントリを複数含む。
The
特徴量301は、分析部を選択するための指標となる特徴量である。図3の特徴量301は、送信パケット数311及びコネクション割合312を含む。
The
送信パケット数311は、任意のフローを介して端末101から計算機103に送信されたパケットの数である。所定の期間(例えば、パケットが送信された時間から5秒前の間)に生成されたコネクションのうち、パケットの送信元の端末101と計算機103との間に生成されたコネクションの割合である。
The number of transmitted
分析種別302は、分析処理の種別である。分析結果303は、分析処理の結果である。分析結果303には、正常な通信であることを示す「正常」及び異常な通信であることを示す「異常」のいずれかが格納される。本実施例では、分析処理を実行するか否かを示す情報として分析結果303を用いる。すなわち、分析結果303が「正常」の場合には、分析処理が不要であると判定され、分析結果303が「異常」の場合には、分析処理が必要であると判定される。
The
図4は、実施例1の振分部121が実行する処理を説明するフローチャートである。図5は、実施例1の特徴量空間の一例を示す図である。
FIG. 4 is a flowchart illustrating processing executed by the
振分部121は、特徴量算出部120から処理の開始指示を受け付けた場合、以下で説明する処理を開始する。なお、特徴量算出部120は、観測データの受信に伴って更新された特徴量情報の識別情報、及び特徴量情報のエントリの識別情報を振分部121に入力するものとする。
When the
振分部121は、振分情報群142の中から振分情報を一つ選択する(ステップS401)。
The
具体的には、振分部121は、更新された特徴量を含む振分情報を検索し、検索された振分情報のリストを生成する。振分部121は、振分情報のリストを参照して、振分情報を一つ選択する。このとき、振分部121は、特徴量情報群141の更新された特徴量情報から選択された振分情報の特徴量301に対応する特徴量を取得する。
Specifically, the
次に、振分部121は、選択された振分情報を参照して、特徴量301が取得されたエントリの特徴量と類似するエントリが存在するか否かを判定する(ステップS402)。具体的には、以下のような処理が実行される。
Next, the
振分部121は、選択された振分情報の特徴量301を軸とする特徴量空間に各エントリの特徴量をプロットする。図3に示すフロー用振分情報221が選択された場合、図5に示すような特徴量空間に各エントリの特徴量がプロットされる。図3に示すフロー用振分情報221は、二つの特徴量を含むため特徴量空間は二次元となる。したがって、n個の特徴量を含む振分情報の場合、特徴量空間はn次元となる。
The
また、白丸及び黒丸は、フロー用振分情報221のエントリの特徴量を示す。白丸は任意の分析処理の分析結果303が「正常」であるエントリの特徴量を示す。黒丸は任意の分析処理の分析結果303が「異常」であるエントリの特徴量を示す。ここでは、Probe攻撃の分析処理の分析結果303を想定する。なお、白丸及び黒丸の区別は説明のために区別したものである。
White circles and black circles indicate feature amounts of entries in the
振分部121は、更新された特徴量情報から更新された特徴量を含むエントリを取得し、更新されたエントリの特徴量を特徴量空間にプロットする。図5に示す特徴量空間のバツ印が取得されたエントリの特徴量の点を示す。
The allocating
振分部121は、特徴量空間における各エントリの特徴量と取得されたエントリの特徴量との間の距離を算出する。振分部121は、分析結果303が「正常」であるエントリなかで最も距離が短いエントリ(第1エントリ)を特定し、分析結果303が「異常」であるエントリのなかで最も距離が短いエントリ(第2エントリ)を特定する。
The allocating
図5に示す例では、点(α2,β2)に対応するエントリが第1エントリとなり、点(α3,β3)に対応するエントリが第2エントリとなる。 In the example shown in FIG. 5, the entry corresponding to the point (α2, β2) is the first entry, and the entry corresponding to the point (α3, β3) is the second entry.
振分部121は、第1エントリの特徴量と取得されたエントリの特徴量との間の距離r1、第2エントリの特徴量と取得されたエントリの特徴量との間の距離r2に基づいて、類似するエントリを特定する。具体的には、振分部121は、以下に示す四つの条件に基づいて、類似するエントリを特定する。
The allocating
(条件1) r1≦R1 かつ r2>R
(条件2) r1>R1 かつ r2≦R
(条件3) r1≦R1 かつ r2≦R
(条件4) r1>R1 かつ r2>R2
(Condition 1) r1 ≦ R1 and r2> R
(Condition 2) r1> R1 and r2 ≦ R
(Condition 3) r1 ≦ R1 and r2 ≦ R
(Condition 4) r1> R1 and r2> R2
R1は分析結果303が「正常」であるエントリに類似と判定する基準距離を表す。R2は分析結果303が「異常」であるエントリと類似と判定する基準距離を表す。ただし、R2はR1より大きいものとする。 R1 represents a reference distance determined to be similar to an entry whose analysis result 303 is “normal”. R2 represents a reference distance determined to be similar to an entry whose analysis result 303 is “abnormal”. However, R2 is larger than R1.
通常、トラフィックの大部分が正常な通信内容であり、異常な通信内容を含むトラフィックは少ない。そのため、分析結果303が「異常」であるエントリは、分析結果303が「正常」であるエントリが分布するエリアとは異なるエリアに存在する。また、一般的に分析結果303が「異常」であるエントリの周辺には、分析結果303が「正常」であるエントリは存在しない。そこで、R2を十分大きくすることによって、異常を示す特徴量を検知する精度を高める効果がある。 Usually, most of the traffic is normal communication content, and there is little traffic including abnormal communication content. For this reason, the entry whose analysis result 303 is “abnormal” exists in an area different from the area where the entries whose analysis result 303 is “normal” are distributed. In general, there is no entry whose analysis result 303 is “normal” around the entry whose analysis result 303 is “abnormal”. Therefore, by sufficiently increasing R2, there is an effect of improving the accuracy of detecting the feature amount indicating abnormality.
(条件1)は、第1エントリを中心とする円の領域に取得されたエントリの特徴量が含まれることを示す。(条件2)は、第2エントリを中心とする円の領域に取得されたエントリの特徴量が含まれることを示す。(条件3)は、第1エントリを中心とする円の領域及び第2エントリを中心とする円の領域の両方に取得されたエントリの特徴量が含まれることを示す。(条件4)は、第1エントリを中心とする円の領域及び第2エントリを中心とする円の領域のいずれにも取得されたエントリの特徴量が含まれないことを示す。 (Condition 1) indicates that the feature amount of the acquired entry is included in a circular area centered on the first entry. (Condition 2) indicates that the feature amount of the acquired entry is included in a circle area centered on the second entry. (Condition 3) indicates that the feature amount of the acquired entry is included in both the circle area centered on the first entry and the circle area centered on the second entry. (Condition 4) indicates that the feature quantity of the acquired entry is not included in any of the circle area centered on the first entry and the circle area centered on the second entry.
(条件1)を満たす場合、振分部121は、取得されたエントリの特徴量が第1エントリの特徴量301に類似すると判定する。(条件2)を満たす場合、振分部121は、取得されたエントリの特徴量が第2エントリの特徴量301に類似すると判定する。(条件3)を満たす場合、振分部121は、取得されたエントリの特徴量が第2エントリの特徴量301に類似すると判定する。(条件4)を満たす場合、振分部121は、特徴量301が類似するエントリは存在しないと判定する。以上がステップS402の処理の説明である。
When (Condition 1) is satisfied, the
特徴量301が取得されたエントリの特徴量と類似するエントリが存在しないと判定された場合、振分部121は、全ての分析部を選択し、全ての分析部に対して分析処理の実行を指示する(ステップS409)。その後、振分部121は、ステップS406に進む。
If it is determined that there is no entry similar to the feature amount of the entry for which the
なお、振分部121は、分析制御部122から分析結果を受信した場合、選択された振分情報の識別情報、取得されたエントリの特徴量、分析種別、及び分析結果を対応付けたエントリをメモリ111に一時的に格納する。
When the
特徴量301が取得されたエントリの特徴量と類似するエントリが存在すると判定された場合、振分部121は、類似するエントリの分析種別302に基づいて分析処理を一つ選択し(ステップS403)、当該分析処理に対応する分析結果303が「正常」であるか否かを判定する(ステップS404)。
If it is determined that there is an entry similar to the feature value of the entry for which the
選択された分析処理に対応する分析結果303が「正常」であると判定された場合、振分部121は、ステップS405に進む。
If it is determined that the
選択された分析処理に対応する分析結果303が「異常」であると判定された場合、振分部121は、当該分析処理に対応する分析部を選択し、選択された分析部に対して分析処理の実行を指示する(ステップS410)。その後、振分部121は、ステップS405に進む。
When it is determined that the
なお、振分部121は、分析制御部122から分析結果を受信した場合、選択された振分情報の識別情報、取得されたエントリの特徴量、分析種別、及び分析結果を対応付けたエントリをメモリ111に一時的に格納する。
When the
ステップS405では、振分部121は、類似するエントリの全ての分析種別302について処理が完了したか否かを判定する(ステップS405)。
In step S405, the
類似するエントリの全ての分析種別302について処理が完了していないと判定された場合、振分部121は、ステップS403に戻り、同様の処理を実行する。
If it is determined that processing has not been completed for all
類似するエントリの全ての分析種別302について処理が完了したと判定された場合、振分部121は、全ての振分情報について処理が完了したか否かを判定する(ステップS406)。
When it is determined that processing has been completed for all
具体的には、振分部121は、振分情報のリストに含まれる全ての振分情報について処理が完了したか否かを判定する。
Specifically, the
全ての振分情報について処理が完了していないと判定された場合、振分部121は、ステップS401に戻り、同様の処理を実行する。
If it is determined that the processing has not been completed for all the distribution information, the
全ての振分情報について処理が完了したと判定された場合、振分部121は、一回以上分析部が選択されたか否かを判定する(ステップS407)。すなわち、ステップS409又はステップS410の処理が一回以上実行されたか否かが判定される。
When it is determined that the processing has been completed for all distribution information, the
分析部が選択されていないと判定された場合、振分部121は、処理を終了する。
When it is determined that the analysis unit is not selected, the
一回以上分析部が選択されたと判定された場合、振分部121は、分析制御部122から分析処理の結果を全て受信した後、振分情報群142を更新し(ステップS408)、その後、処理を終了する。
When it is determined that the analysis unit has been selected one or more times, the
具体的には、振分部121は、メモリ111に格納されるエントリを参照して、更新する振分情報を特定し、特定された振分情報にエントリを一つ追加する。振分部121は、追加されたエントリの特徴量301に取得されたエントリの特徴量を設定し、分析種別302に全ての分析種別の行を生成し、各行の分析結果303に分析結果を設定する。なお、実行が指示されていない分析処理の分析結果303には、「正常」が設定されるものとする。
Specifically, the
なお、図3では、振分情報の分析種別302には全ての分析処理の行が含まれるが、本発明はこれに限定されない。例えば、特徴量301を用いる分析処理の行のみを含んでもよい。
In FIG. 3, the distribution
なお、実施例1では、パケットの特徴量を用いた分析処理を行うシステムを例に説明したが、本発明はこれに限定されない。パケット以外のデータを分析する分析部を複数有するシステムでも同様の効果を奏する。 In the first embodiment, the system that performs the analysis processing using the feature amount of the packet has been described as an example, but the present invention is not limited to this. A system having a plurality of analysis units that analyze data other than packets also has the same effect.
実施例1によれば、分析装置104は、振分情報に基づいて、任意の分析結果が異常を示す特徴量に類似する特徴量の有無を判定し、異常を示す特徴量に類似する特徴量が検知された場合、当該特徴量を用いた分析処理を実行する分析部を選択し、分析処理の実行を指示する。これによって、分析装置104が分析処理に使用する計算機リソース量を削減できる。
According to the first embodiment, the
また、分析部の分析結果に基づいて振分情報を更新することによって、特徴量の類否判断に使用するデータ量が増加するため、適切に分析部を選択できる。これによって、システム全体の分析精度を向上させることができる。 Further, by updating the distribution information based on the analysis result of the analysis unit, the amount of data used for determining the similarity of the feature amount increases, so that the analysis unit can be appropriately selected. Thereby, the analysis accuracy of the entire system can be improved.
実施例2では、振分部121及び分析制御部122が別々の装置に実装される点が実施例1と異なる。以下実施例1との差異を中心に実施例2について説明する。
The second embodiment is different from the first embodiment in that the
図6は、実施例2の計算機システムの構成例を示す図である。 FIG. 6 is a diagram illustrating a configuration example of a computer system according to the second embodiment.
実施例2ではデータセンタ100内の構成が実施例1のデータセンタ100と異なる。具体的には、データセンタ100は、NW装置102、計算機103、振分装置600、及び分析装置601を含む。なお、各装置は二つ以上存在してもよい。計算機103及び振分装置600は、NW装置102に接続する。
In the second embodiment, the configuration in the
実施例2のデータセンタ100は、分析処理を選択する振分装置600及び分析処理を実行する分析装置601を別々の装置として含む点が実施例1と異なる。
The
振分装置600のメモリ111は、特徴量算出部120及び振分部121を実現するプログラムを格納する。振分装置600の記憶部130は、ログ情報140、特徴量情報群141、及び振分情報群142を格納する。
The
分析装置601のメモリ111は、分析制御部122を実現するプログラムを格納する。分析装置601の記憶部130は、学習データ群143を格納する。
The
特徴量算出部120及び分析制御部122が実行する処理は、実施例1と同一である。また、ログ情報140、特徴量情報群141、振分情報群142、及び学習データ群143の内容は、実施例1と同一である。
The processing executed by the feature
振分部121が実行する処理は、実施例1と一部処理が異なる。具体的には、分析処理の実行を指示する方法が実施例1と異なる。
The processing executed by the
例えば、ステップS410において、振分部121は、分析処理の種別、算出された特徴量を引数として含む分析処理の実行指示を分析装置601に送信する。
For example, in step S410, the allocating
また、分析処理毎に分析装置601を有する構成であってもよい。この場合、振分部121は、分析装置601の識別情報、及び分析処理の種別を含む情報を保持する。振分部121は、分析処理の実行を指示する場合、当該情報に基づいて、選択された分析処理を実行する分析装置601を特定し、特定された分析装置601に算出された特徴量を引数として含む分析処理の実行指示を送信する。
Moreover, the structure which has the
実施例2は、実施例1と同一の効果を奏する。また、振分装置600及び分析装置601を別々の装置にすることによって、分析装置601の追加及び削除の制約がないため、システムの構成を柔軟に変更することができる。また、既存の計算機システムに振分装置600を追加することによって、本発明の効果を有する計算機システムを実現できる。
The second embodiment has the same effect as the first embodiment. In addition, since the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 In addition, this invention is not limited to an above-described Example, Various modifications are included. Further, for example, the above-described embodiments are described in detail for easy understanding of the present invention, and are not necessarily limited to those provided with all the described configurations. In addition, a part of the configuration of the embodiment can be added to, deleted from, or replaced with another configuration.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるCPUが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. The present invention can also be realized by software program codes that implement the functions of the embodiments. In this case, a storage medium in which the program code is recorded is provided to the computer, and a CPU included in the computer reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing it constitute the present invention. As a storage medium for supplying such a program code, for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, SSD (Solid State Drive), optical disk, magneto-optical disk, CD-R, magnetic tape, A non-volatile memory card, ROM, or the like is used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 The program code for realizing the functions described in the present embodiment can be implemented by a wide range of programs or script languages such as assembler, C / C ++, perl, Shell, PHP, Java (registered trademark).
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、コンピュータが備えるCPUが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Furthermore, by distributing the program code of the software that implements the functions of the embodiments via a network, the program code is stored in a storage means such as a hard disk or memory of a computer or a storage medium such as a CD-RW or CD-R The CPU included in the computer may read and execute the program code stored in the storage unit or the storage medium.
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiments, the control lines and information lines indicate what is considered necessary for the explanation, and not all control lines and information lines on the product are necessarily shown. All the components may be connected to each other.
100 データセンタ
101 端末
102 NW装置
103 計算機
104 分析装置
105 外部NW
110 CPU
111 メモリ
112 記憶装置
113 I/F
120 特徴量算出部
121 振分部
122 分析制御部
130 記憶部
140 ログ情報
141 特徴量情報群
142 振分情報群
143 学習データ群
200 DoS攻撃分析部
201 U2R攻撃分析部
202 R2L攻撃分析部
203 Probe攻撃分析部
210 パケット特徴量情報
211 フロー特徴量情報
212 周期特徴量情報
220 パケット用振分情報
221 フロー用振分情報
222 周期用振分情報
230 DoS攻撃分析用学習データ
231 U2R攻撃分析用学習データ
232 R2L攻撃分析用学習データ
233 Probe攻撃分析用学習データ
600 振分装置
601 分析装置
100
110 CPU
111
DESCRIPTION OF
Claims (15)
前記複数の計算機の各々は、プロセッサ、前記プロセッサに接続されるメモリ、前記プロセッサに接続され、他の装置と接続するためのインタフェースを有し、
前記複数の計算機は、
ネットワークを介して送受信されるデータを用いた分析処理を実行する分析部を複数含む分析制御部を有する計算機と、
前記データを用いて前記複数の分析部の各々が使用する特徴量を算出する特徴量算出部、及び使用する前記分析部を選択する振分部を有する計算機と、を含み、
前記振分部は、前記複数の分析部の各々が使用する前記特徴量、前記分析処理の種別、及び分析処理の結果を含むエントリを複数含む振分情報を管理し、
前記分析処理の結果は、前記分析処理が必要であるか否かを示す値であり、
前記振分部は、
前記振分情報を参照して、前記データから算出された特徴量に類似する特徴量を含む類似エントリを検索し、
前記類似エントリに含まれる前記分析処理の結果に基づいて、実行する前記分析処理を選択し、
前記振分部によって選択された分析処理を実行する前記分析部は、前記データから算出された特徴量を用いた分析処理を実行し、前記分析処理の結果を前記振分部に送信し、
前記振分部は、前記分析処理の結果を受信した場合、前記データから算出された特徴量、前記分析処理の種別、及び前記分析処理の結果を含むエントリを前記振分情報に追加することを特徴とする計算機システム。 A computer system comprising a plurality of computers,
Each of the plurality of computers has a processor, a memory connected to the processor, an interface connected to the processor and connected to another device,
The plurality of computers are:
A computer having an analysis control unit including a plurality of analysis units that perform analysis processing using data transmitted and received via a network;
A feature amount calculation unit that calculates a feature amount used by each of the plurality of analysis units using the data, and a computer that includes a distribution unit that selects the analysis unit to be used.
The distribution unit manages distribution information including a plurality of entries including the feature amount used by each of the plurality of analysis units, the type of the analysis process, and a result of the analysis process,
The result of the analysis process is a value indicating whether or not the analysis process is necessary,
The distribution unit is
With reference to the distribution information, a similar entry including a feature amount similar to the feature amount calculated from the data is searched,
Based on the result of the analysis process included in the similar entry, the analysis process to be executed is selected,
The analysis unit that executes the analysis process selected by the allocating unit performs an analysis process that uses the feature amount calculated from the data, and transmits the result of the analysis process to the allocating unit.
When the distribution unit receives the result of the analysis process, the distribution unit adds an entry including the feature amount calculated from the data, the type of the analysis process, and the result of the analysis process to the distribution information. A featured computer system.
前記特徴量算出部は、前記複数の分析部の各々が使用する種別が異なる複数の特徴量を算出し、
前記振分情報に含まれるエントリは、前記複数の特徴量を含み、
前記振分部は、
一つ種別の特徴量を一つの成分とする特徴量空間における、前記複数のエントリに含まれる前記複数の特徴量と、前記データから算出された前記複数の特徴量との間の距離を算出し、
前記距離が所定の閾値以下となるエントリの中から、前記距離が最も小さいエントリを、前記類似エントリとして特定することを特徴とする計算機システム。 The computer system according to claim 1,
The feature amount calculation unit calculates a plurality of feature amounts of different types used by each of the plurality of analysis units,
The entry included in the distribution information includes the plurality of feature amounts,
The distribution unit is
A distance between the plurality of feature amounts included in the plurality of entries and the plurality of feature amounts calculated from the data in a feature amount space having one type of feature amount as one component is calculated. ,
A computer system characterized in that an entry having the smallest distance is specified as the similar entry among entries whose distance is equal to or less than a predetermined threshold.
前記振分部は、前記距離が前記所定の閾値以下となるエントリが存在しない場合、全ての前記分析処理を選択することを特徴とする計算機システム。 The computer system according to claim 2,
The distribution unit selects all of the analysis processes when there is no entry whose distance is equal to or less than the predetermined threshold.
前記振分部は、
前記分析処理の結果が前記分析処理が不要であることを示す値を含むエントリの中から、前記距離が最小となる第1エントリを特定し、
前記分析処理の結果が前記分析処理が必要であることを示す値を含むエントリの中から、前記距離が最小となる第2エントリを特定し、
前記第1エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第1距離が第1閾値以下、かつ、前記第2エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第2距離が第2閾値より大きい場合、前記第1エントリを、前記類似エントリとして特定し、
前記第1距離が前記第1閾値より大きく、かつ、前記第2距離が前記第2閾値以下の場合、前記第2エントリを、前記類似エントリとして特定し、
前記第1距離が前記第1閾値以下、かつ、前記第2距離が前記第2閾値以下の場合、前記第2エントリを、前記類似エントリとして特定することを特徴とする計算機システム。 The computer system according to claim 2,
The distribution unit is
A first entry having a minimum distance is identified from entries including a value indicating that the analysis process is unnecessary, as a result of the analysis process;
A second entry having a minimum distance is identified from entries including a value indicating that the analysis process is necessary, as a result of the analysis process;
A first distance between a plurality of feature amounts included in the first entry and a plurality of feature amounts calculated from the data is equal to or less than a first threshold, and the plurality of feature amounts included in the second entry; If the second distance between the plurality of feature amounts calculated from the data is greater than a second threshold, the first entry is identified as the similar entry;
If the first distance is greater than the first threshold and the second distance is less than or equal to the second threshold, the second entry is identified as the similar entry;
The computer system characterized by specifying the second entry as the similar entry when the first distance is equal to or less than the first threshold and the second distance is equal to or less than the second threshold.
前記第1閾値は、前記第2閾値より小さいことを特徴とする計算機システム。 A computer system according to claim 4, wherein
The computer system according to claim 1, wherein the first threshold value is smaller than the second threshold value.
前記複数の計算機の各々は、プロセッサ、前記プロセッサに接続されるメモリ、前記プロセッサに接続され、他の装置と接続するためのインタフェースを有し、
前記複数の計算機は、
ネットワークを介して送受信されるデータを用いた分析処理を実行する分析部を複数含む分析制御部を有する計算機と、
特徴量を算出する特徴量算出部、及び使用する前記分析部を選択する振分部を有する計算機と、を含み、
前記振分部は、前記複数の分析部の各々が使用する前記特徴量、前記分析処理の種別、及び分析処理の結果を含むエントリを複数含む振分情報を管理し、
前記分析処理の結果は、前記分析処理が必要であるか否かを示す値であり、
前記データの分析処理方法は、
前記特徴量算出部が、前記データを用いて、前記複数の分析部の各々が使用する特徴量を算出する第1のステップと、
前記振分部が、前記振分情報を参照して、前記データから算出された特徴量に類似する特徴量を含む類似エントリを検索する第2のステップと、
前記振分部が、前記類似エントリに含まれる前記分析処理の結果に基づいて、実行する前記分析処理を選択する第3のステップと、
前記振分部によって選択された分析処理を実行する前記分析部が、前記データから算出された特徴量を用いた分析処理を実行し、前記分析処理の結果を前記振分部に送信する第4のステップと、
前記振分部が、前記分析処理の結果を受信した場合、前記データから算出された特徴量、前記分析処理の種別、及び前記分析処理の結果を含むエントリを前記振分情報に追加する第5のステップと、を含むことを特徴とするデータの分析方法。 A method for analyzing data in a computer system comprising a plurality of computers,
Each of the plurality of computers has a processor, a memory connected to the processor, an interface connected to the processor and connected to another device,
The plurality of computers are:
A computer having an analysis control unit including a plurality of analysis units that perform analysis processing using data transmitted and received via a network;
A feature amount calculation unit that calculates a feature amount, and a calculator that includes a distribution unit that selects the analysis unit to be used.
The distribution unit manages distribution information including a plurality of entries including the feature amount used by each of the plurality of analysis units, the type of the analysis process, and a result of the analysis process,
The result of the analysis process is a value indicating whether or not the analysis process is necessary,
The data analysis processing method is:
A first step in which the feature amount calculation unit calculates a feature amount used by each of the plurality of analysis units using the data;
A second step in which the allocating unit searches for a similar entry including a feature quantity similar to the feature quantity calculated from the data with reference to the distribution information;
A third step in which the allocating unit selects the analysis process to be executed based on a result of the analysis process included in the similar entry;
The analysis unit that executes the analysis process selected by the allocating unit executes an analysis process that uses the feature amount calculated from the data, and transmits a result of the analysis process to the allocating unit. And the steps
When the distribution unit receives the result of the analysis process, the distribution unit adds an entry including the feature amount calculated from the data, the type of the analysis process, and the result of the analysis process to the distribution information. And a data analysis method comprising the steps of:
前記振分情報に含まれるエントリは、種別が異なる複数の特徴量を含み、
前記第1のステップは、前記特徴量算出部が、前記複数の分析部の各々が使用する前記複数の特徴量を算出するステップを含み、
前記第2のステップは、
前記振分部が、一つの種別の特徴量を一つの成分とする特徴量空間における、前記複数のエントリに含まれる前記複数の特徴量と、前記データから算出された前記複数の特徴量との間の距離を算出する第6のステップと、
前記振分部が、前記距離が所定の閾値以下となるエントリの中から、前記距離が最も小さいエントリを、前記類似エントリとして特定する第7のステップと、を含むことを特徴とするデータの分析方法。 The data analysis method according to claim 6, comprising:
The entry included in the distribution information includes a plurality of feature amounts of different types,
The first step includes a step in which the feature amount calculation unit calculates the plurality of feature amounts used by each of the plurality of analysis units,
The second step includes
The allocating unit includes a plurality of feature amounts included in the plurality of entries and a plurality of feature amounts calculated from the data in a feature amount space having one type of feature amount as one component. A sixth step of calculating a distance between;
The distribution unit includes: a seventh step of identifying, as the similar entry, an entry having the smallest distance among entries whose distance is equal to or less than a predetermined threshold. Method.
前記第2のステップは、前記振分部が、前記距離が前記所定の閾値以下となるエントリが存在しない場合、全ての前記分析処理を選択するステップを含むことを特徴とするデータの分析方法。 The data analysis method according to claim 7, comprising:
The second step includes a method of analyzing data, wherein the distribution unit includes a step of selecting all the analysis processes when there is no entry whose distance is equal to or less than the predetermined threshold.
前記第7のステップは、
前記振分部が、前記分析処理の結果が前記分析処理が不要であることを示す値を含むエントリの中から、前記距離が最小となる第1エントリを特定するステップと、
前記振分部が、前記分析処理の結果が前記分析処理が必要であることを示す値を含むエントリの中から、前記距離が最小となる第2エントリを特定するステップと、
前記第1エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第1距離が第1閾値以下、かつ、前記第2エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第2距離が第2閾値より大きい場合、前記振分部が、前記第1エントリを、前記類似エントリとして特定するステップと、
前記第1距離が前記第1閾値より大きく、かつ、前記第2距離が前記第2閾値以下の場合、前記振分部が、前記第2エントリを、前記類似エントリとして特定するステップと、
前記第1距離が前記第1閾値以下、かつ、前記第2距離が前記第2閾値以下の場合、前記振分部が、前記第2エントリを、前記類似エントリとして特定するステップと、を含むことを特徴とするデータの分析方法。 The data analysis method according to claim 7, comprising:
The seventh step includes
The allocating unit identifying a first entry having a minimum distance among entries including a value indicating that the result of the analysis process does not require the analysis process;
The allocating unit identifying a second entry having the minimum distance among entries including a value indicating that the analysis process requires the analysis process; and
A first distance between a plurality of feature amounts included in the first entry and a plurality of feature amounts calculated from the data is equal to or less than a first threshold, and the plurality of feature amounts included in the second entry; When the second distance between the plurality of feature amounts calculated from the data is greater than a second threshold, the allocating unit identifies the first entry as the similar entry;
When the first distance is greater than the first threshold and the second distance is less than or equal to the second threshold, the allocating unit identifies the second entry as the similar entry;
When the first distance is equal to or smaller than the first threshold and the second distance is equal to or smaller than the second threshold, the allocating unit specifies the second entry as the similar entry. Data analysis method characterized by
前記第1閾値は、前記第2閾値より小さいことを特徴とするデータの分析方法。 The data analysis method according to claim 9, comprising:
The data analysis method, wherein the first threshold value is smaller than the second threshold value.
前記計算機は、
ネットワークを介して送受信されるデータを用いた分析処理を実行する分析部を複数含む分析制御部と、
前記データを用いて前記分析部が使用する特徴量を算出する特徴量算出部と、
使用する前記分析部を選択する振分部と、を有し、
前記複数の分析部の各々が使用する前記特徴量、前記分析処理の種別、及び分析処理の結果を含むエントリを複数含む振分情報を保持し、
前記分析処理の結果は、前記分析処理が必要であるか否かを示す値であり、
前記振分部は、
前記振分情報を参照して、前記データから算出された特徴量に類似する特徴量を含む類似エントリを検索し、
前記類似エントリに含まれる前記分析処理の結果に基づいて、実行する前記分析処理を選択し、
前記振分部によって選択された分析処理を実行する前記分析部が、前記データから算出された特徴量を用いた分析処理を実行し、前記分析処理の結果を前記振分部に出力し、
前記振分部は、前記分析処理の結果を受信した場合、前記データから算出された特徴量、前記分析処理の種別、及び前記分析処理の結果を含むエントリを前記振分情報に追加することを特徴とする計算機。 A computer comprising a processor, a memory connected to the processor, an interface connected to the processor and connected to another device,
The calculator is
An analysis control unit including a plurality of analysis units that perform analysis processing using data transmitted and received via a network;
A feature value calculation unit that calculates a feature value used by the analysis unit using the data;
A sorting unit for selecting the analysis unit to be used,
Holding distribution information including a plurality of entries including the feature amount used by each of the plurality of analysis units, the type of the analysis process, and a result of the analysis process;
The result of the analysis process is a value indicating whether or not the analysis process is necessary,
The distribution unit is
With reference to the distribution information, a similar entry including a feature amount similar to the feature amount calculated from the data is searched,
Based on the result of the analysis process included in the similar entry, the analysis process to be executed is selected,
The analysis unit that executes the analysis process selected by the allocating unit executes an analysis process that uses the feature amount calculated from the data, and outputs the result of the analysis process to the allocating unit;
When the distribution unit receives the result of the analysis process, the distribution unit adds an entry including the feature amount calculated from the data, the type of the analysis process, and the result of the analysis process to the distribution information. A featured calculator.
前記特徴量算出部は、前記複数の分析部の各々が使用する種別が異なる複数の特徴量を算出し、
前記振分情報に含まれるエントリは、前記複数の特徴量を含み、
前記振分部は、
一つの種別の特徴量を一つの成分とする特徴量空間における、前記複数のエントリに含まれる前記複数の特徴量と、前記データから算出された前記複数の特徴量との間の距離を算出し、
前記距離が所定の閾値以下となるエントリの中から、前記距離が最も小さいエントリを、前記類似エントリとして特定することを特徴とする計算機。 The computer according to claim 11, wherein
The feature amount calculation unit calculates a plurality of feature amounts of different types used by each of the plurality of analysis units,
The entry included in the distribution information includes the plurality of feature amounts,
The distribution unit is
A distance between the plurality of feature amounts included in the plurality of entries and the plurality of feature amounts calculated from the data in a feature amount space having one type of feature amount as one component is calculated. ,
A computer characterized in that an entry having the smallest distance is specified as the similar entry among entries whose distance is equal to or less than a predetermined threshold.
前記振分部は、前記距離が前記所定の閾値以下となるエントリが存在しない場合、全ての前記分析処理を選択することを特徴とする計算機。 The computer according to claim 12, comprising:
The distribution unit selects all the analysis processes when there is no entry whose distance is equal to or less than the predetermined threshold.
前記振分部は、
前記分析処理の結果が前記分析処理が不要であることを示す値を含むエントリの中から、前記距離が最小となる第1エントリを特定し、
前記分析処理の結果が前記分析処理が必要であることを示す値を含むエントリの中から、前記距離が最小となる第2エントリを特定し、
前記第1エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第1距離が第1閾値以下、かつ、前記第2エントリに含まれる複数の特徴量と前記データから算出された複数の特徴量との間の第2距離が第2閾値より大きい場合、前記第1エントリを、前記類似エントリとして特定し、
前記第1距離が前記第1閾値より大きく、かつ、前記第2距離が前記第2閾値以下の場合、前記第2エントリを、前記類似エントリとして特定し、
前記第1距離が前記第1閾値以下、かつ、前記第2距離が前記第2閾値以下の場合、前記第2エントリを、前記類似エントリとして特定することを特徴とする計算機。 The computer according to claim 12, comprising:
The distribution unit is
A first entry having a minimum distance is identified from entries including a value indicating that the analysis process is unnecessary, as a result of the analysis process;
A second entry having a minimum distance is identified from entries including a value indicating that the analysis process is necessary, as a result of the analysis process;
A first distance between a plurality of feature amounts included in the first entry and a plurality of feature amounts calculated from the data is equal to or less than a first threshold, and the plurality of feature amounts included in the second entry; If the second distance between the plurality of feature amounts calculated from the data is greater than a second threshold, the first entry is identified as the similar entry;
If the first distance is greater than the first threshold and the second distance is less than or equal to the second threshold, the second entry is identified as the similar entry;
The computer is characterized in that when the first distance is equal to or less than the first threshold and the second distance is equal to or less than the second threshold, the second entry is specified as the similar entry.
前記第1閾値は、前記第2閾値より小さいことを特徴とする計算機。 The computer according to claim 14, wherein
The computer according to claim 1, wherein the first threshold value is smaller than the second threshold value.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016090661A JP2017199250A (en) | 2016-04-28 | 2016-04-28 | Computer system, data analysis method, and computer |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016090661A JP2017199250A (en) | 2016-04-28 | 2016-04-28 | Computer system, data analysis method, and computer |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2017199250A true JP2017199250A (en) | 2017-11-02 |
Family
ID=60239371
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016090661A Pending JP2017199250A (en) | 2016-04-28 | 2016-04-28 | Computer system, data analysis method, and computer |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2017199250A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020061667A (en) * | 2018-10-10 | 2020-04-16 | 株式会社日立製作所 | Network device, packet processing method, and program |
| JP2021513170A (en) * | 2018-02-19 | 2021-05-20 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | Unmonitored spoofing detection from traffic data on mobile networks |
| EP4332746A1 (en) | 2022-08-29 | 2024-03-06 | Fujitsu Limited | Data processing method and data processing program |
-
2016
- 2016-04-28 JP JP2016090661A patent/JP2017199250A/en active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021513170A (en) * | 2018-02-19 | 2021-05-20 | エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. | Unmonitored spoofing detection from traffic data on mobile networks |
| JP2020061667A (en) * | 2018-10-10 | 2020-04-16 | 株式会社日立製作所 | Network device, packet processing method, and program |
| WO2020075398A1 (en) * | 2018-10-10 | 2020-04-16 | 株式会社日立製作所 | Network apparatus, method for processing packets, and program |
| JP7065744B2 (en) | 2018-10-10 | 2022-05-12 | 株式会社日立製作所 | Network equipment, how to process packets, and programs |
| EP4332746A1 (en) | 2022-08-29 | 2024-03-06 | Fujitsu Limited | Data processing method and data processing program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11500757B2 (en) | Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data | |
| US11218510B2 (en) | Advanced cybersecurity threat mitigation using software supply chain analysis | |
| US12301628B2 (en) | Correlating network event anomalies using active and passive external reconnaissance to identify attack information | |
| US20220210202A1 (en) | Advanced cybersecurity threat mitigation using software supply chain analysis | |
| US10262145B2 (en) | Systems and methods for security and risk assessment and testing of applications | |
| Chen et al. | CauseInfer: Automated end-to-end performance diagnosis with hierarchical causality graph in cloud environment | |
| US9124621B2 (en) | Security alert prioritization | |
| CN109074454B (en) | Automatically group malware based on artifacts | |
| KR102462128B1 (en) | Systems and methods for reporting computer security incidents | |
| WO2013186870A1 (en) | Service monitoring system and service monitoring method | |
| US8799923B2 (en) | Determining relationship data associated with application programs | |
| US11546356B2 (en) | Threat information extraction apparatus and threat information extraction system | |
| KR102040371B1 (en) | Apparatus and method for analyzing network attack pattern | |
| JP2017199250A (en) | Computer system, data analysis method, and computer | |
| JP2017211806A (en) | Communication monitoring method, security management system and program | |
| Rhee et al. | Software system performance debugging with kernel events feature guidance | |
| CN118796575B (en) | Interface audit method, device, electronic device and storage medium | |
| US20250260719A1 (en) | Malware process injection detection | |
| US10031788B2 (en) | Request profile in multi-threaded service systems with kernel events | |
| Rajeshwar et al. | DYNAMIC PRIORITIZATION FOR FULL STACK OBSERVABILITY | |
| HK40038095A (en) | Systems and methods for reporting computer security incidents | |
| CN120492492A (en) | Log data processing method and computing device | |
| HK40038095B (en) | Systems and methods for reporting computer security incidents |