[go: up one dir, main page]

WO2014097598A1 - リスク分析を行う情報処理装置及びリスク分析方法 - Google Patents

リスク分析を行う情報処理装置及びリスク分析方法 Download PDF

Info

Publication number
WO2014097598A1
WO2014097598A1 PCT/JP2013/007372 JP2013007372W WO2014097598A1 WO 2014097598 A1 WO2014097598 A1 WO 2014097598A1 JP 2013007372 W JP2013007372 W JP 2013007372W WO 2014097598 A1 WO2014097598 A1 WO 2014097598A1
Authority
WO
WIPO (PCT)
Prior art keywords
risk
service
risk factor
component
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2013/007372
Other languages
English (en)
French (fr)
Inventor
義晴 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014552925A priority Critical patent/JPWO2014097598A1/ja
Priority to US14/652,191 priority patent/US9898525B2/en
Publication of WO2014097598A1 publication Critical patent/WO2014097598A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Definitions

  • the present invention relates to an information processing apparatus that performs system risk analysis, a risk analysis method, and a program therefor.
  • the availability prediction model includes “a mathematical model for calculating, verifying, and analyzing availability”, calculation formulas, parameters, and “various information related to system configuration and behavior”.
  • the basic function of availability prediction is a function of predicting the operation rate of the entire system.
  • a method of analyzing the possibility of failure of the entire system from the characteristics of parts using a mathematical model such as a fault tree is widely known.
  • a method is often used in which state transitions are described by a mathematical model and the transitions are reproduced by simulation to analyze availability.
  • the mathematical model is, for example, a stochastic Petri network or a stochastic reward network.
  • MTBF Machine Time Between Failure
  • MTTR Average recovery time
  • FIG. 17 shows an example of a stochastic Petri net that defines the state transition of the information system.
  • the configuration of the information system assumes that the application AP1 operates on the virtual server VM1, and the virtual server VM1 operates on the physical server PS1.
  • a virtual server is also called a virtual machine.
  • a virtual server virtual machine
  • VM Virtual Machine
  • the virtual server is not a hypervisor but a general virtual server that is assigned to a user and accessible by the user, that is, a user VM.
  • the hypervisor refers to a virtual server control program that can be accessed only by a data center administrator.
  • the physical server PS1 is a physical computer in which the virtual server VM1 is executed.
  • each of the defined states is represented by a box with rounded corners.
  • states of “physical server PS1 in operation”, “virtual server VM1 in operation”, and “application AP1 in operation” indicating the state of normal operation are defined.
  • states of “physical server PS1 is stopped”, “virtual server VM1 is stopped”, and “application AP1 is stopped” indicating states where some kind of failure has occurred are defined.
  • each defined transition is represented by a rectangular black box indicating the event causing the transition and the transition probability of the transition, and an arrow indicating the direction of the transition.
  • TC672 shows the following. First, it is defined that when the physical server PS1 is in operation, a transition from the “virtual server VM1 inactive” state to the “virtual server VM1 in operation” state occurs with the probability of the recovery rate ⁇ VM1. . Second, it is defined that when the physical server PS1 is stopped, a transition from the “virtual server VM1 stopped” state to the “virtual server VM1 operating” state occurs with a probability of “0”. .
  • TC673 indicates the following. First, it is defined that when the virtual server VM1 is in operation, a transition from the “application AP1 in operation” state to the “application AP1 in suspension” state occurs with the probability of the failure rate ⁇ AP1. Secondly, it is defined that when the virtual server VM1 is stopped, a transition from the “application AP1 in operation” state to the “application AP1 is stopped” state occurs with a probability of “1”.
  • TC674 indicates the following. First, it is defined that when the virtual server VM1 is in operation, a transition from the “application AP1 is stopped” state to the “application AP1 is in operation” state occurs with the probability of the recovery rate ⁇ AP1. Second, it is defined that when the virtual server VM1 is stopped, a transition from the “application AP1 stopped” state to the “application AP1 operating” state occurs with a probability of “0”.
  • the system availability can be analyzed by performing a simulation based on such a stochastic Petri net.
  • the availability value can be calculated from the probability of transitioning to the “application stopped” state after sufficient time has elapsed. It should be noted that the state of “application stopped” is simply regarded as a failure, but in general, the availability value changes depending on the definition of the failure or operation.
  • each state and each transition described in the probabilistic Petri net is determined by the data center administrator after considering the characteristics of the server infrastructure and the data center operation procedure related to the server infrastructure. Is created one by one. Therefore, various availability prediction models are created according to the operation procedure.
  • Patent Literature 1 discloses an example of a technique related to a system that manages an availability prediction model.
  • the method of Patent Literature 1 discloses a method for predicting the operating rate of the entire system based on the characteristics of the components constituting the system and the monitoring information.
  • the characteristics are the rate at which a failure occurs in each computer constituting the system, the time taken to repair the failure, and the like.
  • the monitoring information is information relating to a failure during operation of the system.
  • Patent Document 2 discloses another example of a technique related to a system for managing an availability prediction model.
  • the method of Patent Document 2 synthesizes a fault tree (Fault Tree) for determining a failure based on system configuration information related to software and hardware. Then, the method calculates the unavailability corresponding to the failure mode based on the result of analyzing the failure information related to the software and the hardware. Next, the method calculates a system operation rate based on the fault tree and the non-operation rate. Next, the method determines whether or not the calculated system operation rate satisfies a reference value. Further, the method extracts basic events related to an increase in the system operation rate based on the determination result. Next, the method performs a resetting process such as a new unavailability based on whether or not the unavailability of the extracted basic event can be reduced.
  • a fault tree Fault Tree
  • Patent Document 3 discloses another example of a technique related to a system for managing an availability prediction model.
  • information on functions, configuration, security, performance, and the like as well as availability is registered as metadata when installing an application program or application service.
  • the method uses the metadata for subsequent analysis such as configuration management, failure detection, diagnosis, and recovery.
  • Patent Document 4 discloses another example of a technique related to a system for managing an availability prediction model.
  • the method of patent document 4 memorize
  • Patent Document 5 discloses another example of a technique related to a system for managing an availability prediction model.
  • the method of Patent Literature 5 identifies a service that uses a resource based on system configuration information, and identifies an equivalent resource having the same function as that resource in the identified service.
  • the method calculates the degree of influence of the resource on the service based on the state and the number of the equivalent resource.
  • the method calculates the priority of the resource based on the importance of the service and the calculated influence.
  • the system configuration information is information defining the function of each resource, its operating state, the resource used by each service, and the relationship between resources in the service.
  • Patent Document 6 discloses an example of a technique for discovering a physical resource that provides a specific virtual resource.
  • the method of Patent Document 6 receives sensor data output by an environmental sensor.
  • the sensor data is data representing a change in the property value related to the operation of the physical resource.
  • the method extracts a pattern from the sensor data.
  • the method compares the pattern to an identifier pattern that is known to have been generated from a particular virtual resource, and if a match is found, the physical resource provides the particular virtual resource To detect that it is being used to
  • the means is means for presenting a plurality of risk factors based on the relevance of the influence of each of the plurality of risk factors on the execution of the service.
  • a certain service is executed by a certain application program operating on a certain virtual server on a certain physical server.
  • the risk factor can be substantially removed by making the device redundant or exchanging with another device having high reliability.
  • risk factors are inherent in the virtual server and the application program. Therefore, it is desirable to remove these risk factors in order to improve availability for the service.
  • An object of the present invention is to provide a risk analysis device, a risk analysis method, and a program therefor that solve the above-described problems.
  • a risk analysis apparatus includes risk factor influence information indicating a relationship between a component having a risk factor and another component affected by the state of the component included in a service providing system.
  • a service corresponding to each of the risk factors to each of the services based on component characteristic information indicating the respective characteristics of the risk factors and service information indicating a correspondence between the service and the components.
  • the degree of influence calculating means for calculating the degree of influence; the risk factor selected based on the similarity by calculating the similarity between the specific risk factor and the other risk factor based on the service impact level;
  • a risk group generating unit that generates and outputs information including at least a set of identification information indicating the component corresponding to the above.
  • the risk analysis method is a risk in which a computer indicates a relationship between a component having a risk factor and another component affected by the state of the component included in a system that provides a service.
  • a computer indicates a relationship between a component having a risk factor and another component affected by the state of the component included in a system that provides a service.
  • component characteristic information indicating the characteristics of each risk factor
  • service information indicating the correspondence between the service and the component Calculating the service impact, calculating the similarity between the specific risk factor and the other risk factors based on the service impact, and corresponding to the risk factor selected based on the similarity Information including at least a set of identification information indicating the component is generated and output.
  • a non-transitory computer-readable non-transitory recording medium includes a component having a risk factor and another component that is affected by a state of the component included in a system that provides a service.
  • the risk factors to each of the services based on risk factor influence information indicating the relationship between the service factors, component element characteristic information indicating the characteristics of the risk factors, and service information indicating a correspondence between the service and the component
  • the present invention has an effect that it is possible to appropriately present a plurality of risk factors that should be removed at the same time in order to improve the availability of services provided by the system.
  • FIG. 1 is a block diagram showing the configuration of the risk analysis apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a configuration of a system that is a target of risk analysis in the first embodiment.
  • FIG. 3 is a block diagram illustrating a configuration of the risk analysis apparatus including the management storage unit according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a risk factor influence management table according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of a component element management table in the first embodiment.
  • FIG. 6 is a diagram illustrating an example of a service management table according to the first embodiment.
  • FIG. 7 is a block diagram illustrating a hardware configuration of a computer that implements the risk analysis apparatus according to the first embodiment.
  • FIG. 1 is a block diagram showing the configuration of the risk analysis apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a configuration of a system that is a
  • FIG. 8 is a flowchart showing the operation of the risk analysis apparatus according to the first embodiment.
  • FIG. 9 is an example of the calculation result of the application influence degree in the first embodiment.
  • FIG. 10 is an example of the calculation result of the service influence degree in the first embodiment.
  • FIG. 11 is an example of a calculation result of a distance that is an index of similarity according to the first embodiment.
  • FIG. 12 is a block diagram showing the configuration of the risk analysis apparatus according to the second embodiment of the present invention.
  • FIG. 13 is a diagram illustrating an example of a service management table according to the second embodiment.
  • FIG. 14 is a diagram illustrating an example in the case where the service influence degree is weighted by the essentiality and the total influence degree is calculated.
  • FIG. 9 is an example of the calculation result of the application influence degree in the first embodiment.
  • FIG. 10 is an example of the calculation result of the service influence degree in the first embodiment.
  • FIG. 11 is an example of a calculation result of a distance that is an index of similar
  • FIG. 15 is a block diagram showing a configuration of a risk analysis apparatus according to the third embodiment of the present invention.
  • FIG. 16 is a diagram illustrating an example of a risk factor influence management table according to the third embodiment.
  • FIG. 17 is a diagram illustrating an example of a stochastic Petri net.
  • FIG. 1 is a block diagram showing a configuration of a risk analysis apparatus 100 according to the first embodiment of the present invention.
  • the risk analysis apparatus 100 includes an influence degree calculation unit 110 and a risk group generation unit 120.
  • FIG. 2 is a diagram illustrating an example of a system configuration that is a target of risk analysis in the present embodiment.
  • the system shown in FIG. 2 includes a physical server (PS1) and a physical server (PS2).
  • a virtual server (VM1) and a virtual server (VM2) are arranged in the physical server (PS1).
  • VM3 and a virtual server (VM4) are arranged in the physical server (PS2).
  • An application program (AP1) runs on the virtual server (VM1).
  • An application program (AP2) and an application program (AP3) operate on the virtual server (VM2).
  • An application program (AP4) operates on the virtual server (VM3).
  • an application program (AP5) and an application program (AP6) operate.
  • the inside of () shows each identifier of those components.
  • () is omitted and described as, for example, “physical server PS1”.
  • risk factors are inherent in each of the physical server PS1, the physical server PS2, the virtual server VM1, the virtual server VM2, the virtual server VM3, and the virtual server VM4.
  • risk factors are inherent in each of the application AP1, application AP2, application AP3, application AP4, application AP5, and application AP6.
  • the system shown in FIG. 2 provides the service SV1 using the application AP1 and the application AP4.
  • the system also provides the service SV2 using the application AP1, the application AP2, and the application AP3. Further, the system uses the application AP4, the application AP5, and the application AP6 to provide the service SV3.
  • 1 may be a hardware unit or a component divided into functional units of a computer device.
  • the components shown in FIG. 1 will be described as components divided into functional units of the computer apparatus.
  • impact degree corresponding to each of the risk factors inherent in the system to each service provided by the system.
  • the influence degree calculation part 110 may acquire risk factor influence information, component element characteristic information, and service information stored in an external database (not shown), for example.
  • the risk factor influence information is information indicating the relationship between the first component and the second component included in the system that provides the service.
  • the first component is a component having the risk factor.
  • the second component is a component that is affected by the state of the first component (the state caused by the risk factor).
  • the second component may be the first component at the same time.
  • the “influence” is defined as follows when the “relationship between the virtual server VM1 and the application AP1 affected by the virtual server VM1” is taken as an example.
  • the transition from the “application AP1 in operation” state to the “application AP1 in suspension” state occurs with the probability of the failure rate ⁇ AP1 when the virtual server VM1 is in operation. It is said.
  • the transition from the “application AP1 in operation” state to the “application AP1 in suspension” state occurs with a probability of 100% when the virtual server VM1 is stopped.
  • the “influence” indicates that the state of the application AP1 (second component) differs depending on the state (in operation / stopped) of the virtual server VM1 (first component). It is.
  • the state of the virtual server VM1 (in operation / stopped) is a state caused by a risk factor of the virtual server VM1.
  • the component element characteristic information is information indicating the characteristic of the risk factor included in each of the first component elements.
  • the characteristics of the risk factor are the harmonic average of the failure rate, the reciprocal of the recovery rate, and the reciprocal of the failure rate and the recovery rate, calculated based on the theoretical and empirical data on the failure and recovery of each component. Average failure interval time, average recovery time, number of failures, number of successful recovery, and the like. Alternatively, the risk factor characteristic may be a value calculated by arbitrarily combining these values.
  • component failure rate and “component recovery rate” take continuous real values from 0 to 1.
  • the same values may be used as the values ( ⁇ AP1, ⁇ VM1 and ⁇ AP1, ⁇ VM1) used for the state transition probability of the availability prediction model to which the stochastic Petri net is applied.
  • the service information is information indicating the correspondence between the service provided by the system and the above-described second component.
  • a set of identification information including constituent elements corresponding to the risk factor selected by the risk group generation unit 120 is referred to as a “risk factor group”.
  • the risk group generation unit 120 calculates a value indicating the similarity between a specific risk factor and other risk factors based on the service impact level calculated by the impact level calculation unit 110.
  • the similarity is a distance calculated based on the service influence degree corresponding to each of the risk factors.
  • the risk group generation unit 120 selects a risk factor that satisfies a predetermined threshold based on their similarity.
  • the predetermined threshold may be a value indicating a specific distance, for example.
  • the risk group generation unit 120 generates and outputs a set of identification information (risk factor group) including constituent elements corresponding to the selected risk factor and the specific risk factor.
  • the risk factor group is information including at least a set of identification information indicating components corresponding to the risk factor selected based on the similarity between the specific risk factor and the other risk factors, The similarity is calculated based on the service influence level.
  • the risk group generation unit 120 may display this risk factor group on a display (not shown) or output it to a file (not shown) as a risk factor that should be removed at the same time.
  • FIG. 3 is a diagram illustrating a configuration of the risk analysis apparatus 101.
  • the risk analysis apparatus 101 further includes a management notation unit 130 in addition to the configuration of the risk analysis apparatus 100.
  • each management table held by the management notation part 130 may be data read by the risk analysis apparatus 101 via a network (not shown). Further, the content may be data directly input from an input means (not shown) by a human administrator.
  • the means (not shown) may be an input unit 704 shown in FIG.
  • FIG. 4 is a diagram showing an example of the risk factor influence management table 150 corresponding to the system shown in FIG.
  • the risk factor influence management table 150 includes a plurality of risk factor influence information entries 151.
  • the risk factor influence information entry 151 includes each identifier of the component having the risk factor (risk factor possessing component identifier) and each identifier of the other component affected by the component (affected component identifier). It consists of a pair.
  • the first line of the risk factor influence information entry 151 indicates that the risk factor inherent in the physical server PS1 affects the virtual server VM1 and the virtual server VM2.
  • Risk factors that may affect the performance of user services by affecting the operation of multiple devices (components) and causing these devices (components) to fail simultaneously are shared. Also called a risk factor.
  • the shared risk factor is also simply referred to as a risk factor.
  • the identifier of the component having the common risk factor described above is used as the risk factor possessing component identifier.
  • an identifier of a component having a risk factor that is not a common risk factor, such as the application APk, may be included as a risk factor possessing component identifier.
  • the risk factors possessed by these components are generated by, for example, a failure or failure that causes the components to stop.
  • the component is, for example, a physical server, a virtual server, or a router.
  • the constituent element may be an application program by regarding the application program as a kind of device.
  • resource identifiers that can identify each device (component element) such as “virtual server identifier”, “router identifier”, and “application program identifier” are used.
  • Equipment (components) affected by risk factors are physical servers, virtual servers, routers, or application programs.
  • each device has a plurality of risk factors
  • different components having each of those risk factors may be defined in a pseudo manner. That is, in each embodiment of the present specification, the description is made such that the component and the risk factor have a one-to-one correspondence. However, each embodiment is not limited to a one-to-one correspondence between physical or logical devices and risk factors.
  • the risk factor impact management table 150 may be stored as a table in a relational database or may be stored in a text format in a file. Further, the risk factor impact management table 150 indicates that new items are sequentially added to the risk factor impact management table 150, and items described in the risk factor impact management table 150 are deleted or modified. It may be controlled so that each can do it.
  • FIG. 5 is a diagram showing an example of the component characteristic management table 160 corresponding to the system shown in FIG.
  • the component element characteristic management table 160 includes a plurality of component element characteristic information entries 161.
  • the component element characteristic information entry 161 includes a set of each identifier of a component having a risk factor (risk factor possessing component identifier) and a characteristic of the risk factor (failure rate ⁇ in FIG. 5).
  • the failure rate ⁇ shown in FIG. 5 is obtained by converting, for example, values up to the second decimal place of the failure rate ⁇ used for the state transition probability of the availability prediction model applying the stochastic Petri net into an integer value.
  • the component element property management table 160 may be stored as a table in the relational database, or may be stored in a text format in a file.
  • the component element characteristic management table 160 sequentially adds new items to the component element characteristic management table 160, and deletes or modifies items described in the component element characteristic management table 160. It may be controlled so that each can do it.
  • FIG. 6 is a diagram showing an example of the service management table 170 corresponding to the system shown in FIG.
  • the service management table 170 includes a plurality of service information entries 171.
  • the service information entry 171 includes a set of a service identifier that is an identifier of a service provided by the system and a second component corresponding to each of those services.
  • the second component is, for example, an application program.
  • the service management table 170 may be stored as a table in the relational database, or may be stored in a text format in a file. Further, the service management table 170 is controlled so that new items can be sequentially added to the service management table 170 and items described in the service management table 170 can be deleted or modified. May be.
  • FIG. 7 is a diagram illustrating a hardware configuration of a computer 700 that implements the risk analysis apparatus 100 and the risk analysis apparatus 101 according to the present embodiment.
  • the computer 700 includes a CPU (Central Processing Unit) 701, a storage unit 702, a storage device 703, an input unit 704, an output unit 705, and a communication unit 706.
  • the computer 700 is also called a processor.
  • the computer 700 includes a recording medium (or storage medium) 707 supplied from the outside.
  • the recording medium 707 may be a non-volatile recording medium that stores information non-temporarily.
  • the CPU 701 controls the overall operation of the computer 700 by operating an operating system (not shown).
  • the CPU 701 reads a program and data from a recording medium 707 mounted on the storage device 703, for example, and writes the read program and data to the storage unit 702.
  • the program is, for example, a program that causes the computer 700 to execute an operation of a flowchart shown in FIG.
  • the CPU 701 executes various processes as the influence calculation unit 110 and the risk group generation unit 120 shown in FIGS. 1 and 3 according to the read program and based on the read data.
  • the CPU 701 may download a program and data to the storage unit 702 from an external computer (not shown) connected to a communication network (not shown).
  • the storage unit 702 stores programs and data.
  • the storage unit 702 may include a management notation unit 130.
  • the storage device 703 is, for example, an optical disk, a flexible disk, a magnetic optical disk, an external hard disk, and a semiconductor memory, and includes a recording medium 707.
  • the storage device 703 (recording medium 707) stores the program in a computer-readable manner.
  • the storage device 703 may store data.
  • the storage device 703 may include a management notation unit 130.
  • the input unit 704 is realized by, for example, a mouse, a keyboard, a built-in key button, and the like, and is used for an input operation.
  • the input unit 704 is not limited to a mouse, a keyboard, and a built-in key button, and may be a touch panel, for example.
  • the output unit 705 is realized by a display, for example, and is used for confirming the output.
  • the communication unit 706 realizes an interface with the outside.
  • the communication unit 706 is included as part of the impact calculation unit 110, the risk group generation unit 120, and the management notation billion unit 130.
  • the functional unit blocks of the risk analysis apparatus 100 shown in FIG. 1 and the risk analysis apparatus 101 shown in FIG. 3 are realized by the computer 700 having the hardware configuration shown in FIG.
  • the means for realizing each unit included in the computer 700 is not limited to the above.
  • the computer 700 may be realized by one physically coupled device, or may be realized by two or more physically separated devices connected by wire or wirelessly and by a plurality of these devices. .
  • the recording medium 707 in which the above-described program code is recorded may be supplied to the computer 700, and the CPU 701 may read and execute the program code stored in the recording medium 707.
  • the CPU 701 may store the code of the program stored in the recording medium 707 in the storage unit 702, the storage device 703, or both. That is, the present embodiment includes an embodiment of a recording medium 707 that stores a program (software) executed by the computer 700 (CPU 701) temporarily or non-temporarily.
  • the physical server PS1 and the physical server PS2 shown in FIG. 2 are also referred to as a physical server PSi.
  • i is 1 and 2.
  • the virtual server VM1, virtual server VM2, virtual server VM3, and virtual server VM4 are also referred to as virtual server VMj.
  • j is 1, 2, 3, and 4.
  • Application AP1, application AP2, application AP3, application AP4, application AP5, and application AP6 are also referred to as application APk.
  • k is 1, 2, 3, 4, 5 and 6.
  • Service SV1, service SV2, and service SV3 are also referred to as service SVm.
  • m is 1, 2, and 3.
  • FIG. 8 is a flowchart showing the operation of the present embodiment. Note that the processing according to this flowchart may be executed based on the above-described program control by the CPU. Further, the step name of the process is described by a symbol as in S601.
  • the impact calculation unit 110 calculates the application impact for each physical server PSi and virtual server VMj for each application APk based on the risk factor impact management table 150 and the component element property management table 160 (S601).
  • the influence degree calculation unit 110 calculates the application influence degree (PSi ⁇ APk) for the physical server PSi using, for example, Equation 1 shown below.
  • PSi ⁇ APk ⁇ PSi + ⁇ VMj + ⁇ APk (Formula 1)
  • ⁇ PSi is the failure rate ⁇ of the physical server PSi in the component characteristic management table 160.
  • ⁇ VMj is the failure rate ⁇ of the virtual server VMj
  • ⁇ APk is the failure rate of the application APk. The same applies to the following.
  • the application influence degree (PSi ⁇ APk) is a value indicating the influence of the risk factor of the physical server PSi on the operation of the application APk.
  • Expression 1 is an expression for calculating the application influence degree (PSi ⁇ APk) on the assumption that the physical server PSi affects the virtual server VMj and the virtual server affects the application APk. When the application program is not affected by the physical server, the application influence degree is set to “0”.
  • the influence degree calculation unit 110 determines which physical server PSi affects which application APk by referring to the risk factor influence management table 150.
  • the influence degree calculation unit 110 uses, for example, the following Expression 2, and calculates the application influence degree (VMj ⁇ APk) in the same manner as the case of the application influence degree (PSi ⁇ APk). calculate.
  • FIG. 9 is a diagram illustrating an example of “calculation result of application influence degree” corresponding to the system of FIG. 9, the impact calculation unit 110 calculates the application impact using Formula 1 and Formula 2 based on the risk factor impact management table 150 illustrated in FIG. 4 and the component element property management table 160 illustrated in FIG. 5. It is the result.
  • the identifier shown in the first column is the risk factor possessing component identifier
  • the identifier shown in the first row is the identifier of the affected application.
  • the numerical value in the second row of the second column indicates the application influence degree (PS1 ⁇ AP1).
  • the impact calculation unit 110 calculates the service impact for each risk factor corresponding to the risk factor possessing component identifier based on the service management table 170 and the calculated application impact (S602).
  • the service influence degree is an influence degree on each service SVk corresponding to each risk factor.
  • the influence degree calculation unit 110 calculates the service influence degree (PSi ⁇ SVm) for the physical server PSi using, for example, Equation 3 shown below.
  • Service impact PSi ⁇ SVm
  • PSi ⁇ APx application impact
  • Equation 3 ⁇ indicates the total sum of application influence levels (PSi ⁇ APx) for all application APk used by SVm.
  • the influence degree calculation unit 110 calculates the service influence degree (VMj ⁇ SVm) using Expression 4 shown below.
  • VMj ⁇ SVm ⁇ Application impact (VMj ⁇ APx) (Formula 4)
  • indicates the total sum of application influence levels (VMj ⁇ APx) for all application APk used by VMj.
  • FIG. 10 shows the system of FIG. 2 calculated by the influence degree calculation unit 110 using Expression 3 and Expression 4 based on the service management table 170 shown in FIG. 6 and the application influence degree calculation result shown in FIG.
  • FIG. 6 is a diagram illustrating an example of a “service influence degree calculation result” corresponding to FIG.
  • the identifier shown in the first column is the risk factor possessing component identifier
  • the identifier shown in the first row of the second column to the fourth column is the identifier of the affected service.
  • the numerical value in the second row of the second column indicates the service influence degree (PS1 ⁇ SV1).
  • the fifth column in the table of FIG. 10 will be described later.
  • the risk group generation unit 120 calculates the total impact level based on the calculated service impact level (S603).
  • the risk group generation unit 120 calculates the total impact (PSi) for the physical server PSi using, for example, the following formula 5.
  • Total impact (PSi) ⁇ service impact (PSi ⁇ SVm) (Formula 5)
  • represents the total sum of service influence levels (PSi ⁇ SVm) for all services SVm.
  • the risk group generation unit 120 uses, for example, Equation 6 shown below to calculate the total influence level (VMj).
  • Total impact (VMj) ⁇ service impact (VMj ⁇ SVm) (Formula 6)
  • indicates the total sum of service influence levels (VMj ⁇ SVm) for all services SVm.
  • FIG 10 shows an example of the total impact (PSi) calculated by the risk group generation unit 120 using Formula 5 and Formula 6 based on the calculation result of the service impact.
  • the risk group generation unit 120 calculates the distance of each risk factor with respect to the risk factor having the largest overall impact level using Equation 7 based on the calculated service impact level (S604).
  • the “risk factor with the largest overall impact” is the specific risk factor described above.
  • the risk group generation unit 120 calculates the distance (ij) using, for example, the following Expression 7.
  • the distance (ij) is an evaluation value of the similarity of the risk factors inherent in each of the physical server PSi or the virtual server VMj with respect to the maximum risk factor. Risk factors with a small distance are risk factors with high similarity.
  • the “service influence degree max” is the maximum service influence degree (in the case of the example shown in FIG. 10, “" of the physical server PS2) of the service influence degree (PSi ⁇ SVm) and the service influence degree (VMj ⁇ SVm). 25 ").
  • the service impact level (ij) is a service impact level (PSi ⁇ SVm) and a service impact level (VMj ⁇ SVm) excluding “service impact level max”.
  • represents the sum of ⁇ service influence degree max ⁇ service influence degree (ij) ⁇ 2 for all services SVm.
  • Equation 7 is an equation for calculating a geometric distance between vectors when the service influence level is regarded as a vector in the Euclidean space.
  • the risk group generation unit 120 may calculate a Manhattan distance or a generalized Mahalanobis distance.
  • FIG. 11 shows an example of the calculation result of the distance (ij) corresponding to the system of FIG. 2 calculated by the risk group generation unit 120 using Formula 7 based on the calculation result of the service influence degree shown in FIG. FIG.
  • the identifier shown in the first column is the risk factor possessing component identifier
  • the second to fourth columns are the distances for each service
  • the fifth column is the distance (ij).
  • the risk group generation unit 120 generates and outputs a risk factor group (S605).
  • the risk group generation unit 120 selects a risk factor corresponding to the service influence degree (ij) in which the calculated distance (ij) is equal to or less than a threshold and a risk factor corresponding to the service influence degree max.
  • generation part 120 produces
  • the risk group generation unit 120 may use an arbitrary risk factor as the specific risk factor instead of the risk factor corresponding to the maximum total influence degree.
  • the arbitrary risk factor is a risk factor designated by the administrator via the input unit 704, for example. In this case, the process of calculating the total influence level in S603 is unnecessary.
  • step S604 the risk group generation unit 120 calculates the distance of each risk factor with respect to the arbitrary risk factor using Equation 7 based on the calculated service influence degree.
  • the risk group generation unit 120 selects a risk factor corresponding to the service influence degree (ij) in which the calculated distance (ij) is equal to or less than a threshold value and an arbitrary risk factor. And the risk group production
  • the risk group generation unit 120 may perform the processes of S604 and S605 for each of all risk factors, and output each of the risk factor groups having each of the risk factors as a specific risk factor.
  • the administrator can make a plan to remove risk factors flexibly by using the plurality of risk factor groups obtained in this way.
  • the first effect of this embodiment described above is that it is possible to appropriately present a plurality of risk factors that are desirably removed at the same time in order to improve the availability of services provided by the system.
  • the influence degree calculation unit 110 calculates a service influence degree corresponding to each risk factor for each service.
  • the risk group generation unit 120 calculates a similarity between risk factors (an evaluation value indicating similarity) based on the service influence degree, generates a risk factor group based on the similarity, Output.
  • the second effect of the present embodiment described above is more appropriate in view of maximizing the effect of improving the availability of a plurality of risk factors that are desirably removed at the same time in order to improve the availability of services provided by the system. It is a point that makes it possible to present.
  • the reason is that the risk group generation unit 120 generates a risk factor group using the distance between the service impact level of the risk factor corresponding to the maximum overall impact level and the service impact level of other risk factors as an evaluation value of similarity. This is because of the output.
  • the third effect of the present embodiment described above more appropriately presents a plurality of risk factors that should be removed at the same time in order to improve the availability of services provided by the system from the viewpoint of responding to the intention of the administrator. It is a point that makes it possible to do.
  • the reason is that the risk group generation unit 120 generates a risk factor group by using the distance between the service impact of a risk factor arbitrarily specified by the administrator and the service impact of another risk factor as an evaluation value of similarity. This is because of the output.
  • the fourth effect of the present embodiment described above is to more appropriately present a plurality of risk factors that should be removed at the same time in order to improve the availability of services provided by the system from the viewpoint of flexible risk removal planning. It is a point that makes it possible to do.
  • the risk group generation unit 120 sets the risk factor group as the similarity evaluation value based on the distance between the service impact of each risk factor and the service impact of other risk factors. This is because it was generated and output.
  • FIG. 12 is a block diagram showing the configuration of the risk analysis apparatus 200 according to the second embodiment of the present invention.
  • the risk analysis device 200 according to the present embodiment is different from the risk analysis device 100 according to the first embodiment in that the risk group generation unit 120 is replaced with a risk group generation unit 220.
  • the service characteristic is, for example, the degree of necessity that is the importance of each service for the entire system.
  • the essentiality is, for example, a continuous real value from 0 to 1, and the greater the value, the higher the essentiality.
  • the essentiality is determined based on, for example, the quality of service promised to the user who uses the service. For example, when there are three levels of service quality regarding service availability: “very high availability”, “relatively high availability”, and “generally stable availability”, services corresponding to each of these service qualities May be set to 1.0, 0.6, and 0.4.
  • the degree of necessity may be determined based on a usage fee paid by a user who uses the service. For example, when there are three services whose usage fees are 10,000 yen, 6000 yen, and 5000 yen per month, the respective essentialities of these services may be set to 1.0, 0.6, and 0.5.
  • FIG. 13 is a diagram illustrating an example of the service management table 270 including the service information entry 271 further including the essentiality.
  • FIG. 14 is a diagram illustrating an example in which the service influence degree is weighted by the required degree and the total influence degree is calculated. As shown in FIG. 14, the risk factor possessing component identifier corresponding to the maximum total influence degree (15.2) is PS1.
  • the effect of the present embodiment described above is that, in addition to the effect of the first embodiment, a plurality of risk factors can be presented more appropriately from the viewpoint of handling service characteristics.
  • the plurality of risk factors are a plurality of risk factors that are desirably removed at the same time in order to improve the availability of services provided by the system.
  • the reason is that the risk group generation unit 220 calculates the total influence by weighting the service influence by the service characteristic.
  • FIG. 15 is a block diagram showing a configuration of a risk analysis apparatus 300 according to the third embodiment of the present invention.
  • the risk analysis device 300 according to the present embodiment is different from the risk analysis device 100 according to the first embodiment in that the risk group generation unit 120 is replaced with a risk group generation unit 320.
  • the cost limit value is a value indicating a total limit of those costs.
  • the risk group generation unit 320 generates a risk factor group based on the removal cost information so that the total cost of the risk factors included in the risk factor group does not exceed the specified cost limit value.
  • the risk group generation unit 320 selects a risk factor in ascending order of the distance (ij) and generates a risk factor group within a range where the total cost of removing the risk factor does not exceed the cost limit value. . That is, the risk group generation unit 320 generates a risk factor group for simultaneously removing risk factors having high similarity within a given cost limit value range.
  • the cost may be any one of a cost, time, period, number of workers, and a value calculated by arbitrarily combining them in order to remove each risk factor.
  • the cost limit value is a value indicating the expense.
  • the cost limit value is a value indicating time.
  • the cost limit value is a value indicating the number of people.
  • the risk group generation unit 320 uses, for example, the cost limit value input by the administrator to the risk analysis apparatus 300 via the input unit 704 shown in FIG. Or the risk group production
  • FIG. 16 is a diagram showing an example of a risk factor influence management table 350 including risk factor influence information entries 351 including costs that are removal cost information.
  • the component having the risk factor corresponding to the maximum overall impact level is the physical server PS2.
  • the constituent elements having risk factors in the order of the distance from the risk factor of the physical server PS2 are the virtual server VM4, the virtual server VM3, the virtual server VM1, and the virtual server VM2.
  • the risk group generation unit 320 generates a risk factor group including the identifiers of the physical server PS2 (cost is “11”) and the virtual server VM4 (cost is “3”).
  • the risk group generation unit 320 sets the identifiers of the physical server PS2 (cost is “11”), virtual server VM4 (cost is “3”), and virtual server VM3 (cost is “6”).
  • Cost is “11”
  • virtual server VM4 cost is “3”
  • virtual server VM3 cost is “6”.
  • the effects of the present embodiment described above are a plurality of risk factors that are desirably removed at the same time in order to improve the availability of services provided by the system. It is a point that makes it possible to present more appropriately.
  • the risk group generation unit 320 generates the risk factor group based on the removal cost information so that the total cost of the risk factors included in the risk factor group does not exceed the cost limit value.
  • each component described in each of the above embodiments does not necessarily need to be an independent entity.
  • each component may be realized as a module with a plurality of components.
  • each component may be realized by a plurality of modules.
  • Each component may be configured such that a certain component is a part of another component.
  • Each component may be configured such that a part of a certain component overlaps a part of another component.
  • each component and a module that realizes each component may be realized by hardware if necessary.
  • Each component and a module that realizes each component may be realized by a computer and a program.
  • Each component and a module that realizes each component may be realized by mixing hardware modules, computers, and programs.
  • the program is provided by being recorded on a non-volatile computer-readable recording medium such as a magnetic disk or a semiconductor memory, and is read by the computer when the computer is started up.
  • the read program causes the computer to function as a component in each of the above-described embodiments by controlling the operation of the computer.
  • a plurality of operations are not limited to being executed at different timings. For example, another operation may occur during the execution of a certain operation, or the execution timing of a certain operation and another operation may partially or entirely overlap.
  • each of the embodiments described above it is described that a certain operation becomes a trigger for another operation, but the description does not limit all relationships between the certain operation and other operations. For this reason, when each embodiment is implemented, the relationship between the plurality of operations can be changed within a range that does not hinder the contents.
  • the specific description of each operation of each component does not limit each operation of each component. For this reason, each specific operation
  • movement of each component may be changed in the range which does not cause trouble with respect to a functional, performance, and other characteristic in implementing each embodiment.
  • Risk factor impact information indicating the relationship between a component having a risk factor and other components affected by the state of the component included in the service providing system, and each of the risk factors
  • the component that calculates the similarity between the specific risk factor and the other risk factor based on the service influence degree, and corresponds to the risk factor selected based on the similarity
  • a risk group generation unit that generates and outputs information including at least a set of identification information indicating the risk information.
  • generation part calculates the total influence degree which added the said service influence degree corresponding to every said risk factor, and the said risk factor with the largest said comprehensive influence degree and other said risk factors are calculated.
  • the risk analysis apparatus according to any one of appendices 1 to 3, wherein the similarity between the two is calculated.
  • the characteristics of the risk factor are calculated based on the theoretical and empirical data of failure and recovery, the failure rate, the reciprocal of the recovery rate, the harmonic average of the failure rate and the reciprocal of the recovery rate, The average failure interval time, the average recovery time, the number of failures, the number of successful recovery, and a value calculated by arbitrarily combining these are any one of appendices 1 to 6 Risk analysis equipment.
  • generation part shows the said component based on the removal cost information which shows the cost in the case of removing each of the said risk factor, and the cost limit value which shows the total limit of the said cost
  • the risk analysis apparatus according to any one of appendices 1 to 7, wherein the information including at least a set of identification information is generated.
  • the supplementary note 8 is characterized in that the cost is any one of a cost, a time, a period, the number of workers, and a value calculated by arbitrarily combining them in order to remove the risk factor.
  • Additional remark 10 As described in any one of additional remark 1 thru
  • Risk factor influence information which shows the relationship between the component with a risk factor contained in the system in which a computer provides a service, and the said other component affected by the state of the said component,
  • the said risk factor Based on the component element characteristic information indicating the respective characteristics of the service and the service information indicating the correspondence between the service and the component elements, the service influence degree corresponding to each of the risk factors is calculated for each of the services. And calculating the similarity between the specific risk factor and the other risk factors based on the service impact, and indicating the component corresponding to the risk factor selected based on the similarity
  • a risk analysis method for generating and outputting information including at least a set of identification information.
  • Risk factor impact information indicating the relationship between a component having a risk factor and other components affected by the state of the component included in the service providing system, each of the risk factors
  • Processing for calculating a service influence level corresponding to each of the risk factors for each of the services, based on component element characteristic information indicating characteristics and service information indicating a correspondence between the service and the component; Calculating the similarity between the specific risk factor and the other risk factors based on the service impact and identifying the component corresponding to the risk factor selected based on the similarity
  • Risk factor influence information indicating a relationship between a component having a risk factor and another component affected by the state of the component, component component characteristic information indicating each characteristic of the risk factor, and the service and the Based on the service information indicating the correspondence with the constituent elements, the service influence degree corresponding to each of the risk factors is calculated for each of the services, and the risk group generation unit is based on the service influence degree. Calculate the similarity between the specific risk factor and the other risk factors, and select based on the similarity Corresponding to risk factors, it generates information including at least a set of the identification information indicating the component outputs, the risk analyzer.
  • the present invention can be applied to a risk analysis apparatus that performs system risk analysis, a risk analysis method, and a program therefor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

 本発明は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示する情報処理装置を提供する。その情報処理装置は、リスク要因を持つ構成要素とその構成要素の状態に影響を受ける他の構成要素との関係を示す情報、リスク要因のそれぞれの特性を示す情報、及びサービスとそれらの構成要素との対応を示す情報とに基づいて、それらのサービスのそれぞれへの、それらのリスク要因のそれぞれに対応する、サービス影響度を算出する手段と、算出したサービス影響度に基づいて特定のリスク要因と他のリスク要因との間の類似性を算出し、算出した類似性に基づいて、構成要素識別情報の集合を生成し、出力する手段と、を備える。

Description

リスク分析を行う情報処理装置及びリスク分析方法
 本発明は、システムのリスク分析を行う情報処理装置、リスク分析方法及びそのためのプログラムに関する。
 システムのリスクを分析する様々な技術及びその関連技術が知られている。
 例えば、可用性予測モデルを管理するシステムに係わる技術が知られている。可用性予測モデルは、「可用性を算出、検証、分析するための数学的なモデル」、計算式、パラメータ及び「システムの構成や挙動に関連する様々な情報」を含む。可用性予測の基本機能は、システム全体の稼働率を予測する機能である。
 特に、ハードウェアについては、フォールトツリー(Fault tree)などの数学的なモデルを用いて部品の特性からシステム全体の故障の可能性を分析する方法が広く知られている。一方、ソフトウェアについては、数学的なモデルで状態の遷移を記述し、シミュレーションで遷移を再現して可用性を分析する手法が用いられることが多い。その数学的なモデルは、例えば、確率的ペトリネット(Stochastic Petri Network)や確率的報酬ネット(Stochastic reward network)などである。
 可用性(Availability)は、ある一定期間のうち、利用者がサービスを利用できる割合を表す。その可用性は、稼働率と同義で用いられる。例えば、1日のうち平均的に1分だけ利用できない時間帯がある場合の可用性は、1-1÷(24×60)=0.9993(99.93%)となる。一般に、可用性は、障害が発生する時間間隔(平均故障間隔:MTBF(Mean Time Between Failure))と、障害が復旧するまでの時間(平均復旧時間:MTTR(Mean Time To Repair))とから決定される。
 確率的ペトリネットや確率的報酬ネットの技術を用いて、可用性予測モデルから可用性の算出や検証を行う一例を説明する。
 図17は、情報システムの状態遷移を定義する確率的ペトリネットの一例を示す。その情報システムの構成は、アプリケーションAP1が仮想サーバVM1上で稼働し、仮想サーバVM1が物理サーバPS1上で稼働しているものとする。仮想サーバは仮想マシンとも呼ばれる。以後、仮想サーバ(仮想マシン)をVM(Virtual Machine)とも表記する。尚、その仮想サーバは、ハイパーバイザではなく、利用者に割り当てられて利用者がアクセスできる一般の仮想サーバ、つまり、ユーザVMのことである。ここで、ハイパーバイザは、データセンタ管理者のみがアクセスできる仮想サーバの制御プログラムを指す。物理サーバPS1は、そこで仮想サーバVM1が実行されている、物理的なコンピュータである。
 図17に示す確率的ペトリネットにおいて、定義された状態のそれぞれは、角丸四角形の箱で表される。
 例えば、正常に運転している状態を示す「物理サーバPS1稼働中」、「仮想サーバVM1稼働中」及び「アプリケーションAP1稼働中」のそれぞれの状態が、定義されている。また、何らかの障害が発生している状態を示す「物理サーバPS1停止中」、「仮想サーバVM1停止中」及び「アプリケーションAP1停止中」のそれぞれの状態が、定義されている。
 また、その確率的ペトリネットにおいて、定義された遷移のそれぞれは、遷移を引き起こす事象及びその遷移の遷移確率を示す長方形の黒く塗りつぶした箱と、遷移の方向を示す矢印とで表される。
 図17に示す確率的ペトリネットでは、TC671は、以下を示す。第1に、その物理サーバPS1が稼働中の場合には故障率λVM1の確率で、「仮想サーバVM1稼働中」の状態から「仮想サーバVM1停止中」の状態へ遷移が起こることが定義されている。第2に、物理サーバPS1が停止中の場合には「1」の確率で、「仮想サーバVM1稼働中」の状態から「仮想サーバVM1停止中」の状態へ遷移が起こることが定義されている。
 また、その確率的ペトリネットでは、TC672は、以下を示す。第1に、物理サーバPS1が稼動中の場合には復旧率μVM1の確率で、「仮想サーバVM1停止中」の状態から「仮想サーバVM1稼働中」の状態へ遷移が起こることが定義されている。第2に、物理サーバPS1が停止中の場合には「0」の確率で、「仮想サーバVM1停止中」の状態から「仮想サーバVM1稼働中」の状態へ遷移が起こることが定義されている。
 また、その確率的ペトリネットでは、TC673は、以下を示す。第1に、仮想サーバVM1が稼働中の場合には故障率λAP1の確率で、「アプリケーションAP1稼働中」の状態から「アプリケーションAP1停止中」の状態へ遷移が起こることが定義されている。第2に、仮想サーバVM1が停止中の場合には「1」の確率で、「アプリケーションAP1稼働中」の状態から「アプリケーションAP1停止中」の状態へ遷移が起こることが定義されている。
 また、その確率的ペトリネットでは、TC674は、以下を示す。第1に、仮想サーバVM1が稼動中の場合には復旧率μAP1の確率で、「アプリケーションAP1停止中」の状態から「アプリケーションAP1稼働中」の状態へ遷移が起こることが定義されている。第2に、仮想サーバVM1が停止中の場合には「0」の確率で、「アプリケーションAP1停止中」の状態から「アプリケーションAP1稼働中」の状態へ遷移が起こることが定義されている。
 このような確率的ペトリネットに基づいてシミュレーションを行うことにより、システムの可用性を分析することができる。例えば、充分な時間が経過した後に、「アプリケーション停止中」の状態に遷移している確率から、可用性の値を算出することができる。尚、単純には「アプリケーション停止中」の状態を障害とみなすが、一般的には、可用性の値は障害または稼動の定義に依存して変わる。一般的に、確率的ペトリネットに記述される各状態や各遷移は、データセンタ管理者がサーバインフラの特性とそのサーバインフラに関わるデータセンタ運用手順までを加味した上で、そのデータセンタ管理者によってひとつひとつ作成される。そのため、運用手順に応じて、様々な可用性予測モデルが作成される。
 このように作成される可用性予測モデルを管理する様々な方法が提案されている。例えば、特許文献1は、可用性予測モデルを管理するシステムに係わる技術の一例を開示する。特許文献1の方法は、システムを構成する構成要素の特性と、監視情報とに基づいて、システム全体の稼働率を予測する方法を開示する。ここで、その特性は、システムを構成する個々のコンピュータにおいて、障害が発生する割合や障害の修復に掛かる時間などである。また、その監視情報は、そのシステムの稼働中の障害に関する情報である。
 特許文献2は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献2の方法は、ソフトウェア及びハードウェアに係わるシステム構成情報に基づいて、故障の判定を行うためのフォールトツリー(Fault Tree)を合成する。そして、その方法は、そのソフトウェア及びそのハードウェアに係わる故障情報を分析した結果に基づいて故障モードに対応する不稼働率を算出する。次に、その方法は、そのフォールトツリーとその不稼働率とに基づいて、システム稼働率を算出する。次に、その方法は、算出したシステム稼働率が基準値を満たしているかどうかを判定する。更に、その方法は、その判定結果に基づいて、システム稼働率の上昇に関係する基本事象を抽出する。次に、その方法は、抽出した基本事象の不稼働率の低下が可能か否かに基づいて、新たな不稼働率等の再設定処理を行う。
 特許文献3は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献3の方法は、可用性をはじめとして、機能、構成、セキュリティ、性能等に関する情報をアプリケーションプログラムやアプリケーションサービスのインストール時にメタデータとして登録しておく。そして、その方法は、その後の構成管理、障害検出、診断、復旧などの分析に、そのメタデータを用いる。
 特許文献4は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献4の方法は、故障が起こるたびに、故障が継続した時間と故障によりサービスを利用できなかった利用者数を記憶する。そして、その方法は、これらのデータを蓄積し、故障時間の割合、利用者1人あたりの故障を被った割合、及び実績不稼働率などを算出する。
 特許文献5は、可用性予測モデルを管理するシステムに係わる技術の、他の一例を開示する。特許文献5の方法は、システム構成情報に基づいて、リソースを利用するサービスを特定し、その特定したサービスにおいて、そのリソースと同一の機能を有する同等リソースを特定する。次に、その方法は、その同等リソースの状態及びその数に基づいて、そのリソースがサービスに及ぼす影響度を算出する。次に、その方法は、そのサービスの重要度及び算出した影響度に基づいて、そのリソースの優先度を算出する。尚、そのシステム構成情報は、各リソースの機能、その稼動状態、各サービスが利用するリソース及びサービスにおけるリソース間の関係を定義した情報である。
 特許文献6は、特定の仮想資源を提供している物理資源を発見する技術の、一例を開示する。特許文献6の方法は、環境センサーにより出力されたセンサデータを受け取る。ここで、そのセンサデータは、物理資源の動作に関連するプロパティ値の変化を表すデータである。次に、その方法は、そのセンサデータからパターンを抽出する。次に、その方法は、そのパターンを、特定の仮想資源から生成されたことが既知である識別子パターンと比較し、それらの一致が発見された場合に、その物理資源が特定の仮想資源を提供するために利用されていることを検出する。
特表2008-532170号公報 特開2006-127464号公報 特表2007-509404号公報 特開2005-080104号公報 特開2008-217285号公報 特開2012-094129号公報
 しかしながら、上述した特許文献に記載された技術においては、サービスを提供するシステムにおいて、そのサービスの可用性を向上させるために同時に取り除くのが望ましい複数のリスク要因を、適切に提示することができないという問題点がある。
 その同時に取り除くのが望ましい複数のリスク要因を適切に提示することができない理由は、上述の特許文献が開示する技術のいずれも、以下の手段を備えていないからである。その手段は、そのサービスの実行に対して複数のリスク要因のそれぞれが与える影響の関連性に基づいて、複数のリスク要因を提示する手段である。
 具体的には、サービスを提供するシステムに複数のリスク要因が内在する場合、そのシステムにおけるそのサービスの可用性を改善するためには、そのサービスの実行に係るリスク要因を、全て或いは可能な範囲で、同時に取り除く必要がある。
 例えば、あるサービスは、ある物理サーバ上のある仮想サーバで動作するあるアプリケーションプログラムによって実行される。そのような場合、その物理サーバに関しては、機器の冗長化や信頼性の高い別の機器との交換を行って実質的にリスク要因を取り除くことができる。一方、その仮想サーバやそのアプリケーションプログラムにもリスク要因は内在する。従って、そのサービスに対する可用性を改善するためには、これらのリスク要因も取り除かれることが望ましい。
 しかし、上述の特許文献に記載された技術は、それらの複数のリスク要因を適切に抽出し、提示する手段を備えていない。
 本発明の目的は、上述した問題点を解決するリスク分析装置、リスク分析方法及びそのためのプログラムを提供することにある。
 本発明の一様態におけるリスク分析装置は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出手段と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成手段と、を含む。
 本発明の一様態におけるリスク分析方法は、コンピュータが、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する。
 本発明の一様態におけるコンピュータ読み取り可能な不揮発性非一時的記録媒体は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示することが可能になるという効果がある。
図1は、本発明の第1の実施形態に係るリスク分析装置の構成を示すブロック図である。 図2は、第1の実施形態におけるリスク分析の対象となるシステムの構成の一例を示す図である。 図3は、第1の実施形態における管理記憶部を含むリスク分析装置の構成を示すブロック図である。 図4は、第1の実施形態におけるリスク要因影響管理表の一例を示す図である。 図5は、第1の実施形態における構成要素特性管理表の一例を示す図である。 図6は、第1の実施形態におけるサービス管理表の一例を示す図である。 図7は、第1の実施形態に係るリスク分析装置を実現するコンピュータのハードウェア構成を示すブロック図である。 図8は、第1の実施形態におけるリスク分析装置の動作を示すフローチャートである。 図9は、第1の実施形態におけるアプリケーション影響度の算出結果の一例である。 図10は、第1の実施形態におけるサービス影響度の算出結果の一例である。 図11は、第1の実施形態における類似性の指標である距離の算出結果の一例である。 図12は、本発明の第2の実施形態に係るリスク分析装置の構成を示すブロック図である。 図13は、第2の実施形態におけるサービス管理表の一例を示す図である。 図14は、その必須度でサービス影響度を重み付けし、総合影響度を算出した場合の例を示す図である。 図15は、本発明の第3の実施形態に係るリスク分析装置の構成を示すブロック図である。 図16は、第3の実施形態におけるリスク要因影響管理表の一例を示す図である。 図17は、確率的ペトリネットの一例を示す図である。
 本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施の形態において、同様の機能を備える構成要素には同様の符号が与えられている。
 <<<第1の実施形態>>>
 図1は、本発明の第1の実施形態に係るリスク分析装置100の構成を示すブロック図である。
 図1を参照すると、本実施形態に係るリスク分析装置100は、影響度算出部110と、リスクグループ生成部120とを含む。
 図2は、本実施形態におけるリスク分析の対象となる、システムの構成の一例を示す図である。
 図2に示すシステムは、物理サーバ(PS1)と物理サーバ(PS2)とを備える。物理サーバ(PS1)には、仮想サーバ(VM1)と仮想サーバ(VM2)とが配置されている。物理サーバ(PS2)には、仮想サーバ(VM3)と仮想サーバ(VM4)とが配置されている。仮想サーバ(VM1)上では、アプリケーションプログラム(AP1)が動作する。仮想サーバ(VM2)上では、アプリケーションプログラム(AP2)とアプリケーションプログラム(AP3)とが動作する。仮想サーバ(VM3)上では、アプリケーションプログラム(AP4)が動作する。仮想サーバ(VM4)上では、アプリケーションプログラム(AP5)とアプリケーションプログラム(AP6)とが動作する。ここで、()内は、それらの構成要素の、それぞれの識別子を示す。以後、()を省略して、例えば「物理サーバPS1」のように記載する。
 図2に示すシステムにおいては、物理サーバPS1、物理サーバPS2、仮想サーバVM1、仮想サーバVM2、仮想サーバVM3及び仮想サーバVM4のそれぞれにリスク要因が内在する。また、そのシステムにおいては、アプリケーションAP1、アプリケーションAP2、アプリケーションAP3、アプリケーションAP4、アプリケーションAP5及びアプリケーションAP6のそれぞれにもリスク要因が内在する。
 図2に示すシステムは、アプリケーションAP1とアプリケーションAP4とを利用して、サービスSV1を提供する。また、そのシステムは、アプリケーションAP1とアプリケーションAP2とアプリケーションAP3とを利用して、サービスSV2を提供する。更に、そのシステムは、アプリケーションAP4とアプリケーションAP5とアプリケーションAP6とを利用して、サービスSV3を提供する。
 次に、第1の実施形態におけるリスク分析装置100が含む各構成要素について説明する。尚、図1に示す構成要素は、ハードウェア単位の構成要素でも、コンピュータ装置の機能単位に分割された構成要素でもよい。ここでは、図1に示す構成要素は、コンピュータ装置の機能単位に分割された構成要素として説明する。
 ===影響度算出部110===
 影響度算出部110は、リスク要因影響情報、構成要素特性情報、及びサービス情報に基づいて、システムが提供するサービスのそれぞれへの、そのシステムに内在するリスク要因のそれぞれに対応する影響度(以後、サービス影響度と呼ぶ)を算出する。そのシステムは、例えば、図2に示すシステムである。
 尚、影響度算出部110は、例えば、外部の図示しないデータベースに格納された、リスク要因影響情報、構成要素特性情報、及びサービス情報を取得してもよい。
 そのリスク要因影響情報は、そのサービスを提供するシステムに含まれる、第1の構成要素と第2の構成要素との関係を示す情報である。その第1の構成要素は、そのリスク要因を持つ構成要素である。その第2の構成要素は、その第1の構成要素の状態(リスク要因に起因する状態)に影響を受ける構成要素である。尚、第2の構成要素は、同時に第1の構成要素であってもよい。
 ここで、その「影響」は、例えば「仮想サーバVM1と仮想サーバVM1に影響を受けるアプリケーションAP1との関係」を例とした場合、以下のように定義される。
 例えば、図17に示す確率的ペトリネットにおいて、「アプリケーションAP1稼働中」状態から「アプリケーションAP1停止中」状態への遷移が、仮想サーバVM1が稼働中の場合に、故障率λAP1の確率で起こるものとしている。また、その確率的ペトリネットにおいて、「アプリケーションAP1稼働中」状態から「アプリケーションAP1停止中」状態への遷移が、仮想サーバVM1が停止中の場合に、100%の確率で起こるものとしている。
 このように、その「影響」は、仮想サーバVM1(第1の構成要素)の状態(稼働中/停止中)に応じて、アプリケーションAP1(第2の構成要素)の状態が異なるという「影響」である。そして、仮想サーバVM1の状態(稼働中/停止中)は、仮想サーバVM1の持つリスク要因に起因する状態である。
 その構成要素特性情報は、それらの第1の構成要素のそれぞれが含むリスク要因の特性を示す情報である。
 ここで、そのリスク要因の特性は、各構成要素の故障及び復旧に関する理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数及び復旧成功数などである。或いは、そのリスク要因特性は、それらの値を任意に組み合わせて算出する値であってもよい。
 例えば、「構成要素の故障率」及び「構成要素の復旧率」は、0から1までの連続な実数値をとる。これらの値は、確率的ペトリネットを応用した可用性予測モデルの状態遷移確率に用いる値(λAP1、λVM1とμAP1、μVM1)と、同じ値(故障率λと復旧率μ)が利用されてよい。
 また、そのサービス情報は、システムが提供するサービスと上述の第2の構成要素との対応を示す情報である。
 ===リスクグループ生成部120===
 リスクグループ生成部120は、影響度算出部110が算出したサービス影響度に基づいて、リスク要因間の類似性を算出する。そして、リスクグループ生成部120は、その類似性に基づいて選択したリスク要因に対応する、構成要素を示す識別情報の集合を出力する。以後、「リスクグループ生成部120が選択したリスク要因に対応する、構成要素を含む識別情報の集合」を「リスク要因グループ」と呼ぶ。
 具体的には、リスクグループ生成部120は、影響度算出部110が算出したサービス影響度に基づいて、特定のリスク要因と他のリスク要因の類似性を示す値を算出する。その類似性は、それらのリスク要因のそれぞれに対応するサービス影響度に基づいて算出される距離である。
 次に、リスクグループ生成部120は、それらの類似性に基づいて、所定の閾値を満たすリスク要因を選択する。所定の閾値は、例えば、特定の距離を示す値であってよい。続けて、リスクグループ生成部120は、その選択したリスク要因とその特定のリスク要因とに対応する、構成要素を含む識別情報の集合(リスク要因グループ)を生成し、出力する。換言すると、リスク要因グループは、特定のリスク要因と他のリスク要因との間の類似性に基づいて選択したリスク要因に対応する、構成要素を示す識別情報の集合を少なくとも含む情報であり、その類似性は、サービス影響度に基づいて算出される。
 例えば、リスクグループ生成部120は、このリスク要因グループを同時に取り除くべきリスク要因を示すものとして、ディスプレイ(不図示)に表示したり、ファイル(不図示)に出力したりしてよい。
 以上が、リスク分析装置100が含む各構成要素についての説明である。
 図3は、リスク分析装置101の構成を示す図である。図3に示すように、リスク分析装置101は、リスク分析装置100の構成に加えて、管理表記億部130を更に含む。
===管理表記億部130===
 管理表記億部130は、リスク要因影響管理表150、構成要素特性管理表160及びサービス管理表170を記憶する。即ち、リスク分析装置101は、上述のリスク要因影響情報、構成要素特性情報、及びサービス情報の記憶手段を更に含むリスク分析装置100に相当する。
 管理表記億部130が保持する各管理表の内容は、図示しないネットワークを経由してリスク分析装置101が読み込んだデータでよい。また、その内容は、人間の管理者によって、図示しない入力手段から直接入力されたデータでもよい。その図示しない手段は、後述の図7に示す入力部704であってよい。
 ===リスク要因影響管理表150===
 図4は、図2に示すシステムに対応するリスク要因影響管理表150の一例を示す図である。リスク要因影響管理表150は、複数のリスク要因影響情報エントリ151を含む。リスク要因影響情報エントリ151は、リスク要因を持つ構成要素のそれぞれの識別子(リスク要因保有構成要素識別子)と、その構成要素から影響を受ける他の構成要素のそれぞれの識別子(被影響構成要素識別子)との組から成る。
 例えば、リスク要因影響情報エントリ151の1行目は、物理サーバPS1に内在するリスク要因が仮想サーバVM1及び仮想サーバVM2に影響することを示す。このような、複数の機器(構成要素)の動作に影響を与え、これらの機器(構成要素)に同時に障害を引き起こすことで、ユーザサービスの実行に影響を与える可能性を持つリスク要因は、共有リスク要因とも呼ばれる。但し、本実施形態では、その共有リスク要因を、単にリスク要因とも記載する。
 尚、本実施形態では、上述の共通リスク要因を持つ構成要素の識別子を、リスク要因保有構成要素識別子としている。しかし、アプリケーションAPkのような、共通リスク要因でないリスク要因を持つ構成要素の、識別子をリスク要因保有構成要素識別子として含めてもよい。
 それらの構成要素が持つリスク要因は、例えば、その構成要素が停止するような、故障や障害によって発生させられる。その構成要素は、例えば、物理サーバ、仮想サーバ或いはルータなどである。更に、その構成要素は、アプリケーションプログラムを機器の一種と捉えて、アプリケーションプログラムであってもよい。また、これらの構成要素の識別子は、「仮想サーバの識別子」、「ルータの識別子」、「アプリケーションプログラムの識別子」など、ひとつひとつの機器(構成要素)を特定できるリソース識別子を使用する。
 リスク要因が影響する機器(構成要素)も、物理サーバ、仮想サーバ、ルータ或いは、アプリケーションプログラムなどである。
 また、1つの機器が複数のリスク要因を持つ場合、それらのリスク要因のそれぞれを持つ、異なる構成要素が擬似的に定義されてもよい。即ち、本明細書の各実施形態においては、構成要素とリスク要因とが1対1に対応しているように説明している。しかし、各実施形態は、物理的或いは論理的な機器とリスク要因とが1対1に対応するように限定するものではない。
 尚、リスク要因影響管理表150は、関係データベース(relational database)にテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、リスク要因影響管理表150は、リスク要因影響管理表150に新しい項目を逐次的に追記すること、及びリスク要因影響管理表150に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
 ===構成要素特性管理表160===
 図5は、図2に示すシステムに対応する構成要素特性管理表160の一例を示す図である。構成要素特性管理表160は、複数の構成要素特性情報エントリ161を含む。構成要素特性情報エントリ161は、リスク要因を持つ構成要素のそれぞれの識別子(リスク要因保有構成要素識別子)と、そのリスク要因の特性(図5では、故障率λ)との組から成る。
 図5に示す故障率λは、例えば、確率的ペトリネットを応用した可用性予測モデルの状態遷移確率に用いる故障率λの小数第2位までの値を、整数値に変換したものである。
 尚、構成要素特性管理表160は、関係データベースにテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、構成要素特性管理表160は、構成要素特性管理表160に新しい項目を逐次的に追記すること、及び構成要素特性管理表160に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
 ===サービス管理表170===
 図6は、図2に示すシステムに対応するサービス管理表170の一例を示す図である。サービス管理表170は、複数のサービス情報エントリ171を含む。サービス情報エントリ171は、システムが提供するサービスの識別子であるサービス識別子と、それらのサービスのそれぞれに対応する第2の構成要素との組から成る。ここで、第2の構成要素は、例えば、アプリケーションプログラムである。
 尚、サービス管理表170は、関係データベースにテーブルとして保持されてもよいし、ファイルにテキスト形式で保持されてもよい。また、サービス管理表170は、サービス管理表170に新しい項目を逐次的に追記すること、及びサービス管理表170に記載されている項目を削除したり修正したりすることのそれぞれができるように制御されてもよい。
 以上が、リスク分析装置100とリスク分析装置101との機能単位の各構成要素についての説明である。
 次に、リスク分析装置100及びリスク分析装置101のハードウェア単位の構成要素について説明する。
 図7は、本実施形態におけるリスク分析装置100やリスク分析装置101を実現するコンピュータ700のハードウェア構成を示す図である。
 図7に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。コンピュータ700は、プロセッサとも呼ばれる。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体であってもよい。
 CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の全体の動作を制御する。また、CPU701は、例えば記憶装置703に装着された記録媒体707から、プログラムやデータを読み込み、読み込んだプログラムやデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図8に示すフローチャートの動作をコンピュータ700に実行させるプログラムである。
 そして、CPU701は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1及び図3に示す影響度算出部110及びリスクグループ生成部120として各種の処理を実行する。
 尚、CPU701は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部702にプログラムやデータをダウンロードしてもよい。
 記憶部702は、プログラムやデータを記憶する。記憶部702は、管理表記億部130を含んでよい。
 記憶装置703は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、記録媒体707を含む。記憶装置703(記録媒体707)は、プログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、データを記憶してもよい。記憶装置703は、管理表記億部130を含んでよい。
 入力部704は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部704は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルなどでもよい。
 出力部705は、例えばディスプレイで実現され、出力を確認するために用いられる。
 通信部706は、外部とのインタフェースを実現する。通信部706は、影響度算出部110、リスクグループ生成部120及び管理表記億部130の一部として含まれる。
 以上説明したように、図1に示すリスク分析装置100及び図3に示すリスク分析装置101の機能単位のブロックは、図7に示すハードウェア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
 尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給され、CPU701は、記録媒体707に格納されたプログラムのコードを読み出して実行するようにしてもよい。或いは、CPU701は、記録媒体707に格納されたプログラムのコードを、記憶部702、記憶装置703またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するプログラム(ソフトウェア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
 以上が、本実施形態におけるリスク分析装置100及びリスク分析装置101を実現するコンピュータ700の、ハードウェア単位の各構成要素についての説明である。
 次に本実施形態の動作について、図1~図11を参照して詳細に説明する。
 尚、以後の説明において、図2に示す物理サーバPS1及び物理サーバPS2は、物理サーバPSiとも記載する。この場合、iは、1及び2である。仮想サーバVM1、仮想サーバVM2、仮想サーバVM3及び仮想サーバVM4は、仮想サーバVMjとも記載する。この場合、jは、1、2、3及び4である。アプリケーションAP1、アプリケーションAP2、アプリケーションAP3、アプリケーションAP4、アプリケーションAP5及びアプリケーションAP6は、アプリケーションAPkとも記載する。この場合、kは、1、2、3、4、5及び6である。また、サービスSV1、サービスSV2及びサービスSV3は、サービスSVmとも記載する。この場合、mは、1、2及び3である。
 図8は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPUによるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
 影響度算出部110は、リスク要因影響管理表150と構成要素特性管理表160とに基づいて、アプリケーションAPkのそれぞれに対する、物理サーバPSi及び仮想サーバVMjごとのアプリケーション影響度を算出する(S601)。
 影響度算出部110は、物理サーバPSiについては、例えば、以下に示す式1を利用し、アプリケーション影響度(PSi→APk)を算出する。
 アプリケーション影響度(PSi→APk)=λPSi+λVMj+λAPk ・・・(式1)
 但し、λPSiは、構成要素特性管理表160の物理サーバPSiの故障率λである。
同様に、λVMjは仮想サーバVMjの故障率λであり、λAPkはアプリケーションAPkの故障率である。以下も同様である。
 ここで、アプリケーション影響度(PSi→APk)は、物理サーバPSiのリスク要因がアプリケーションAPkの動作に与える影響を示す値である。式1は、物理サーバPSiが仮想サーバVMjに影響を与え、その仮想サーバがアプリケーションAPkに影響を与えるものとして、アプリケーション影響度(PSi→APk)を算出する式である。アプリケーションプログラムが当該物理サーバから影響を受けない場合には、アプリケーション影響度は「0」とする。
 影響度算出部110は、いずれの物理サーバPSiが、いずれのアプリケーションAPkに影響を与えるかを、リスク要因影響管理表150を参照することで、判断する。
 図4のリスク要因影響管理表150を参照すると、例えば、物理サーバPS1は仮想サーバVM1に影響を与え、仮想サーバVM1はアプリケーションAP1に影響を与える。従って、影響度算出部110は、式1に基づいて、アプリケーション影響度(PS1→AP1)=λPS1+λVM1+λAP1=1+2+3=6を算出する。
 また、影響度算出部110は、仮想サーバVMjについては、例えば、以下に示す式2を利用し、アプリケーション影響度(PSi→APk)の場合と同様にして、アプリケーション影響度(VMj→APk)を算出する。
 アプリケーション影響度(VMj→APk)=λVMj+λAPk ・・・(式2)
 図9は、図2のシステムに対応する「アプリケーション影響度の算出結果」の例を示す図である。図9は、影響度算出部110が、図4に示すリスク要因影響管理表150及び図5に示す構成要素特性管理表160に基づいて、式1及び式2を利用してアプリケーション影響度を算出した結果である。図9において、第1列に示す識別子は、リスク要因保有構成要素識別子であり、第1行に示す識別子は、影響を受けるアプリケーションの識別子である。例えば、第2列の第2行の数値がアプリケーション影響度(PS1→AP1)を示す。
 次に、影響度算出部110は、サービス管理表170と算出したアプリケーション影響度とに基づいて、リスク要因保有構成要素識別子に対応するリスク要因ごとにサービス影響度を計算する(S602)。そのサービス影響度は、リスク要因のそれぞれに対応する、サービスSVkのそれぞれへの影響度である。
 影響度算出部110は、物理サーバPSiについては、例えば、以下に示す式3を利用し、サービス影響度(PSi→SVm)を算出する。
 サービス影響度(PSi→SVm)=Σアプリケーション影響度(PSi→APx) ・・・(式3)
 但し、Σは、SVmが使用する全てのアプリケーションAPkについてのアプリケーション影響度(PSi→APx)の総和を示す。
 また、影響度算出部110は、仮想サーバVMjについては、例えば、以下に示す式4を利用し、サービス影響度(VMj→SVm)を算出する。
 サービス影響度(VMj→SVm)=Σアプリケーション影響度(VMj→APx) ・・・(式4)
 但し、Σは、VMj使用する全てのアプリケーションAPkについてのアプリケーション影響度(VMj→APx)の総和を示す。
 図10は、影響度算出部110が、図6に示すサービス管理表170及び図9に示すアプリケーション影響度の算出結果に基づいて、式3及び式4を利用して算出した、図2のシステムに対応する「サービス影響度の算出結果」の例を示す図である。図10において、第1列に示す識別子は、リスク要因保有構成要素識別子であり、第2列から第4列の第1行に示す識別子は、影響を受けるサービスの識別子である。例えば、第2列の第2行の数値は、サービス影響度(PS1→SV1)を示す。尚、図10の表の第5列については後述する。
 次に、リスクグループ生成部120は、算出したサービス影響度に基づいて、総合影響度を算出する(S603)。
 リスクグループ生成部120は、物理サーバPSiについては、例えば、以下に示す式5を利用し、総合影響度(PSi)を算出する。
 総合影響度(PSi)=Σサービス影響度(PSi→SVm) ・・・(式5)
 但し、Σは、全てのサービスSVmについてのサービス影響度(PSi→SVm)の総和を示す。
また、リスクグループ生成部120は、仮想サーバVMjについては、例えば、以下に示す式6を利用し、総合影響度(VMj)を算出する。
 総合影響度(VMj)=Σサービス影響度(VMj→SVm) ・・・(式6)
 但し、Σは、全てのサービスSVmについてのサービス影響度(VMj→SVm)の総和を示す。
 図10の第5列は、サービス影響度の算出結果に基づいて、リスクグループ生成部120が式5及び式6を利用して算出した総合影響度(PSi)の例を示す。
 次に、リスクグループ生成部120は、算出したサービス影響度に基づいて、式7を利用して、総合影響度の最も大きなリスク要因に対する、各リスク要因の距離を算出する(S604)。この場合、「総合影響度の最も大きなリスク要因」が、上述の特定のリスク要因である。
 リスクグループ生成部120は、例えば、以下に示す式7を利用し、距離(ij)を算出する。ここで、距離(ij)は、最大のリスク要因に対する、物理サーバPSiまたは仮想サーバVMjのそれぞれに内在する、リスク要因の類似性の評価値である。距離の小さいリスク要因が、類似性の高いリスク要因である。
 距離(ij)=Σ{サービス影響度max-サービス影響度(ij)} ・・・(式7)
 但し、「サービス影響度max」は、サービス影響度(PSi→SVm)及びサービス影響度(VMj→SVm)の内の、最大のサービス影響度(図10に示す例の場合、物理サーバPS2の「25」)を示す。サービス影響度(ij)は、「サービス影響度max」を除く、サービス影響度(PSi→SVm)及びサービス影響度(VMj→SVm)のそれぞれである。また、Σは、全てのサービスSVmについての{サービス影響度max-サービス影響度(ij)}の総和を示す。
 式7は、サービス影響度をユークリッド空間のベクトルとみなした場合の、そのベクトル間の幾何学的な距離を算出する式である。リスクグループ生成部120は、マンハッタン距離や一般化したマハラノビス距離を算出してもよい。
 図11は、リスクグループ生成部120が図10に示すサービス影響度の算出結果に基づいて式7を利用して算出した、図2のシステムに対応する距離(ij)の算出結果の例を示す図である。図11において、第1列に示す識別子がリスク要因保有構成要素識別子、第2列から第4列がサービスごとの距離、及び第5列が距離(ij)である。
 次に、リスクグループ生成部120は、リスク要因グループを生成し、出力する(S605)。ここで、リスクグループ生成部120は、算出した距離(ij)が閾値以下のサービス影響度(ij)に対応するリスク要因と、サービス影響度maxに対応するリスク要因とを選択する。そして、リスクグループ生成部120は、それらの選択したリスク要因に対応する構成要素識別子からなるリスク要因グループを生成する。
 [実施形態1の変形例]
 リスクグループ生成部120は、S604において、最大の総合影響度に対応するリスク要因に替えて、任意のリスク要因を特定のリスク要因としてよい。任意のリスク要因は、例えば、入力部704を介して管理者が指定したリスク要因である。この場合、S603における総合影響度の算出の処理は、不要である。
 即ち、リスクグループ生成部120は、S604において、算出したサービス影響度に基づいて、式7を利用して、その任意のリスク要因に対する、各リスク要因の距離を算出する。
 次に、リスクグループ生成部120は、S605において、算出した距離(ij)が閾値以下のサービス影響度(ij)に対応するリスク要因と、その任意のリスク要因とを選択する。そして、リスクグループ生成部120は、選択したそれらのリスク要因に対応する構成要素識別子の集合を含む、リスク要因グループを生成し、出力する。
 本変形例によれば、例えばどのリスク要因を取り除くかが既に決まっている場合に、そのリスク要因と同時に取り除くべきリスク要因とを示すリスク要因グループを出力することができる。
 また、リスクグループ生成部120は、全てのリスク要因のそれぞれについて、S604及びS605の処理を施し、全てのリスク要因のそれぞれを特定のリスク要因とするリスク要因グループのそれぞれを出力してもよい。
 管理者は、こうして得た複数のリスク要因グループを利用して、柔軟に、リスク要因を取り除く計画を立案することができる。
 上述した本実施形態における第1の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、適切に提示することを可能にする点である。
 その理由は、以下の構成を備えるからである。第1に、影響度算出部110が、サービスのそれぞれへの、リスク要因のそれぞれに対応する、サービス影響度を算出する。第2に、リスクグループ生成部120が、それらのサービス影響度に基づいてリスク要因間の類似性(類似性を示す評価値)を算出し、その類似性に基づいてリスク要因グループを生成し、出力する。
 上述した本実施形態における第2の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、可用性向上の効果を最大にする観点で、より適切に提示することを可能にする点である。
 その理由は、リスクグループ生成部120が、最大の総合影響度に対応するリスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
 上述した本実施形態における第3の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、管理者の意図に対応する観点で、より適切に提示することを可能にする点である。
 その理由は、リスクグループ生成部120が、管理者によって任意に指定されたリスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
 上述した本実施形態における第4の効果は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、柔軟なリスク除去計画立案の観点で、より適切に提示することを可能にする点である。
 その理由は、リスクグループ生成部120が、全てのリスク要因のそれぞれについて、各リスク要因のサービス影響度と他のリスク要因のサービス影響度との距離を類似性の評価値として、リスク要因グループを生成し、出力したからである。
 <<<第2の実施形態>>>
 次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 図12は、本発明の第2の実施形態に係るリスク分析装置200の構成を示すブロック図である。
 図12を参照すると、本実施形態におけるリスク分析装置200は、第1の実施形態のリスク分析装置100と比べて、リスクグループ生成部120を、リスクグループ生成部220に替えた点が異なる。
 ===リスクグループ生成部220===
 リスクグループ生成部220は、サービスごとの特性を示すサービス特性でサービス影響度を重み付けし、総合影響度を算出する。ここで、そのサービス特性は、例えば、サービスのそれぞれの、システム全体にとっての重要性である必須度である。その必須度は、例えば、0から1までの連続な実数値をとり、値が大きいほど、必須の度合いが高いことを示す。
 その必須度は、例えば、サービスを利用するユーザに約束しているサービス品質に基づいて、決定される。例えば、サービスの稼働率についてのサービス品質に「極めて高い稼働率」、「比較的高い稼働率」、「概ね安定的な稼働率」の3段階がある場合、これらのサービス品質それぞれに対応するサービスの必須度は1.0、0.6、0.4に設定されてよい。また、必須度は、サービスを利用するユーザが支払う利用料金に基づいて決定されてもよい。例えば、利用料金が月額10000円、6000円、5000円の3つのサービスがある場合、それらのサービスのそれぞれの必須度は1.0、0.6、0.5に設定されてよい。
 図13は、必須度を更に含むサービス情報エントリ271からなるサービス管理表270の一例を示す図である。
 図14は、その必須度でサービス影響度を重み付けし、総合影響度を算出した場合の例を示す図である。図14に示すように最大の総合影響度(15.2)に対応するリスク要因保有構成要素識別子はPS1である。
 上述した本実施形態における効果は、第1の実施形態の効果に加えて、複数のリスク要因を、サービス特性への対応の観点で、より適切に提示することを可能にする点である。その複数のリスク要因は、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因である。
 その理由は、リスクグループ生成部220が、サービス特性でサービス影響度を重み付けし、総合影響度を算出したからである。
 <<<第3の実施形態>>>
 次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 図15は、本発明の第3の実施形態に係るリスク分析装置300の構成を示すブロック図である。
 図15を参照すると、本実施形態におけるリスク分析装置300は、第1の実施形態のリスク分析装置100と比べて、リスクグループ生成部120を、リスクグループ生成部320に替えた点が異なる。
 ===リスクグループ生成部320===
 リスクグループ生成部320は、リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、コスト限度値とに基づいて、リスク要因グループを生成する。ここで、コスト限度値は、それらのコストの合計の限度を示す値である。換言すると、リスクグループ生成部320は、除去コスト情報に基づいて、リスク要因グループに含まれるリスク要因のコストの合計が、指定されたコスト限度値を超えないようにリスク要因グループを生成する。
 具体的には、リスクグループ生成部320は、リスク要因を除去するコストの合計値がコスト限度値を越えない範囲で、距離(ij)の小さい順にリスク要因を選択し、リスク要因グループを生成する。即ち、リスクグループ生成部320は、与えられたコスト限度値の範囲内で、類似性の高いリスク要因を同時に取り除くための、リスク要因グループを生成する。
 そのコストは、リスク要因のそれぞれを除去する場合に必要な費用、時間、期間、作業人数及びこれらを任意に組み合わせて算出される値の、いずれかであってよい。
 例えば、そのコストが機器の交換などの費用である場合、そのコスト限度値は費用を示す値である。そのコストが機器の交換などの作業時間である場合、そのコスト限度値は時間を示す値である。また、そのコストが機器の交換などの作業に従事する技術者の人数である場合、そのコスト限度値は人数を示す値である。
 リスクグループ生成部320は、例えば、管理者が図7に示す入力部704を介してリスク分析装置300に入力したそのコスト限度値を利用する。或いは、リスクグループ生成部320は、図7に示す通信部706を介して、外部からそのコスト限度値を取得してもよい。
 図16は、除去コスト情報であるコストを含むリスク要因影響情報エントリ351からなるリスク要因影響管理表350の一例を示す図である。
 例えば、図10に示すサービス影響度の算出結果の例において、最大の総合影響度に対応するリスク要因を持つ構成要素は、物理サーバPS2である。そして、図11に示す距離の算出結果の例において、物理サーバPS2のリスク要因との距離が近い順のリスク要因を持つ構成要素は、仮想サーバVM4、仮想サーバVM3、仮想サーバVM1、仮想サーバVM2、物理サーバPS1である。
 ここで、コスト限度値が例えば「15」であるとする。この場合、リスクグループ生成部320は、物理サーバPS2(コストが、「11」)及び仮想サーバVM4(コストが、「3」)のそれぞれの識別子を含む、リスク要因グループを生成する。
 また、コスト限度値が例えば「20」であるとする。この場合、リスクグループ生成部320は、物理サーバPS2(コストが、「11」)、仮想サーバVM4(コストが、「3」)及び仮想サーバVM3(コストが、「6」)のそれぞれの識別子を含む、リスク要因グループを生成する。
 上述した本実施形態における効果は、第1の実施形態の効果に加えて、システムが提供するサービスの可用性を向上させるために、同時に取り除くのが望ましい複数のリスク要因を、そのコストの観点で、より適切に提示することを可能にする点である。
 その理由は、リスクグループ生成部320が、除去コスト情報に基づいて、リスク要因グループに含まれるリスク要因のコストの合計が、コスト限度値を超えないようにリスク要因グループを生成したからである。
 以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてもよい。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であってもよい。
 以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてもよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
 そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
 また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲で変更することができる。
 更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。
 更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1) サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出部と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成部と、を含むリスク分析装置。
 (付記2) 前記類似性は、前記リスク要因のそれぞれに対応するサービス影響度間の距離であることを特徴とする付記1記載のリスク分析装置。
 (付記3) 前記距離は、ユークリッド距離、マンハッタン距離、マハラノビス距離及びこれらの距離を任意に組み合わせて算出される値の、いずれかであることを特徴とする付記2記載のリスク分析装置。
 (付記4) 前記リスクグループ生成部は、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記1乃至3のいずれかに1つに記載のリスク分析装置。
 (付記5) 前記リスクグループ生成部は、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出することを特徴とする付記4記載のリスク分析装置。
 (付記6) 前記リスクグループ生成部は、外部から指定された前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記1乃至5のいずれか1つに記載のリスク分析装置。
 (付記7) 前記リスク要因の特性は、故障及び復旧のそれぞれの理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数、復旧成功数、及びこれらを任意に組み合わせて算出される値の、いずれかであることを特徴とする付記1乃至6のいずれか1つに記載のリスク分析装置。
 (付記8)前記リスクグループ生成部は、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成することを特徴とする付記1乃至7のいずれか1つに記載のリスク分析装置。
 (付記9)前記コストは、前記リスク要因を除去する場合に必要な費用、時間、期間、作業人数及びこれらを任意に組み合わせて算出される値の、いずれかである
 ことを特徴とする付記8記載のリスク分析装置。
 (付記10) 前記リスク要因影響情報、前記構成要素特性情報及び前記サービス情報の任意のいずれかの入力を受け付ける入力部を更に含むことを特徴とする付記1乃至9のいずれか1つに記載のリスク分析装置。
 (付記11) コンピュータが、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスク分析方法。
 (付記12) 前記類似性を算出する場合に、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出することを特徴とする付記11記載のリスク分析方法。
 (付記13) 前記総合影響度を算出する場合に、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出することを特徴とする付記12記載のリスク分析方法。
 (付記14) 前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する場合に、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記情報を生成することを特徴とする付記11乃至13のいずれか1つに記載のリスク分析方法。
 (付記15) サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、をコンピュータに実行させるプログラム。
 (付記16) 前記類似性を算出する場合に、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出する処理をコンピュータに実行させることを特徴とする付記15記載のプログラム。
 (付記17) 前記総合影響度を算出する場合に、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出する処理をコンピュータに実行させることを特徴とする付記16記載のプログラム。
 (付記18) 前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する場合に、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記情報を生成する処理をコンピュータに実行させることを特徴とする付記15乃至17のいずれか1つに記載のプログラム。
 (付記19)
 プロセッサとプロセッサが影響度算出部及びリスクグループ生成部として動作するための、プロセッサによって実行される命令を保持する記憶部とを含み、前記影響度算出部は、サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、前記リスクグループ生成部は、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する、リスク分析装置。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2012年12月17日に出願された日本出願特願2012-275077を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、システムのリスク分析を行うリスク分析装置、リスク分析方法及びそのためのプログラムに適用できる。
 100  リスク分析装置
 101  リスク分析装置
 110  影響度算出部
 120  リスクグループ生成部
 130  管理表記億部
 150  リスク要因影響管理表
 151  リスク要因影響情報エントリ
 160  構成要素特性管理表
 161  構成要素特性情報エントリ
 170  サービス管理表
 171  サービス情報エントリ
 200  リスク分析装置
 220  リスクグループ生成部
 270  サービス管理表
 271  サービス情報エントリ
 300  リスク分析装置
 320  リスクグループ生成部
 350  リスク要因影響管理表
 351  リスク要因影響情報エントリ
 700  コンピュータ
 701  CPU
 702  記憶部
 703  記憶装置
 704  入力部
 705  出力部
 706  通信部
 707  記録媒体

Claims (10)

  1.  サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する影響度算出手段と、
     前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力するリスクグループ生成手段と、を含む
     リスク分析装置。
  2.  前記類似性は、前記リスク要因のそれぞれに対応するサービス影響度間の距離である
     ことを特徴とする請求項1記載のリスク分析装置。
  3.  前記リスクグループ生成手段は、前記リスク要因ごとに対応する前記サービス影響度を合算した総合影響度を算出し、前記総合影響度が最大の前記リスク要因と他の前記リスク要因との間の前記類似性を算出する
     ことを特徴とする請求項1または2に記載のリスク分析装置。
  4.  前記リスクグループ生成手段は、前記サービスごとの特性で前記サービス影響度を重み付けし、前記総合影響度を算出する
     ことを特徴とする請求項3記載のリスク分析装置。
  5.  前記リスクグループ生成手段は、外部から指定された前記リスク要因と他の前記リスク要因との間の前記類似性を算出する
     ことを特徴とする請求項1乃至4のいずれか1項に記載のリスク分析装置。
  6.  前記リスク要因の特性は、故障及び復旧のそれぞれの理論的及び経験的データに基づいて算出される、故障率、復旧率の逆数、故障率と復旧率の逆数との調和平均、平均故障間隔時間、平均復旧時間、障害発生数、復旧成功数、及びこれらを任意に組み合わせて算出される値の、いずれかである
     ことを特徴とする請求項1乃至5のいずれか1項に記載のリスク分析装置。
  7.  前記リスクグループ生成手段は、前記リスク要因のそれぞれを除去する場合のコストを示す除去コスト情報と、前記コストの合計の限度を示すコスト限度値とに基づいて、前記構成要素を示す識別情報の集合を少なくとも含む前記情報を生成する
     ことを特徴とする請求項1乃至6のいずれか1項に記載のリスク分析装置。
  8.  前記リスク要因影響情報、前記構成要素特性情報及び前記サービス情報の任意のいずれかの入力を受け付ける入力手段を更に含む
     ことを特徴とする請求項1乃至7のいずれか1項に記載のリスク分析装置。
  9.  コンピュータが、
     サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出し、
     前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出し、前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する
     リスク分析方法。
  10.  サービスを提供するシステムに含まれる、リスク要因を持つ構成要素と前記構成要素の状態に影響を受ける他の前記構成要素との関係を示すリスク要因影響情報、前記リスク要因のそれぞれの特性を示す構成要素特性情報、及び前記サービスと前記構成要素との対応を示すサービス情報に基づいて、前記サービスのそれぞれへの、前記リスク要因のそれぞれに対応する、サービス影響度を算出する処理と、前記サービス影響度に基づいて特定の前記リスク要因と他の前記リスク要因との間の類似性を算出する処理と、
     前記類似性に基づいて選択した前記リスク要因に対応する、前記構成要素を示す識別情報の集合を少なくとも含む情報を生成し、出力する処理と、を
     コンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
PCT/JP2013/007372 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法 Ceased WO2014097598A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014552925A JPWO2014097598A1 (ja) 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法
US14/652,191 US9898525B2 (en) 2012-12-17 2013-12-16 Information processing device which carries out risk analysis and risk analysis method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-275077 2012-12-17
JP2012275077 2012-12-17

Publications (1)

Publication Number Publication Date
WO2014097598A1 true WO2014097598A1 (ja) 2014-06-26

Family

ID=50977960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/007372 Ceased WO2014097598A1 (ja) 2012-12-17 2013-12-16 リスク分析を行う情報処理装置及びリスク分析方法

Country Status (3)

Country Link
US (1) US9898525B2 (ja)
JP (1) JPWO2014097598A1 (ja)
WO (1) WO2014097598A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124470A1 (en) * 2014-06-03 2017-05-04 Nec Corporation Sequence of causes estimation device, sequence of causes estimation method, and recording medium in which sequence of causes estimation program is stored
JP7239828B2 (ja) * 2019-08-02 2023-03-15 富士通株式会社 システム管理方法、システム管理プログラム、およびシステム管理装置
JP6973544B2 (ja) * 2020-03-31 2021-12-01 株式会社Sumco 状態判定装置、状態判定方法、及び状態判定プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7212986B1 (en) * 1999-06-16 2007-05-01 Metier, Ltd. Method and apparatus for planning and monitoring multiple tasks based on user defined criteria and predictive ability
JP2005080104A (ja) 2003-09-02 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> ネットワーク信頼性推定方法及び装置
US7103874B2 (en) 2003-10-23 2006-09-05 Microsoft Corporation Model-based management of computer systems and distributed applications
US7590589B2 (en) * 2004-09-10 2009-09-15 Hoffberg Steven M Game theoretic prioritization scheme for mobile ad hoc networks permitting hierarchal deference
JP4174497B2 (ja) 2004-09-30 2008-10-29 東芝ソリューション株式会社 情報システムの信頼性評価システム、信頼性評価方法、信頼性評価プログラム
US20060111934A1 (en) * 2004-11-08 2006-05-25 Meggs Anthony F Virtual share exchange apparatus and method
US20060235783A1 (en) * 2005-02-22 2006-10-19 Scott Ryles Predicting risk and return for a portfolio of entertainment projects
US20060190369A1 (en) * 2005-02-22 2006-08-24 Scott Ryles Predicting risk and return for a portfolio of entertainment projects
US7756803B2 (en) 2005-03-03 2010-07-13 Hewlett-Packard Development Company, L.P. Method of predicting availability of a system
JP4669487B2 (ja) 2007-03-02 2011-04-13 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法
US8340746B2 (en) * 2008-07-17 2012-12-25 Massachusetts Institute Of Technology Motif discovery in physiological datasets: a methodology for inferring predictive elements
KR20180078345A (ko) * 2009-10-19 2018-07-09 테라노스, 인코포레이티드 통합형 건강 정보 취득 및 분석 시스템
US8244481B2 (en) * 2009-12-09 2012-08-14 Toyota Motor Engineering & Manufacturing North America, Inc. Methods for utilizing paint formulations based on paint component risk scores
JP2011165118A (ja) * 2010-02-15 2011-08-25 Hitachi Ltd プロジェクト支援方法及びその装置並びにその実行プログラム
WO2012012680A2 (en) * 2010-07-22 2012-01-26 University Of Florida Research Foundation, Inc. Classification using correntropy
GB2484967B (en) 2010-10-28 2017-01-04 Fujitsu Ltd Method, apparatus, and program for the discovery of resources in a computing environment
US20130013344A1 (en) * 2011-07-08 2013-01-10 Ernstberger Kelly A Systems and methods for determining optional insurance coverages
US20130332249A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation Optimal supplementary award allocation
US20140149174A1 (en) * 2012-11-26 2014-05-29 International Business Machines Corporation Financial Risk Analytics for Service Contracts

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム

Also Published As

Publication number Publication date
US20150370886A1 (en) 2015-12-24
US9898525B2 (en) 2018-02-20
JPWO2014097598A1 (ja) 2017-01-12

Similar Documents

Publication Publication Date Title
US12149545B2 (en) Security model
JP7721236B2 (ja) 遠隔展開されたアプリケーションにおける性能劣化の検出
CN114371857B (zh) 数字孪生使能的资产性能和升级管理
US9442715B2 (en) Patch process ensuring high availability of cloud application
Bai et al. Impact of service function aging on the dependability for MEC service function chain
US20190129819A1 (en) Missing Values Imputation of Sequential Data
US9524179B2 (en) Virtual-machine-deployment-action analysis
Sindhu et al. Workload characterization and synthesis for cloud using generative stochastic processes
US9235423B2 (en) Availability evaluation device and availability evaluation method
US10554525B2 (en) Tracking usage of computing resources
WO2014097598A1 (ja) リスク分析を行う情報処理装置及びリスク分析方法
US20220179764A1 (en) Multi-source data correlation extraction for anomaly detection
US12235815B2 (en) Graph-based application performance optimization platform for cloud computing environment
WO2013114911A1 (ja) リスク評価システム、リスク評価方法、及びプログラム
AU2018264046A1 (en) Analyzing value-related data to identify an error in the value-related data and/or a source of the error
WO2014188638A1 (ja) 共有リスクグループ管理システム、共有リスクグループ管理方法および共有リスクグループ管理プログラム
Mahmoud Enhancing hosting infrastructure management with AI-powered automation
US20170161176A1 (en) Trace recovery via statistical reasoning
JPWO2014002557A1 (ja) 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
JP5814874B2 (ja) コンピュータ装置及びリソース使用量予測方法及びプログラム
US20220342869A1 (en) Identifying anomalous transformations using lineage data
JP6610542B2 (ja) 要因順序推定装置、要因順序推定方法、及び、要因順序推定プログラム
JPWO2015146081A1 (ja) リスク管理装置、リスク管理プログラムを記録する記録媒体、及びリスク管理方法
Mohammed A Framework for Efficient Management of Fault Tolerance in Cloud Data Centres and High-Performance Computing Systems: An Investigation and Performance analysis of a Cloud Based Virtual Machine Success and Failure Rate in a typical Cloud Computing Environment and Prediction Methods
Ceccaroni et al. A Distributed Workflow for Long Reads Self-correction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13865643

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014552925

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14652191

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13865643

Country of ref document: EP

Kind code of ref document: A1