CN107133130B

CN107133130B - 计算机运行监测方法和装置

Info

Publication number: CN107133130B
Application number: CN201710354698.0A
Authority: CN
Inventors: 朱波
Original assignee: Hangzhou New China And Big Polytron Technologies Inc
Current assignee: Hangzhou New China And Big Polytron Technologies Inc
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2021-01-01
Anticipated expiration: 2037-05-19
Also published as: CN107133130A

Abstract

本发明的计算机运行监测方法和装置，方法包括：A：针对监视目标设置一计数器与一阈值，并每隔一段预设时间自动增加计数值；B：接收设置在监视目标正常执行路径上的计数器重置指令；C：当监视目标无法正常执行到计数器重置指令时，计数值溢出，并发出目标发生错误信号和/或采取恢复措施。优点在于：本发明能够对系统和应用同时进行监测，且具有监测过程简单，监测效果好等优点。

Description

计算机运行监测方法和装置

技术领域

本发明属于计算机领域，尤其涉及一种计算机运行监测方法和装置。

背景技术

目前，计算机设备已经成为广大用户生活中必不可少的设备之一，系统的可靠性、移植性和兼容性等成为计算机软件性能的主要指标。但是现有技术用于监测系统的模块存在监测过程过于复杂、一次只能监测一个进程、且模块本身移植性、兼容性和可靠性不够高等问题。

为了解决上述技术问题，人们进行了长期的探索，例如中国专利公开了一种计算机系统的状态监测方法及装置[申请号：CN201210587387.6]，其方法包括如下步骤：为计算机添加虚拟的状态监测模块：所述虚拟的状态监测模块与连接在计算机的南桥上的状态监测芯片对应，并由ACPI设备驱动程序进行驱动；利用ACPI方法通知操作系统产生异常事件：当连接在计算机的南桥上的状态监测芯片由于发现系统状态异常而产生异常事件时，通过ACPI方法向所述ACPI设备驱动程序传递所述异常事件，然后由所述ACPI设备驱动程序通知操作系统；通过所述ACPI设备驱动程序获取由状态监测芯片处理得到的状态数据。本方案的运行过程是一种自底层硬件逐步向上层系统传递的过程。这样，通过共同的ACPI方法，底层的硬件(状态监测芯片)将异常告知上层的系统(操作系统或应用软件)，这样使底层与系统层都使用标准的ACPI方法，提高该装置设计的移植性、兼容性和可靠性

再如，一种基于消息监控的软件看门狗系统的实现方法[申请号：CN201610788410.6]，包括应用进程的软件看门狗和系统看门狗两部分，所述该两部分的核心为消息监控，即通过消息交互的方法实现，所述系统看门狗实现过程的主要步骤如下：所述系统看门狗随系统启动并以驱动模块的方式加载，创建一个可供监控进程读写的接口，用于接收监控进程的消息；所述驱动模块中设有定时器，等待监控进程发送的消息，如果定时器超时后没有收到监控进程的消息，则看门狗将反向发送消息给监控进程；如果此时仍然得不到监控进程的响应，则说明系统出现死锁或者主进程挂起的问题，此时看门狗将作出系统软重启的操作。本方案能够在监控系统状态烦人同时监控进程状态，使得软件系统更加稳定兼容、更加可靠。

上述两个方案虽然在一定程度上解决了现有技术的部分问题，但是仍然存在部分缺陷，例如，监测模块设置困难，监测过程过于复杂等问题。

发明内容

本发明的目的是针对上述问题，提供一种简单且有效的计算机运行监测方法；

本发明的另一目的是针对上述问题，提供一种用于计算机运行监测的装置；

为达到上述目的，本发明采用了下列技术方案：

本发明的计算机运行监测方法包括：

A：针对监视目标设置一计数器与一阈值，并每隔一段预设时间自动增加计数值；

B：接收设置在监视目标正常执行路径上的计数器重置指令；

C：当监视目标无法正常执行到计数器重置指令时，计数值溢出，并发出目标发生错误信号和/或采取恢复措施。

通过上述技术方案，能够简化监测过程的同时提高监测效果。

在上述的计算机运行监测方法中，所述的计数器的计数值由初始值增加至阈值所用的时间大于或等于监视目标正常执行路径上的前一个重置指令执行到后一个重置指令所需要的时间。

在上述的计算机运行监测方法中，所述的监测方法由状态监测模块完成，且状态监测模块被安装于虚拟的BIOS里面，所述的状态监测模块随着操作系统开启而开启，且与服务器进行心跳信号。

在上述的计算机运行监测方法中，所述的监视目标包括整个系统和/或系统内的应用，所述的状态监测模块针对系统进程和每一个应用进程均生成至少一个相应的监测线程，所述的监测线程通过消息队列与监视目标的进程线程进行通信以获取相应进程线程的工作状态；

或者，所述的监测线程通过套接口与设置有与套接口相适应的通信接口的进程线程进行通信以获取相应进程线程的工作状态。

在上述的计算机运行监测方法中，所述的状态监测模块根据配置文件对进程进行监控，并将每次监测的结果记录至系统日志。

在上述的计算机运行监测方法中，所述的状态监测模块根据配置文件对进程进行以下类型的监控：

a.通过打开一个文件成功与否监测文件表是否已满；

b.通过读取/proc/loadavg以检测设定时间内系统平均负载是否超过设定值；

c.通过读取/proc/meminfo检测系统是否还剩下足够的空闲内存；

d.通过调用kill(pid,0)检测进程是否仍在运行，如果kill调用返回为0，则进程仍在运行,通过从配置文件中读取pid文件获取被监控进程的pid；

e.通过解析/proc/net/dev的信息，查看指定的网络接口收发包状况；

f.通过往IP地址发包检测相应的IP地址可否被ping通，或通过ping广播地址检测子网中是否至少一台机器可以被ping通；

g.通过调用fork、execl执行用户传递的测试程序。

在上述的计算机运行监测方法中，所述的状态监测模块连接有温度监控模块，并通过访问/dev/temperature设备判断温度是否过高。

一种用于计算机运行监测的装置，包括状态监测模块，所述的状态监测模块包括一具有计数值的计数器和用于检测计数值是否溢出的阈值模块，所述的计数器连接有计数器重置模块和计数值加一模块，所述的计数器重置模块用于重置计数器，且所述的计数器重置模块连接于设置于监视目标上的重置信号发生模块，当重置信号发生模块发出重置信号时，计数器重置模块将计数器的计数值进行重置，所述的计数值加一模块用于每隔一段预设时间将计数器的数值加一，且所述的计数值加一模块连接于计时器，所述的状态监测模块连接有用于在计数值溢出的情况下进行报警的报警模块和/或恢复监视目标的恢复控制模块。

在上述的用于计算机运行监测的装置中，所述的阈值模块具有一比较阈值，所述的状态监测模块包括用于对计数器的计数值与阈值模块的比较阈值进行比较的比较模块。

在上述的用于计算机运行监测的装置中，所述的状态监测模块连接有温度监控模块，通过温度监控模块的监控温度监控系统的硬件设备温度。

本发明计算机运行监测方法和装置相较于现有技术具有以下优点：1、结构简单，模块本身稳定性高，监测效果好；2、设置方便，同时可监测多个进程，不会发生遗失进程状态的问题；3、监测过程方便。

附图说明

图1是本发明实施例一的方法流程图；

图2是本发明实施例二的结构框图。

附图标记：状态监测模块1；计数器11；阈值模块12；计数器重置模块13；计数值加一模块14；计时器15；报警模块16；恢复控制模块17；比较模块18；监视目标2；重置信号发生模块21；温度监控模块3。

具体实施方式

本发明公开了一种计算机可靠性领域中极为简单同时非常有效的检测工具，可用于计算机系统及其应用的进程监控，解决了现有技术监测过程过于复杂、一次只能监测一个进程、且模块本身移植性、兼容性和可靠性不够高等问题。

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

如图1所示，本实施例的计算机运行监测装置的工作方式为事件触发，它可以对任何合理的事件计数(如CPU指令)，其中时间事件(timeout)最常使用，但无论装置用于监测什么事件，它的工作原理都是一样的。

本实施方法的的监测手段基于：一个正常运行的系统，它的执行流是可预测的，因此可以在它正常执行路径上设置一些周期性重置器对应的状态监测模块1的点；

但如果进程发生故障，它执行不到下一个重置状态监测模块1的点，此时故障将被状态监测模块1捕捉到。

所以，状态监测模块1对于检测死循环或死锁这类故障非常有效。

进一步地，本实施例的状态监测模块1被安装于虚拟的BIOS(Basic Input OutputSystem，基本输入输出系统)里面，所述的状态监测模块1随着操作系统开启而开启，且与服务器进行心跳信号，外围hostOS(主机操作系统)上检测虚拟机的状态，当没有反应、超时后，则视为所在物理机死机，人为或自动进行触发策略重启、迁移。

BIOS是一组固化到计算机内主板上一个ROM芯片上的程序，它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序，它可从CMOS中读写系统设置的具体信息，其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。

本实施例所说的状态监测模块1的监测方法包括：

A：针对监视目标2设置一计数器11与一阈值，并每隔一段预设时间自动增加计数值；

其中计数器11的计数值由初始值增加至阈值所用的时间大于或等于监视目标2正常执行路径上的前一个重置指令执行到后一个重置指令所需要的时间，以避免在监视正常执行的情况下，计数值被溢出而导致误报警或误恢复的情况。

这里的监视目标2包括整个操作系统和/或系统内的应用，状态监测模块1针对操作系统的进程和每一个应用进程均生成至少一个相应的监测线程，每一个监测线程均具有相应的计数器11与阈值。

但是，如果一个应用是多进程的，子进程的生成可以放在监测线程的初始化阶段执行，监测线程可以获得这些子进程的pid，从而检测这些子进程的工作状态。

进一步地，监测线程通过消息队列与监视目标2的进程线程进行通信以获取相应进程线程的工作状态；

或者，监测线程通过套接口与设置有与套接口相适应的通信接口的进程线程进行通信以获取相应进程线程的工作状态。

采用套接口进行通信的方式需要相应的监视目标2的进程线程中加入与套接口相适应的通信接口。

B：操作系统的正常执行路径上被设置有一些用于重置其对应的状态监测模块1的监测线程的重置指令，每当操作系统的进程在执行到重置指令的时候，相应的监测线程接收该重置指令，并将相应的计数器11上的计数值进行重置，使计数器11重新开始计数。

但是，当操作系统的进程发送错误时，其无法正常执行到重置指令导致相应的计数器11无法重置而发生溢出现象；例如，正常状态下，阈值为5，计数器11从0加到5的之后，在下一次计数器11进行加一之前，计数器11被重置，也就是说计数器11的计数值不会超过5，但是如果，进程由于发生错误，尤其是死循环和死锁的错误，导致进程没有在规定时间内执行到重置指令，计数器11正常进行了加一的指令导致计数值大于阈值，出现溢出现象。

或者，当操作系统的进程错误地执行到重置指令，也就是说还未到可以将计数器11进行重置的时候将将重置指令发送给了监测线程，导致相应的计数器11在非正常状态下发生重置现象；

本实施例通过将计数值与阈值进行比较的方式判断计数器11是否在正常状态下发生重置，例如，正常状态下，阈值为5，计数器11从0加到5的时候，在下一次计数器11进行加一之前，计数器11被重置，也就是说，计数器11是在计数值为5的情况下被重置的，但是若检测目标发生错误，直接提前跳到重置指令处，使计数器11的计数值在小于5的情况下便被重置，此处将计数值由初始值增加至阈值所用的时间设置为等于监视目标2正常执行路径上的前一个重置指令执行到后一个重置指令所需要的时间以提高监测效果。

同样地，监测系统内的应用的进程方法与监测系统进程的方法基本相同。

C：状态监测模块1在监测到相应的问题后发出目标发生错误信号和/或采取恢复措施，相应的措施是指软重启发生错误的监视目标2，包括应用和整个系统。

进一步地，状态监测模块1根据配置文件对进程进行监控，并将每次监测的结果记录至系统日志。

具体地，状态监测模块1根据配置文件对进程进行以下类型的监控：

a.通过打开一个文件成功与否监测文件表是否已满；

b.通过读取/proc/loadavg(程序/平均负载)以检测设定时间内系统平均负载是否超过设定值；这里的设定时间为1分钟、5分钟、和15分钟时间中的一个时间段或多个时间段的组合。

c.通过读取/proc/meminfo(程序/内在信息)检测系统是否还剩下足够的空闲内存；这里的/proc/meminfo可以在计算机右下方的系统列，显示出实体记忆的使用状态，以及虚拟内存的使用状态。

d.通过调用kill(pid,0)检测进程是否仍在运行，如果kill调用返回为0，则进程仍在运行,通过从配置文件中读取pid文件获取被监控进程的pid；这里的kill(pid,0)不发送任何信号，但是系统会进行错误检查，所以可用来检查一个进程是否存在，存在返回0；不存在返回1。

例如，通过从配置文件中读取pid文件如/var/run/syslogd.pid来获取被监控进程的pid。syslogd专门记录非内核的其他设施所产生的日志；当系统的控制权由内核转交给init的时候，这时候的日志信息的记录由syslog记录。

e.通过解析/proc/net/dev的信息，查看指定的网络接口收发包状况，如eh0的收发包状况；/proc/net/dev:用于分析网络包量，流量、错包、丢包。

f.通过往IP地址发包检测相应的IP地址可否被ping通，或通过ping广播地址检测子网中是否至少一台机器可以被ping通；Ping：Windows系统系列自带的一个可执行命令，利用它可以检查网络是否能够连通，可以很好地帮助我们分析判定网络故障，Ping可用来检测计算机与输入的IP地址是否有数据通讯,以判断网络通不通的问题。

g.通过调用fork、execl执行用户传递的测试程序，fork函数，用于创建子进程；

优选地，状态监测模块1连接有温度监控模块3，并通过访问/dev/temperature(温度)设备判断温度是否过高。

本实施例的方法监测、判断和针对判断结果做出反应均由一个模块完成，监测方法和过程简单，且一方面监测系统的状态，另一方面监测系统中应用模块的工作状态，具有检测效果好，检测过程简单等优点。

实施例二

如图2所示，本实施例提供了一种用于计算机运行监测的装置，包括状态监测模块1，所述的状态监测模块1包括一具有计数值的计数器11和用于检测计数值是否溢出的阈值模块，所述的计数器11连接有计数器重置模块13和计数值加一模块14，所述的计数器重置模块13用于重置计数器11，且所述的计数器重置模块13连接于设置于监视目标2上的重置信号发生模块21，当重置信号发生模块21发出重置信号时，计数器重置模块13将计数器11的计数值进行重置，所述的计数值加一模块14用于每隔一段预设时间将计数器11的数值加一，当然，这里也可以不限定为一，这里的一为一个数的意思，也就是这里的一也可以为不是一的其他数值，且所述的计数值加一模块14连接于计时器15，所述的状态监测模块1连接有用于在计数值溢出的情况下进行报警的报警模块16和/或恢复监视目标2的恢复控制模块17。

进一步地，阈值模块具有一比较阈值，所述的状态监测模块1包括用于对计数器的计数值与阈值模块的比较阈值进行比较的比较模块18。

进一步地，状态监测模块1连接有温度监控模块3，通过温度监控模块3的监控温度监控系统的硬件设备温度。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

尽管本文较多地使用了状态监测模块1；计数器11；阈值模块12；计数器重置模块13；计数值加一模块14；计时器15；报警模块16；恢复控制模块17；比较模块18；监视目标2；重置信号发生模块21；温度监控模块3等术语，但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质；把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims

1.一种计算机运行监测方法，其特征在于，包括：

A：针对监视目标(2)设置一计数器(11)与一阈值，并每隔一段预设时间自动增加计数值；

B：接收设置在监视目标(2)正常执行路径上的计数器(11)重置指令；

C：当监视目标(2)无法正常执行到计数器(11)重置指令时，计数值溢出，并发出目标发生错误信号和/或采取恢复措施；

所述的监测方法由状态监测模块(1)完成，且状态监测模块(1)被安装于虚拟的BIOS里面，所述的状态监测模块(1)随着操作系统开启而开启，且与服务器进行心跳信号；

所述的监视目标(2)包括整个系统和/或系统内的应用，所述的状态监测模块(1)针对系统进程和每一个应用进程均生成至少一个相应的监测线程，所述的监测线程通过消息队列与监视目标(2)的进程线程进行通信以获取相应进程线程的工作状态；

2.根据权利要求1所述的计算机运行监测方法，其特征在于，所述的计数器(11)的计数值由初始值增加至阈值所用的时间大于或等于监视目标(2)正常执行路径上的前一个重置指令执行到后一个重置指令所需要的时间。

3.根据权利要求1所述的计算机运行监测方法，其特征在于，

所述的状态监测模块(1)根据配置文件对进程进行监控，并将每次监测的结果记录至系统日志。

4.根据权利要求3所述的计算机运行监测方法，其特征在于，所述的状态监测模块(1)根据配置文件对进程进行以下类型的监控：

a.通过打开一个文件成功与否监测文件表是否已满；

c.通过读取/proc/meminfo检测系统是否还剩下足够的空闲内存；

g.通过调用fork、execl执行用户传递的测试程序。

5.根据权利要求3所述的计算机运行监测方法，其特征在于，所述的状态监测模块(1)连接有温度监控模块，并通过访问/dev/temperature设备判断温度是否过高。

6.一种用于计算机运行监测的装置，其特征在于，包括状态监测模块(1)，所述的状态监测模块(1)包括一具有计数值的计数器(11)和用于检测计数值是否溢出的阈值模块(12)，所述的计数器(11)连接有计数器重置模块(13)和计数值加一模块(14)，所述的计数器重置模块(13)用于重置计数器(11)，且所述的计数器重置模块(13)连接于设置于监视目标(2)上的重置信号发生模块(21)，当重置信号发生模块(21)发出重置信号时，计数器重置模块(13)将计数器(11)的计数值进行重置，所述的计数值加一模块(14)用于每隔一段预设时间将计数器(11)的数值加一，且所述的计数值加一模块(14)连接于计时器(15)，所述的状态监测模块(1)连接有用于在计数值溢出的情况下进行报警的报警模块(16)和/或恢复监视目标(2)的恢复控制模块(17)；

所述的监视目标(2)包括整个系统和/或系统内的应用，所述的状态监测模块(1)针对系统进程和每一个应用进程均生成至少一个相应的监测线程，所述的监测线程通过消息队列与监视目标的进程线程进行通信以获取相应进程线程的工作状态；

7.根据权利要求6所述的用于计算机运行监测的装置，其特征在于，所述的阈值模块(12)具有一比较阈值，所述的状态监测模块(1)包括用于对计数器(11)的计数值与阈值模块(12)的比较阈值进行比较的比较模块(18)。

8.根据权利要求6或7所述的用于计算机运行监测的装置，其特征在于，所述的状态监测模块(1)连接有温度监控模块(3)，通过温度监控模块(3)的监控温度监控系统的硬件设备温度。