[go: up one dir, main page]

CN120639575A - 交换机故障诊断与智能分析管理方法、装置、设备及存储介质 - Google Patents

交换机故障诊断与智能分析管理方法、装置、设备及存储介质

Info

Publication number
CN120639575A
CN120639575A CN202510690080.6A CN202510690080A CN120639575A CN 120639575 A CN120639575 A CN 120639575A CN 202510690080 A CN202510690080 A CN 202510690080A CN 120639575 A CN120639575 A CN 120639575A
Authority
CN
China
Prior art keywords
fault
information
data
determining
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202510690080.6A
Other languages
English (en)
Inventor
冯伟
郑重金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Fengrunda Technology Co ltd
Original Assignee
Shenzhen Fengrunda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Fengrunda Technology Co ltd filed Critical Shenzhen Fengrunda Technology Co ltd
Priority to CN202510690080.6A priority Critical patent/CN120639575A/zh
Publication of CN120639575A publication Critical patent/CN120639575A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种交换机故障诊断与智能分析管理方法、装置、设备及存储介质,涉及网络设备故障诊断与智能分析技术领域,包括:获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。本申请提取时序特征、匹配故障模式以确定根因概率排序,推理故障路径动态标注拓扑图,从而打破数据孤岛,实现多源数据关联分析,缩短诊断时间,提升实时性和准确性,优化可视化效果。

Description

交换机故障诊断与智能分析管理方法、装置、设备及存储介质
技术领域
本申请涉及网络设备故障诊断与智能分析技术领域,尤其涉及交换机故障诊断与智能分析管理方法、装置、设备及存储介质。
背景技术
随着网络技术的快速发展,Sonic交换机在数据中心和通信网络中扮演着越来越重要的角色。其稳定性和可靠性直接关系到整个网络的正常运行。因此,对Sonic交换机的故障诊断和智能分析,以确保网络故障能够被快速定位和解决,是必做的一项工作。
目前,现有做法中Sonic交换机的故障诊断依赖于分散的日志分析工具,如Syslog、堆栈等,通过人工整合内核日志、数据库事件和CLI操作记录来定位故障,且依赖于事后日志回溯,需要通过手动关联多模块日志来分析故障的根因。
然而,现有做法需要人工整合多个来源的日志数据,数据分散性问题导致故障定位效率低,诊断滞后性显著,无法实时捕捉瞬时异常,如内存泄漏或进程死锁,从而导致故障响应延迟,并且,对于根因分析高度依赖工程师的经验,缺乏自动化模型支持复杂交互场景,如BGP协议与转发引擎协同异常,同时,可视化工具也存在不足,仅提供静态拓扑图,无法动态标注异常节点及故障传播路径,难以辅助快速决策,而机器学习模型的泛化性弱,局限于单一设备或场景数据训练,难以适配异构网络架构。因此,如何实现更高效准确且有效的交换机故障诊断与智能分析管理成为亟待解决的问题。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种交换机故障诊断与智能分析管理方法、装置、设备及存储介质,旨在解决如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题。
为实现上述目的,本申请提出一种交换机故障诊断与智能分析管理方法,所述的方法包括:
获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
在一实施例中,所述获取监控容器指标信息的步骤包括:
获取采集周期;
基于所述采集周期对交换机内核性能指标进行采集,确定采集信息,所述采集信息包括处理器信息、内存信息和进程状态信息;
监听数据库变更事件流,并捕获目标操作审计日志,确定捕获信息,所述目标操作审计日志包括用户权限和操作时序;
基于所述采集信息和所述捕获信息得到监控容器指标信息。
在一实施例中,所述基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据的步骤包括:
根据时间戳对齐对所述监控容器指标信息进行时间同步校准,确定校准信息;
基于所述校准信息触发数据清洗过滤目标噪声数据,并通过正则表达式匹配异常模式,确定目标格式数据,所述目标格式数据包括事件类型、源模块、影响等级、时间戳和原始数据哈希值;
基于所述目标格式数据同步预设时序数据库,得到同步数据。
在一实施例中,所述基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序的步骤包括:
基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;
基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。
在一实施例中,所述基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息的步骤包括:
基于所述同步数据输入预设历史故障库进行训练,确定迁移学习模型;
基于所述迁移学习模型提取时序共性特征,确定待更新提取信息;
基于所述待更新提取信息输入所述迁移学习模型进行迭代更新训练,确定迁移学习优化模型;
基于所述迁移学习优化模型提取时序共性特征,得到提取特征信息。
在一实施例中,所述基于所述提取特征信息匹配对应的故障模式,得到根因概率排序的步骤包括:
获取历史案例信息;
基于所述提取特征信息和所述历史案例信息匹配对应的故障模式,并选取目标候选根因以及置信度,得到根因概率排序。
在一实施例中,所述基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图的步骤包括:
获取网络设备信息;
基于所述根因概率排序定位故障传播路径,确定故障路径图;
基于所述网络设备信息和所述故障路径图触发拓扑生成,并预测目标故障路径变化进行标注,得到显示拓扑图。
此外,为实现上述目的,本申请还提出一种交换机故障诊断与智能分析管理装置,所述交换机故障诊断与智能分析管理装置包括:
获取模块,用于获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
处理模块,用于基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
执行模块,用于基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
此外,为实现上述目的,本申请还提出一种交换机故障诊断与智能分析管理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的交换机故障诊断与智能分析管理方法的步骤。
此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的交换机故障诊断与智能分析管理方法的步骤。
本申请提出的一个或多个技术方案,至少具有以下技术效果:
本实施例提出的一种交换机故障诊断与智能分析管理方法,获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。本申请对所获取的监控容器指标信息进行数据预处理后同步至时序数据库,并提取时序共性特征以及匹配故障模式,确定根因概率排序,利用神经网络推理故障传播路径并触发拓扑生成标注目标故障路径,通过可视化界面动态展示故障路径,实现交换机故障诊断与智能分析管理,打破数据孤岛,实现多源数据的统一关联分析,缩短故障诊断时间,提升网络运维的响应速度,有效提升故障诊断的实时性和准确性,优化可视化效果,降低对人工经验的依赖,且通过动态拓扑标注技术,直观展示故障影响范围,同时增强模型的泛化能力,适应异构网络架构,提高系统的整体可靠性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请交换机故障诊断与智能分析管理方法实施例一提供的流程示意图;
图2为本申请交换机故障诊断与智能分析管理方法实施例二提供的流程示意图;
图3为本申请实施例提供的交换机故障诊断与智能分析管理方法的简要流程示意图;
图4为本申请实施例交换机故障诊断与智能分析管理装置的模块结构示意图;
图5为本申请实施例中交换机故障诊断与智能分析管理方法涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请的技术方案,并不用于限定本申请。
为了更好的理解本申请的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
本申请实施例的主要解决方案是:获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
在本实施例中,为便于表述,以下以识别交换机故障诊断与智能分析管理设备为执行主体进行阐述。
由于现有技术需要人工整合多个来源的日志数据,数据分散性问题导致故障定位效率低,诊断滞后性显著,无法实时捕捉瞬时异常,如内存泄漏或进程死锁,从而导致故障响应延迟,并且,对于根因分析高度依赖工程师的经验,缺乏自动化模型支持复杂交互场景,如BGP协议与转发引擎协同异常,同时,可视化工具也存在不足,仅提供静态拓扑图,无法动态标注异常节点及故障传播路径,难以辅助快速决策,而机器学习模型的泛化性弱,局限于单一设备或场景数据训练,难以适配异构网络架构。
本申请提供一种解决方案,获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
从上述实施例可知,本申请对所获取的监控容器指标信息进行数据预处理后同步至时序数据库,并提取时序共性特征以及匹配故障模式,确定根因概率排序,利用神经网络推理故障传播路径并触发拓扑生成标注目标故障路径,通过可视化界面动态展示故障路径,实现交换机故障诊断与智能分析管理,打破数据孤岛,实现多源数据的统一关联分析,缩短故障诊断时间,提升网络运维的响应速度,有效提升故障诊断的实时性和准确性,优化可视化效果,降低对人工经验的依赖,且通过动态拓扑标注技术,直观展示故障影响范围,同时增强模型的泛化能力,适应异构网络架构,提高系统的整体可靠性。
基于此,本申请实施例提供了一种交换机故障诊断与智能分析管理方法,参照图1,图1为本申请交换机故障诊断与智能分析管理方法第一实施例的流程示意图。
本实施例中,所述交换机故障诊断与智能分析管理方法包括步骤S10~S30:
步骤S10,获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
需要说明的是,所述监控容器指标信息是通过独立监控容器采集到的与交换机运行状态相关的各类数据,所述同步数据是经过数据预处理后,与预设时序数据库同步存储的数据。
可以理解的是,所述监控容器指标信息可以包括交换机内核性能指标、数据库变更事件流信息以及目标操作审计日志,其中,所述交换机内核性能指标可以是处理器的使用率、占用情况,内存的占用量、剩余空间、读写速度等以及进程状态信息,用于实时监控交换机运行状态,监测CPU和内存的使用情况,及时发现资源瓶颈并检测瞬时异常,如CPU使用率过高导致交换机处理速度下降或内存不足导致数据丢失或交换机崩溃,所述数据库变更事件流信息可以是数据库中数据的新增、删除和修改等操作的时间戳、操作类型以及所涉及的数据表,用于实时监控数据库的变更操作,确保数据的完整性和一致性。如检测是否有未经授权的修改或删除操作,所述目标操作审计日志可以是用户权限信息、所拥有的操作权限范围以及操作时序,即用户执行各项操作的具体时间顺序,用于记录用户的操作权限和操作时序,从而监控用户的操作行为,使用户在授权范围内进行操作,防止误操作或恶意操作导致的故障,而所述同步数据是在数据预处理阶段,根据时间戳对齐对监控容器指标信息进行时间同步校准,使不同来源的数据在时间维度上保持一致,消除因采集时间差异导致的数据偏差,并触发数据清洗过滤掉目标噪声数据,如过滤偶然的产生的瞬时波动数据,通过正则表达式匹配异常模式,将数据转换为目标格式数据,同步到预设的时序数据库中,形成同步数据,更准确地表征交换机的实际运行状态。
另外地,需要说明的是,所述数据预处理是在将数据用于分析之前,对数据进行清洗、转换、规范化等一系列操作,以消除数据中的噪声,同时将数据转换为符合规范的格式。
为方便理解,以确定同步数据为例进行说明,其中信息采集装置为信息采集模块,存储装置为存储器。
信息采集模块获取采集周期,即可配置数据采集周期,默认100ms,并通过gRPC实现与交换机主控模块通信,基于所述采集周期对交换机内核性能指标进行采集,确定采集信息,所述采集信息包括处理器信息、内存信息和进程状态信息,即通过eBPF技术实现对内核级性能指标的无侵入式采集,直接在内核空间运行轻量级虚拟机程序,无需修改内核代码或加载额外模块,实时捕获关键性能指标得到采集信息,如处理器信息CPU、内存信息以及进程状态,监听数据库变更事件流,并捕获目标操作审计日志,确定捕获信息,所述目标操作审计日志包括用户权限和操作时序,即通过监听数据库Redis的变更事件流,实时获取数据的新增、修改以及删除等操作信息,及时发现配置错误或数据异常,同时,捕获CLI操作审计日志,得到目标操作审计日志,用于记录用户的权限、执行命令及操作时序,可追溯故障前的用户行为,优化操作流程,减少人为故障,基于所述采集信息和所述捕获信息得到监控容器指标信息。
根据时间戳对齐对所述监控容器指标信息进行时间同步校准,确定校准信息,即可以利用硬件时钟PTP与网络时间协议NTP的混合校准技术,实现微秒级甚至更高的时间精度,PTP利用高精度时间源为交换机的内核性能指标、数据库事件等关键数据提供精确的时间基准,如GPS或原子钟,而NTP则为无法接入PTP的辅助系统或外部设备提供灵活的时间同步,利用混合校准方式结合PTP的高精度和NTP的适用性,有效减少因硬件差异和网络延迟导致的时间偏差,确保不同数据源的时间戳高度一致,基于所述校准信息触发数据清洗过滤目标噪声数据,并通过正则表达式匹配异常模式,确定目标格式数据,所述目标格式数据包括事件类型、源模块、影响等级、时间戳和原始数据哈希值,即进行数据预处理剔除噪声数据,如筛选瞬时CPU抖动等无关紧要的波动,同时,利用正则表达式匹配异常模式,如检测内核panic日志中的关键字,从而快速识别潜在的故障信号,并将清洗后的数据转换为统一的JSON Schema格式,得到目标格式数据,其中,所述目标格式数据的字段包括事件类型、源模块、影响等级、时间戳以及原始数据哈希值,便于存储和查询,基于所述目标格式数据同步预设时序数据库,得到同步数据,即可以采用Apache Kafka进行数据缓冲,并结合时序数据库TSDB进行持久化存储,Apache Kafka作为一种高性能的消息队列系统,能够以极低的延迟接收和缓冲来自不同数据源的海量数据,保障数据在高并发场景下的完整性和顺序性,具备分布式架构和高吞吐量特性,使系统能够轻松应对大规模数据的实时接入需求,并将缓冲后的数据被传输到时序数据库TSDB中进行持久化存储,TSDB专为时序数据设计,具备高效的时间序列数据存储和查询能力,可以快速处理带有时间戳的数据,支持复杂的时序分析和历史数据回溯,结合使用Apache Kafka与TSDB,可以高效地处理实时数据流。
在一种可行的实施方式中,步骤S10可以包括步骤A11~A14:
步骤A11,获取采集周期;
需要说明的是,所述采集周期是在交换机故障诊断与智能分析管理中,系统对交换机内核性能指标进行数据采集的时间间隔。
可以理解的是,所述采集周期是数据采集的频率,表征系统对当前场景的实时性和数据粒度的要求,如较短的采集周期可以进行频繁监测,适用于实时监控和快速响应的场景,而较长的采集周期则适用于需要长期监测的趋势分析的场景,合理设置所述采集周期可以显著提升交换机故障诊断系统的性能和效率。
步骤A12,基于所述采集周期对交换机内核性能指标进行采集,确定采集信息,所述采集信息包括处理器信息、内存信息和进程状态信息;
需要说明的是,所述采集信息是在交换机故障诊断与智能分析管理中,通过监控容器采集到的与交换机运行状态相关的详细数据。
可以理解的是,所述处理器信息是交换机CPU运行状态数据,可以包括CPU使用率、上下文切换次数以及中断次数,用于评估CPU的性能和健康状态,其中,CPU使用率可以表征当前CPU的负载情况,上下文切换次数可以表征系统调度的频繁程度,中断次数可以表征硬件或软件请求CPU干预的频率,所述内存信息是交换机内存的使用情况数据,可以包括内存占用率、内存分配与释放情况以及页面错误次数,用于监测内存的使用效率和潜在的内存泄漏,其中,内存占用率可以表征当前内存的使用比例,内存分配与释放情况可以表征内存的动态变化,页面错误次数可以表征内存访问异常的频率,所述进程状态信息是交换机上运行的各个进程的状态,可以包括进程的运行状态、资源占用情况以及进程的生命周期,用于识别异常进程或资源占用。
另外地,需要说明的是,所述交换机内核性能指标是用于衡量交换机内核运行状态和性能的一系列关键参数,表征交换机内核的实时运行状况,从而及时发现资源瓶颈、内存泄漏或进程异常问题,实现对故障的快速定位和诊断,显著提升交换机的运行稳定性,减少故障停机时间,提高网络运维效率。
步骤A13,监听数据库变更事件流,并捕获目标操作审计日志,确定捕获信息,所述目标操作审计日志包括用户权限和操作时序;
需要说明的是,所述捕获信息是在交换机故障诊断与智能分析管理中,通过监听数据库变更事件流和捕获CLI操作审计日志所获取的数据。
可以理解的是,所述用户权限是在交换机管理系统中,用户被授予的操作权限范围,根据用户的角色进行划分,如管理员、普通用户以及只读用户,通过限制用户的操作范围,可以防止未经授权的修改或潜在的误操作,所述操作时序是用户执行操作的具体时间顺序,记录用户在系统中执行命令或进行配置更改的时间点,能够以时间戳的形式存在,在发生故障时,可以快速定位问题发生的时间点和相关操作。
另外地,需要说明的是,数据库变更事件流是数据库系统中发生的各类数据变更操作所产生的事件序列,表征数据库状态的变化,用于监控数据库操作、检测数据异常和追踪数据流向,所述目标操作审计日志是记录对应的用户在系统中执行的关键操作的日志文件,用于故障排查,定位故障原因以及进行安全审计。
步骤A14,基于所述采集信息和所述捕获信息得到监控容器指标信息。
可以理解的是,利用所述采集信息和所述捕获信息可以整合内核性能指标、数据库变更事件流和CLI操作审计日志,从多个维度全面监控交换机的运行状态,及时发现潜在问题并快速定位故障原因,显著提高故障诊断的准确性和效率,减少故障排查时间,提升网络运维的整体效能。
在另一种可行的实施方式中,步骤S10可以包括步骤B11~B13:
步骤B11,根据时间戳对齐对所述监控容器指标信息进行时间同步校准,确定校准信息;
需要说明的是,所述校准信息是在数据预处理阶段,通过对监控容器指标信息进行时间戳对齐处理后生成的同步时间基准数据。
可以理解的是,所述校准信息可以表征经过硬件时钟PTP与网络时间协议NTP混合校准后的时间戳以及与之对应的事件或数据记录的标识信息,是数据在时间维度上的准确位置,提供统一的时间基准。
另外地,需要说明的是,所述时间同步校准是在数据预处理阶段,通过特定的技术手段对采集到的监控容器指标信息中的时间戳进行调整和对齐,保持不同数据源的时间戳的一致和准确,消除因采集时间差异导致的数据偏差。
步骤B12,基于所述校准信息触发数据清洗过滤目标噪声数据,并通过正则表达式匹配异常模式,确定目标格式数据,所述目标格式数据包括事件类型、源模块、影响等级、时间戳和原始数据哈希值;
需要说明的是,所述目标格式数据是在转换为统一格式后匹配异常模式后生成的对应格式数据,以更为高效准确的进行故障排查。
可以理解的是,所述正则表达式匹配异常模式是通过正则表达式对采集到的监控容器指标信息中的日志或文本数据进行模式匹配,以识别和提取其中的异常模式,其中,正则表达式是一种强大的文本处理工具,可以定义复杂的字符串匹配规则,用于检测日志中的特定关键词、错误代码以及异常信息,如通过正则表达式可以匹配内核panic日志中的关键字“kernel panic”或“segmentation fault”、数据库错误日志中的错误代码“ERROR:outof memory”或CLI操作日志中的异常命令“sudo rm-rf”。
另外地,需要说明的是,所述事件类型是对监控数据中发生的特定事件进行分类的标识,用于描述了事件性质或类别,所述源模块是事件发生的来源或模块,标识事件产生来源,更准确地定位故障,所述影响等级是对事件影响程度的评估,用于表征事件对系统运行、性能或安全的影响程度,所述时间戳是事件发生的具体时间点,可以使用标准的时间格式记录,所述原始数据哈希值是对原始数据记录进行哈希运算后得到的唯一标识值,用于在数据处理过程中快速验证数据的准确性和溯源。
步骤B13,基于所述目标格式数据同步预设时序数据库,得到同步数据。
可以理解的是,所述预设时序数据库是专门用于存储和管理时间序列数据的数据库系统,可以高效地处理带有时间戳的数据,支持快速插入、查询和分析操作,其中,数据以时间戳为索引,支持高效的时间范围查询,且可以处理高频率的数据插入和查询操作,利用数据压缩和存储优化,减少存储空间占用,提高读写效率。
步骤S20,基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
需要说明的是,所述根因概率排序是通过对采集到的监控数据进行分析和处理,计算出各个潜在故障原因导致当前故障发生的概率,并按照概率大小进行排序。
可以理解的是,所述根因概率排序可以基于机器学习模型、历史故障数据和实时监控数据,通过特征提取、模式匹配和概率计算等步骤,生成一个包含多个候选根因及其对应概率的列表,如系统会输出内存泄漏导致故障的概率为80%或CPU过载导致故障的概率为15%等信息,并选择前三的候选根因及其对应概率组成根因概率排序。
为方便理解,以确定根因概率排序为例进行说明,其中信息采集装置为信息采集模块,存储装置为存储器,处理装置为处理模块。
信息采集模块获取同步数据,基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息,即利用预训练模型基于历史故障案例进行训练,历史故障案例可以是海量的案例,如具备数量超过10万的历史故障案例进行循环迭代训练,从而提取关键的故障时序共性特征,结合增量学习模块,可实时接收新数据并动态更新模型参数,支持在线调优以适应不断变化的网络环境,即输入同步数据,如结构化数据流,基于同步数据进行时序特征提取,如采用小波变换和滑动窗口技术进行提取,得到提取特征信息,基于所述提取特征信息匹配对应的故障模式,得到根因概率排序,即通过余弦相似度比对历史案例进行故障模式匹配,从而输出前三的候选根因及其置信度,得到根因概率排序,基于所述根因概率排序进行后续处理。
步骤S30,基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
需要说明的是,所述显示拓扑图是通过可视化技术所生成的网络拓扑结构图,可以展示网络设备之间的连接关系,并动态标注故障路径、异常节点以及故障传播范围。
可以理解的是,所述故障传播路径是故障从发生点开始,通过网络设备和链路逐步扩散的路径,可以表征故障对网络中其他设备和链路的影响范围和顺序,由故障的源头开始,如某个交换机端口或设备,沿着网络拓扑结构向其他设备或链路扩散,从而影响到整个网络的运行状态。
为方便理解,以确定显示拓扑图为例进行说明,其中信息采集装置为信息采集模块,存储装置为存储器,执行装置为执行模块。
信息采集模块获取网络设备信息,即基于链路层发现协议LLDP自动发现网络设备,得到网络设备信息,LLDP协议可以在局域网中自动识别并交换设备信息,从而动态生成网络拓扑结构,利用LLDP协议可以获取网络设备信息和连接关系,从而快速定位故障传播路径,基于所述根因概率排序定位故障传播路径,确定故障路径图,即系统根据根因概率排序确定最有可能引发故障的前三个关键因素,定位故障从源头开始的传播路径,并生成对应的故障路径图,可以结合网络拓扑结构和设备之间的依赖关系,并利用神经网络GNN对故障传播路径进行推理,进一步优化故障路径的预测精度,GNN可以通过学习网络拓扑结构中的节点和边的特征,动态地调整故障路径的权重,从而生成一个带权有向图,更准确地表征故障的传播方向和影响范围,基于所述网络设备信息和所述故障路径图触发拓扑生成,并预测目标故障路径变化进行标注,得到显示拓扑图,即系统支持假设分析模式,允许用户手动禁用或模拟故障某个模块,如关闭BGP进程,触发对应的拓扑生成,得到显示拓扑图以观察预测故障链的变化,快速定位问题根源,并且,系统具备反馈闭环与自优化机制,将诊断结果将自动标注为训练数据,并通过GitOps更新模型版本,持续优化故障诊断模型,同时,系统仅依赖Sonic交换机原生硬件资源,无需外置服务器,降低了硬件成本,提高了系统的可部署性和灵活性,显著提升了网络运维的效率和可靠性。
在一种可行的实施方式中,步骤S30可以包括步骤C11~C13:
步骤C11,获取网络设备信息;
需要说明的是,所述网络设备信息是基于链路层发现协议自动发现网络设备所对应的详细数据。
可以理解的是,所述网络设备信息可以包括设备类型、设备标识、设备端口信息、设备之间的连接关系以及设备的运行状态,用于定位故障源点。
步骤C12,基于所述根因概率排序定位故障传播路径,确定故障路径图;
需要说明的是,所述故障路径图是带权有向图,也是一种可视化视图,用于直观展示故障在网络中的传播路径和影响范围。
可以理解的是,所述故障路径图可以包括故障源头、传播路径、受影响设备、链路状态以及动态更新结果,其中故障源头用于标识故障最初发生的位置,如某个交换机端口或设备,传播路径用于显示故障从源头开始,沿着网络拓扑结构传播的具体路径,受影响设备用于高亮显示因故障而受到影响的网络设备,链路状态用于标注故障传播路径上的链路状态,如正常、故障或受影响,动态更新用于根据实时监控数据动态更新,以表示故障的实时状态和变化趋势。
步骤C13,基于所述网络设备信息和所述故障路径图触发拓扑生成,并预测目标故障路径变化进行标注,得到显示拓扑图。
可以理解的是,所述目标故障路径是系统预测或推断出的故障的传播的路径,以可视化的方式展示在拓扑图上,通过高亮显示或动态标注来突出显示故障的传播方向和影响范围。
本实施例提出的一种交换机故障诊断与智能分析管理方法,获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。解决了如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题,相较于现有技术,本申请通过采集监控数据、预处理同步至时序数据库,提取特征并匹配故障模式,定位故障路径并生成动态拓扑图,实现交换机故障的快速诊断与智能管理,采用独立监控容器的资源隔离架构,内嵌eBPF探针,实现内核、数据库和CLI多数据源的同步采集,利用PTP硬件时钟与NTP混合校准的多源数据时间戳对齐算法,达到微秒级时序一致性,并匹配故障事件生成带权有向图,利用GNN进行路径推理,同时,使用动态拓扑标注采用色温梯度算法,以蓝到红表示故障严重度,并叠加脉冲动画显示扩散路径,显著提升故障诊断的效率和准确性。
基于本申请第一实施例,在本申请第二种实施例中,与上述实施例一相同或相似的内容,可以参考上文介绍,后续不再赘述。
本实施例中,参照图2,图2为本申请交换机故障诊断与智能分析管理方法实施例二提供的流程示意图,步骤S20具体包括步骤S21~S22:
步骤S21,基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;
需要说明的是,所述提取特征信息是对同步数据进行循环迭代训练后所提取出与时序共性特征相关联的数据信息。
可以理解的是,所述时序共性特征是在时间序列数据中提取得到的表征数据内在时序规律的特征,如CPU使用率随时间的上升或下降趋势、内存占用率在特定时间间隔内的周期性变化以及进程状态的突然变化或网络流量的突增。
为方便理解,以得到提取特征信息为例进行说明,其中信息采集装置为信息采集模块,存储装置为存储器,处理装置为处理模块。
信息采集模块获取同步数据,基于所述同步数据输入预设历史故障库进行训练,确定迁移学习模型,基于所述迁移学习模型提取时序共性特征,确定待更新提取信息,即输入同步数据,如结构化数据流,基于同步数据训练预设历史故障库,得到迁移学习模型,进行时序特征提取,如采用小波变换和滑动窗口技术进行提取,得到待更新提取信息,基于所述待更新提取信息输入所述迁移学习模型进行迭代更新训练,确定迁移学习优化模型,即结合增量学习模块,可实时接收新数据并动态更新模型参数,支持在线调优以适应不断变化的网络环境,迭代更新训练迁移学习模型,得到迁移学习优化模型,基于所述迁移学习优化模型提取时序共性特征,得到提取特征信息,即利用迁移学习优化模型提取关键的故障时序共性特征,得到提取特征信息,基于所述提取特征信息进行后续处理。
在一种可行的实施方式中,步骤S21可以包括步骤D11~D14:
步骤D11,基于所述同步数据输入预设历史故障库进行训练,确定迁移学习模型;
需要说明的是,所述迁移学习模型是一种基于机器学习的模型,通过在大规模历史故障数据集上进行预训练,学习到通用的特征表示和模式识别能力。
可以理解的是,所述迁移学习模型为故障诊断系统提供强大的特征提取和模式识别能力,可以提取监控数据中的时序共性特征,显著提高故障诊断的准确性和效率。
步骤D12,基于所述迁移学习模型提取时序共性特征,确定待更新提取信息;
需要说明的是,所述待更新提取信息是直接提取时序共性特征生成的特征信息,是未经过优化调整的中间数据。
可以理解的是,所述待更新提取信息是模型训练过程中的中间产物,可以是结构化数据表示,具备明确的字段和类型定义,表征模型的初步理解和表示,用于模型的迭代训练。
步骤D13,基于所述待更新提取信息输入所述迁移学习模型进行迭代更新训练,确定迁移学习优化模型;
需要说明的是,所述迁移学习优化模型是进一步训练和调整后生成的更好适应新任务的模型。
可以理解的是,所述迁移学习优化模型不仅继承了预训练模型的通用特征表示能力,还通过增量学习和在线调优动态更新模型参数,以提高模型在特定任务上的性能和泛化能力,从而更准确地识别和预测故障模式,生成更精确的根因概率排序。
步骤D14,基于所述迁移学习优化模型提取时序共性特征,得到提取特征信息。
可以理解的是,利用所述迁移学习优化模型可以动态更新模型参数,快速适应新的故障模式和网络环境变化,增强系统的泛化能力,更好地处理复杂的故障场景,且显著提升故障诊断系统的性能,优化网络运维效率,增强系统的整体可靠性和稳定性。
步骤S22,基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。
可以理解的是,所述故障模式是在交换机运行过程中出现的各种故障类型及其表现形式,每种故障模式都有其独特的特征和表现形式,可以包括硬件故障模式、软件故障模式、网络故障模式以及用户操作故障模式,其中,硬件故障模式可以是CPU过载、内存泄漏以及网络接口故障,软件故障模式可以是数据库错误、应用程序崩溃以及配置错误,网络故障模式可以是链路中断、路由错误以及BGP邻居震荡,用户操作故障模式是误操作以及权限滥用。
为方便理解,以得到根因概率排序为例进行说明,其中信息采集装置为信息采集模块,存储装置为存储器,处理装置为处理模块。
信息采集模块获取历史案例信息,即可以利用预训练模型基于历史故障案例进行训练,历史故障案例可以是海量的案例,如具备数量超过10万的历史故障案例进行循环迭代训练,从而提取关键的故障时序共性特征,基于所述提取特征信息和所述历史案例信息匹配对应的故障模式,并选取目标候选根因以及置信度,得到根因概率排序,即通过余弦相似度比对历史案例进行故障模式匹配,从而输出前三的候选根因及其置信度,得到根因概率排序。
在一种可行的实施方式中,步骤S22可以包括步骤E11~E12:
步骤E11,获取历史案例信息;
需要说明的是,所述历史案例信息是存储的以往故障事件的详细记录和分析结果。
可以理解的是,所述历史案例信息可以包括故障类型、发生时间、影响范围、根因分析结果、解决措施以及对应的监控数据和日志记录,从而快速识别和处理新的故障事件,如历史案例信息记录某个特定CPU使用率峰值与内存泄漏之间的关联,或某个数据库错误与配置错误之间的关系。
步骤E12,基于所述提取特征信息和所述历史案例信息匹配对应的故障模式,并选取目标候选根因以及置信度,得到根因概率排序。
可以理解的是,通过提取特征信息比对历史案例信息,匹配对应的故障模式,系统可以快速识别新的故障事件,并提供针对性的解决方案,减少故障排查时间,提高网络运维的响应速度,显著提升故障诊断系统的性能,优化网络运维效率,增强系统的整体稳定性和可用性。
本实施例提出的一种交换机故障诊断与智能分析管理方法,基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。解决了如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题,相较于现有技术,本申请通过将同步数据输入预设的历史故障库进行训练,并提取时序共性特征匹配故障模式,从而得到根因概率排序,显著提高故障诊断的效率和准确性,降低对人工经验的依赖,增强故障诊断的泛化能力和可靠性,可以更及时地定位故障源头,加快故障修复速度,减少故障对网络运行的影响。
示例性地,为了助于理解本实施例结合上述实施例一后所得到的交换机故障诊断与智能分析管理方法的实现流程,请参照图3,图3提供了一种交换机故障诊断与智能分析管理方法的简要流程示意图,具体地:
参见实施例一,获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。参见实施例二,基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。系统实现故障触发,开始判断分析,在独立监控容器进行内核日志采集与数据库事件监听以及CLI操作审计,在数据预处理与存储模块进行时间戳对齐与数据清洗与标准化,在AI根因分析引擎训练模型,提取特征以及在线推理,实现分析模拟与查询,在反馈闭环和自优化进行诊断更新与数据闭环,从而在动态可视化交互模块自动发现故障标注,输出给用户感知完成交换机故障诊断与智能分析管理。
需要说明的是,上述示例仅用于理解本申请,并不构成对本申请交换机故障诊断与智能分析管理方法的限定,基于此技术构思进行更多形式的简单变换,均在本申请的保护范围内。
本申请还提供一种交换机故障诊断与智能分析管理装置,请参照图4,所述交换机故障诊断与智能分析管理装置包括:
获取模块10,用于获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
处理模块20,用于基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
执行模块30,用于基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
所述获取模块10,还用于获取采集周期;
基于所述采集周期对交换机内核性能指标进行采集,确定采集信息,所述采集信息包括处理器信息、内存信息和进程状态信息;
监听数据库变更事件流,并捕获目标操作审计日志,确定捕获信息,所述目标操作审计日志包括用户权限和操作时序;
基于所述采集信息和所述捕获信息得到监控容器指标信息。
所述获取模块10,还用于根据时间戳对齐对所述监控容器指标信息进行时间同步校准,确定校准信息;
基于所述校准信息触发数据清洗过滤目标噪声数据,并通过正则表达式匹配异常模式,确定目标格式数据,所述目标格式数据包括事件类型、源模块、影响等级、时间戳和原始数据哈希值;
基于所述目标格式数据同步预设时序数据库,得到同步数据。
所述处理模块20,还用于基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;
基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。
所述处理模块20,还用于基于所述同步数据输入预设历史故障库进行训练,确定迁移学习模型;
基于所述迁移学习模型提取时序共性特征,确定待更新提取信息;
基于所述待更新提取信息输入所述迁移学习模型进行迭代更新训练,确定迁移学习优化模型;
基于所述迁移学习优化模型提取时序共性特征,得到提取特征信息。
所述处理模块20,还用于获取历史案例信息;
基于所述提取特征信息和所述历史案例信息匹配对应的故障模式,并选取目标候选根因以及置信度,得到根因概率排序。
所述执行模块30,还用于获取网络设备信息;
基于所述根因概率排序定位故障传播路径,确定故障路径图;
基于所述网络设备信息和所述故障路径图触发拓扑生成,并预测目标故障路径变化进行标注,得到显示拓扑图。
本申请提供的交换机故障诊断与智能分析管理装置,采用上述实施例中的交换机故障诊断与智能分析管理方法,能够解决如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题。与现有技术相比,本申请提供的交换机故障诊断与智能分析管理装置的有益效果与上述实施例提供的交换机故障诊断与智能分析管理方法的有益效果相同,且所述交换机故障诊断与智能分析管理装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
本申请提供一种交换机故障诊断与智能分析管理设备,交换机故障诊断与智能分析管理设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例一中的交换机故障诊断与智能分析管理方法。
下面参考图5,其示出了适于用来实现本申请实施例的交换机故障诊断与智能分析管理设备的结构示意图。本申请实施例中的交换机故障诊断与智能分析管理设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(PersonalDigitalAssistant:个人数字助理)、PAD(Portable Application Description:平板电脑)、PMP(Portable Media Player:便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的交换机故障诊断与智能分析管理设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,交换机故障诊断与智能分析管理设备可以包括处理装置1001(例如中央处理器、图形处理器等),其可以根据存储在ROM(Read Only Memory,只读存储器)1002中的程序或者从存储装置1003加载到RAM(Random Access Memory,随机访问存储器)1004中的程序而执行各种适当的动作和处理。在RAM1004中,还存储有交换机故障诊断与智能分析管理设备操作所需的各种程序和数据。处理装置1001、ROM1002以及RAM1004通过总线1005彼此相连。输入/输出(I/O)接口1006也连接至总线。通常,以下系统可以连接至I/O接口1006:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置1007;包括例如液晶显示器(LCD:Liquid Crystal Display)、扬声器、振动器等的输出装置1008;包括例如磁带、硬盘等的存储装置1003;以及通信装置1009。通信装置1009可以允许交换机故障诊断与智能分析管理设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的交换机故障诊断与智能分析管理设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
特别地,根据本申请公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置1003被安装,或者从ROM1002被安装。在该计算机程序被处理装置1001执行时,执行本申请公开实施例的方法中限定的上述功能。
本申请提供的交换机故障诊断与智能分析管理设备,采用上述实施例中的交换机故障诊断与智能分析管理方法,能解决如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题。与现有技术相比,本申请提供的交换机故障诊断与智能分析管理设备的有益效果与上述实施例提供的交换机故障诊断与智能分析管理方法的有益效果相同,且该交换机故障诊断与智能分析管理设备中的其他技术特征与上一实施例方法公开的特征相同,在此不做赘述。
应当理解,本申请公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
本申请提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令(即计算机程序),计算机可读程序指令用于执行上述实施例中的交换机故障诊断与智能分析管理方法。
本申请提供的计算机可读存储介质例如可以是U盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体地例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM:Random Access Memory)、只读存储器(ROM:Read Only Memory)、可擦式可编程只读存储器(EPROM:Erasable Programmable Read Only Memory或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM:CD-Read Only Memory)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency:射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是交换机故障诊断与智能分析管理设备中所包含的;也可以是单独存在,而未装配入交换机故障诊断与智能分析管理设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被交换机故障诊断与智能分析管理设备执行时,使得交换机故障诊断与智能分析管理设备:获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN:LocalArea Network)或广域网(WAN:Wide Area Network)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
本申请提供的可读存储介质为计算机可读存储介质,所述计算机可读存储介质存储有用于执行上述交换机故障诊断与智能分析管理方法的计算机可读程序指令(即计算机程序),能够解决如何实现更高效准确且有效的交换机故障诊断与智能分析管理的技术问题。与现有技术相比,本申请提供的计算机可读存储介质的有益效果与上述实施例提供的交换机故障诊断与智能分析管理方法的有益效果相同,在此不做赘述。
以上所述仅为本申请的部分实施例,并非因此限制本申请的专利范围,凡是在本申请的技术构思下,利用本申请说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本申请的专利保护范围内。

Claims (10)

1.一种交换机故障诊断与智能分析管理方法,其特征在于,所述的方法包括:
获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
2.如权利要求1所述的方法,其特征在于,所述获取监控容器指标信息的步骤包括:
获取采集周期;
基于所述采集周期对交换机内核性能指标进行采集,确定采集信息,所述采集信息包括处理器信息、内存信息和进程状态信息;
监听数据库变更事件流,并捕获目标操作审计日志,确定捕获信息,所述目标操作审计日志包括用户权限和操作时序;
基于所述采集信息和所述捕获信息得到监控容器指标信息。
3.如权利要求1所述的方法,其特征在于,所述基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据的步骤包括:
根据时间戳对齐对所述监控容器指标信息进行时间同步校准,确定校准信息;
基于所述校准信息触发数据清洗过滤目标噪声数据,并通过正则表达式匹配异常模式,确定目标格式数据,所述目标格式数据包括事件类型、源模块、影响等级、时间戳和原始数据哈希值;
基于所述目标格式数据同步预设时序数据库,得到同步数据。
4.如权利要求1所述的方法,其特征在于,所述基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序的步骤包括:
基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息;
基于所述提取特征信息匹配对应的故障模式,得到根因概率排序。
5.如权利要求4所述的方法,其特征在于,所述基于所述同步数据输入预设历史故障库进行训练,并提取时序共性特征,得到提取特征信息的步骤包括:
基于所述同步数据输入预设历史故障库进行训练,确定迁移学习模型;
基于所述迁移学习模型提取时序共性特征,确定待更新提取信息;
基于所述待更新提取信息输入所述迁移学习模型进行迭代更新训练,确定迁移学习优化模型;
基于所述迁移学习优化模型提取时序共性特征,得到提取特征信息。
6.如权利要求4所述的方法,其特征在于,所述基于所述提取特征信息匹配对应的故障模式,得到根因概率排序的步骤包括:
获取历史案例信息;
基于所述提取特征信息和所述历史案例信息匹配对应的故障模式,并选取目标候选根因以及置信度,得到根因概率排序。
7.如权利要求1所述的方法,其特征在于,所述基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图的步骤包括:
获取网络设备信息;
基于所述根因概率排序定位故障传播路径,确定故障路径图;
基于所述网络设备信息和所述故障路径图触发拓扑生成,并预测目标故障路径变化进行标注,得到显示拓扑图。
8.一种交换机故障诊断与智能分析管理装置,其特征在于,所述装置包括:
获取模块,用于获取监控容器指标信息,基于所述监控容器指标信息进行数据预处理,并同步预设时序数据库,确定同步数据;
处理模块,用于基于所述同步数据提取时序共性特征,并匹配对应的故障模式,确定根因概率排序;
执行模块,用于基于所述根因概率排序定位故障传播路径,并触发拓扑生成标注目标故障路径,确定显示拓扑图,基于所述显示拓扑图完成交换机故障诊断与智能分析管理。
9.一种交换机故障诊断与智能分析管理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至7中任一项所述的交换机故障诊断与智能分析管理方法的步骤。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的交换机故障诊断与智能分析管理方法的步骤。
CN202510690080.6A 2025-05-27 2025-05-27 交换机故障诊断与智能分析管理方法、装置、设备及存储介质 Pending CN120639575A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202510690080.6A CN120639575A (zh) 2025-05-27 2025-05-27 交换机故障诊断与智能分析管理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202510690080.6A CN120639575A (zh) 2025-05-27 2025-05-27 交换机故障诊断与智能分析管理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN120639575A true CN120639575A (zh) 2025-09-12

Family

ID=96970461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202510690080.6A Pending CN120639575A (zh) 2025-05-27 2025-05-27 交换机故障诊断与智能分析管理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN120639575A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120848237A (zh) * 2025-09-19 2025-10-28 湖南美创数字科技有限公司 数字化多媒体展厅的中控系统
CN120892295A (zh) * 2025-09-29 2025-11-04 苏州元脑智能科技有限公司 服务器硬件故障诊断方法、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120848237A (zh) * 2025-09-19 2025-10-28 湖南美创数字科技有限公司 数字化多媒体展厅的中控系统
CN120892295A (zh) * 2025-09-29 2025-11-04 苏州元脑智能科技有限公司 服务器硬件故障诊断方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN120639575A (zh) 交换机故障诊断与智能分析管理方法、装置、设备及存储介质
US10679135B2 (en) Periodicity analysis on heterogeneous logs
US11601453B2 (en) Methods and systems for establishing semantic equivalence in access sequences using sentence embeddings
JP2019501448A (ja) 異種混成ログストリームにおける自動化された異常検出サービス
CN106815125A (zh) 一种日志审计方法及平台
CN110955709B (zh) 一种数据的处理方法、装置及电子设备
CN103095821A (zh) 一种基于虚拟机迁移识别的持续审计系统
CN114281877A (zh) 一种数据管理系统及方法
CN119339456A (zh) 一种基于车辆监管数据的长尾场景识别方法、设备、介质及产品
Volpert et al. The view on systems monitoring and its requirements from future Cloud-to-Thing applications and infrastructures
CN119829683A (zh) 一种政务数据共享系统、方法、设备及存储介质
CN118869482A (zh) 多网络设备的风险评估方法、装置、电子设备和存储介质
US9276826B1 (en) Combining multiple signals to determine global system state
CN120429093B (zh) 多智能体学习的事件流程调度方法、设备及存储介质
US12314150B1 (en) Systems and methods for real-time mapping and visualization generation of system components in software systems
CN119415412A (zh) 风控决策的调试方法、装置、设备及存储介质
CN119807423A (zh) 一种运维日志分析方法、装置、设备、程序产品和存储介质
CN114329066B (zh) 录像数据处理方法、装置、电子设备和存储介质
CN118503100A (zh) 一种基于图像识别技术的跨平台测试系统、方法及程序产品
CN116342342A (zh) 学生行为检测方法、电子设备及可读存储介质
CN120315727B (zh) 架构部署方案生成方法、电子设备、存储介质与产品
CN120578584A (zh) 一种用于h5页面的智能测试生成方法、系统、设备及介质
CN120763056A (zh) 软件测试方法、装置、设备、存储介质及产品
CN119088703A (zh) 一种选择器处理方法、装置、设备及介质
CN119782085A (zh) 电子控制单元日志分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination