WeOps-X 监控功能介绍文档

快速入门

如何快速掌握WeOps-X监控平台的使用

背景说明

面向运维中最关键的日常值班与故障处理场景,实现跨平台集中告警管理、可视、分析、处置与知识沉淀。快速入门掌握资产指标查询,精准获取资产当前状态;设置监控报警策略,实现自动监控。

配置资产信息

选择要配置的资产

本平台已内置数据库、中间件、操作系统网络设备等资产分组,选择分组下的插件,对公司内要监控的资产进行配置。在“集成-集成”中支持对指标分组、分组内部指标进行排序。

配置资产信息支持手动配置和自动配置,推荐使用自动配置,完成信息录入后自动完成配置。

资产指标编制

针对各项资产,本平台已提前内置好需要重点关注的指标信息。如若觉得指标过多可以自行删除;觉得不够的情况下支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。

快速搜索查询指标

在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况,在右上角选择查看什么时间段内的指标数据。

查看资产指标情况

在视图功能中,选择具体资产后可进行“视图”——侧边抽屉快速查看指标折线图;“详情”——跳转到资产图表详情页查看。两种方式都支持选择时间跨度、选择具体指标。

资产监控告警

告警策略设定

策略设定支持自定义以及从模板新建。

  • 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)
  • 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。

仪表盘——告警事件监管

  • 默认情况下展示活跃告警的总分步情况,不区分资产;
  • 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
  • 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。

功能介绍

集成模块

资产信息配置——添加要监控的资产

  • 本平台已内置数据库、中间件、操作系统、网络设备、K8S、硬件设备等资产分组,选择分组下的插件,可对公司内要监控的资产进行配置。
  • 在“集成-集成”的左侧边栏中,支持对指标分组、分组内部指标进行排序,调整成功后此排序会同步到所有模块。
  • 配置资产信息支持手动配置和自动配置
    • 自动配置(推荐使用):录入基本信息,设置采集频率,选择节点并填入服务器地址,提交配置后可自动完成配置。
    • 手动配置:录入基本信息和密码后,生成配置,需要到监控对象上粘贴配置。

自动配置

手动配置

资产指标编制

  • 针对各项资产,本平台提供内置好的需要重点关注的指标信息;
  • 支持对已有指标的编辑、删除;
  • 支持自定义指标:添加指标所属分组后,添加要监控的指标,设计要监控的数据内容,填写查询语句等。
  • 编辑指标字段说明:
    • ID:在数据库中储存、标识该指标,采用下划线界开单词的命名格式;
    • 名称:对该指标的定义命名;
    • 组:为该指标分组,如:监控内存已使用量、剩余量等指标分配在内存组别下。建议先行检查是否存在要分配的组别,不存在的情况下,先添加组;
    • 唯一ID:用于区分识别各设备的字段,如:instance_id。可同时有多个;
    • 维度:用于区分同一资产内的不同监控对象,比如:交换器的各接口操作状态指标,用ifDescr作为维度。可同时有多个维度,非必填;
    • 数据类型:数据(数量、百分比、KB等等)或枚举型(状态说明,如:1=正常,2=不不正常);
    • 单位:监控指标的单位,数字类型可在下拉框中进行选择,枚举类型设置原始值与映射值(如:1=正常,0=异常,1、0是原始值,文字是映射值)

资产查看

  • 在资产tag下,可根据资产类别查看已经配置好采集参数的资产,对每一个具体的资产展开后可查看具体参数为:
    • 1、采集方法:对资产的大分类,如Apache、Myasql都属于中间件
    • 2、采集节点:可确定采集的是哪一个资产节点;
    • 3、上报状态:可查看是否正常采集,若显示–则表示暂未采集到数据,显示正常即可正常收集数据;
    • 4、还可查看最后上报时间和更新配置
  • 点击资产详情,跳转到指标数据的概览页面中,可查看采集到的资产指标的数据折线图
  • 规则设置:用于设置有权访问资产的组织,为资产在系统上进行隔离,避免敏感访问,使各分组专职管好自己组的资产

搜索模块——快速精确查询资产指标

  • 在左侧栏选择要查看的资产后,在主视图设置过滤器条件快速精确查询资产指标情况
    • 数据时间段:在右上角选择查看什么时间段内的指标数据;
    • 自动刷新:点击刷新按钮手动刷新,A字下拉框中选择数据自动刷新的时间间隔(1分组、5分钟或者10分钟)
    • 来源:在集成中配置时为资产的节点;
    • 指标:该资产下的所有指标;
    • 过滤器+:可针对选择的指标进行更详细的过滤设置,比如对交换机的接口带宽,可以令ifDescr包括?,进一步地筛选出要观察的该交换机下的具体接口,更精细地控制指标数据展示
    • 视图切换:支持以折线图或者表格形式查看指标数据,折线图会伴随图例展示统计数据(如:平均值、最大值等)。

视图模块

  • 在视图功能中,选择具体资产后可查看各指标数据变化的折线图
    • “概览”——跳转到资产图表详情页查看。
    • “详情”——侧边抽屉快速查看指标折线图
    • 两种方式都支持选择时间跨度、选择具体指标。
  • 详情视图
    • 以分组模式展示各指标折线图,每个指标图的标题处带有指标详细介绍;
    • 放大镜图标支持跳转到“搜索”模块下该指标视图;
    • 指标图中的铃铛图标支持跳转到告警策略设定,自动填充该指标的基础信息;
    • 鼠标在折线图上移动,会显示鼠标当前所在点的时间、数据;
    • 日历图标所在下拉框支持选择数据时间段,15min~24小时,也支持自定义时间(几月几号到几月几号);
    • A字带圆圈图标支持设定视图自动刷新时间,刷新图标支持立刻手动刷新

资产监控告警

事件模块——告警查看及策略设定

策略设定

告警策略支持自定义以及从模板新建。

  • 自定义:在“策略”tab下选择“添加”后进入策略配置页,完成基本信息、定义指标(策略针对什么指标、采用什么监控方法、监控频率)、设置告警条件(告警阈值、告警恢复条件)、配置通知(此告警是否发送通知)。字段说明同策略模板。
  • 策略模板:在“事件”——“模板”下选择资产,本平台针对各资产重要指标内置告警策略模板,直接点击进入,可选择进一步编辑或直接应用该策略。
  • 策略参数——基础配置
    • 1、策略名称:用于标识和描述该监控策略的主要内容;
    • 2、告警名称:可以引用指标名称或者维度名作为变量,参考格式为${metric.name}。例如,可以设置为“交换机{metric_instance_id} 接口 {metric_ifC}”。使用此格式可以在告警时注明是哪个实体出现问题;
    • 3、组织:用于将该监控策略归类到特定的组织或部门,被选定的组织拥有该告警策略的管理权;
    • 4、来源:选择监控数据的来源,可先通过组织筛选资产实体,再选择性地监控同一资产类型下的不同资产实体。因为可能存在某分组不拥有该资产但是需要该资产告警信息的情况,与上面“组织”设定结合,可实现简单高效的跨组织交流监控;
    • 5、指标:设置需要监控的指标,可针对选择的指标进行更详细的过滤设置,并根据选择的条件分组(不同实体);
    • 6、方法:选择检测方法。每个选择方法,选择之后会有使用说明。如:last_over time表示选定时间范围中,每个维度中最后一个数据点的值。last_over time函数用于取出每条时间序列在指定时间范围内的最后一个采样值,适用于获取状态变化监控或关键时间点的指标快照。例如可以用来获取某些端口或实例在最近查询范围中的最后状态值;
    • 7、检测频率:控制多长时间收集一次监控数据;
    • 8、检测周期:用于测量收集监控数据的时间范围;
  • 策略参数——告警设置:
    • 1、算法:选择告警的监控方法,目前支持阈值报警;
    • 2、阈值告警级别设置:设置当采集到的数据处于什么情况时告警,为数值告警划分三个级别——警告、错误、严重,标识问题严重程度,支持为各种情况设定告警阈值,告警程度递增;
    • 3、自动恢复:有些异常资产可以自我恢复,设置在不处理的情况下,监测到多少个周期不满足阈值时,则告警自动恢复。即当满足条件时,生成的告警将自动解决;
    • 4、无数据:设置是否将无数据视为异常。打开后,需要设置在采集时,当没有数据报告连续xx分钟,将生成“无数据”告警,级别为xx。当数据报告在xx分钟内恢复正常时,“无数据告警” 将自动恢复。
    • 5、通知:设置此策略下的告警要不要发送通知,选择发送渠道(方法)——比如企业微信中的某个群机器人,需要提前在系统管理中配置好、通知谁(与基本信息中选择的组织有关,只能选择通知之前设置的组中的成员)。

仪表盘——告警事件监管

  • 默认情况下展示活跃告警的总分步情况,不区分资产;
  • 支持在左侧过滤项中对告警级别、告警状态、资产进行精确定位查看告警状况;
    • 告警级别:具体配置在策略设定中
    • 状态:“新”——刚刚出现,未作任何操作的告警;“自动恢复”——在策略中设定,资产自动恢复;“资产”——选择要监控的资产进行重点查看。
  • 告警管理参数:
    • 1、级别:警告、错误、严重,具配置在告警策略中;
    • 2、状态:“新”——刚刚出现,未作任何操作的告警;“自动恢复”——在策略中设定,资产自动恢复;“资产”——选择要监控的资产进行重点查看;
    • 3、时间:此告警,即资产异常发生的时间;
    • 4、告警名称:资产异常是什么情况,会包括异常情况和发送异常的资产名称,在策略中设定;
    • 5、资产类型:标明发生异常的是什么类型的资产;
    • 6、资产:标明发生异常的是哪个资产;
    • 7、通知情况:给出是否已经通知到相关人员;
    • 8、操作员:修复此异常警告的是谁,修复后状态也会跟着修改;
    • 9、操作:“关闭”——手动关闭警告,一般未处理误报警等情况;“详情”——右侧抽屉式展示告警具体信息,包括以上参数的信息,以及异常的指标数据折线图,还有状态变化的时间日志(在策略中设定的检测频率为时间跨度,展示目前处于异常还是正常状态。在不进行手动关闭的情况下修复后,可以看到根据策略设定的自动恢复周期 ,连续的几个正常后,告警自动关闭)
  • 活跃告警管理:展示处于活跃状态——”新“下的告警情况。
    历史告警管理:展示已经处理了的告警情况,包含状态为——自动恢复、手动关闭的告警。
  • 在告警事件详情中可查看告警具体情况,在详情页中可直接看到相关指标数据变化,支持手动关闭告警。
暂无评论

发送评论 编辑评论


				
上一篇
下一篇