跳到主要内容

嘉为蓝鲸WeOps 4.17功能介绍

1、IT服务台门户

Weops 内置三类IT服务台门户可供选择适用,每个门户主要包括首页(提单+工单管理)、知识库(文章搜索和查看)等功能

门户的切换和主题背景图片的替换,可以在WeOps后台进行

这里以其中一个门户介绍IT服务台具体的功能,服务台包括首页和知识库两大模块

首页

  • IT服务台支持中文和英文两种语言模式,首页主要包括以下三大部分:文章快速搜索、快速提单、工单明细

  • 文章快速搜索:可在搜索框输入文章关键词,服务台知识文章进行搜索

  • 快速提单:根据WeOps后台设置的服务目录展示服务流程的不同分类,可以根据分类进行选择流程,点击流程即可进行提单(这里以“申请笔记本”为例,展示提单界面。)

  • 工单明细:展示不同状态下的工单,工单列表具体包括:我的工单、我的待办和历史工单

  • “我的工单”:展示所有“我”提交的工单,展示流程名称、当前步骤和当前处理人信息以及各个工单的状态

  • “我的待办”:展示所有需要“我”审批的工单,展示流程名称、当前步骤和工单创建人信息

  • “历史工单”:展示与我有关的所有工单,展示流程名称、工单创建人、工单创建时间信息以及各个工单的状态

知识库

“IT服务台-知识库”展示了所有设置为“服务台文章”的文章(可在“WeOps-知识库”进行设置), 分为“所有文章”和“我的收藏”

  • 所有文章:展示了在“WeOps-知识库”知识库标记的所有服务台文章,可以点击查看详情。

  • 我的收藏:展示了我收藏的文章。

2、IT服务台移动端

WeOpsIT服务台门户/WeOps提供绑定微信入口,用户使用企业微信/微信扫码绑定,即可在企业微信工作台/微信公众号进行移动端的操作。

IT服务台移动端主要功能如下

  • 首页:移动端首页主要支持快速提单。

  • 提单:点击首页“快速提单”的各个类型的工单管理/菜单的“+”进行快速提单,在提单页面中,在“提单申请”中,选择对应的服务目录和服务,在“提单信息”中,填写该工单的对应信息。

  • 我的工单:我的工单包括“我的工单”、“我的待办”、“历史工单”分别展示我提交的工单、需要我审批的工单、所有与我有关的工单。

  • 点击可查看工单详情

3、监控告警移动端

WeOps提供监控告警的移动端,满足多种场景的告警信息查看处理、监控信息查看的需求,包括告警、仪表盘、监控三个大模块

  • 告警:展示了活动告警、我的告警、历史告警的列表,可以进行告警详情/视图的查看,支持告警认领/分派/关闭等处理

  • 仪表盘:展示了所有视图、我的视图、我的收藏的基本情况,点击可查看仪表盘具体视图情况。

  • 资产:展示了应用/基础监控/虚拟机/K8S/网站监控的基本情况,包括资产基本信息/监控视图/告警列表等,支持二维码/条形码扫描(需要使用WeOps-资产记录里面生成的资产编码),并展示扫描出来资产的监控情况、基本信息、告警情况等信息

4、 首页

首页主要展示WeOps关键的信息,可对于告警进行便捷的处理。

  • ①资源情况:展示用户自己有权限的所有应用、主机(Windows、Linux、AIX、Unix、other...)、数据库(Oracle、MySQL、MSSQL、数据库集群、MongoDB、Redis...)、中间件(Apache、Tomcat、Nginx...),可以点击跳转至资产记录的对应页面。

  • ②告警情况:活动告警和我的告警总数展示其中的致命、预警、提醒告警,点击告警信息,可查看该告警的具体信息,也可进行便捷的处理。

  • ③快捷入口:可以自定义快捷入口

  • ④我关注的应用:(我关注的)应用的资源数量、活动告警数



5、 监控

5.1 拓扑图

拓扑图支持对需要展示的资产对象进行自定义拓扑,绘制应用、资产等对象的关联关系,并展示告警信息,呈现告警关联链路。

(1)拓扑列表:拓扑列表分为三个tab:所有视图、我的视图、我的收藏。所有视图:展示我所有有权限查看的视图列表,点击进去可以查看具体的拓扑图;我的视图:我创建的视图;我的收藏:展示我比较关注的并且收藏的视图。

(2)拓扑图新建/编辑:如下图,支持进行拓扑图的绘制

拓扑图详细操作介绍如下:

  • ①基本信息&操作区:各个要素的使用和说明如下

 拓扑名称:填写拓扑图的名称,并保存
文本按钮:点击按钮,再点击画布,即可插入文本,并支持编辑文本
图片按钮:点击可插入2M内的图片
撤销按钮:支持返回到上一步
删除按钮:选择画布中的节点组件/连线,点击按钮,可以删除
放大/缩小:放大/缩小画布
适配页面:将画布的要素放置为最合适的位置
全屏展示:将整个拓扑图绘制放大至全屏展示
框选按钮:选中一个要素,按住shift,可以多选其他要素
自动连线:针对网络设备类的资产,根据资产记录的关联情况,支持自动绘制连线
添加视图:支持添加“单值”类的监控组件,作为资产关联的监控关键指标展示
  • ②图标区:分为基础图形、业务拓扑、资产组件三类

分类说明如下
基础图形:作为节点组件的装饰使用,分为正方形、圆形、菱形和云形
业务拓扑:分为应用(业务)、集群、模块三类,用于展示应用的层级
资产组件:展示各类资产,包括主机、数据库、中间件、云平台、网络设备、硬件设备等等

使用:拖动选中的组件节点至画布,可以选择需要的具体的资产(支持多选),选中后,根据选择的资产数量和类型,在画布中即可呈现出来,可以调整位置和大小。
  • ③画布区:各个组件支持连线,鼠标拖动调节大小等操作

  • ④节点&连线基础信息区:节点基础信息支持修改节点显示名称,样式和层级;并支持设置交互跳转交互(已经内置查看详情的交互),交互设置完成后,查看拓扑图时右键可以点击操作

  • 连线基础信息支持修改连线的显示名

(3)拓扑图展示:点击查看拓扑图,可展示拓扑图已经绘制好的关联关系。交互:右键可以唤起交互列表(内置+自定义),内置了查看各个资产的详细信息,可以查看该资产的基本信息、监控视图、告警列表、关联拓扑等信息,其他交互可以按照规则点击使用。

5.2 仪表盘

监控仪表盘可以进行快捷简单的监控视图配置,支持“仪表盘”、“折线图”、“柱状图”、“饼形图”、“单值”、“资产表格”、“运维工具”、“日志消息”、“日志表格”、“高级组件”等图表,可展示多项资产信息。

5.2.1 仪表盘列表

如下图,“仪表盘”列表页,分为所有视图、我的视图和我的收藏,支持仪表盘的创建、查看、克隆、修改、收藏、仪表盘的导出和导入、设置为首页。

仪表盘支持设置为首页,或者对已经设置为首页的仪表盘进行还原,如下图,设置首页后,该仪表的数据在首页展示,但是不能切换资产或者编辑。

5.2.2 仪表盘编辑

如下图为“仪表盘-查看/编辑”页面,该页面支持以下功能

  • 资产显示:支持对象的多选,可以同时选择主机、数据库等多类对象;支持应用的多选(新增一条资产展示);支持同一应用下资产多选,选择多项资产后,统计图会对应显示所有资产的监控指标数据。
  • 时间范围选择:内置“近15分钟”、“近30分钟”“近1天”“近7天”等时间范围,支持自定义时间范围。
  • 仪表盘操作:仪表盘可进行全屏放大、设置自动刷新时间。
  • 统计图区域:各类统计图根据所选的资产及对应指标显示相关数据,各统计图支持再次编辑和删除。

仪表盘中的统计图新建如下

  • 点击页面右上方“新建统计图”的图标

  • 点击选择统计图类型

  • 根据所选的统计图填写视图名称、选择展示的对象类型和监控指标、若为仪表盘/单值需选择多维度下数值的汇聚方式

5.2.3 仪表盘-监控组件说明

  • 监控——仪表盘:展示指定时间范围内,该监控指标的最近数值;若该监控指标有维度,可以根据选择的维度汇聚方式展示“最大值”“最小值”“平均值”“累加值”“维度数量”(选择维度数量,单值则展示对应对象该指标下的维度数量),支持配置仪表盘展示的最大值/最小值,支持选择各个阈值的配色

  • 监控——单值:展示指定时间范围内,该监控指标的最近数值;若该监控指标有维度,可以根据选择的维度汇聚方式展示“最大值”“最小值”“平均值”“累加值”“维度数量”(选择维度数量,单值则展示对应对象该指标下的维度数量),支持设置维度过滤(比如磁盘这种监控指标,可以通过挂载点的维度进行过滤),支持选择各个阈值的配色。

  • 监控——饼形图:展示指定时间范围内,该监控指标的最近数值;每个饼状图代表一项资产,若有多维度,则在同一个饼状图中展示各个维度的数值。

  • 监控——柱状图:展示指定时间范围内,该监控指标的最近数值;柱状图的每一簇代表一项资产,若资产有多维度,则在同一簇中进行展示各个维度的数值

  • 监控——折线图:以时间为横坐标展示指定时间内该监控指标的数值变化,多资产和多维度都在用一个折线图中展示,折线图支持配置阈值线,支持配置面积填充。

  • 监控——水位图:展示指定时间范围内,该监控指标的最近数值;每个水位代表一项资产,若有多维度,则可以选择展示多维度的展示方式

  • 监控——排行图:展示指定时间范围内,该监控指标数值的排名情况,支持选择最新值、最大值、最小值等

5.2.4 仪表盘-资产组件说明

  • 资产——资产表格:展示选中的资产基本信息,在配置过程中,可以选择展示的资产字段,对于枚举型字段等特殊字段,支持筛选/排序等操作

5.2.5 仪表盘-自动化组件说明

  • 自动化——运维工具:支持配置展示不同的运维工具,支持在仪表盘直接使用该工具对选中的资产进行操作,并展示执行结果。

5.2.5 仪表盘-日志组件说明

  • 日志——日志消息:支持配置展示日志的原始消息情况,可配置搜索条件、展示字段等信息

  • 日志——表格:支持配置对日志的原始消息进行统计,并呈现在表格中,可配置搜索条件、分组条件、度量(分组的统计度量值)、排序等操作

  • 日志——单值:展示单个数值或统计结果,最近数据的第一个值

  • 日志-饼形图/柱状图/折线图:以不同的形式展示各个分组的度量值的情况,比如百分比、趋势等。

  • 日志-饼形图/柱状图/折线图:以不同的形式展示各个分组的度量值的情况,比如百分比、趋势等。

  • 日志—地图组件:支持中国地图和世界地图,选择ip地区分布字段,呈现IP地址地区分布情况,可设置不同数量的阈值。

5.2.6 仪表盘-高级组件说明

表格/单值

高级组件的表格和单值只需要填写Trino语句,在Trino中定义好需要获取的数据,就会以表格/单值的形式呈现

折线图/柱状图

高级组件的折线图和柱状图主要展示各个分组的变化情况,需要填写Trino语句,点击执行从Trino语句获取返回字段,选择成为分组/X轴,度量/Y轴和维度信息,以便使用

分组/X轴:就是类别,为折线图和柱状图的X轴,呈现各个分组情况。比如告警的所属应用,每个应用就是一个分组。
度量/Y轴:就是数值,为折线图和柱状图的Y轴,展示各个分组的具体的值的情况。比如告警的处理时长,展示每个应用的告警处理时长。
维度:当分组的数值有多种情况时,需要选择展示维度,比如告警区分优先级,需要分开展示每个应用致命/预警/提醒三个等级的处理时长

饼形图

高级组件的饼形图主要展示各个类别的百分比,需要填写Trino语句,点击执行从Trino语句获取返回字段,并且选择成为分组、度量值。

分组:就是类别,呈现各个分组情况,饼形图的每一块就是一个分组。比如分组是IP地址
度量值:就是数值,展示各个分组的具体的值的百分比情况,比如数值是IP地址的数量,则饼形图则表示所有IP地址数量的百分比。

流量拓扑图

高级组件的流量拓扑图主要展示源和目标直接的流向关系,需要填写Trino语句,点击执行从Trino语句获取返回字段,并选择为源对象、目标对象,以及连线上的数值

源对象:即开始的对象,比如网络五元组中的源IP
目标对象:结束的对象,比如网络五元组中的目标IP
连线数值:连线上面的数值(从源到目标的数值),比如从源IP到目标IP直接响应时长的数值等

桑基图

高级组件的桑基图主要展示源和目标直接的流量大小情况,需要填写Trino语句,点击执行从Trino语句获取返回字段,并选择为源对象、目标对象,以及度量值

源对象:即开始的对象,比如网络五元组中的源IP
目标对象:结束的对象,比如网络五元组中的目标IP
度量值:度量值决定了连线的宽窄,越宽说明流量/数值越大

仪表盘高级组件的详细介绍步骤详见《操作手册-6、其他设置-仪表盘高级组件配置》

  • 目前,所有仪表盘内置的组件说明如下
所属模块组件名称作用支持的配置
监控仪表盘展示指定时间范围内,该监控指标的最近数值1、配置需要展示的监控指标
2、可以根据选择的维度汇聚方式展示“最大值”“最小值”“平均值”“累加值”“维度数量”
3、支持配置仪表盘展示的最大值/最小值,支持选择各个阈值的配色
监控单值展示指定时间范围内,该监控指标的最近数值1、配置需要展示的监控指标
2、可以根据选择的维度汇聚方式展示“最大值”“最小值”“平均值”“累加值”“维度数量”
监控饼形图指定时间范围内,该监控指标的最近数值,每个饼状图代表一项资产,若有多维度则展示百分比1、配置需要展示的监控指标
监控柱状图展示指定时间范围内,该监控指标的最近数值;柱状图的每一簇代表一项资产,若资产有多维度,则展示多条1、配置需要展示的监控指标
监控折线图以时间为横坐标展示指定时间内该监控指标的数值变化,多资产和多维度都在用一个折线图中展示1、配置需要展示的监控指标
2、支持配置阈值线
3、支持配置是否面积填充
监控水位图展示指定时间范围内,该监控指标的最近数值1、配置需要展示的监控指标
2、可以根据选择的维度汇聚方式展示“最大值”“最小值”“平均值”“累加值”“维度数量”
3、支持选择各个阈值的配色
监控排行图展示指定时间范围内,多个资产监控指标的数值的排行情况1、配置需要展示的监控指标
2、可以选择展示“最大值”“最小值”“平均值”“累加值”
资产资产表格展示选中的资产基本配置信息1、支持配置所有资产管理的资产
2、支持选择展示的字段
3、对于枚举型字段等特殊字段,支持筛选/排序等操作
自动化运维工具展示/执行各个运维工具1、配置展示不同的运维工具
2、在仪表盘直接使用该工具对选中的资产进行操作,并展示执行结果
日志日志消息展示日志的原始消息1、配置搜索条件
2、配置展示字段
3、支持配置某个字段的升序/降序
日志单值展示单个数值或统计结果,最近数据的第一个值1、配置分组和度量,确定统计的角度和值
2、设置趋势:越大越好、越小越好,普通
日志表格以表格的形式展示各个分组的度量统计数值1、配置搜索语句
2、配置分组和度量,确定统计的角度和值
3、配置排序,分组和度量的字段可以设置排序
日志饼形图按照特定度量字段,统计各个分组该度量值所占的百分比1、配置搜索语句
2、配置分组和度量,确定统计的角度和值
3、配置排序,分组和度量的字段可以设置排序
日志折线图用于展示统计数据的变化趋势,比如随时间的变化趋势1、配置搜索语句
2、配置分组和度量,确定统计的角度和值
3、配置排序,分组和度量的字段可以设置排序
日志柱状图以柱形图展示日志数据,展示各个分组的度量值1、配置搜索语句
2、配置分组和度量,确定统计的角度和值
3、配置排序,分组和度量的字段可以设置排序
4、支持设置堆叠/分组模式
日志地图以地图的形式展示IP地址的地域分布情况1、配置搜索语句
2、选择中国地图/世界地图
3、配置地域字段
4、支持阈值配色
高级单值填写Trino语句,获取对应数据后,以单值形式呈现1、填写Trino语句
高级折线图填写Trino语句,获取对应数据后,以折线图形式呈现1、填写Trino语句
2、配置X轴、Y轴展示的数值和维度数值
高级饼形图填写Trino语句,获取对应数据后,以饼形图形式呈现1、填写Trino语句
2、配置分组(组别)和度量值
高级柱状图填写Trino语句,获取对应数据后,以柱状图形式呈现1、填写Trino语句
2、配置X轴、Y轴展示的数值和维度数值
高级表格填写Trino语句,获取对应数据后,以表格形式呈现1、填写Trino语句
高级流量拓扑填写Trino语句,获取对应数据后,以流量拓扑形式呈现1、填写Trino语句
2、配置源对象和目标对象
3、配置连线数值和阈值配色
高级桑基图填写Trino语句,获取对应数据后,以桑基图形式呈现1、填写Trino语句
2、配置源对象、目标对象和度量值

5.3 应用

“监控视图-应用”模块分为“总览页和详情页,总览页以应用卡片的形式展示了所有有权限应用的整体情况,包括该应用下资源情况、告警情况和异常网站情况。

如下图,“监控视图-应用”的详情页,主要用于展示某应用下的网站监控情况、该应用下各个实例列表以及监控告警情况,在页面的左上角可以进行应用的切换。

  • 网站监测: 展示该应用下的网站最近24个小时内的告警情况,以绿色表示该时间段无告警,黄色、橙色和红色表示该时间段存在的告警最大等级。
  • 告警汇总概况:展示与该应用相关的实例/网站的活动告警数量汇总概览,可以点击查看不同等级的告警列表和详情。
  • 实例列表:列出了该应用下的主机、数据库和其他实例的列表,可以在列表看到该实例的监控状态、未恢复告警、关键指标信息(比如CPU使用率,磁盘空间使用率、物理内存使用率),点击该实例可查看详细信息。

点击实例列表中的实例项,可查看该实例的详细信息, 以主机为例包括基础信息、监控视图、进程视图、关联拓扑、告警列表。

  • 基础信息:展示该主机的基本信息,包括内网IP、操作系统、内存容量、磁盘容量等信息

  • 监控视图:以分组的形式进行主机监控视图的展示,可以进行搜索等操作,灵活的选择需要的视图,此外设置了“关键指标”组,当某个指标设置为关键指标后,可在监控视图的最上方展示。(可在“WeOps-管理中心-监控管理-指标管理”中设置指标分组和关键指标)

  • 进程视图:展示该主机相关的进程情况,分成两种展示方式:一是多进程在同一个表格展示,二是单个进程关键指标以折线图展示

  • 关联拓扑:展示与该实例相关联的所有实例,可以点击查看关联实例详情

  • 资产日志:通过“资产管理-数据关联”设置资产和日志的匹配规则,这里展示与该个资产相关联的所有的日志数据

  • 告警列表:展示与该主机相关的活动告警和历史告警列表,可以点击查看各个告警项的详情,并进行处理。



5.4 基础监控

主机

如下图,“监控视图-基础监控-主机”展示了所有的主机列表,包括监控告警状态、主机的关键指标信息等,点击各个主机可以跳转至该主机的详细信息抽屉,详情抽屉内容与“监控视图-应用”中的主机详情一致。

数据库

如下图,“监控视图-基础监控-数据库”展示了所有的数据库列表,包括数据库信息、监控告警状态、主机CPU使用率等,点击各个数据库可以跳转至该数据库的详细信息抽屉页。

网络设备preview

  • 如下图,“监控视图-基础监控-网络设备”展示了所有的网络设备列表,包括交换机、路由器、防火墙、负载均衡等,展示了网络设备的信息、监控告警状态、主机CPU使用率等,点击各个设备可以跳转至该设备的详细信息抽屉页。

  • 点击网络设备,可查看网络设备的基本信息、监控视图、端口视图、告警列表等信息。

  • 支持对接口监控视图进行配置,用户可以自由配置展示列表的表头字段。

硬件设备preview

如下图,“监控视图-基础监控-硬件设备”展示了所有的硬件设备列表,展示了这些设备的信息、监控告警状态、主机CPU使用率等,点击各个设备可以跳转至该设备的详细信息抽屉页,展示了基本信息、监控视图、告警列表。

其他动态tab

如下图,“监控视图-基础监控-其他动态tab”根据监控的对象动态展示tab,比如中间件等,展示了这些实例的的关键数据、监控告警状态等,点击各个实例可以跳转至该实例的详细信息抽屉页。



5.5 云平台监控

WeOps支持云平台监控/自动发现的拓展,拓展后可在“云平台监控”的tab中展示出对应对象以及监控情况。

VMware

VMware的监控视图展示了VMware下的虚拟机、ESXI和数据存储的监控情况,包括基本信息、监控视图、关联拓扑和告警情况。

  • 虚拟机

如下图,“WeOps-云平台监控-VMware-虚拟机”展示了所有的虚拟机列表,包括监控告警状态、关键指标信息等

点击各个实例可以跳转至详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联拓扑、告警列表。

  • 数据存储

如下图,“WeOps-云平台监控-VMware-数据存储”展示了所有的数据存储列表,包括监控告警状态、关键指标信息等

点击各个实例可以跳转至详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联的ESXI、关联拓扑、告警列表。

  • ESXI

如下图,“WeOps-云平台监控-VMware-ESXI”展示了所有的ESXI列表,包括监控告警状态、关键指标信息等

点击各个实例可以跳转至详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联的数据存储、关联的虚拟机、关联拓扑、告警列表。

腾讯云

腾讯云的监控视图展示了所有CVM的监控情况,展示CVM列表,包括关键指标和告警状态等信息

点击各个实例可以跳转至CVM详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联拓扑、告警列表。

阿里云

阿里云的监控视图展示了所有ECS的监控情况,展示ECS列表,包括关键指标和告警状态等信息

点击各个实例可以跳转至ECS详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联拓扑、告警列表。

其他内置/自定义拓展的云平台的监控情况均在此展示



5.6 K8S监控

WeOps-K8S监控主要提供Pod、Node的监控,展现监控告警基本情况

Pod监控

如下图,“WeOps-K8S监控-Pod”展示了所有的pod列表,包括监控告警状态、关键指标信息等

Node监控

如下图,“WeOps-K8S监控-node”展示了所有的node列表,包括监控告警状态、关键指标信息等,可以点击切换不同的集群查看不同的node列表

点击各个实例可以跳转至详细信息抽屉页面,详情抽屉包括基础信息、监控视图、关联拓扑、告警列表。



5.7 网站监测

如下图,“监控视图-网站监测”展示了所有网站的监测情况。

  • 监测情况概览:有活动告警的网站数量、可用率低于100%的网站的数量,平均响应时长大于1秒的网站总数。
  • 网站监测列表:展示所有网站的监测状态、告警状态、响应和可用情况。

  • 点击各个网站,可以进入该网站监测的详情页面,如下图,包括:基础信息、监控视图(可以查看可用率和响应时长的折线/面积图)、告警列表。



6、 告警

如下图,“WeOps-告警”用于展示“活动告警”“我的告警”和“历史告警”的列表信息,可以直接在列表界面进行各个告警项的操作,比如“认领”、“分派”、“关闭”等

(1)告警基本信息:点击各个告警项,可弹出该告警项的详细信息,具体如下:

  • 信息展示:告警信息(展示告警发生的时间、内容和等级)、告警对象信息(实例名称、对象类型、所属应用)、策略信息、处理信息(可进行告警的处理)

  • 视图展示:包括指标视图可以清晰的查看告警发生点,设置的阈值线

  • 关联拓扑:可以清晰的看到产生告警的关联实例情况,可以点击查看关联实例的详细信息。

  • 流转记录可以查看该告警的发生和处理的流转情况

(2)告警联动: 告警与其他自动化/仪表盘等模块进行联动,实现主机远程连接、故障诊断、故障分析和寻求建议等操作,实现从“告警产生-告警信息查看—故障分析——故障诊断”等全过程,各个操作说明如下

  • 远程连接:当告警对象为主机时,支持进行远程连接,直接填写远程的凭据,连接该主机。

  • 故障分析:当出现告警的时候,点击“故障分析”按钮,可以把故障资产的相关信息、监控指标、日志等,形成专业的故障分析仪表盘,方便进行故障分析。

  • 故障诊断:当告警对象支持执行运维工具进行故障诊断时,可以在告警的详细中点击“故障诊断”按钮,在展开的运维工具中选择需要执行的工具,进行执行,从而方便的获取更多故障信息。



7、日志

WeOps日志页面支持日志数据的相关搜索,灵活的展示所需要的日志信息,具体如下图

7.1查询设置区域

WeOps提供灵活的搜索语法和搜索条件,支持按照各自需求进行设置,搜索条件是由“日志分组情况+搜索框关键字+搜索时间”生成,并按照设置的刷新时间进行自动更新,设置的搜索条件可以保存,以便下次直接使用,具体的设置说明如下

  • 日志分组:根据用户拥有的日志分组权限进行选择,仅展示选中后的分组内的日志数据。

  • 搜索框:支持对日志的关键词进行搜索,点击“灯泡”按钮,可以查看语法指引,输入日志字段会自动给出下列字段列表,便于使用。

  • 搜索时间:分成两类,相对时间和绝对时间,相对时间是指选择从过去的某个时间点到现在时间点的一段范围,是动态变化的,比如“1小时”是指1个小时前到现在的时间范围;绝对时间是一段确切的时间,不会随着时间流逝而动态变化,比如“2023-08-28 00:00:00 - 2023-08-29 23:59:59”就是指展示这段时间的日志。

  • 刷新设置:支持设置自动刷新和不刷新,不刷新的是指在日志展示过程中不会更新最新的日志数据;自动刷新可以设置刷新时间,默认是5秒钟,开启自动刷新后,将会按照刷新时间自动更新日志数据。

  • 保存条件/加载条件:支持将常用的搜索条件进行保存为一个“保存条件”,可以保存的搜索条件为“日志分组+搜索关键词+搜索时间+展示字段”。当下次再使用该条件时,在“加载条件”中选择即可使用。

  • 新建监控:点击“新建监控”按钮,可以快捷创建监控策略,在监控策略中,把本次查询的搜索关键词直接带入策略中

  • 日志下载:点击“下载日志”按钮,可以下载该搜索条件下的所有原始日志,可以设置导出的字段和消息限制,导出格式为“.cvs”格式。

7.2统计分析区域

  • 当字段选择“统计分析”时,可以快速统计该查询时间范围内,字段所有的字段值的数量情况,并形成统计分析表格,统计分析表支持进行以下操作

  • 复制:复制出一个一样的统计分析表格

  • 复制到仪表盘:选择一个仪表盘,该组件会复制到该仪表盘内,成为仪表盘的一个组件

  • 编辑:支持对该统计分析的组件进行编辑,编辑的选项与“仪表盘-日志-表格”组件一致

  • 删除:将该组件进行删除

7.3 日志条形图区域

  • 日志条形图:展示搜索时间段内,日志的随着时间的分布的情况;鼠标悬停可以展示该时间信息和日志的数量;鼠标左键按住拖动可以选择一段时间范围,放开后可以详细展示这段时间的情况和原始日志数据(相当于变化了搜索时间范围)

7.4 展示字段区域

WeOps-日志的字段区域展示了“展示字段”和“可选字段”两类

  • 可选字段:展示所有的支持的字段,可以将该字段添加到表格中展示,或者添加到查询语句进行搜索

  • 展示字段:展示了所有在表格表头的字段,从表格中移除,或者添加到查询语句进行搜索

  • 可选字段和展示字段支持展示该字段的统计值top5,点击下拉该字段,即可进行统计展示。

7.5 原始日志区域

  • 日志部分:日志部分展示了根据查询条件搜索到的所有的日志,可以点击查看详情每一条日志的详情,并进行特殊操作

  • 对于字段:支持设置在表格展示(展示在表头)、添加到查询语句(直接展示在查询语句里面)、统计分析(形成该字段的数量的统计分析表格,并呈现在统计分析区域)

  • 对于字段值:支持设置添加到查询语句(直接展示在查询语句里面,用于查询所有带这个字段值的原始日志)、设置“从结果中排除”(在查询语句中展示,用于查询所有不带这个字段值的所有原始日志)、设置“高亮”(把所有带这个字段值都标为黄底)、设置提取器(支持把这个字段值设置提取器,提取出来需要展示的关键信息保存为另外一个字段)

  • 字段值提取器:支持复制输入、Grok模式等类型的提取器(各个提取器的对比如下表)。以正则表达式为例,设置提取器支持填写正则表达式、设置条件(什么情况下进行提取)、存储字段、提取策略(复制一个新的,剪切成为一个新的)、添加特殊格式的转换器

  • WeOps支持的提取器如下表
提取器名称适用说明
复制输入适用于需要从非结构化的日志数据中提取特定字段或值的场景。将原始消息中的一部分数据复制到提取器的规则中,并将其存储在结构化的数据字段中
Grok模式适用于需要从非结构化的日志数据中提取特定字段或值的场景。用于从非结构化的日志数据中提取结构化数据。它使用预定义的Grok模式或自定义Grok模式来匹配和提取数据,包括一些特殊的模式,用于匹配常见的数据格式,如IP地址、日期、时间戳等。(WeOps内置常用的Grok表达式)(Grok表达式是一种用于解析非结构化或半结构化数据的模式匹配工具。它是由Elasticsearch社区开发的一种基于正则表达式的模式匹配语言)
JSON适用于处理JSON格式的日志数据的场景。可以从JSON格式的数据中提取特定的字段,并将它们存储在结构化的数据字段中。
正则表达式适用于需要从未结构化的日志数据中提取特定字段或值的场景。使用正则表达式从数据中提取特定的字段,并将它们存储在结构化的数据字段中
正则表达式替换适用于需要替换日志数据中特定字符串的场景。正则表达式替换器可以使用正则表达式从数据中匹配特定的模式,并将其替换为指定的字符串
分隔适用于需要从日志数据中提取特定字段或值的场景。使用指定的分隔符将数据分割成多个部分,并将它们存储在结构化的数据字段中
子窜捕获适用于需要从日志数据中提取特定子字符串的场景。使用指定的开始和结束字符串或位置来捕获数据中的子串,并将它们存储在结构化的数据字段中

8、APM

8.1 调用链检索

如下图,当应用的服务接入完成之后,可以在APM-调用链检索进行trace的搜索和查看。可分为如下四个区域,分别进行trace的条件/时间设置、trace列表查看和各个请求详情的查看。

  • ①搜索条件区域:支持切换不同的应用和对应的服务,也支持通过trace ID或者链路入口接口/方法的关键词进行搜索,此外也可以设置耗时查询范围

  • ②时间选择器:支持选择trace的产生时间范围,便于进一步锁定

  • ③检索结果:展示符合搜索条件下所有的trace列表,可展开查看详情以及具体的请求步骤,各个请求也可点击查看详情。

  • ④请求详情:展示该次请求的相关信息,具体如下:
基本信息:该请求的基本调用信息,客户端和服务端调用的耗时情况
源数据:客户端和服务端原始的数据

8.2 应用观测

应用观测提供应用下服务运行态全景调用关系和服务、接口请求量统计情况,帮基于全景视角观测系统运行时实际流量运行状态,清晰构建系统调用依赖关系包含服务、外部服务、数据库、中间件等系统组件。

8.2.1 应用列表

  • 如下图,应用列表展示接入的所有应用,以及该应用的关键指标,点击进入该应用的详情页面。

  • 应用的详情页分为三个模块:应用分析——展示整个应用的拓扑和关键指标情况,服务分析——该应用下所有服务的性能情况,接口分析——所有接口的性能情况。

8.2.2 应用分析

  • 如下图,展示整个应用的全景拓扑图和该应用的关键指标信息,具体说明如下

① 时间选择区域:支持切换时间范围,切换后下方的拓扑图和指标折线图会根据选择的时间范围更新展示。

② 应用全景拓扑图:展示该应用所有服务的调用拓扑关系,具体说明如下

节点图标大小:根据服务请求量和请求负载判断节点拓扑大小,确定当前拓扑的最大值和最小值,其余节点按比例确定节点大小 
图标悬停展示:将鼠标悬停在节点可以查看该节点详情,包括负载、请求量、耗时、错误等信息

③ 应用性能关键指标:提供当前时间范围的请求数量,错误数、服务请求,响应时间的关键指标折线图

④ 错误分析:如下图,切换可以查询所有错误的情况,支持按照时间/服务/接口/方法进行筛选。点击接口名称可以调整至这个接口的分析页面;点击调用链,可以跳转到该请求的trace详情页;点击错误堆栈,可以查看堆栈的详情。

8.2.3 服务分析

  • 如下图,展示该应用下所有服务的列表,展开后可以查看服务的详情

  • 如下图,展示该服务相互调用的拓扑关系、关键指标(请求、响应时间、错误率)、错误分析

8.2.4 接口分析

  • 如下图,展示该应用下所有接口的列表,展开后可以查看接口的详情

  • 如下图,展示该接口关键指标(请求、响应时间、错误率)、错误分析

9、资产数据

9.1 应用

如下图,应用管理界面展示了应用以及子应用的相关信息。可点击查看该应用的详情和拓扑信息,进行应用新建和归档操作。

支持应用归档功能,已归档应用可以在“归档列表”中查看,也可以操作“恢复”应用

应用详情页主要展示了该应用的节点信息、变更记录、主机列表等信息,可以进行节点新建的查看和编辑、主机的新增和移动等操作、服务实例的新建和管理。

9.2 全文检索

为了让用户快速查找和查看资产的各种字段和属性信息,WeOps提供全文检索能力。全文检索的范围包括所有资产实例的所有字段属性,并且标识搜索到的关键词,可以点击查看资产的详情。

9.3 资产目录

运维团队需要全面了解公司所拥有的各种硬件、软件、网络设备等资产情况,并对其进行有效的管理和维护,需要一个总览页进行查看。 以一个简洁的页面呈现CMDB中所有的资产信息,如服务器、存储设备、网络设备等。用户可以通过该目录快速了解公司所拥有的各类资产情况和数量,并支持跳转到对应资产详细列表页面。

9.4 资产记录

主机

如下图,资产记录中的主机展示了所有的主机信息,可进行新建、批量修改和批量删除、导出,支持主机的远程连接。

  • 详细信息:点击可查看该主机的详细信息。

  • 服务实例preview:展示了该主机下的服务实例和对应进程的信息。

  • 关联信息:以列表和拓扑图两种形式呈现与该主机相关的实例信息,列表和拓扑图均可点击查看关联实例的详情信息。

  • 变更记录:可查看该主机的变更记录,可手动增加变更记录。

  • 资产日志:当在“资产管理-数据关联”中配置好资产和日志的匹配关联后,可以在此处查看该资产的相关日志信息

  • 配置文件preview:如下图,可对配置文件进行管理,包括基本信息、版本管理(可进行各个版本文件的上传/下载/预览等操作)、变更记录。

  • 远程连接:“WeOps-资产记录-主机”提供了Windows和linux主机的远程连接入口,可点击进行主机的远程连接

  • 远程连接过程中可以选择“手动添加凭据”和“使用已有凭据”两类,Windows服务器可以选择分辨率,默认分辨率为1920*1080

  • 手动添加凭据:支持RDP、SSH、VNC三类协议,Windows服务器默认RDP协议、默认远程端口为3389、默认用户名administrator;linux服务器默认使用SSH协议、默认远程端口为22、默认用户名root。

  • 使用ssh协议时,要求对端的ssh服务器运行使用rsa密钥,如果ssh版本高于8,需将HostKeyAlgorithms +ssh-rsa添加到/etc/ssh/sshd_config中

  • 使用已有凭据:可以使用之前已经保存的凭据进行连接。

  • 远程连接的服务器支持全屏放大和文件上传:Windows默认system帐号,Linux默认root帐号;Windows文件存放目录“c:\windows\temp”,Linux文件存放目录“/tmp”;

数据库

如下图,“资产记录-数据库”展示了所有类型的数据库列表的基础信息(包括所属应用)、关联关系、变更记录、配置文件。

K8Spreview

如下图,“资产记录-K8S”展示了内置的K8S相关模型,包括“K8S集群”、“K8S命名空间”、“K8S工作负载”、“Node”、“Pod”。

创建K8S集群信息,设置“自动发现”,即可采集该K8S下的K8S命名空间、K8S工作负载、Node、Pod相关信息,并形成关联拓扑。

网络设备preview

如下图,“资产记录-网络设备”展示了内置的网络设备的相关模型,包括“路由器”、“防火墙”、“负载均衡”、“交换机”。展示了各类网络设备手动/自动发现采集的相关信息。

云平台preview

如下图,“资产记录-VMware/阿里云/腾讯云”展示了内置的云平台的相关模型,VMware包括了“vCenter”、“虚拟机”、“ESXI”、“数据存储”,阿里云包括了“阿里云账号”、“ECS”,腾讯云包括了“腾讯云账号”、“CVM”等。分别展示了云平台各个对象的手动/自动发现和采集的相关信息。

其他动态tab

如下图,“资产记录-其他动态tab”根据资产模型的分组情况进行动态展示,展示了中间件等其他实例类型的基础信息(包括所属应用)、关联关系、变更记录和配置文件。



9.5 机柜视图

为了直观的展示机柜内设备的布局和状态,新增机房视图,用于各类IT设备的集中管理和展示。

资产设置

在资产记录中已经内置常用资产模型“数据中心-机房-机柜-设备(网络设备/硬件设备等)”,需要在资产记录的对应位置创建资产实例、填写位置信息并创建关联,步骤如下:

1、创建数据中心实例并填写信息(如“深圳数据中心”);

2、创建机房实例,并且关联到数据中心。比如创建“2号机房”,并且创建它与“深圳数据中心”的关联;

3、创建机柜实例,必须填写“机柜位置”字段,并且创建机柜与机房的关联关系。比如2楼机房放置了10个机柜,需要填写机柜的基本信息,必填“机柜位置”(机柜位置的填写标准格式为“A01”、“B11”等),创建机柜与机房的关联。通过机柜的位置和关联关系,可在机房视图中渲染出位置;

4、创建设备实例,支持“网络设备”和“硬件设备”分组下的实例,放置在对应机柜中,设备需要填写开始U位和结束U位,并创建与机柜的关联,可以渲染出机柜视图。

机房视图

根据“机房-机柜”关联和填写机柜的位置,在视图中按照机柜的位置和类型展示。

机柜视图

根据“机柜-设备”关联和设备的开始U位和结束U位,在机柜视图中展示设备的位置和信息。

9.6 凭据管理

如下图,“资产数据-凭据管理”主要用于存放主机/AD/网络设备/数据库/云平台等资产的凭据,可进行凭据的增删改查和授权,包括如下两个模块:我的凭据、凭据授权

  • 我的凭据:支持主机/AD/网络设备/数据库/云平台凭据的新建和操作,主机支持SSH/RDP/VNC协议,AD支持LDAP/LDAPS协议,凭据新建完成后需要关联资产,被关联的资产才可以使用该凭据。

  • 授权凭据:别人授权给我的凭据,我可以在对应资产使用已经授权给我的凭据,也可以查看这个凭据关联的资产情况

凭据的使用场景

  • 远程连接:“告警-主机”/“资产记录-主机”支持使用主机的凭据进行远程连接。

  • 自动化工单流程:数据库/AD等凭据支持在内置的AD和数据库工单流程中选择使用

  • 自动发现:网络设备和云平台的凭据支持在设置自动发现任务时选择使用

  • 监控采集:网络设备和云平台的凭据支持在设置监控采集任务时选择使用

9.7 动态分组

  • 当资产在变动的时候(增删改),对应的监控和订阅策略生效的对象支持动态变化,动态更新,适用于所有的资产类型

  • 当动态分组设置完成后,可以用于事件订阅和监控策略的创建。

9.8 事件订阅

如下图,支持对资产记录中资产的到期情况进行订阅,可设置提醒的资产和字段,并设置到期提醒的规则。



10. 自动化运维

10.1 运维工具

“自动化运维-运维工具”的类型分为操作系统工具和网络设备工具两类

操作系统工具

如下图,操作系统工具具展示了WeOps内置/自定义的常用的操作系统的脚本工具,支持脚本的快速执行。

  • 这里以“查询消耗系统CPU最多的进程”为例,点击脚本工具进入使用界面,选择对应的主机,输入参数,点击“执行”按钮,即可进行该脚本工具的使用。

  • 如下图,执行完成后,可以再查看操作结果

脚本工具支持自定义,自定义方式详见“操作手册-3、其他配置-工具管理”

网络设备工具

如下图,WeOps支持网络设备的脚本工具的执行,展示了内置/自定义的脚本工具,可以快速执行。



10.2 健康扫描

如下图,健康扫描以扫描包为主题,以任务的形式对指定的实例进行专题扫描,下图为健康扫描的任务页面,展示了创建的各个页面的基础信息以及扫描情况。

  • 任务创建:如下图为任务创建界面,可选择主题的扫描包,以及对应资源,并可以选择扫描周期,也可以选择邮件通知人,选定邮件通知人后将在该任务扫描完成后接收到任务完成情况的邮件。

  • 任务详情:如下图为任务详情界面,分为基本信息、任务概览、实例列表,基本信息展示该改任务的扫描时间、扫描包信息、扫描对象列表等信息;任务概览展示了该任务整体的健康状态、通过率、资源扫描情况以及警告/危险的指标情况,可以对任务概览进行PDF的导出;实例列表则将该任务下所有的扫描实例的情况进行展示。

  • 实例详情:通过任务详情中的概览页/实例列表页可以查看具体实例的扫描报告,针对实例详情可以导出为PDF格式文件。

10.3 补丁安装

WeOps支持对Windows Server 2008及以上版本进行补丁扫描和安装。

10.3.1 补丁扫描

如下图,以任务的形式对服务器进行批量的补丁扫描,支持多补丁多服务器扫描

如下图,新建任务创建,目前支持Windows补丁扫描,需要添加补丁号(支持多个),选择服务器列表(支持多选),可以采用表格导入的方式进行补丁号的添加, 支持设置通知方式和通知人。

扫描结果如下:以补丁号为ta,分别展示所有服务器该补丁的安装情况(已安装/未安装/版本号不适用)

结果支持导出为表格

10.3.2 批量安装

如下图,以任务的形式进行服务器的批量安装,与传统方式相比,节省时间、安装成功率高,同时支持Windows和linux两类操作系统。

任务创建:如下图,点击“新建”按钮,即可进行补丁任务的创建,需要填写任务名称、选择服务器、上传/选择补丁文件、设置通知人。

任务执行:点击“执行设置”可以进行执行相关设置,支持立即执行/定时执行。

任务详情:任务执行中/执行结束,可以点击任务名称查看任务执行情况,可以点击“导出详情”按钮,进行任务执行结果的导出。

10.4 定时作业

  • 如下图,以作业的形式进行脚本的定时执行,并展示每一次的执行结果。

  • 新建作业:如下图,支持选择对应工具和资产,并且设置执行策略,其中定时作业支持无agent模式,即主机无需安装agent也可执行对应脚本,设置任务时需要填写对应凭据。

执行策略:定时执行-选择特定的时间只执行一次;周期执行-设置循环执行的周期,按照周期进行执行
工具类型:支持基础架构和网络设备两类设备的脚本执行
工具名称:与运维工具结合,可以选择现成的运维工具,进行定时作业
资源选择:支持跨业务选择多个资源,批量执行,支持无agent模式

周期执行的时间语法采用crontab语法,具体说明如下

`数字`:固定的时间点,比如9点,周一
`*/数字`:"每隔",比如每隔2天,每隔15分钟

时间规范通常包含分钟、小时、天、月以及星期等信息,例如分钟可以是0-59的任意一个数字,小时可以是0-23,日可以是1-31,月(1-12),周(0-6)(星期天为0或者7)

比如:每隔2小时执行一次(0 */2 * * * ),每日凌晨1点执行一次(0 1 * * *),每周日凌晨1点执行一次(0 1 * * 0)
  • 查看执行记录:作业每次执行结束后,会记录该次的执行情况,点击执行记录,可以查看具体的执行返回情况。

10.5 文件分发

如下图,需要进行一次性传输文件的用户,可以在这里快速的执行任务并进行执行。

填写内容如下

【基本信息】
任务名称:分发文件的任务名,方便后续在执行历史中有迹可循
超时时长:分发文件的超时设置,当文件传输时间超过时将会自动关闭,结果被视为 "执行超时"
上传 / 下载限速:由于蓝鲸管控平台 Agent 默认的配置是会根据服务器带宽和资源使用情况进行限制的,防止出现因为执行的任务导致拖垮业务的机器;所以当用户自己确认机器允许更大限度传输时,通过开启限速设置可以提高传输的速率
【源文件】
分发的源文件选择,支持选择 本地文件 或 其他服务器文件
【传输目录】
目标路径:文件分发到目标服务器的绝对路径地址
传输模式:强制模式不论目标路径是否存在,都将强制按照用户指定的目标路径进行传输(不存在会自动创建);严谨模式严谨判断目标路径是否存在,若不存在将直接终止任务
执行账号:文件分发的目标服务器相关的账号,如 Linux 系统的 root 或者 Windows 系统的 Administrator
目标服务器:从资产管理获取执行的目标服务器

任务创建完后,执行点击“确定”,即可立即执行文件批量分发任务。

文件分发任务执行完成后,可以在列表中查看最新一次的执行结果,也可以在“执行历史”中查看执行的详细结果。

11. 服务台

11.1 工单列表

如下图,“WeOps-服务台-工单列表”用于展示“我的待办”“所有待办”和“历史工单”的列表信息,可以直接在列表查看工单的提单信息和步骤信息,可进行工单的处理。

  • 我的待办:展示所有需要“我”处理的工单列表,点击查看工单详情可以进行工单的处理
  • 所有待办:展示所有未完成的工单列表,点击可以查看工单详情
  • 历史工单:展示所有已经完成的工单列表,点击可以查看工单详情
  • 我的待办/所有待办/历史工单均支持工单导出

点击可查看每个工单的详情,工单详情包括:工单内容(展示提单各个字段内容)、审批部分(对应审批人审批)和工单流转记录,其他展示区(可进行满意度评价,支持查看SLA等详情),此外可对该工单进行撤单,关闭、催办、挂起等操作。

11.2 我的值班

如下图,“WeOps-服务台-我的值班”用于展示我的值班安排和值班记录。

  • 我的值班:支持切换“日历视图”和“列表视图”两种视图,根据排班情况展示我的值班情况,可进行签到、签退、工作交接。

  • 值班记录:可查询以往值班记录/未来值班安排,可查看详细的值班和交接日志。



12. 知识库

知识库支持文章的撰写、文章批量导入、文章暂存为草稿、文章的分类查看。

12.1 所有文章

知识库所有文章展示了所有人写的文章,可进行搜索、以标签进行筛选展示、对关注的文章进行收藏。

点击对应文章,可以查看该文章详情,可以进行该文章点赞、收藏等操作

12.2 我的文章

我的文章展示了所有“我”撰写的文章,可以对文章进行搜索和筛选,也可以进行重新编辑和删除的操作。

“文章导入”:知识库支持文章的批量导入,并为文章批量添加标签。

“写文章”可以选择模板进行文章的快速撰写,目前支持“Markdown”、“嵌入页面"、“图片”、“文件”三类组件。文章撰写后可以选择“发布文章”或者“保存草稿”

“我的草稿”:文章撰写时可以手动保存,或者5分钟自动保存为草稿,对于草稿支持再次编辑发布。

12.1 我的收藏

我的收藏对“我”关注的文章进行展示,可以点击文章标题前的星号进行收藏/取消收藏。



13 运营分析

13.1数据大屏

展示所有内置大屏和手动添加的大屏基本情况,目前已经内置4张大屏。

3D应用全景大屏

  • 展示全部应用的拓扑情况和告警情况

  • 点击应该可查看该应用的告警具体情况,包括告警等级、内容、指标视图等

  • 展示该应用的3D拓扑图,便于全景展示应用的整体架构和告警链路。

  • 每个应用可以点击进入该应用的APM服务大屏

资源大屏

  • 展示资源概览数据:业务、主机、虚拟化平台、中间件、数据库。

  • 资产分类统计:按操作系统、数据库、中间件统计。

  • 主机数量统计:按业务TOP10。

  • 资源分配统计:按业务。

  • 资源消费统计:内存、vCPU、磁盘消费TOP5。


核心业务监控大屏

  • 展示应用拓扑图。

  • 告警概况:告警级别分布、告警处理状态分布。

  • 实时告警信息:告警级别、分类、实例名、业务、告警描述、时间、状态。

  • agent状态:正常、异常。

  • 监控覆盖率:主机、数据库、中间件监控覆盖率。

应用墙

  • 应用总览展示了所用应用的基本情况,包括应用总数量、正常应用数量、预警应用数量、预警应用数量
  • 展示应用健康状态展示:严重、普通、轻微。
  • 告警详情展示:业务名称、告警名称、告警等级、告警处理状态、告警时间。

13.2 运营报表

展示所有内置报表和手动添加的报表基本情况,目前已经内置2张报表。

告警数据运营分析表

  • 整体展示了WeOps告警相关的关键指标数据,支持切换日期查询范围
  • 单值:有效告警数、关闭告警数、未关闭告警数、未响应告警数、危险告警数、MTTR
  • 折线图:告警压缩占比趋势图(有效告警、屏蔽告警、抑制告警)、告警处理数量趋势图
  • 饼图:告警级别分布(危险、预警、提醒)、告警状态分布(各类告警状态)、告警对象分布(各类对象)
  • 表格:应用分析(应用名称、有效告警数、关闭告警数、未关闭告警数、未响应告警数、危险告警数、MTTR)
  • 表格:人员分析(姓名、被分派的告警、认领的告警、关闭的告警、MTTR)

工单数据运营分析表

  • 整体展示了WeOps工单相关的关键指标数据,支持切换日期查询范围

  • 单值:工单总数、关闭工单数、未关闭工单数、未响应工单数、MTTR、在SLA目标时间内解决的事件百分比、满意度(所有被调查满意度的服务请求记录中用户满意度分值总计 / 所有被调查满意度的服务请求总数)

  • 柱状图:每日新增工单数、每日关闭工单数

  • 表格:服务分析(服务名称、工单总数、关闭工单数、未关闭工单数、未响应工单数、MTTR、在SLA目标时间内解决的事件百分比、满意度)

  • 表格:人员分析(姓名、关闭工单数、MTTR、在SLA目标时间内解决的事件百分比、满意度)

业务低负载报表

  • 整体展示了业务低负责主机的统计情况
  • 支持支持切换日期查询范围、业务选择范围、高峰期范围,支持设置低负载的CPU使用和内存使用情况
  • 单值:主机数、Agent正常数、Agent异常数、未安装Agent数
  • 表格:低负载主机(IP、主机名、操作系统、应用、CPU使用情况、内存使用情况)、正常负载(IP、主机名、操作系统、应用、CPU使用情况、内存使用情况)



14. 管理

14.1 节点管理

Agent

  • 支持主机进行Agent安装,安装后对主机进行管控,可进行主机监控、采集基础信息、执行自动化等操作。

  • 对于主机的agent安装,支持普通安装和表格批量导入安装,支持远程安装和手动安装两种方式进行。

云区域

  • 云区域是互相之间能直接通信的一组服务器单元,如企业内的局域网、公有云 VPC(虚拟私有网络)。WeOps在刚部署的时候,默认会创建“直连区域”,当主机可以直接与蓝鲸部署所在网络直接进行通讯连接时,Agent 安装到此区域即可。如果企业网络有区域划分,如办公网与生产网络隔离、总公司与分公司网络隔离、国内服务网与国外服务网隔离等情况,可根据实际的网络可连通性规划创建多个云区域。

  • 接入点: 云区域对外通信的代理节点。

  • 如下图,支持创建云区域,填写云区域名称,选择云服务商用于标识当前网络的提供商,接入点使用默认接入点,后续可以跟进指引进行接入点的安装

  • 云区域创建完成后,可以在主机安装Agent的时候,选择使用。

日志节点

  • 日志节点支持为已经安装了Agent的服务器安装日志探针控制器和日志探针,并为为日志探针关联对应的配置文件,以便采集不同的日志数据。

  • 日志的控制器和探针的安装方式有两种,具体解释如下
自动安装:主机已经安装了agent,可以支持选择主机后,自动安装控制器和探针,以便后续采集日志数据使用。控制器和探针的重启、停止和卸载也支持自动进行。
手动安装:主机没有安装agent,可以采用手动的方式,去服务器上传并安装控制器和探针的安装包,安装成功后,与自动安装一直,可以选择对应的配置文件,进行日志数据的采集。控制器和探针的重启、停止和卸载也需要通过手动进行

  • 日志控制器操作,包括安装、启动、重启、停止、卸载等操作,探针则包括安装探针、启动探针、修改配置、重启探针、修改探针等操作

APM节点

展示所有已经接入的探针,以及这些探针所属的应用/服务,探针名称:接入时自定义;语言/版本:可进行筛选;所属应用/服务:可筛选,可跳转至详情页;最新数据上报时间

拨测节点

如下图,支持对服务拨测任务设置拨测节点,实现从拨测节点向目标地址探测服务可用性

新建拨测节点时,需要选择一个主机作为拨测节点,并且配置这个节点的地区和运营商等信息。

拨测节点配置完成后,可以在“监控管理-监控采集-网络监测”的任务中,选择并使用该节点。

14.2 监控管理

监控采集

  • 用于将监控对象纳入采集,主要包括主机、进程、数据库、中间件、K8S、网站监测等等等。可选择不同的监控插件进行采集,支持本地采集和远程采集。

监控策略

  • 对主机、数据库、中间件、网络设备、服务拨测、虚拟化平台等进行告警阈值配置。新建监控策略,需要选择对应的监控目标,监控项配置、通知间隔等信息

监控对象

  • 对WeOps的监控对象进行管理,支持监控对象的创建、分组和其他操作,新增的监控对象将在监控采集、监控策略、指标管理和监控视图等配置和显示。

  • 支持对监控对象创建分组,在监控视图、监控策略、监控采集等分组中生效。

指标管理

  • 对主机、数据库、中间件等各类对象的指标进行管理,可设置指标分组,可设置关键指标,支持对指标的阈值和描述进行修改。

指标管理允许某些对象自定义新建监控模板,如下图,数据库支持SQL、shell和powershell、python类型的自定义监控插件;主机和中间件支持shell和powershell类型的自定义监控插件;网络设备和硬件设备支持snmp协议的自定义监控插件,若内置监控监控插件不满足监控需求,可通过自定义监控模板的方式进行新建

14.3 告警管理

告警处理

分为告警抑制、屏蔽策略、自动处理、自动分派,分别可以设置不同情况下告警的产生、通知的策略。

告警通知

用于配置告警通知的策略,包括未响应通知策略、未分派通知策略、通知内容模板设置、用户默认通知方式等。

通知模板:通知渠道管理,支持自定义通知内容,支持对内置的几类模板修改,每种模板下的邮件、短信、微信和电话四种渠道都支持修改标题和内容

人员通知

人员通知:可针对不同的用户配置不同的通知方式。

告警源

  • 告警源:展示WeOps目前可以对接的告警源,可对告警源进行启用和管理。

14.4 自动化管理

WeOps的自动化管理支持运维工具的自定义,扫描包的设置,网站设备脚本模板的设置。

  • 运维工具:对WeOps的运维工具模块进行管理,支持操作系统和网络设备两大类运维工具的新增/修改/启停/删除等操作

  • 健康扫描:对WeOps健康扫描中的扫描包进行管理,包括以下操作:新增扫描包、对现有的扫描包检查项进行编辑和启停、设置默认参数。

  • 扫描包的自定义和使用详见《操作手册-自动化运维——健康扫描》

  • 网络设备模板:可以针对网络设备的自动化执行设置执行结束语,支持思科/新华三/华为常用品牌

  • 自动化编排:流程页面展示了所有的流程列表,支持搜索、新建流程、编辑流程、预览流程、设置“告警自愈流程”、查看执行历史、删除等操作。

  • 可视化任务流程配置。新建流程时,用户可以通过图形界面进行任务流程编排。在编排页面,用户可以通过左侧的工具栏来添加节点

  • 任务历史可追溯,用户在任务记录页面,可以追溯之前的任务执行情况,可以对历史记录进行搜索,查看详情等操作。

14.5 资产管理

资产管理包括“资产模型管理”、“自动发现preview”、OID库、数据关联

模型管理

  • 资产模型管理提供了WeOps所有资产的模型和模型分组的新建和管理,支持以下操作:模型分组的增删改查(内置模型分组不允许删除)、模型的增删改查(内置模型分组不允许删除)、模型属性字段分组的添加、模型的属性字段的添加/编辑、模型之间关联关系的添加/编辑。

  • 关于资产模型更为详细的配置和使用详见《操作手册-其他配置-资产模型配置》

资产扫描

资产扫描的场景如下:纳管层面,资产扫描是从空白到扫描出来有资产的,配合配置采集自动更新配置信息;安全层面,全量扫描不在cmdb的资产的异常ip;运营层面,扫描ip不在管理范围内的,进行ip认领或者回收

包括扫描任务的创建、识别规则、未纳管资产和忽略资产。

  • 扫描任务,如下图,支持资产扫描任务的创建,可设置IP扫范围,支持ping(IP)、telnet(IP+端口)从网络中发现IT资产,支持配置CMDB的对比范围,进行对比。安装扫描的协议扫描出来的资产,会根据cmdb的资产范围进行对比,未纳管的资产,会呈现在“未纳管”列表中。

  • 识别规则,支持设置Telnet的识别规则

  • 未纳管资产,扫描的结果中,和cmdb对比后,cmdb没有纳管的资产会呈现在列表中,并按照识别规则展示资产的类型,对于未纳管的资产,支持一键纳管至cmdb中

配置采集

  • 配置采集支持K8S/网络设备/数据库/云平台/SSL证书/配置文件等的自动发现,可通过新建任务的形式,创建自动发现和采集任务并执行

  • 对于配置采集情况分为:新增资产、资产更新、新增关联和下架资产,支持查看详情。针对新增资产的情况可以设置“自动录入”和“审批录入”两种方式,通过审批后,新增的资产才可正式录入资产记录中。

  • 关于数据库的自动发现和纳管,详见《操作手册-资源纳管配置-数据库/中间件纳管》

  • 关于网络设备的自动发现和纳管,详见《操作手册-资源纳管配置-网络设备纳管》

  • 关于云平台的自动发现和纳管,详见《操作手册-资源纳管配置-云平台纳管》

  • 关于K8S的自动发现和纳管,详见《操作手册-资源纳管配置-K8S纳管》

  • 关于SSL证书的自动发现和纳管,详见《操作手册-资源纳管配置-SSL证书纳管》

  • 关于配置文件的自动发现和纳管,详见《操作手册-资源纳管配置-配置文件纳管》

  • 关于资产关联的自动发现,详见《操作手册-资源纳管配置-资产关联》

  • 关于IP的自动发现,详见《操作手册-资源纳管配置-IP》

OID库

  • OID库支持对网络设备自动发现和采集的设备类型的扩充,将需要自动发现的网络设备的OID和品牌、型号进行映射保存,即可支持对该品牌型号的网络设备的自动发现和采集。

数据关联

  • 支持资产实例与日志数据相关联,关联后,可在资产详情/监控视图/告警详情等快捷查看资产相关联的日志信息

14.6 知识库管理

知识库管理是对知识库的文章标签和文章模板进行新建和管理。

14.7 日志管理

日志管理主要是对日志进行相关配置

日志分组

  • 支持对日志消息进行分组管理,对日志的分组设置分组规则,当满足这一规则的时候,日志将划为这个分组,并通过角色管理-日志分组授权给对应人员搜索/使用。

  • 分组规则:一个分组支持多个分组规则,可以在分组中进行创建和管理

  • 日志分组的详细介绍步骤详见《操作手册-3、日志设置-日志分组配置》

数据接收

  • 展示所有支持的接收器,可以进行相关日志数据的接收配置,并展示所有接收器的基本情况。

  • 根据实际需求,选择适用的提取器进行创建,比如选择syslog UDP提取器对交换机的日志进行提取,填写对应的端口等信息,并启用

  • 支持为每个接收器创建提取器,选择提取的字段,为该字段选择适用的提取类型,设置提取规则并保存为新字段,以便后续使用。

  • 支持导入本地的日志,支持的格式txt和CSV格式

  • 日志数据接收的相关配置步骤详见《操作手册-3、日志配置-日志数据接入(syslog协议)》
  • 日志提取器的详细配置详见《操作手册-3、日志配置-日志提取器配置》

日志监控

  • 展示所有日志监控策略,支持日志策略的新建/编辑和启停等操作

  • 设置监控告警策略:根据业务需求,设置告警规则,如错误码出现次数、异常信息出现频率等,当监控到的日志数据符合告警规则时,自动发送告警通知,通知相关人员及时处理问题。

  • 日志分组的详细介绍步骤详见《操作手册-3、日志设置-日志监控告警配置》

索引集

  • WeOps为了存储日志原始数据,降低资源消耗,支持设置日志索引集,可以为每个索引集设置轮转规则,形成一组索引,即对应 Elasticsearch的索引分片。

  • 如下图,是索引集列表页面,展示了所有的索引集的信息,点击进入,可以查看这个索引集的详细信息和索引信息。

  • 索引集详情页如下图。

索引集操作:新建索引(手动循环此索引集上的当前活动写入索引);更新索引范围(使用后台系统作业重新计算此索引集的索引范围);编辑索引集(编辑索引集的信息,包括索引基础信息/轮转规则/操作配置等)
索引列表:展示这个索引集的各个索引的基本信息,并标明“当前可写入索引”(当前可写入索引不能被关闭和删除),其他索引(支持重新计算该索引的索引范围,支持手动关闭/删除)
  • 新建索引集,设置索引集的规则

标题:索引集的描述性名称
描述 :索引集的描述
索引前缀:用于由索引集管理的 Elasticsearch 索引的唯一前缀。前缀必须以字母或数字开头,并且只能包含字母、数字和支持的字符。
分词器 :(默认值standard)索引集的 Elasticsearch 分析器
索引分片:(默认值4)每个索引使用的 Elasticsearch 分片数量
索引副本:(默认值0)每个索引使用的 Elasticsearch 副本数
最大段数 :(默认1)ElasticSearch强制合并的段数量
轮转后索引优化:在索引轮转后禁用
字段类型刷新间隔:(默认5秒)多久刷新活跃索引的字段类型
轮转规则:支持按照索引时间/索引记录数/索引时间进行轮转,可设置轮转周期
轮转操作:轮转后的索引操作,包括删除索引,关闭索引/不操作。
  • 索引集创建完成后,日志分组支持选择存储到的索引集,并按照索引集的规则进行日志数据的轮转。

采集配置

  • 可以针对不同的日志采集对象创建采集配置,采集配置作用于日志探针后,该探针将根据采集配置进行日志数据的采集

  • 目前已经内置5类探针的数十种配置文件,可以根据需要采集的日志配置文件,进行采集

  • 探针类的日志数据接入步骤详见《操作手册-3、日志设置-日志数据接入(探针模式)》

日志备份

  • 日志数据的冷热分离是一种常见的数据管理策略,用于优化存储和检索大量日志数据,WeOps将日志数据分为两个类别:热数据和冷数据,并将它们存储在不同的存储介质上,可以实现更高效的存储和检索,同时减少存储成本。

  • WeOps配置日志存储,并支持日志备份和恢复

14.8 APM管理

应用接入

应用接入用于管理接入APM的应用,进行数据接入以及查看接入服务的数据上报情况。

  • 添加应用:支持选择WeOps现有应用,加入列表后,并为该应用接入服务

  • 为应用进行服务的接入,WeOps采用无代码入侵的方式进行探针的安装和采集,支持java、python等开发语言和数十种开发框架(具体开发框架详见《内容说明——4、APM内容说明》),接入成功后,可以查看各个服务的数据上报情况。

  • 健康配置:为了呈现应用/服务/接口的健康状态,支持以“平均时延P95”作为指标,进行阈值的设置和健康状态的展示,分为三个等级“正常、缓慢、异常”,设置成功后,在应用/服务的拓扑图展示每个服务的健康状态,在接口分析中展示接口整体健康状态,并以折线图展示健康状态变化。

APM监控

  • 可以创建和管理APM监控策略,当监控策略的条件触发时会发出告警

14.9 服务台管理

服务台管理主要进行IT服务台的后台配置,包括“流程”、“服务”、“服务目录”、“SLA”、“运营分析”、“值班管理”、“公告”

  • 流程:如下图主要进行服务流程的管理和新建,包括流程设计和流程版本两项

  • 流程设计主要分为三个步骤:填写流程信息、配置流程、流程启用设置

  • 服务:如下图,展示所有新建的服务列表,需要绑定流程版本,只有关联服务目录并且启用的服务,才可以在IT服务台查看并使用。

  • 服务目录:如下图,主要展示各个服务流程的层级关系,可以进行流程的新增和移除

  • SLA:如下图,主要用于服务模式创建(设置工作时间/加班时间/假期时间)和服务协议创建(SLA条件设置和提供设置)

  • 值班管理:对服务台各个值班组的值班进行排班,排班完成后可以按照当值人员进行工单的分派和处理。

  • 公告:对服务台的公告进行设置,可设置公告的内容、有限期、附件等

  • 运营分析:对IT服务台的单据进行分类分析,包括服务使用统计、单据类型统计、单据状态统计等

  • 例行工作:可设置按照不同频率,设置工单的自动提交

  • 门户主题:内置不同风格的主题,可为IT服务台切换不同的门户风格,针对不同的主题,可以设置主题的背景色和欢迎语等

14.10 系统管理

角色管理

  • 进行WeOps的用户角色管理,可以进行角色的新建和授权,权限的授权分为操作权限、应用权限、实例权限(拓扑图、仪表盘、文章、运维工具、监控采集任务、监控策略任务、数据大屏、运营报表),可从菜单操作、应用管理、实例、日志分组四个方面进行限制

    • 还支持“分级管理员”功能,作为分级管理员,支持再次创建角色,并进行二次授权。

用户管理

  • 用户管理接入AD/LDAP需要开放用户组织权限。管理员能够在WeOps中维护AD/LDAP用户的上级信息,并且不会因每次同步用户所覆盖。

  • 进行用户的新建,用户角色的配置,同时展示用户所属组织的管理。

  • 用户管理支持双因子认证的设置,可将用户/角色组添加双因子认证的白名单。
  • 支持查看和恢复已删用户。

通知渠道

  • 通知渠道设置可对WeOps的对外通知渠道的进行配置,包括邮件、短信、电话和微信。

许可管理

  • 展示了weops系统的节点数量、有限期等信息,可进行到期提醒,到期提醒设置成功后,可在左上角进行提示。

操作日志

  • 展示WeOps相关的增删改等历史记录。

系统设置

  • 自定义菜单:支持灵活配置菜单,包括菜单项、菜单层级、菜单顺序等,可以根据需要自定义菜单并启用,以便更好使用系统功能。