跳到主要内容

嘉为蓝鲸WeOps 4.2 内容说明

1、资源模型内置说明

操作系统、数据库、中间件、容器等对象进行资源模型内置,具体模型、字段、自动发现和采集能力详见列表

查看资产和模型字段的具体信息,点击可下载WeOps内置的模型说明表格,包括WeOps初始化内置的资产模型和字段,以及自动发现和采集能力。

1.1 操作系统模型内置情况

类型纳管对象内置模型字段自动发现采集情况
操作系统Windows Server内网IP、外网IP、主机名称、操作系统类型、操作系统名称、操作系统版本、操作系统位数、CPU逻辑核心数、CPU频率、CPU型号、内存容量(MB)、备注、主机类型、虚拟内存大小、系统语言、逻辑磁盘数量、子网掩码、DNS服务器、内网MAC地址、外网MAC、网关、网卡速率、时区设置、时钟同步服务器、上次补丁安装时间、上次重启时间、主机状态、最近备份时间、防火墙状态、主要维护人、录入时间、录入方式、主机安装时间、备份维护人支持自动发现采集,采集字段如下:
内网IP、主机名称、操作系统类型、CPU逻辑核心数、内存容量(MB)、磁盘容量(GB)、录入时间、录入方式、内网MAC地址、外网MAC、操作系统版本、操作系统位数、CPU型号
操作系统linux内网IP、外网IP、主机名称、操作系统类型、操作系统名称、操作系统版本、操作系统位数、CPU逻辑核心数、CPU频率、CPU型号、内存容量(MB)、备注、主机类型、虚拟内存大小、系统语言、逻辑磁盘数量、子网掩码、DNS服务器、内网MAC地址、外网MAC、网关、网卡速率、时区设置、时钟同步服务器、上次补丁安装时间、上次重启时间、主机状态、最近备份时间、防火墙状态、主要维护人、录入时间、录入方式、主机安装时间、备份维护人支持自动发现采集,采集字段如下:
内网IP、主机名称、操作系统类型、CPU逻辑核心数、内存容量(MB)、磁盘容量(GB)、录入时间、录入方式、内网MAC地址、外网MAC、操作系统版本、操作系统位数、CPU型号

1.2 数据库模型内置情况

类型纳管对象内置模型字段自动发现采集情况
数据库Oracle蓝鲸实例名、IP地址、端口、SID、数据库名、数据库版本、最大内存、最大连接数、是否开启归档、归档目录、数据库总数据大小、字符集、数据库角色、是否集群、部署时间、主要维护人、最后一次备份时间支持自动发现采集,自动发现采集字段如下:
实例名、IP地址、端口、SID、最大内存(MB)、最大连接数、数据库名称、数据库版本、数据库角色、是否自动发现、上次更新时间
数据库MySQLIP地址、端口、数据库版本、是否开启binlog、最大连接数、最大内存、数据库总数据大小、字符集、部署时间、主要维护人、最后一次备份时间支持自动发现采集,自动发现采集字段如下:
蓝鲸实例名、IP地址、端口、数据库版本、是否开启binlog、最大连接数、最大内存、字符集、数据库角色、是否自动发现、上次更新时间
数据库MSSQLip地址、端口、数据库实例名、数据库版本、最大连接数、最大内存、数据库总数据大小、排序规则、高可用模式、部署时间、主要维护人、最后一次备份时间
数据库REDISIP地址、端口、版本、最大连接数、持久化机制、最大内存、数据库角色、部署时间、主要维护人、最后一次备份时间支持自动发现采集,自动发现采集字段如下:
蓝鲸实例名、IP地址、端口、版本、最大连接数、持久化机制、最大内存、数据库角色、是否自动发现、上次更新时间
数据库MongoDBIP地址、端口、数据库总数据大小、版本、数据库角色、部署时间、主要维护人、最后一次备份时间
数据库ElasticSearch蓝鲸实例名、IP地址、端口、版本、数据库角色
数据库PostgreSQL蓝鲸实例名、IP地址、端口、版本、数据库角色
数据库DB2蓝鲸实例名、IP地址、端口、版本、数据库角色、数据库主备角色
数据库数据库集群蓝鲸实例名、IP地址、端口、集群类型、描述

1.3 中间件模型内置情况

类型纳管对象内置模型字段自动发现采集情况
中间件Apache实例名、httpd路径、httpd配置文件路径、IP地址、listen端口、文档根路径、INCLUDE、版本、维护人、最近备份时间
中间件Tomcat实例名、catalina路径、version路径、端口、MAXPERMSIZE、PERMSIZE、XMS、XMX、jdk版本、版本号、维护人、最近备份时间
中间件Nginx实例名、IP地址、监听端口、版本、INCLUDE、bin路径、域名、log路径、ssl版本、维护人、最近备份时间
中间件IIS实例标识、IP地址、软件版本、应用池数量、应用程序数量、维护人、最近备份时间
中间件RabbitMQ实例名、IP地址、端口、所有端口、节点名称、版本号、erlange版本、java版本
中间件WebLogic实例名、IP地址、管理实例端口、管理实例名称、wlst路径、版本号、域版本、java版本

1.4 K8S模型内置情况

类型纳管对象内置模型字段自动发现采集情况
K8SK8S集群实例名
K8SK8S命名空间实例名、命名空间名称支持自动发现采集,采集字段如下:
支持自动发现采集,自动发现采集字段如下:
实例名、命名空间名称、是否自动发现、上次更新时间
K8SK8S工作负载实例名、工作负载名称、工作负载类型支持自动发现采集,自动发现采集字段如下:
实例名、工作负载名称、工作负载类型、是否自动发现、上次更新时间
K8SPod实例名、Node名称、IP地址、角色、CPU总容量(GHz)、内存总容量(GB)、存储总容量(GB)、操作系统版本、kubelet版本、内核版本、 容器运行时版本、Pod IP地址段支持自动发现采集,自动发现采集字段如下:
实例名、Pod名称、IP地址、CPU Limit(GHz)、Memory Limit(GB)、CPU Request(GHz)、Memory Request(GB)、是否自动发现、上次更新时间
K8SNode实例名、Pod名称、IP地址、CPU Limit(GHz)、Memory Limit(GB)、CPU Request(GHz)、Memory Request(GB)支持自动发现采集,自动发现采集字段如下:
实例名、IP地址、角色、CPU总容量(GHz)、内存总容量(GB)、存储总容量(GB)、操作系统版本、kubelet版本、内核版本、容器运行时版本、Pod IP地址段、是否自动发现、上次更新时间

1.5 云平台模型内置情况

类型纳管对象内置模型字段自动发现采集情况
VMwareVcenter实例名、IP地址、VC版本、资产编码、是否自动发现、上次更新时间、接入点
VMwareVMware虚拟机实例名、IP地址、资源ID、虚拟机名称、操作系统名称、vCPU数、内存容量(MB)、资产编码、是否自动发现、上次更新时间、接入点实例名、IP地址、资源ID、虚拟机名称、操作系统名称、vCPU数、内存容量(MB)、资产编码、是否自动发现、上次更新时间、接入点
VMwareESXI实例名、IP地址、资源ID、CPU型号、CPU核数、vCPU数、内存容量(MB)、ESXi版本、资产编码、是否自动发现、上次更新时间、接入点实例名、IP地址、资源ID、CPU型号、CPU核数、vCPU数、内存容量(MB)、ESXi版本、资产编码、是否自动发现、上次更新时间、接入点
VMware数据存储实例名、资源ID、文件系统类型、总容量(GB)、URL、资产编码、是否自动发现、上次更新时间、接入点实例名、资源ID、文件系统类型、总容量(GB)、URL、资产编码、是否自动发现、上次更新时间、接入点
阿里云阿里云账号实例名、资产编码
阿里云ECS实例名、资源名称、资源ID、内网IP、公网IP、地域、可用区、VPC、状态、规格、操作系统名称、vCPU数、内存容量(MB)、资产编码、付费类型、创建时间、到期时间、是否自动发现、上次更新时间、接入点实例名、资源名称、资源ID、内网IP、公网IP、地域、可用区、VPC、状态、规格、操作系统名称、vCPU数、内存容量(MB)、资产编码、付费类型、创建时间、到期时间、是否自动发现、上次更新时间、接入点
腾讯云腾讯云账号实例名、资产编码
腾讯云CVM实例名、资源名称、资源ID、内网IP、公网IP、地域、可用区、VPC、状态、规格、操作系统名称、vCPU数、内存容量(MB)、资产编码实例名、资源名称、资源ID、内网IP、公网IP、地域、可用区、VPC、状态、规格、操作系统名称、vCPU数、内存容量(MB)、资产编码
华为云ManageOne平台实例名、全局域名、运维域名、资产编码
华为云ManageOne云服务器实例名、资源名称、资源ID、内网IP、地域、状态、操作系统名称、vCPU数、资产编码、付费类型、创建时间、到期时间、是否自动发现、上次更新时间、接入点实例名、资源名称、资源ID、内网IP、地域、状态、操作系统名称、vCPU数、资产编码、付费类型、创建时间、到期时间、是否自动发现、上次更新时间、接入点
华为云ManageOne宿主机支持自动发现和采集,详见表格【WeOps内置的模型说明表格】详见表格【WeOps内置的模型说明表格】
华为云ManageOne数据存储支持自动发现和采集,详见表格【WeOps内置的模型说明表格】详见表格【WeOps内置的模型说明表格】
华为云ManageOne云平台详见表格【WeOps内置的模型说明表格】支持自动发现和采集,详见表格【WeOps内置的模型说明表格】
华为云华为云账号详见表格【WeOps内置的模型说明表格】
华为云华为云ECS详见表格【WeOps内置的模型说明表格】支持自动发现和采集,详见表格【WeOps内置的模型说明表格】
深信服超融合(SangforHCI)SangforHCI平台详见表格【WeOps内置的模型说明表格】
深信服超融合(SangforHCI)SangforHCI虚拟机详见表格【WeOps内置的模型说明表格】支持自动发现和采集,详见表格【WeOps内置的模型说明表格】

1.6 基础设备模型内置情况

类型纳管对象内置模型字段自动发现采集情况
基础设备交换机实例名、管理IP、管理端口、型号、SNMP版本、品牌支持自动发现采集,自动发现采集字段如下:
实例名、管理IP、管理端口、型号、SNMP版本、品牌
基础设备路由器实例名、管理IP、管理端口、SNMP版本、型号、品牌支持自动发现采集,自动发现采集字段如下:
实例名、管理IP、管理端口、SNMP版本、型号、品牌
基础设备防火墙设备实例名、管理IP、管理端口、型号、SNMP版本、品牌支持自动发现采集,自动发现采集字段如下:
实例名、管理IP、管理端口、型号、SNMP版本、品牌
基础设备负载均衡设备实例名、管理IP、管理端口、SNMP版本、型号、品牌支持自动发现采集,自动发现采集字段如下:
实例名、管理IP、管理端口、型号、SNMP版本、品牌
基础设备物理机实例名、IP地址、型号、类型、硬盘大小、CPU型号、型号、品牌、sn设备序列号、网卡数量、内存大小、MAC地址、维护人、过保日期、存放地点、资产编号
基础设备网络设备端口实例名、品牌

1.7 硬件设备模型内置情况

类型纳管对象内置模型字段
硬件设备硬件服务器实例名、内网IP、资产编码

1.8 其他模型内置情况

类型纳管对象内置模型字段自动发现采集情况
目录服务Active Directory蓝鲸实例名、计算机名、IP地址、所属域、所属林、所属站点、林功能级别、域功能级别、是否为全局编录、是否为只读域控、主机角色、数据库目录、数据库日志文件目录、SYSVOL目录、系统版本
邮件服务Exchange Server蓝鲸实例名、计算机名、IP地址、所属域、所属林、所属站点、安装目录、Exchange版本、Exchange角色、owa虚拟目录内部URL、owa虚拟目录外部URL、ecp虚拟目录内部URL、ecp虚拟目录外部URL、ews虚拟目录内部URL、ews虚拟目录外部URL、mapi虚拟目录内部URL、mapi虚拟目录外部URL、oab虚拟目录内部URL、oab虚拟目录外部URL、activesync虚拟目录内部URL、activesync虚拟目录外部URL、autodiscover内部URI、outlookanywhere内部主机名、outlookanywhere外部主机名、outlookanywhere身份验证方式、pop3身份验证方式、imap4身份验证方式、接收连接器名称、发送连接器名称、数据库名称、所属DAG名称

2、监控指标说明

2.0 各对象支持监控方式汇总

对象类型对象名称支持的监控方式
操作系统linux、Windows等1、Agent采集
2、自定义脚本监控插件(shell、powershell)
数据库Oracle、MySQL、MSSQL1、内置监控插件
2、自定义脚本监控插件(shell、powershell)
3、SQL监控插件
MongoDB、Redis、PGSQL、其他扩展数据库1、内置监控插件
2、自定义脚本监控插件(shell、powershell)
中间件Apache、Nginx、Tomcat...1、内置监控插件
2、自定义脚本监控插件(shell、powershell)
云平台阿里云、腾讯云、华为公有云......1、内置监控插件
网络设备snmp交换机、路由器、防火墙、负载均衡1、内置监控插件
2、自定义SNMP监控模板
硬件设备IPMI硬件服务器.....1、内置监控插件

操作系统、数据库、中间件等对象内置监控插件的监控指标,具体如下表。(部分对象已经内置监控插件、内置关键指标、内置监控策略详见列表)

点击可下载WeOps内置的监控指标说明表格,包括WeOps初始化内置的资产指标、指标说明和推荐阈值等信息

2.1 操作系统监控指标

序号对象类型指标数量指标/事件内置关键指标内置监控插件内置监控策略
1操作系统-Windows97CPU使用率、磁盘空间使用率、应用程序内存使用占比、I/O使用率、CPU空闲率、应用程序内存可用率、CPU单核空闲率、CPU单核分配给虚拟机的时间占比、磁盘已用空间大小、系统启动时间、内核在虚拟机上运行的CPU占比、硬件中断数的CPU占比、正在运行的进程总个数、CPU单核等待IO的时间占比、CPU单核系统程序使用占比、CPU单核使用率、CPU单核用户程序使用占比、CPU等待IO的时间占比、CPU分配给虚拟机的时间占比、CPU系统程序使用占比、CPU用户程序使用占比、磁盘可用空间大小、磁盘总空间大小、系统总进程数、可用inode数量、已用inode占比、总inode数量、已用inode数量、平均I/O队列长度、设备每次I/O平均数据大小、I/O平均等待时长、I/O读速率、I/O读次数、I/O平均服务时长、I/O写速率、I/O写次数、1分钟平均负载、15分钟平均负载、5分钟平均负载、内存buffered大小、内存cached大小、物理内存空闲量、物理内存已用占比、物理内存已用量、物理内存总大小、应用程序内存可用量、应用程序内存使用量、网卡入包量、网卡出包量、网卡入流量、网卡出流量、closed连接数、closewait连接数、closing连接数、estab连接数、finwait1连接数、finwait2连接数、lastack连接数、listen连接数、synrecv连接数、synsent连接数、timewait连接数、udp接收包量、udp发送包量、SWAP空闲量、SWAP已用占比、SWAP总量、SWAP已用量、网卡入流量比特速率、网卡出流量比特速率、内核在虚拟机上运行的CPU占比、硬件中断数的CPU占比、低优先级程序在用户态执行的CPU占比、软件中断数的CPU占比、低优先级程序在用户态执行的CPU占比、软件中断数的CPU占比、登录的用户数、最大文件描述符、处于等待I/O完成的进程个数、系统上下文切换次数、系统启动后所创建过的进程数量、单核CPU的load、设备驱动程序检测到的载波丢失数、网卡冲突包、网卡丢弃包、网卡错误包、网卡物理层丢弃、swap从硬盘到内存、swap从内存到硬盘、Agent心跳丢失-GSE、磁盘只读-GSE、磁盘写满-GSE、Corefile产生-GSE、PING不可达告警-GSE、进程端口、自定义字符型、系统启动时间异常5分钟平均负载、CPU使用率、物理内存空闲量、物理内存已用占比、应用程序内存使用占比、应用程序内存可用量、网卡入流量、网卡出流量、磁盘空间使用率、I/O使用率使用Agent采集监控数据,无需监控插件CPU使用率>90%、物理内存已用占比>90%、应用程序内存使用占比>90%、磁盘空间使用率>90%、I/O使用率>70%、已用inode占比>90%、SWAP已用占比> 80%
2操作系统-Linux97CPU使用率、磁盘空间使用率、应用程序内存使用占比、I/O使用率、CPU空闲率、应用程序内存可用率、CPU单核空闲率、CPU单核分配给虚拟机的时间占比、磁盘已用空间大小、系统启动时间、内核在虚拟机上运行的CPU占比、硬件中断数的CPU占比、正在运行的进程总个数、CPU单核等待IO的时间占比、CPU单核系统程序使用占比、CPU单核使用率、CPU单核用户程序使用占比、CPU等待IO的时间占比、CPU分配给虚拟机的时间占比、CPU系统程序使用占比、CPU用户程序使用占比、磁盘可用空间大小、磁盘总空间大小、系统总进程数、可用inode数量、已用inode占比、总inode数量、已用inode数量、平均I/O队列长度、设备每次I/O平均数据大小、I/O平均等待时长、I/O读速率、I/O读次数、I/O平均服务时长、I/O写速率、I/O写次数、1分钟平均负载、15分钟平均负载、5分钟平均负载、内存buffered大小、内存cached大小、物理内存空闲量、物理内存已用占比、物理内存已用量、物理内存总大小、应用程序内存可用量、应用程序内存使用量、网卡入包量、网卡出包量、网卡入流量、网卡出流量、closed连接数、closewait连接数、closing连接数、estab连接数、finwait1连接数、finwait2连接数、lastack连接数、listen连接数、synrecv连接数、synsent连接数、timewait连接数、udp接收包量、udp发送包量、SWAP空闲量、SWAP已用占比、SWAP总量、SWAP已用量、网卡入流量比特速率、网卡出流量比特速率、内核在虚拟机上运行的CPU占比、硬件中断数的CPU占比、低优先级程序在用户态执行的CPU占比、软件中断数的CPU占比、低优先级程序在用户态执行的CPU占比、软件中断数的CPU占比、登录的用户数、最大文件描述符、处于等待I/O完成的进程个数、系统上下文切换次数、系统启动后所创建过的进程数量、单核CPU的load、设备驱动程序检测到的载波丢失数、网卡冲突包、网卡丢弃包、网卡错误包、网卡物理层丢弃、swap从硬盘到内存、swap从内存到硬盘、Agent心跳丢失-GSE、磁盘只读-GSE、磁盘写满-GSE、Corefile产生-GSE、PING不可达告警-GSE、进程端口、自定义字符型、系统启动时间异常5分钟平均负载、CPU使用率、物理内存空闲量、物理内存已用占比、应用程序内存使用占比、应用程序内存可用量、网卡入流量、网卡出流量、磁盘空间使用率、I/O使用率使用Agent采集监控数据,无需监控插件CPU使用率>90%、物理内存已用占比>90%、应用程序内存使用占比>90%、磁盘空间使用率>90%、I/O使用率>70%、已用inode占比>90%、SWAP已用占比> 80%

2.2 数据库监控指标

序号对象类型指标数量指标/事件内置关键指标内置监控插件内置监控策略
1数据库-MySQL21插件运行状态、InnoDB缓冲池的使用率、InnoDB每分钟写日志请求数、每分钟执行锁表语句的次数、MySQL打开的表数量、MySQL查询缓存命中数、MySQL查询缓存命中率、MySQL每分钟查询次数(包含不仅cmd_*的所有操作)、MySQL每分钟执行语句的次数、主从延迟延迟时间、主从同步状态、MySQL每分钟慢查询的次数、mysql数据量大小、当前已连接的线程数、已创建的线程数、线程使用率、缓存命中失败率、活动状态下的线程数、数据文件所在空间使用率、binlog日志所在空间使用率、mysqlServer运行状态已内置监控插件插件运行状态!=active、线程使用率>80%
2数据库-MSSQL20插件运行状态、数据库状态、实例状态、可用页面文件、连接错误数、数据库连接数、死锁次数、每秒全表扫描数、实例缓冲区命中率、实例缓冲区总页数、实例缓冲区使用页数、实例运行时间、当前堵塞进程数、导致死锁的每秒锁定请求数、总页面文件、用户等待IO总时间、用户等待读取总时间、用户等待写入总时间、等待内存分配进程数、SQL每秒编译次数已内置监控插件插件运行状态!=active、数据库状态!=online、实例状态!=online、实例缓冲区命中率<80%、
3数据库-Oracle25插件运行状态、数据库状态、活跃用户会话数、后台进程总数、当前阻塞数量、缓冲区命中率、死锁数量、共享SQL缓冲区命中率、PGA使用率、进程分配数、进程总数、用户会话数、SGA使用率、SharePool使用率、表空间使用率、表空间分配大小、表空间使用大小、归档日志空间大小、归档日志已使用空间、归档日志空间使用率、ASM磁盘使用率、ASM总磁盘大小、ASM磁盘状态、scanIP监听状态、VIP监听状态已内置监控插件插件运行状态!=active、数据库状态!=online、缓冲区命中率<80%、共享SQL缓冲区命中率<80%、表空间使用率>95%、归档日志空间使用率>95%、ASM磁盘使用率>95%
4数据库-MongoDB27插件运行状态、可用连接数、当前连接数、访问swap分区中的数据大小、物理内存消耗、虚拟内存消耗、删除记录的条数、插入记录的条数、返回记录的条数、更新记录的条数、当前活动的读连接数、当前的全局读锁等待个数、当前活跃客户端的个数、当前的全局锁等待锁等待的个数、当前活动的写连接数、当前全局写锁等待个数、每秒命令次数、每秒delete次数、每秒getmore次数、每秒insert次数、每秒query次数、每秒update次数、从mongod启动以来的游标超时个数、从mongod启动以来打开游标的总个数、发送到数据库的数据量、发送到数据库的请求量、数据库发出的数据量已内置监控插件
5数据库-Redis30每秒输入字节数、每秒输出字节数、拒接的连接个数、执行过的命令总数、连接过的客户端总数、输入总网络流量、输出总网络流量、连接从节点个数、主节点偏移量、复制缓冲区状态、复制缓冲区起始偏移量、标识复制缓冲区已存有效数据长度、复制缓冲区尺寸、从节点复制偏移量、最大内存配置、内存碎片率、系统内存、redis分配器分配的内存总量、数据占用的内存大小、数据占用的内存大小的百分比、lua引擎所消耗的内存大小、维护数据集的内部机制所需的内存开销、内存使用最大量、使用内存达到峰值内存的百分比、redis进程占用的物理内存总量、Redis服务器启动时消耗的内存、redis主进程在内核态所占用的CPU时钟总和、redis子进程在内核态所占用的CPU时钟总和、redis主进程在用户态所占用的CPU时钟总和、redis子进程在用户态所占用的CPU时钟总和redis分配器分配的内存总量、内存碎片率、拒接的连接个数已内置监控插件复制缓冲区状态!=正常、数据占用的内存大小的百分比>90%、使用内存达到峰值内存的百分比>90%
6数据库-PGSQL74详见【WeOps内置的监控指标说明表格】详见【WeOps内置的监控指标说明表格】已内置监控插件详见【WeOps内置的监控指标说明表格】

2.3 中间件监控指标

序号对象类型指标数量指标/事件内置关键指标内置监控插件内置监控策略
1中间件-Tomcat19插件运行状态、最大内存、总内存、空闲内存、堆已用内存百分比、接收字节总数、发送字节总数、每分钟请求错误数、请求最大时间、当前进程数、当前堵塞进程、最大进程数、非堆最大内存、非堆已使用内存、非堆已用内存百分比、请求处理时间、每分钟请求数量、堆最大内存、堆已使用内存最大进程数、当前进程数、当前堵塞进程、每分钟请求数量、每分钟请求错误数、请求最大时间、发送字节总数、接收字节总数已内置监控插件
2中间件-Nginx8插件运行状态、每分钟成功握手次数、正在处理的活跃的连接数、每分钟成功处理请求数、驻留(等待)连接数、读连接数、每分钟处理未丢失的请求数、写连接数、JDBC失败重连数每分钟成功握手次数、每分钟成功处理请求数、驻留(等待)连接数、读连接数、每分钟处理未丢失的请求数、写连接数、JDBC失败重连数已内置监控插件状态!=active
3中间件-Apache8插件运行状态、访问总数、CPU负载、总数据发送量、运行时间、不同状态的连接数量统计、不同状态Workers数量统计、不同状态记分版数量统计、JDBC失败重连数访问总数、总数据发送量、运行时间、不同状态Workers数量统计、不同状态记分版数量统计、JDBC失败重连数已内置监控插件插件运行状态!=active、CPU负载>80%

2.4 K8S监控指标

序号对象类型指标数量指标内置关键指标内置监控插件内置监控策略
1K8S-Pod17CPU使用率、容器CPU使用率、内存使用量、容器内存使用量、memory limit %、container memory limit %、I、O读写次数、容器I、O读写次数、网络入流量、容器网络入流量、网络出流量、容器网络出流量、进程数、容器进程数、10秒平均负载、容器10秒平均负载、运行时长CPU使用率、容器CPU使用率、内存使用量、容器内存使用量已内置监控指标CPU使用率>80%、容器CPU使用率>80%、memory limit %>80%、container memory limit %>80%
2K8S-Node14CPU使用率、应用内存使用量、应用内存使用率、物理内存使用量、物理内存使用率、I/O读写次数、网络入流量(每分钟速率)、网络出流量(每分钟速率)、1分钟平均负载、5分钟平均负载、15分钟平均负载、文件系统使用量、文件系统可用量、文件系统使用率CPU使用率、应用内存使用量、1分钟平均负载、文件系统使用率已内置监控指标CPU使用率>80%、应用内存使用率>80%、物理内存使用率>80%、文件系统使用率>80%

2.5 云平台监控指标

序号云平台类型指标数量指标内置关键指标内置监控插件内置监控策略
1VMware数据存储3磁盘使用率、磁盘剩余量、存储连接状态
2VMwareESXI10CPU使用率、CPU使用量、内存使用率、活动内存、磁盘读速率、磁盘写速率、网络接收速率、网络发送速率、磁盘读IO、磁盘写IO
3VMware虚拟机12CPU使用率、CPU使用量、内存使用率、活动内存、硬盘使用率、硬盘读速率、硬盘写速率、网络接收速率、网络发送速率、磁盘读IO、磁盘写IO、虚拟机的电源状态
4阿里云ECS8CPU使用率、内存利用率、磁盘每秒读取次数、磁盘每秒写入次数、内网流入流量、内网流入带宽、内网流出流量、内网流出带宽
5腾讯云CVM11CPU利用率、内存使用量、内存利用率、磁盘利用率、内网出带宽、内网入带宽、内网出包量、内网入包量、外网出带宽、外网入带宽、外网出包量、外网入包量
6华为云-manageone云服务器9CPU使用率、内存使用率、云硬盘使用率、云硬盘IO写入、云硬盘IO读出、磁盘写操作速率、磁盘读操作速率、网络流入速率、网络流出速率
6华为云-manageone宿主机/详见【WeOps内置的监控指标说明表格】
7华为云-manageone数据存储/详见【WeOps内置的监控指标说明表格】
8华为云-manageone云平台/详见【WeOps内置的监控指标说明表格】
9华为公有云华为云ECS/详见【WeOps内置的监控指标说明表格】
10SangforHCISangforHCI虚拟机/详见【WeOps内置的监控指标说明表格】

WeOps内置的监控指标说明表格

2.6 网络设备监控指标

(以下展示的是内置的网络设备指标模板,WeOps提供拓展能力,可支持不同品牌和型号的设备。)

序号对象类型厂商指标数量指标
1防火墙Cisco40详见【WeOps内置的监控指标说明表格】
3防火墙华为33详见【WeOps内置的监控指标说明表格】
4防火墙NETGEAR详见【WeOps内置的监控指标说明表格】
5防火墙WatchGuard详见【WeOps内置的监控指标说明表格】
6防火墙东软Neteye详见【WeOps内置的监控指标说明表格】
7防火墙飞塔详见【WeOps内置的监控指标说明表格】
8防火墙Checkpoint详见【WeOps内置的监控指标说明表格】
9负载均衡设备Riverbed详见【WeOps内置的监控指标说明表格】
10负载均衡设备Superiority详见【WeOps内置的监控指标说明表格】
11负载均衡设备F5负载均衡详见【WeOps内置的监控指标说明表格】
12负载均衡设备A10负载均衡详见【WeOps内置的监控指标说明表格】
13交换机Cisco40详见【WeOps内置的监控指标说明表格】
14交换机H3C40详见【WeOps内置的监控指标说明表格】
11交换机华为33详见【WeOps内置的监控指标说明表格】
12交换机MOXA详见【WeOps内置的监控指标说明表格】
13交换机NETGEAR详见【WeOps内置的监控指标说明表格】
14交换机派凌详见【WeOps内置的监控指标说明表格】
15交换机神州数码详见【WeOps内置的监控指标说明表格】
16交换机Cisco Nexus详见【WeOps内置的监控指标说明表格】
17交换机锐捷详见【WeOps内置的监控指标说明表格】
18路由器Cisco26详见【WeOps内置的监控指标说明表格】
19路由器H3C28详见【WeOps内置的监控指标说明表格】
20路由器华为21详见【WeOps内置的监控指标说明表格】
21路由器Cisco Nexus详见【WeOps内置的监控指标说明表格】
22路由器锐捷详见【WeOps内置的监控指标说明表格】

2.7 硬件设备监控指标

序号对象类型指标数量指标/事件内置关键指标内置监控插件内置监控策略
1硬件服务器5电源状态、风扇转速(转数/每分钟)、功率(瓦特)、温度(摄氏度)、电压(伏特)------------------------

2.8 其他监控指标

序号对象类型指标数量指标/事件内置关键指标内置监控插件内置监控策略
1进程15进程启动时间、进程占用系统态时间、进程CPU使用率、整体占用时间、进程占用用户态时间、打开的文件描述符数量、进程io累计读、进程io读速率、进程io累计写、进程io写速率、物理内存、物理内存使用率、共享内存、虚拟内存、端口存活
2拨测12HTTP响应时间、HTTP单点可用率、ICMP单点可用率、TCP单点可用率、TCP响应时间、HTTP期望响应码、HTTP期望响应内容、ICMP平均时延、ICMP丢包率、ICMP最大时延、ICMP最小时延、ICMP响应时间
3Active Directory活动目录47DS当前使用的线程数、链路值被清洗的速率、名称转换速率、清除phantom的速度、访问phantom的速度、查询速度、已排队但尚未处理的安全描述符传播事件的数量、安全描述传播子操作的速率、当前DS安全描述符传播器事件时需要检查的对象数量、过期的tombstone对象被垃圾回收的速率、已删除对象的访问速率、处理请求的平均时间、当前ATQ分配给服务的请求线程数量、ad处理下一个请求的延迟时间、当前排队等待服务的请求数量、SAM尝试创建机器的速率、SAM成功创建机器的速率、SAM枚举速率、执行身份认证平均延迟、SAM非传递成员评估速率、不同组身份认证速率、SAM传递成员评估速率、SAM评估全局目录速率、SAM用户变化速率、SAM密码变化速率、SAM查询显示速率、SAM尝试创建用户的速率、SAM成功创建用户的速率、本地目录服务的LDAP子系统当前使用的线程数、最后一秒内关闭的LDAP连接数、最后一次成功的LDAP绑定所花费的时间、最后一秒内打开的的连接数、LDAP客户端执行搜索操作的速率、LDAP服务器处理的UDP操作速率、LDAP客户端执行写操作的速率、副本数据的压缩速度、未在DSA压缩的字节速率、DSA上最高的USN、未完成同步对象数量、本地AD从入站副本接收的不需要应用更新的对象速度、本地AD从副本接收的复制更新的速率、副本传入被过滤掉(无需更新)的属性的速率、副本传入属性而更新的属性的速度、在完全同步完成之前剩余的对象数量、DRA等待的复制操作数、服务器队列上尚未处理的目录同步请求数、向邻居发出的同步请求的数量已内置监控插件
4Exchange邮件系统38插件运行状态、2分钟内活动的用户数量、过去1024个包的平均延迟、RPC当前维护的客户端连接数、RPC操作发生的速率、RPC正在处理的客户端请求的数量、RPC用户数量、每秒运行的LDAP操作、发送LDAP读请求并接收响应的时间、发送LDAP搜索请求并接收响应的时间、LDAP超时错误数、发送LDAP写请求并接收响应的时间、活动邮箱投递队列长度、外部的活动远程传递队列长度、外部最大的发送队列长度、内部的活动远程传递队列长度、内部最大的发送队列长度、poison队列长度、重试投递队列长度、unreachable队列长度、验证CAS请求所花费的平均时间、CAS处理时间的平均延迟、CAS和MBX服务器之间发生了故障速率、MailboxServerLocator_web服务调用的平均延迟、未处理的proxy请求数、每秒处理的proxy请求数、当前后台运行用于工作负载管理的活动任务的数量、已完成的工作负载管理任务的数量、工作负载是处于活动(1)状态还是暂停(0)状态、当前排队等待处理的工作负载管理任务的数量、由工作负载产生的任务数、当前队列中挂起的ping命令数已内置监控插件


3、日志内容说明

Weops支持日志探针管理和安装,并内置探针对应的配置文件模板详情如下,若查看更加详细内容可下载表格WeOps内置日志探针说明

序号探针名称探针说明内置模板
1Filebeat能够采集操作系统中的任意日志文件。1、自定义模板
2、内置模板:ActiveMQ 、Coredns 、Elasticsearch、IIS、Kafka、mongodb、mssql、MySQL、Nginx、Oracle、PostgreSQL、RabbitMQ、Redis、Apache Tomcat
2Packetbeat能够采集操作系统中的流量数据1、自定义模板
2、内置模板:AMQP、Cassandra、DHCPv4、DNS、HTTP、ICMP、Memcache、MongoDb、MySQL、NFS、PostgreSQL(pgSQL)、Redis、SIP、Thrift-RPC、Detailed TLS
3Auditbeat能够监听文件或操作系统的变更动态,例如文件发生了修改、用户登录了操作系统等。1、自定义模板
2、内置模板:文件变化日志、系统变更日志
4Winlogbeat能够采集Windows事件1、自定义模板
2、内置模板:应用程序日志、安全事件日志、系统事件日志
5Uniprobe与packetbeat功能类似,额外具备http请求的响应延迟、操作系统的网络环境质量等数据1、自定义模板

4、监控插件参数和权限说明

WeOps监控插件使用的参数和授予权限说明如下

4.1、MSSQL

参数说明

参数名含义是否必填使用举例
SQLEXPORTER_TARGET_DSN数据源名称,填写会覆盖配置文件中的数据源data_source_name,注意!在监控平台填写参数时不要用双引号将参数包起来sqlserver://user:password@127.0.0.1:1433
-config.filesql_exporter.yml 采集器全局配置文件, 包含超时设置、最大连接数、目标配置、采集指标配置文件名等默认已有采集器全局配置文件
-log.level日志级别info
-web.listen-addressexporter监听id及端口地址127.0.0.1:9601
collector.file.contentmssql_standard.collector.yml 采集指标配置文件, 包含指标名、维度、sql等内容。注意!该参数为文件参数,非探针执行文件参数!默认已有标准采集指标配置文件

采集器全局配置文件说明(sql_exporter.yml)

# 全局配置
global:
# sql语句的超时时间,这个值需要比prometheus的 `scrape_timeout` 值要小。如果配置了下方的 scrape_timeout_offset 值,那么最终的超时时间为, min(scrape_timeout, X-Prometheus-Scrape-Timeout-Seconds - scrape_timeout_offset)
# X-Prometheus-Scrape-Timeout-Seconds 为 prometheus 的超时时间
scrape_timeout: 10s
# 从 prometheus 的超时时间中减去一个偏移量,防止 prometheus 先超时。
scrape_timeout_offset: 500ms
# 各个sql收集器之间运行间隔的秒数
min_interval: 0s
# 允许获取到的数据库最大的连接数, <=0 表示不限制。
max_connections: 3
# 允许空闲连接数的个数,<=0 不做限制
max_idle_connections: 3

# 配置监控的数据库和抓取信息
target:
# 配置数据库链接信息
# sqlserver://user(用户名):password(密码)@127.0.0.1(数据库服务域名或者IP):1433(数据库服务端口号)
data_source_name: "sqlserver://user:password@127.0.0.1:1433"
# 收集器的名字, 对应下方 collector_files 中文件的 collector_name 的值
collectors: [mssql_*]
collector_files:
- "*.collector.yml"

采集指标配置文件(mssql_standard.collector.yml)

# 收集器的名字
collector_name: mssql_standard

metrics:
- metric_name: mssql_version # 指标ID
type: counter # 类型
help: 'Fetched version of instance.' # 描述
key_labels: # 维度值
- ProductVersion
values: [value] # 值
query: | # sql语句
SELECT CONVERT(VARCHAR(128), SERVERPROPERTY ('productversion')) AS ProductVersion, 1 AS value

使用指引

以下是在SQL Server中使⽤命令⾏创建监控⽤户的教程:

  • ⽅式⼀:
  1. 连接到 MSSQL 数据库服务器,并使⽤具有⾜够权限的管理员⽤户帐户登录。

  2. 在 SQL Server Management Studio 中,右键单击 Security,然后选择 "New Login"。

  3. 在 "Login - New" 对话框中,输⼊监控⽤户的⽤户名,选择 "SQL Server authentication" 作为登录类型,并 设置⼀个强密码。

  4. 在 "Default database" 下拉菜单中,选择⽤户需要访问的数据库,⼀般默认master即可。

  5. 在 "Server Roles" 选项卡中,选择 "public" ⻆⾊。

  6. 在 "User Mapping" 选项卡中,将需要访问的数据库分配给该⽤户。

  7. 单击 "OK" 按钮以创建该⽤户。 在 MSSQL exporter 的配置⽂件中,使⽤此监控⽤户的凭据访问数据库。

  • ⽅式⼆: 通过终端与数据库交互
  1. 打开命令提示符或PowerShell,使⽤sqlcmd命令连接到SQL Server,如下所示:

sqlcmd -S server_address -U sa -P your_password

其中,server_address是SQL Server的访问地址,sa是具有⾜够权限的SQL Server管理员的登录名, your_password是对应的密码。

2 使⽤以下命令创建监控⽤户,该⽤户只具有读取权限,允许⽤户查看所有对象的定义:

CREATE LOGIN monitoring_user WITH PASSWORD = 'your_password'; GRANT VIEW SERVER STATE TO monitoring_user; GRANT VIEW ANY DEFINITION TO monitoring_user; GO

其中,monitoring_user是监控⽤户的名称,your_password是对应的密码。

  1. 如果需要在特定的数据库中监控,请使⽤以下命令授予监控⽤户对该数据库的访问权限:

USE database_name; CREATE USER monitoring_user FOR LOGIN monitoring_user; ALTER ROLE db_datareader ADD MEMBER monitoring_user; GO

其中,database_name是要监控的数据库的名称,⼀般默认使⽤master

4.2 MySQL

参数说明

参数名含义是否必填使用举例
MYSQL_USERmysql登录账户名(环境变量)monitor
MYSQL_PASSWORDmysql登录账户名的密码(环境变量)Monitor123!
--mysqld.hostmysql服务地址127.0.0.1
--mysqld.portmysql服务端口号3306
--log.level日志级别info
--web.listen-addressexporter监听id及端口地址127.0.0.1:9601

使用指引

  1. 连接MySQL

mysql -u[username] -p[password] -h[host] -P[port]

  1. 创建账户及授权

CREATE USER '[username]'@'%' IDENTIFIED BY '[password]'; GRANT PROCESS, SELECT, REPLICATION CLIENT ON *.* TO '[username]'@'%';

在 MariaDB 10.5+ 版本中,为了支持增量备份,引入了一种新的权限 REPLICA MONITOR。该权限允许用户监视复制进程,并查询与备份有关的信 息。

当 mysql exporter 用于监控 MariaDB 10.5+ 版本的数据库时,它需要使用 REPLICA MONITOR 权限来获取与备份有关的信息。如果没有授予监控用户 REPLICA MONITOR 权限,则无法获取这些信息,导致监控数据不完整或无法正常工作。 因此,在 MariaDB 10.5+ 版本中,需要使用 GRANT 命令为监控用户授予 REPLICA MONITOR 权限。

GRANT REPLICA MONITOR ON *.* TO '[username]'@'%';

4.3 Oracel

参数说明

参数名含义是否必填使用举例
DATA_SOURCE_NAMEDSN参数,在连接Oracle数据库时,需要提供一个连接字符串,其中包括Oracle数据库实例的主机名、端口号和服务名称,例如: oracle://username:password@hostname:port/service_name 注意!该参数为环境变量oracle://weops:Weops123@127.0.0.1:1521/ORCLCDB
--custom.metrics自定义指标查询文件路径 注意!该参数在平台层面为文件参数,进程中该参数值为采集配置文件路径(上传文件即可,平台会补充文件路径)!
--query.timeout查询超时秒数,默认使用5s5
--log.level日志级别info
--web.listen-addressexporter监听id及端口地址127.0.0.1:9601

使用指引

  1. 查看Oracle数据库服务名和域名
    注意!对于oracle数据库12版本,DSN中数据库名后必须加入域名,其他版本一般不需要
    ORCLCDB是Oracle数据库的一个服务名称(Service Name),它用于唯一标识数据库实例中的一个服务。
    例: "oracle://system:Weops123!@db12c-oracle-db.oracle:1521/ORCLCDB.localdomain"

    • 查看当前数据库实例的 SERVICE_NAME 参数的值。

      SELECT value FROM v$parameter WHERE name = 'service_names'; 
    • 查看当前数据库实例的 DB_DOMAIN 参数的值。如果返回结果为空,表示未设置特定的域名。

      SELECT value FROM v$parameter WHERE name = 'db_domain';
  2. 若出现unknown service error

    • 需检查监听器的当前状态,确保监听器正在运行并监听正确的端口,运行命令 lsnrctl status
    • 确认监听器配置文件(lsnrctl status会输出监听器配置状态等信息,寻找配置文件,通常是 listener.ora)中是否正确定义了服务名称,并与您尝试连接的服务名称匹配。
    • lsnrctl 在oracle数据库12版本中,此命令一般存放于 /u01/app/oracle/product/12.2.0/dbhome_1/ ; 在oracle数据库19版本中,一般存放于 /opt/oracle/product/19c/dbhome_1/bin
  3. 连接Oracle数据库
    使用操作系统的身份认证(通常是超级用户或管理员),直接以 sysdba 角色登录到数据库

    sqlplus / as sysdba

    使用指定账户登录

    sqlplus username/password@host:port/service_name
  4. 创建账户及授权
    注意!创建账户时必须使用管理员账户

    # 新建用户
    CREATE USER [user] IDENTIFIED BY [password];

    # 修改用户的密码,密码若含特殊字符需使用双引号将密码括起来
    ALTER USER [user] IDENTIFIED BY [password];

    # 允许用户建立数据库会话
    GRANT CREATE SESSION TO [user];

    # uptime指标授权
    GRANT SELECT ON V_$instance to [user];

    # rac指标授权
    GRANT SELECT ON GV_$instance to [user];

    # sessions类指标授权
    GRANT SELECT ON V_$session to [user];

    # resource类指标授权
    GRANT SELECT ON V_$resource_limit to [user];

    # asm_diskgroup类指标授权
    GRANT SELECT ON V_$datafile to [user];
    GRANT SELECT ON V_$asm_diskgroup_stat to [user];

    # activity类指标授权
    GRANT SELECT ON V_$sysstat to [user];

    # process类指标授权
    GRANT SELECT ON V_$process to [user];

    # wait_time类指标授权
    GRANT SELECT ON V_$waitclassmetric to [user];
    GRANT SELECT ON V_$system_wait_class to [user];

    # tablespace类指标授权
    GRANT SELECT ON dba_tablespace_usage_metrics to [user];
    GRANT SELECT ON dba_tablespaces to [user];

    # asm_disk_stat类指标授权
    GRANT SELECT ON V_$asm_disk_stat to [user];
    GRANT SELECT ON V_$asm_diskgroup_stat to [user];
    GRANT SELECT ON V_$instance to [user];

    # asm_space_consumers类指标授权
    GRANT SELECT ON V_$asm_alias to [user];
    GRANT SELECT ON V_$asm_diskgroup to [user];
    GRANT SELECT ON V_$asm_file to [user];

    # sga类指标授权
    GRANT SELECT ON V_$sga TO weops;
    GRANT SELECT ON V_$sgastat TO weops;

    # pga类指标授权
    GRANT SELECT ON V_$pgastat TO weops;
  5. 自定义指标查询文件

    • 文件内容规范

      • 每一类自定义查询指标必须含有[[metric]]开头
      • 对于每个指标部分,需要提供上下文(context)、请求(request)和请求字段与注释之间的映射。
      • context 指标前缀
      • labels 指标维度数据信息,[维度1], [维度2], [维度3]...
      • metricsdesc [指标后缀] = [指标的描述信息]
      • metricstype [指标后缀] = [指标类型]
      • request sql查询语句,注意sql中字段与 labelsmetricsdesc 的映射
    • 使用自定义指标查询 (通过命令行参数 --custom.metrics 设置),下方是默认的自定义指标文件配置内容

      [[metric]]
      context = "rac"
      metricsdesc = { node = "Number of nodes in the RAC cluster." }
      request = "select count(*) as node from gv$instance where database_type='RAC'"

      [[metric]]
      context = "asm_disk_stat"
      labels = [ "inst_id", "node_name", "instance_name", "diskgroup_name", "disk_number", "failgroup", "path" ]
      metricsdesc = { reads = "Total number of I/O read requests for the DG.", writes = "Total number of I/O write requests for the DG.", read_time = "Total I/O time (in hundreths of a second) for read requests for the disk", write_time = "Total I/O time (in hundreths of a second) for write requests for the disk", bytes_read = "Total number of bytes read from the DG", bytes_written = "Total number of bytes written from the DG", iops = "Total number of I/O requests for the DG" }
      metricstype = { reads = "counter", writes = "counter", bytes_read = "counter", read_time = "counter", write_time = "counter", bytes_written = "counter", iops = "counter" }
      request = '''
      SELECT i.instance_number AS inst_id,
      i.host_name AS node_name,
      i.instance_name,
      g.name AS diskgroup_name,
      ds.disk_number AS disk_number,
      ds.failgroup AS failgroup,
      ds.reads AS reads,
      ds.writes AS writes,
      ds.read_time * 1000 AS read_time,
      ds.write_time * 1000 AS write_time,
      ds.bytes_read AS bytes_read,
      ds.bytes_written AS bytes_written,
      REGEXP_REPLACE (ds.PATH, '.*/\', '\') AS PATH,
      ds.reads + ds.writes AS iops
      FROM v$asm_disk_stat ds, v$asm_diskgroup_stat g, v$instance i
      WHERE ds.mount_status = 'CACHED' AND ds.group_number = g.group_number
      '''

      [[metric]]
      context = "asm_space_consumers"
      labels = [ "inst_id", "diskgroup_name", "node_name", "instance_name", "sid", "file_type" ]
      metricsdesc = { size_mb = "Total space usage by db by file_type" , files = "Number of files by db by type" }
      request = '''
      SELECT i.instance_number AS inst_id,
      i.host_name AS node_name,
      i.instance_name,
      gname AS diskgroup_name,
      dbname AS sid,
      file_type,
      ROUND (SUM (space) / 1024 / 1024) size_mb,
      COUNT (*) AS files
      FROM v$instance i,
      (SELECT gname,
      REGEXP_SUBSTR (full_alias_path,
      '[[:alnum:]_]*',
      1,
      4) dbname,
      file_type,
      space,
      aname,
      system_created,
      alias_directory
      FROM ( SELECT CONCAT ('+' || gname,
      SYS_CONNECT_BY_PATH (aname, '/'))
      full_alias_path,
      system_created,
      alias_directory,
      file_type,
      space,
      LEVEL,
      gname,
      aname
      FROM (SELECT b.name gname,
      a.parent_index pindex,
      a.name aname,
      a.reference_index rindex,
      a.system_created,
      a.alias_directory,
      c.TYPE file_type,
      c.space
      FROM v$asm_alias a, v$asm_diskgroup b, v$asm_file c
      WHERE a.group_number = b.group_number
      AND a.group_number = c.group_number(+)
      AND a.file_number = c.file_number(+)
      AND a.file_incarnation = c.incarnation(+))
      START WITH (MOD (pindex, POWER (2, 24))) = 0
      AND rindex IN
      (SELECT a.reference_index
      FROM v$asm_alias a, v$asm_diskgroup b
      WHERE a.group_number =
      b.group_number
      AND (MOD (a.parent_index,
      POWER (2, 24))) =
      0)
      CONNECT BY PRIOR rindex = pindex)
      WHERE NOT file_type IS NULL AND system_created = 'Y')
      GROUP BY i.instance_number,
      i.host_name,
      i.instance_name,
      gname,
      dbname,
      file_type
      '''

4.4 postgres

参数说明

参数名含义是否必填使用举例
DATA_SOURCE_NAMEDSN参数,PostgreSQL数据源的环境变量,包括数据库地址、端口、数据库名、用户和密码等信息。 注意!该参数为环境变量postgresql://user:password@127.0.0.1:5432/postgres?sslmode=disable
--extend.query-path自定义指标采集文件路径 注意!该参数在平台层面为文件参数,进程中该参数值为采集配置文件路径(上传文件即可,平台会补充文件路径)!上传内容满足规范的文件
--log.level日志级别info
--web.listen-addressexporter监听id及端口地址127.0.0.1:9601
additional额外参数,可留空内容--disable-default-metrics

注意 一般连接的数据库名都需要填写为 postgres

额外参数说明

额外参数(additional)不需要赋值,只需要填写对应内容,作为采集器的功能或者采集指标的开关,postgreSQL插件支持的额外参数如下:

  1. 不采集默认指标,只保留自定义指标采集文件中的指标
    --disable-default-metrics
  2. 不采集配置(Setting)类,pg_settings前缀开头的指标
    --disable-settings-metrics
  3. 不采集后台写入器(Bgwriter)类,pg_stat_bgwriter前缀开头的指标
    --no-collector.bgwriter
  4. 不采集复制槽信息,replication_slot前缀开头的指标
    --no-collector.replication_slot

自定义查询配置文件

使用自定义查询配置文件 (通过命令行参数 --extend.query-path 设置) 来采集自定义监控指标,下方是内置自定义查询文件的内容:

pg_postmaster:  # 指标名前缀,该项下查询得到的指标都会有该前缀名
query: "SELECT pg_postmaster_start_time as start_time_seconds from pg_postmaster_start_time()" # 指标对应执行的sql查询语句
master: true # 这个参数是一个布尔值,设置这个查询是否应该只在主节点上执行。如果为true,则查询只在主节点上执行,否则在所有节点上执行。
metrics: # 指标列表,定义了要公开的指标名称和相应的监控类型
- start_time_seconds: # 指标名
usage: "GAUGE" # 指标类型
description: "Time at which postmaster started" # 指标描述

pg_replication:
query: "SELECT CASE WHEN NOT pg_is_in_recovery() THEN 0 ELSE GREATEST (0, EXTRACT(EPOCH FROM (now() - pg_last_xact_replay_timestamp()))) END AS lag"
master: true
metrics:
- lag:
usage: "GAUGE"
description: "Replication lag behind master in seconds"

pg_stat_statements:
query: "SELECT t2.rolname, t3.datname, queryid, calls, ( total_plan_time + total_exec_time ) / 1000 as total_time_seconds, ( min_plan_time + min_exec_time ) / 1000 as min_time_seconds, ( max_plan_time + max_exec_time ) / 1000 as max_time_seconds, ( mean_plan_time + mean_exec_time ) / 1000 as mean_time_seconds, ( stddev_plan_time + stddev_exec_time ) / 1000 as stddev_time_seconds, rows, shared_blks_hit, shared_blks_read, shared_blks_dirtied, shared_blks_written, local_blks_hit, local_blks_read, local_blks_dirtied, local_blks_written, temp_blks_read, temp_blks_written, blk_read_time / 1000 as blk_read_time_seconds, blk_write_time / 1000 as blk_write_time_seconds FROM pg_stat_statements t1 JOIN pg_roles t2 ON (t1.userid=t2.oid) JOIN pg_database t3 ON (t1.dbid=t3.oid) WHERE t2.rolname != 'rdsadmin' AND queryid IS NOT NULL"
master: true
metrics:
- rolname:
usage: "LABEL"
description: "Name of user"
- datname:
usage: "LABEL"
description: "Name of database"
- queryid:
usage: "LABEL"
description: "Query ID"
- calls:
usage: "COUNTER"
description: "Number of times executed"
- total_time_seconds:
usage: "COUNTER"
description: "Total time spent in the statement, in milliseconds"
- min_time_seconds:
usage: "GAUGE"
description: "Minimum time spent in the statement, in milliseconds"
- max_time_seconds:
usage: "GAUGE"
description: "Maximum time spent in the statement, in milliseconds"
- mean_time_seconds:
usage: "GAUGE"
description: "Mean time spent in the statement, in milliseconds"
- stddev_time_seconds:
usage: "GAUGE"
description: "Population standard deviation of time spent in the statement, in milliseconds"
- rows:
usage: "COUNTER"
description: "Total number of rows retrieved or affected by the statement"
- shared_blks_hit:
usage: "COUNTER"
description: "Total number of shared block cache hits by the statement"
- shared_blks_read:
usage: "COUNTER"
description: "Total number of shared blocks read by the statement"
- shared_blks_dirtied:
usage: "COUNTER"
description: "Total number of shared blocks dirtied by the statement"
- shared_blks_written:
usage: "COUNTER"
description: "Total number of shared blocks written by the statement"
- local_blks_hit:
usage: "COUNTER"
description: "Total number of local block cache hits by the statement"
- local_blks_read:
usage: "COUNTER"
description: "Total number of local blocks read by the statement"
- local_blks_dirtied:
usage: "COUNTER"
description: "Total number of local blocks dirtied by the statement"
- local_blks_written:
usage: "COUNTER"
description: "Total number of local blocks written by the statement"
- temp_blks_read:
usage: "COUNTER"
description: "Total number of temp blocks read by the statement"
- temp_blks_written:
usage: "COUNTER"
description: "Total number of temp blocks written by the statement"
- blk_read_time_seconds:
usage: "COUNTER"
description: "Total time the statement spent reading blocks, in milliseconds (if track_io_timing is enabled, otherwise zero)"
- blk_write_time_seconds:
usage: "COUNTER"
description: "Total time the statement spent writing blocks, in milliseconds (if track_io_timing is enabled, otherwise zero)"

使用指引

  1. 连接Postgres数据库 输入连接指令后输入对应的密码即可进入数据库。

    psql -U [user] -h [host] -p [port] -d [database]
  2. 创建账户及授权
    执行下方sql可以创建具有监控权限的账户,用户名 weops,密码 Weops123!注意! 数据库版本 >= 10才需要执行 GRANT pg_monitor TO weops; ,9.x版本无法执行该授权。

    CREATE OR REPLACE FUNCTION __tmp_create_user() returns void as $$
    BEGIN
    IF NOT EXISTS (
    SELECT -- SELECT list can stay empty for this
    FROM pg_catalog.pg_user
    WHERE usename = 'weops') THEN
    CREATE USER weops;
    END IF;
    END;
    $$ language plpgsql;

    SELECT __tmp_create_user();
    DROP FUNCTION __tmp_create_user();

    ALTER USER weops WITH PASSWORD 'Weops123!';
    ALTER USER weops SET SEARCH_PATH TO weops,pg_catalog;

    GRANT CONNECT ON DATABASE postgres TO weops;

    GRANT pg_monitor TO weops; -- 数据库版本 >= 10 才需要执行这条sql

    CREATE SCHEMA IF NOT EXISTS weops;
    GRANT USAGE ON SCHEMA weops TO weops;

    CREATE OR REPLACE FUNCTION get_pg_stat_activity() RETURNS SETOF pg_stat_activity AS
    $$ SELECT * FROM pg_catalog.pg_stat_activity; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_activity
    AS
    SELECT * from get_pg_stat_activity();

    GRANT SELECT ON weops.pg_stat_activity TO weops;

    CREATE OR REPLACE FUNCTION get_pg_stat_replication() RETURNS SETOF pg_stat_replication AS
    $$ SELECT * FROM pg_catalog.pg_stat_replication; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_replication
    AS
    SELECT * FROM get_pg_stat_replication();

    GRANT SELECT ON weops.pg_stat_replication TO weops;

    CREATE EXTENSION IF NOT EXISTS pg_stat_statements;
    CREATE OR REPLACE FUNCTION get_pg_stat_statements() RETURNS SETOF pg_stat_statements AS
    $$ SELECT * FROM public.pg_stat_statements; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_statements
    AS
    SELECT * FROM get_pg_stat_statements();

    GRANT SELECT ON weops.pg_stat_statements TO weops;

4.5 postgres

参数说明

参数名含义是否必填使用举例
DATA_SOURCE_NAMEDSN参数,PostgreSQL数据源的环境变量,包括数据库地址、端口、数据库名、用户和密码等信息。 注意!该参数为环境变量postgresql://user:password@127.0.0.1:5432/postgres?sslmode=disable
--extend.query-path自定义指标采集文件路径 注意!该参数在平台层面为文件参数,进程中该参数值为采集配置文件路径(上传文件即可,平台会补充文件路径)!上传内容满足规范的文件
--log.level日志级别info
--web.listen-addressexporter监听id及端口地址127.0.0.1:9601
additional额外参数,可留空内容--disable-default-metrics

注意 一般连接的数据库名都需要填写为 postgres

  • 额外参数说明

额外参数(additional)不需要赋值,只需要填写对应内容,作为采集器的功能或者采集指标的开关,postgreSQL插件支持的额外参数如下:

  1. 不采集默认指标,只保留自定义指标采集文件中的指标
    --disable-default-metrics
  2. 不采集配置(Setting)类,pg_settings前缀开头的指标
    --disable-settings-metrics
  3. 不采集后台写入器(Bgwriter)类,pg_stat_bgwriter前缀开头的指标
    --no-collector.bgwriter
  4. 不采集复制槽信息,replication_slot前缀开头的指标
    --no-collector.replication_slot
  • 自定义查询配置文件

使用自定义查询配置文件 (通过命令行参数 --extend.query-path 设置) 来采集自定义监控指标,下方是内置自定义查询文件的内容:

pg_postmaster:  # 指标名前缀,该项下查询得到的指标都会有该前缀名
query: "SELECT pg_postmaster_start_time as start_time_seconds from pg_postmaster_start_time()" # 指标对应执行的sql查询语句
master: true # 这个参数是一个布尔值,设置这个查询是否应该只在主节点上执行。如果为true,则查询只在主节点上执行,否则在所有节点上执行。
metrics: # 指标列表,定义了要公开的指标名称和相应的监控类型
- start_time_seconds: # 指标名
usage: "GAUGE" # 指标类型
description: "Time at which postmaster started" # 指标描述

pg_replication:
query: "SELECT CASE WHEN NOT pg_is_in_recovery() THEN 0 ELSE GREATEST (0, EXTRACT(EPOCH FROM (now() - pg_last_xact_replay_timestamp()))) END AS lag"
master: true
metrics:
- lag:
usage: "GAUGE"
description: "Replication lag behind master in seconds"

pg_stat_statements:
query: "SELECT t2.rolname, t3.datname, queryid, calls, ( total_plan_time + total_exec_time ) / 1000 as total_time_seconds, ( min_plan_time + min_exec_time ) / 1000 as min_time_seconds, ( max_plan_time + max_exec_time ) / 1000 as max_time_seconds, ( mean_plan_time + mean_exec_time ) / 1000 as mean_time_seconds, ( stddev_plan_time + stddev_exec_time ) / 1000 as stddev_time_seconds, rows, shared_blks_hit, shared_blks_read, shared_blks_dirtied, shared_blks_written, local_blks_hit, local_blks_read, local_blks_dirtied, local_blks_written, temp_blks_read, temp_blks_written, blk_read_time / 1000 as blk_read_time_seconds, blk_write_time / 1000 as blk_write_time_seconds FROM pg_stat_statements t1 JOIN pg_roles t2 ON (t1.userid=t2.oid) JOIN pg_database t3 ON (t1.dbid=t3.oid) WHERE t2.rolname != 'rdsadmin' AND queryid IS NOT NULL"
master: true
metrics:
- rolname:
usage: "LABEL"
description: "Name of user"
- datname:
usage: "LABEL"
description: "Name of database"
- queryid:
usage: "LABEL"
description: "Query ID"
- calls:
usage: "COUNTER"
description: "Number of times executed"
- total_time_seconds:
usage: "COUNTER"
description: "Total time spent in the statement, in milliseconds"
- min_time_seconds:
usage: "GAUGE"
description: "Minimum time spent in the statement, in milliseconds"
- max_time_seconds:
usage: "GAUGE"
description: "Maximum time spent in the statement, in milliseconds"
- mean_time_seconds:
usage: "GAUGE"
description: "Mean time spent in the statement, in milliseconds"
- stddev_time_seconds:
usage: "GAUGE"
description: "Population standard deviation of time spent in the statement, in milliseconds"
- rows:
usage: "COUNTER"
description: "Total number of rows retrieved or affected by the statement"
- shared_blks_hit:
usage: "COUNTER"
description: "Total number of shared block cache hits by the statement"
- shared_blks_read:
usage: "COUNTER"
description: "Total number of shared blocks read by the statement"
- shared_blks_dirtied:
usage: "COUNTER"
description: "Total number of shared blocks dirtied by the statement"
- shared_blks_written:
usage: "COUNTER"
description: "Total number of shared blocks written by the statement"
- local_blks_hit:
usage: "COUNTER"
description: "Total number of local block cache hits by the statement"
- local_blks_read:
usage: "COUNTER"
description: "Total number of local blocks read by the statement"
- local_blks_dirtied:
usage: "COUNTER"
description: "Total number of local blocks dirtied by the statement"
- local_blks_written:
usage: "COUNTER"
description: "Total number of local blocks written by the statement"
- temp_blks_read:
usage: "COUNTER"
description: "Total number of temp blocks read by the statement"
- temp_blks_written:
usage: "COUNTER"
description: "Total number of temp blocks written by the statement"
- blk_read_time_seconds:
usage: "COUNTER"
description: "Total time the statement spent reading blocks, in milliseconds (if track_io_timing is enabled, otherwise zero)"
- blk_write_time_seconds:
usage: "COUNTER"
description: "Total time the statement spent writing blocks, in milliseconds (if track_io_timing is enabled, otherwise zero)"

使用指引

  1. 连接Postgres数据库 输入连接指令后输入对应的密码即可进入数据库。

    psql -U [user] -h [host] -p [port] -d [database]
  2. 创建账户及授权
    执行下方sql可以创建具有监控权限的账户,用户名 weops,密码 Weops123!注意! 数据库版本 >= 10才需要执行 GRANT pg_monitor TO weops; ,9.x版本无法执行该授权。

    CREATE OR REPLACE FUNCTION __tmp_create_user() returns void as $$
    BEGIN
    IF NOT EXISTS (
    SELECT -- SELECT list can stay empty for this
    FROM pg_catalog.pg_user
    WHERE usename = 'weops') THEN
    CREATE USER weops;
    END IF;
    END;
    $$ language plpgsql;

    SELECT __tmp_create_user();
    DROP FUNCTION __tmp_create_user();

    ALTER USER weops WITH PASSWORD 'Weops123!';
    ALTER USER weops SET SEARCH_PATH TO weops,pg_catalog;

    GRANT CONNECT ON DATABASE postgres TO weops;

    GRANT pg_monitor TO weops; -- 数据库版本 >= 10 才需要执行这条sql

    CREATE SCHEMA IF NOT EXISTS weops;
    GRANT USAGE ON SCHEMA weops TO weops;

    CREATE OR REPLACE FUNCTION get_pg_stat_activity() RETURNS SETOF pg_stat_activity AS
    $$ SELECT * FROM pg_catalog.pg_stat_activity; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_activity
    AS
    SELECT * from get_pg_stat_activity();

    GRANT SELECT ON weops.pg_stat_activity TO weops;

    CREATE OR REPLACE FUNCTION get_pg_stat_replication() RETURNS SETOF pg_stat_replication AS
    $$ SELECT * FROM pg_catalog.pg_stat_replication; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_replication
    AS
    SELECT * FROM get_pg_stat_replication();

    GRANT SELECT ON weops.pg_stat_replication TO weops;

    CREATE EXTENSION IF NOT EXISTS pg_stat_statements;
    CREATE OR REPLACE FUNCTION get_pg_stat_statements() RETURNS SETOF pg_stat_statements AS
    $$ SELECT * FROM public.pg_stat_statements; $$
    LANGUAGE sql
    VOLATILE
    SECURITY DEFINER;

    CREATE OR REPLACE VIEW weops.pg_stat_statements
    AS
    SELECT * FROM get_pg_stat_statements();

    GRANT SELECT ON weops.pg_stat_statements TO weops;

4.6 Redis

参数说明

参数名含义是否必填使用举例
REDIS_USER用于身份验证的用户名(环境变量),Redis ACL for Redis 6.0+, 默认为空admin
REDIS_PASSWORDredis密码(环境变量),若为空则不填,默认为空123456
-redis.addrredis 实例地址redis://localhost:6379
-include-system-metrics是否包含系统指标,比如total_system_memory_bytes, 默认为falsetrue
-is-cluster是否集群模式, 默认为falsefalse
-ping-on-connect连接后是否ping redis 实例并将持续时间记录为指标,默认为falsetrue
-connection-timeout连接到redis的超时时间, 默认为15s15s
-web.listen-addressexporter监听id及端口地址127.0.0.1:9601

使用指引

  1. 验证redis密码

    ./redis-cli -h redis地址 -p 端口号
    ./redis-cli -h 127.0.0.1 -p 6379

    # 进入后会出现 127.0.0.1:6379>
    # 在右侧输入AUTH 密码, 如果正确会返回OK, 下面是一些示例
    root@5a3f395bab17:/usr/local/bin# ./redis-cli -h 127.0.0.1 -p 6379 -a wsbs201712
    Warning: Using a password with '-a' or '-u' option on the command line interface may not be safe.
    127.0.0.1:6379>
    127.0.0.1:6379> AUTH 1234567
    (error) ERR invalid password
    127.0.0.1:6379> AUTH 123456
    OK
    127.0.0.1:6379> config get requirepass
    1) "requirepass"
    2) "123456"
    • 查看redis密码 方法1: 通过redis-cli进入redis后执行config get requirepass命令

      # 返回示例,密码为空
      127.0.0.1:6379> config get requirepass
      1) "requirepass"
      2) ""

      # 返回示例,密码不为空
      127.0.0.1:6379> config get requirepass
      (error) NOAUTH Authentication required.

      方法2: 寻找Redis的配置文件, 默认在/etc/redis.conf,找到字样"requirepass" requirepass redis密码

5、告警源插件说明

序号告警源插件版本
1REST API无需版本适配
2VCenter5.5及以上
3华为云
4阿里云
5腾讯云
6听云
6Zabbix3.X、4.X、5.X
7Prometheus2.15
8日志易3.6
9H3C-IMC
10华为esight系统
11绿盟日志审计系统V2.0


6、内置仪表盘说明

序号仪表盘名称关键指标
1单主机运行状态CPU使用率、应用内存可用率、磁盘空间使用率、1分钟系统负载、系统进程数、磁盘IO使用率、当前连接数、网卡出流量、网卡入流量、可用inode数量
2应用主机运行状态CPU使用率、内存剩余空间、磁盘空间使用率、5分钟系统负载、磁盘IO使用率、当前连接数、网卡出流量、网卡入流量
3Oracle监控数据库状态、服务器CPU使用率、服务器内存使用率、进程使用率、活跃用户会话数、阻塞超过3分钟个数、软解析率、PGA使用率、SGA使用率、SharePool使用率、缓冲区命中率、表空间使用率、Top5等待事件及数量、ASM磁盘状态、ASM磁盘使用率、ScanIP监听状态、redolog1小时内切换次数、VIP监听状态、归档日志空间使用率
4MySQL监控服务器CPU使用率、服务器内存使用率、数据文件所在空间使用率、binlog日志所在空间使用率、当前已连接的线程数、查询缓存命中率、每分钟执行语句的次数、每分钟查询次数、每分钟慢查询的次数、InnoDB缓冲池的使用率、InnoDB每分钟写日志请求数、主从同步状态、主从延迟时间、线程使用率
5MSSQL监控用户连接数、作业执行状态、数据库缓存页面数、每秒连接错误数、服务器CPU使用率、服务器内存使用率、数据库连接数、平均磁盘队列长度、缓冲区命中率、阻塞进程数、等待内存授予的进程数、数据库文件使用率、数据库日志文件使用率、每秒刷新的脏页数、每秒全表扫描数、每秒惰性写入、排队等待物理磁盘的物理读写请求的平均数、每秒锁等待数、每秒锁超时数、每秒等待内存页I/O锁的时间
6Redis监控仪表盘redis可用性、内存碎片率、Redis分配器分配的内存总量、客户端连接数、拒绝的连接数、退出的秘钥数量、过期的密钥总数、keyspace命中成功率、每秒处理命令数、每秒输入字节数、每秒输出字节数、服务器CPU使用率、服务器内存使用率、数据占用的内存大小的百分比
7Apache监控仪表盘Apache状态、运行时间、忙碌的worker数、空闲的worker数、服务器CPU使用率、服务器内存使用率、进程IO写速率、进程IO读速率、不同状态计分版数量统计、每个请求的字节数、每秒传输的字节数、每分钟平均请求数
8Tomcat监控仪盘活动连接数、会话数、全局请求数、线程数、堵塞线程数、接收的流量、发送的流量、过期会话数、错误请求数、线程池状态、服务器CPU使用率、服务器内存使用率
9Nginx监控仪盘Nginx监控状态、正在处理的活跃的连接数、驻留(等待)等待连接数、每分钟成功握手次数、服务器CPU使用率、服务器内存使用率、读连接数、写连接数、每分钟成功处理请求数、每分钟处理未丢失的请求数


7、健康扫描包说明

共内置11个扫描包,各个扫描包的介绍和相关指标见下表

序号扫描包名称对象操作系统检查项数量检查项
1基础健康检查-Windows主机Windows10Windows是否激活、内存可用大小、磁盘空间使用率(Windows)、磁盘可用空间(Windows)、磁盘IO读速率、磁盘IO写速率、DCP时间百分比、处理器队列长度、逻辑磁盘队列长度、每秒页面错误数
2基础健康检查-Linux主机Linux8磁盘空间使用率(Linux)、磁盘可用空间(Linux)、交换空间使用率、iNode可用大小、iNode使用率、僵尸进程数、TIME_WAIT状态的连接数、passwd文件权限
3基础健康检查-ActiveDirectoryActiveDirectory4AD数据库文件盘可用空间、AD数据库日志文件盘可用空间、AD健康性检查、时间偏差检查
4基础健康检查-ExchangeServerExchangeServer(支持系统为Exchange Server 2016/2019的邮箱角色)22关键服务测试、活动目录连接测试、ActiveSync连接测试、Ecp连接测试、Imap连接测试、Owa连接测试、Pop连接测试、Outlook连接测试、Smtp连接测试、复制健康性测试、数据包出站错误、数据库平均读延迟、数据库平均写延迟、数据库日志平均读延迟、数据库日志平均写延迟、应用重启次数、工作进程重启次数、应用队列中的请求数、RPC请求数(信息存储进程)、RPC平均延迟(客户端协议)、RPC平均延迟(数据库)、证书过期时间
5基础健康检查- MSSQL(Windows)MSSQLWindows26缓冲区命中率、磁盘空间使用率、可用连接数、MSSQL内存可用大小、阻塞源会话(近一个小时)、死锁情况(近一个小时)、长事务(TOP5)、页生存周期、实例内存使用情况、数据库使用内存、可用线程数、资源等待Top5、磁盘队列数、群集资源状态、群集网络状态、群集仲裁状态、AlwaysOn同步健康状态、AlwaysOn发送队列大小、AlwaysOn重做队列大小、AlwaysOn重做延迟时长、文件组可用大小、错误日志磁盘可用大小、作业执行失败Top20、最近备份时间、SQL代理服务启动方式、最近完整备份时间
6基础健康检查- MySQL(Windows)MySQLWindows17InnoDB缓冲区命中率、每秒查询数、每秒事务数、每秒全表扫描数量、慢查询数量、数据空间使用率、Binlog日志空间使用率、不能立即获得表锁次数、InnoDB行锁次数、可用连接数、数据文件总大小、InnoDB缓存池可用大小、锁等待数量、操作系统CPU使用率、操作系统内存使用率、操作系统内存可用大小、操作系统交换空间使用率
7基础健康检查- MySQL(Linux)MySQLLinux17InnoDB缓冲区命中率、每秒查询数、每秒事务数、每秒全表扫描数量、慢查询数量、数据空间使用率、Binlog日志空间使用率、不能立即获得表锁次数、InnoDB行锁次数、可用连接数、数据文件总大小、InnoDB缓存池可用大小、锁等待数量、操作系统CPU使用率、操作系统内存使用率、操作系统内存可用大小、操作系统交换空间使用率
8基础健康检查- Oracle(Windows)OracleWindows20缓冲区命中率、共享池命中率、表空间空间使用率、归档空间使用率、数据空间使用率、ASM磁盘组空间使用率、可用会话数、可用进程数、SQL硬解析百分比、内存排序百分比、无效索引个数、行锁等待大于1分钟数量、联机日志每小时切换次数、DG状态、最近备份成功状态、实例状态、监听状态、Oracle目录使用率、操作系统内存使用率、操作系统内存可用大小
9基础健康检查- Oracle(Linux)OracleLinux14缓冲区命中率、共享池命中率、表空间空间使用率、可用会话数、可用进程数、SQL硬解析百分比、内存排序百分比、无效索引个数、行锁等待大于1分钟数量、联机日志每小时切换次数、最近备份成功状态、实例状态、监听状态、Oracle目录使用率
10基础健康检查- vCenter(Windows)vCenterWindows7物理机最新启动时间、物理机cpu使用率、物理机内存使用率、物理机上虚拟机数量、存储空间使用率、物理机NTP服务器、物理机NTP服务状态
11基础健康检查- vCenter(Linux)vCenterLinux7物理机最新启动时间、物理机cpu使用率、物理机内存使用率、物理机上虚拟机数量、存储空间使用率、物理机NTP服务器、物理机NTP服务状态


8、运维工具说明

内置的脚本工具的介绍见下表

序号工具类型工具名脚本类型工具介绍
1操作系统类查询消耗系统内存最多的进程shell(Linux)查找出Linux系统当前占用内存资源最多的TopN进程
2操作系统类查询消耗系统CPU最多的进程shell(Linux)查找出Linux系统当前占用CPU资源最多的TopN进程
3操作系统类MSSQL全库备份powershell(Windows)将MSSQL全库备份到所选服务器的指定目录,支持SQL Server 2008 R2及以上版本
4操作系统类修改Windows本地账号密码powershell(Windows)修改Windows本地账号密码,支持Powershell 5.2及以上版本
5操作系统类修改Linux账号密码shell(Linux)修改Linux账号密码
6操作系统类查询系统本地帐户信息powershell(Windows)查找出Windows系统所有本地帐户的信息
7操作系统类查询AD用户上次登陆时间powershell(Windows)查找出指定的AD用户上次登陆时间,需在域服务器执行该脚本
8操作系统类查询服务进程状态信息shell(Linux)查找出Linux系统指定进程的状态信息
9操作系统类查询占用空间最大的目录和文件shell(Linux)查找出Linux系统指定目录下占用空间最大的top N目录和文件
10操作系统类Pingshell(Linux)测试所选主机与目标主机的数据连通性是否正常
11操作系统类查看Linux日志文件shell(Linux)查看Linux日志文件,协助问题排查
12操作系统类AD密码质量审计powershell(Windows)执行AD审计,检查AD账号使用弱密码、重复密码、默认密码和空密码等情况
13操作系统类查找容量最大的文件shell(Linux)查找容量最大的文件
14操作系统类统计目录的文件数量shell(Linux)统计目录的文件数量
15操作系统类查询僵尸进程数shell(Linux)查询僵尸进程数
16操作系统类查询文件打开数最多的进程shell(Linux)查询文件打开数最多的进程
17操作系统类MySQL显示错误日志内容shell(Linux)MySQL显示错误日志内容
18操作系统类Oracle显示错误日志内容shell(Linux)Oracle显示错误日志内容
19操作系统类MySQL显示参数值shell(Linux)MySQL显示参数值
20操作系统类查询网络连接数最多的服务python(Linux)查询网络连接数最多的服务
21操作系统类查找UID或GID为0的系统用户shell(Linux)查找UID或GID为0的系统用户
22操作系统类查询已删除用户的进程shell(Linux)查询已删除用户的进程
23操作系统类Oracle显示参数值shell(Linux)Oracle显示参数值
24操作系统类查询权限为777的文件shell(Linux)查询权限为777的文件
25操作系统类统计TIME_WAIT连接数量python(Linux)统计TIME_WAIT连接数量
26操作系统类查询无属主或无属组的文件shell(Linux)查询无属主或无属组的文件
27操作系统类查询进程的文件打开数shell(Linux)查询进程的文件打开数
28操作系统类收集sosreportshell(Linux)收集sosreport或 supportconfig
29操作系统类检查拥有sudo权限账号或组shell(Linux)检查拥有sudo权限账号或组
30操作系统类MySQL查询实例连接数和活动连接数shell(Linux)MySQL查询实例连接数和活动连接数
31操作系统类Oracle查询实例连接数和活动连接数shell(Linux)Oracle查询实例连接数和活动连接数
32操作系统类Oracle查看正在运行的SQL语句shell(Linux)Oracle查看正在运行的SQL语句
33操作系统类Oracle查看最近15分钟的等待事件shell(Linux)Oracle查看最近15分钟的等待事件
34操作系统类Oracle查询会话增长趋势shell(Linux)Oracle查询会话增长趋势
35操作系统类Oracle查看当前的等待事件shell(Linux)Oracle查看当前的等待事件
36操作系统类Oracle查看表空间的大小和可用空间shell(Linux)Oracle查看表空间的大小和可用空间
37操作系统类Oracle查看数据库锁信息shell(Linux)Oracle查看数据库锁信息
38操作系统类查看系统防火墙启用情况powershell(Windows)查看系统防火墙启用情况
39操作系统类查看占用内存 Top10进程信息powershell(Windows)查看占用内存 Top10进程信息
40操作系统类Oracle查看ASM磁盘组大小和可用空间shell(Linux)Oracle查看ASM磁盘组大小和可用空间
41操作系统类Oracle查询数据库中具有DBA权限的用户shell(Linux)Oracle查询数据库中具有DBA权限的用户
42操作系统类MySQL查看表空间的大小和可用空间shell(Linux)MySQL查看表空间的大小和可用空间
42操作系统类MySQL查询当前运行的SQL语句shell(Linux)MySQL查询当前运行的SQL语句
43操作系统类查看所有物理网卡的网线连接状态shell(Linux)查看所有物理网卡的网线连接状态
44操作系统类Linux补丁升级shell(Linux)适用于已部署Yum源的Linux服务器
序号工具类型工具名脚本类型工具介绍
1网络设备类显示CDP查找进程的结果(思科)telnet可以看见本地接口ID,与此接口直连的设备ID,设备类型,若对端接口是路由接口,可以看见对端接口ID
2网络设备类显示打开的CDP接口信息(思科)telnet可以看见接口状态,连接状态,封装类型,发送cdp报文周期
3网络设备类显示CDP表中所列相邻设备的信息(思科)telnet展示运行cdp协议的邻居设备的详细信息:设备ID,厂家,设备能力,ip地址,IOS类型和版本,设备功能
4网络设备类展示总包吞吐量(思科)telnet
5网络设备类展示接口统计信息(思科)telnet显示设置在路由器和访问服务器上所有接口的统计信息
6网络设备类显示连接所有用户(思科)telnet
7网络设备类显示产品库存清单(思科)telnet显示安装的所有思科产品的产品库存清单和UDI
8网络设备类显示接口的状态和全局参数(思科)telnet
9网络设备类显示路由选择表的当前状态(思科)telnet
10网络设备类显示IP路由表信息(思科)telnet
11网络设备类显示路由器的进程(思科)telnet
12网络设备类显示设置的协议(思科)telnet显示全局和接口的第三层协议的特定状态。
13网络设备类显示内存大小(思科)telnet
14网络设备类展示进程内存使用量(思科)telnet显示每个系统进程或指定进程使用的内存量
15网络设备类展示进程CPU使用率(思科)telnet显示所有进程及其CPU利用率
16网络设备类显示系统版本信息(思科)telnet

【备注】网络设备自动化运维支持的范围如下 | 类别|型号| | -----| ----| | 网络设备自动化支持的型号|A10, Accedian, AdtranOS,AlcatelAos,NokiaSros, ApresiaAeos, Arista, Aruba, HPProcurve, HPProcurve, ExtremeErs, ExtremeVsp, BroadcomIcos, RuckusFastiron, ExtremeNetiron, ExtremeNos,ExtremeNos, VyOS, CheckPointGaia, CalixB6,CentecOS,CienaSaos,CiscoAsa,CiscoFtd,CiscoIos,CiscoNxos,CiscoS300,CiscoTpTcCe,CiscoWlc,CiscoIos,CiscoXr,CloudGenixIon,Coriant,DellForce10,DellForce10,DellDNOS6,DellForce10,DellOS10,DellPowerConnect,DellIsilon,DlinkDS,Endace,Eltex,EltexEsr,Enterasys,ExtremeExos,ExtremeErs,ExtremeExos, ExtremeNetiron,ExtremeNos,ExtremeSlx,ExtremeNos,ExtremeVsp,ExtremeWing,F5Tmsh,F5Tmsh,F5Linux,Flexvnf,Fortinet,Generic,TerminalServer,HPComware,HPProcurve,Huawei,HuaweiSmartAX,HuaweiSmartAX,HuaweiVrpv8,IpInfusionOcNOS,Juniper,Juniper,JuniperScreenOs,Keymile,KeymileNOS,Linux, MikrotikRouterOs,MikrotikSwitchOs,MellanoxMlnxos, MellanoxMlnxos,MrvLx, MrvOptiswitch,NetAppcDot,NetgearProSafe,Netscaler, NokiaSros, OneaccessOneOS,OvsLinux, PaloAltoPanos,Pluribus,QuantaMesh,RaisecomRoap,RuckusFastiron,RuijieOS,SixwindOS,SophosSfos,TPLinkJetStream,UbiquitiEdge, UbiquitiEdgeRouter, UbiquitiEdge, UbiquitiUnifiSwitch,VyOS, WatchguardFireware, ZteZxros, Yamaha,|



9、内置工单流程

共内置5个自动化工单流程,具体介绍见下表

序号服务名称服务流程
1AD账号创建【前置条件】AD已经纳管/AD凭据已经录入→【提单】填写新建的信息→【管理员审批】选择域和组→【自动执行】引用自动化流程自动批量创建→【发送邮件】申请人接收通知邮件
2AD账号密码重置【前置条件】AD已经纳管/AD凭据已经录入→【提单】填写重置信息→【管理员审批】选择域和组→【自动执行】引用自动化流程自动批量重置→【发送邮件】申请人接收通知邮件
3AD账号禁用【前置条件】AD已经纳管/AD凭据已经录入→【提单】填写禁用的信息→【管理员审批】选择域和组→【自动执行】引用自动化流程自动批量禁用→【发送邮件】申请人接收通知邮件
4AD账号删除【前置条件】AD已经纳管/AD凭据已经录入→【提单】填写删除的信息→【管理员审批】选择域和组→【自动执行】引用自动化流程自动批量删除→【发送邮件】申请人接收通知邮件
5数据库SQL语句执行【前置条件】数据库已经纳管/数据库凭据已经录入→【提单】填写执行对象和SQL语句→【管理员审批】审批并选择凭据→【自动执行】引用自动化流程自动执行
6VMware虚拟机创建【前置条件】vcenter已经纳管并设置自动发现/凭据已经录入→【提单】填写申请的虚拟机配置→【管理员审批】审批并选择凭据→【自动执行】引用自动化流程自动执行
7VMware虚拟机快照创建【前置条件】vcenter已经纳管并设置自动发现/凭据已经录入→【提单】填写申请的信息→【管理员审批】审批并选择凭据→【自动执行】引用自动化流程自动执行
8VMware虚拟机快照回滚【前置条件】vcenter已经纳管并设置自动发现/凭据已经录入→【提单】填写申请的信息→【管理员审批】审批并选择凭据→【自动执行】引用自动化流程自动执行

共内置36个工单流程,具体介绍见下表

序号服务类型服务流程流程字段
1【AD相关】开通AD帐号使用人、账号名、显示名、手机号、邮箱、部门、使用时间、禁用时间、用途、紧急程度
2【AD相关】续用AD帐号使用人、账号名、手机号、邮箱、部门、禁用时间、原因、紧急程度
3【AD相关】修改AD帐号信息使用人、账号名、部门、修改内容、原因、紧急程度
4【AD相关】重置AD帐号密码使用人、账号名、部门、原因、紧急程度
5【AD相关】禁用AD帐号使用人、账号名、部门、原因、紧急程度
6【邮箱相关】开通邮箱帐号使用人、账号名、手机号、部门、使用时间、释放时间、邮箱容量、原因、紧急程度
7【邮箱相关】续用邮箱帐号使用人、邮箱、部门、释放时间、补充说明、紧急程度
8【邮箱相关】扩容邮箱帐号使用人、邮箱、部门、原因、扩容量、紧急程度
9【邮箱相关】注销邮箱帐号使用人、邮箱、部门、原因、紧急程度
10【服务器相关】申请服务器使用人、部门、使用时间、释放时间、规格、操作系统、指定IP、用途、补充说明、紧急程度
11【服务器相关】续用服务器使用人、部门、服务器IP、释放时间、用途、紧急程度
12【服务器相关】释放服务器使用人、部门、服务器IP、原因、紧急程度
13【服务器相关】扩容服务器使用人、部门、服务器IP、现规格、扩充至、紧急程度
14【服务器相关】创建服务器快照使用人、部门、服务器IP、原因、紧急程度
15【服务器相关】回滚服务器快照使用人、部门、服务器IP、原因、快照时间、紧急程度
16【服务器相关】服务器文件上传使用人、部门、服务器IP、操作系统、原因、紧急程度、附件
17【服务器相关】服务器文件下载使用人、部门、服务器IP、操作系统、文件路径、原因、紧急程度
18【服务器相关】开通网络策略使用人、部门、服务器IP、开通端口、用途、紧急程度
19【笔记本相关】申请笔记本使用人、部门、操作系统、型号、规格、预装软件、使用时间、退还时间、用途、紧急程度
20【笔记本相关】续用笔记本使用人、部门、资产编码、型号、退还时间、原因、紧急程度
21【笔记本相关】维修笔记本使用人、部门、资产编码、型号、是否为公司电脑、维修方式、故障现象、故障原因、紧急程度
22【笔记本相关】更换笔记本使用人、部门、资产编码、型号、现规格型号、期望规格型号、原因、紧急程度
23【笔记本相关】退还笔记本使用人、部门、资产编码、型号、原因
24【笔记本相关】安装办公软件使用人、部门、资产编码、型号、操作系统、软件名称、软件版本、用途、紧急程度
25【办公设备相关】申请办公设备使用人、部门、设备类型、使用时间、退还时间、用途、其他要求、紧急程度
26【办公设备相关】续用办公设备使用人、部门、资产编码、设备类型、型号、退还时间、原因、紧急程度
27【办公设备相关】维修办公设备使用人、部门、资产编码、设备类型、型号、故障现象、故障原因
28【办公设备相关】更换办公设备使用人、部门、资产编码、设备类型、现规格型号、期望规格型号、原因、紧急程度
29【办公设备相关】退还办公设备使用人、部门、资产编码、型号、原因
30【办公设备相关】打印机加纸设备位置、紧急程度
31【办公设备相关】更换墨盒设备位置、紧急程度
32【门禁相关】申请门禁账号使用人、工号、部门、使用时间、注销时间、原因、紧急程度
33【门禁相关】续用门禁帐号使用人、工号、部门、注销时间、原因、紧急程度
34【门禁相关】重置门禁密码使用人、工号、部门、原因、紧急程度
35【门禁相关】注销门禁账号使用人、工号、部门、原因、紧急程度
36【告警转工单】告警转工单标题、关联业务、影响范围、紧急程度、优先级、描述