嘉为蓝鲸WeOps 4.17 产品介绍
产品背景
国家十四五规划及2035年愿景目标纲要中提到,要加快数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革。新一代信息技术与行业加速融合,企业数字转型需求日益显现。为企业数字化提出了更高的目标“业务模式数字化+客户体验数字化+运营管理数字化”,企业数字化转型的要义:技术与业务的快速融合。 变革为企业带来机遇的同时也迎来了新的挑战,转型过程中的业务连续性成为了企业快速发展过程中的生命线,而业务连续性管理将成为运维的核心。 此外,在国产化浪潮下,主流软硬件更迭加快,在政策和技术的双轮驱动下,国产软硬件的市场份额逐年增加,基础软硬件国产化是IT市场发展必然趋势
IT运维困境
IT资产管理混乱,无法定义资产价值
- IT资产数量多,关联关系复杂多变,手工管理起来乱如麻,造成维护成本高,数据质量差。资产维保到期无感知,资产盘点无从下手,常规的运维工作极难开展;一旦出现故障,不知道找谁处理,不清楚影响范围有多大
IT监控缺乏全局视角,业务故障无法快速解决
- 每天接收海量告警事件,“狼来了”的故事持续上演,真实故障无法被响应;业务故障无感知,用户报障方察觉,信息部门变“救火队”,被动支持问题;无法清晰直观的展示业务系统的运行状态;
IT运维成本高,方式方法落后,产能低
- 高达80%时间手工处理重复、繁琐、低价值的日常运维工作,运维效率低;主机分散,运维入口不统一,权限无法统一控制,发生事故难以定位定责;经验难传承,“师傅带徒弟,口口相传”,不能形成知识库;
运维服务投入大,业务对服务的价值无感
- 服务请求量大,运维同事长期处于找人或者各种事件确认过程,造成大量的时间浪费;事件请求多以电话、微信等方式接收,常常出现事件处理遗漏或者遗忘等情况,经常导致用户投诉;运维人员疲于响应各类事件处理,但没有形成完整的工作记录,工作无法量化,价值难以体现;
产品定位
WeOps是为企业的IT运维部门提供覆盖资源管理、监控告警、健康扫描、运维工具、知识库等多项功能为一体的运维工具,通过打通各业务单元、贯穿各技术栈,以故障定位和全生命周期管理为核心,持续保障业务连续性。
产品架构
产品模块
智能监控:业务及组件全方位监测,及时全面感知问题
WeOps性能监控提供统一的视图,支持看到应用整体的运行情况,覆盖:主机、数据库、中间件、K8S、网站、虚拟化、邮件系统、AD等对象
与其他监控工具不同,WeOps各模块之间融合联动,性能监控和智能告警、知识库以及自动化工具共同组成“发现问题-分析问题-解决问题-沉淀经验”的场景闭环,有效提升IT运维质量。
- 便捷易用,提供统一的应用视图
- 强大的监控能力,覆盖常用IT对象的2000+指标
- 具备自动化能力快速分析和解决问题
智能告警:故障及时感知,降低故障排查时间,提升运维效率,降低运维成本
WeOps智能告警提供智能处理告警的能力,集中海量的告警事件进行降噪和关联分析,辅助根因定位,并可联动自动化工具实现故障自愈,从而提升企业的运维效率,降低运维成本。
- 支持接入其他系统的告警事件进行集中管理
- 自动屏蔽无效告警,过滤重复告警
- 展示告警对象的关联拓扑,辅助根因定位和影响分析
- 故障自愈
日志管理:日志统一采集和管理,满足合规性要求
满足日志管理合规性要求,快速提高日志价值获取效率,扩充监控能力,完善监控体系。
- 使用无代理日志收集、基于代理的日志收集和日志导入,包括Syslog、JSON、Kafka、AMQP、SNMP等多种输入源
- 提供了多种日志字段提取的方式,将日志进行结构化,提取出相应的字段信息,有助于日志后继的分析
- 使用全文搜索引擎打造秒级关键字搜索功能,输入搜索条件一键抵达事件发生现场,无需手动登陆服务器查看日志。
- 提供监控告警规则,灵活配置支持各种日志监控应用场景,通过微信、电话等方式多种途径及时通知。
- 根据业务情况和系统状况,可以任意灵活插拔各种分析报表。报表自动刷新,异步交互,实时查看系统总览。
IT服务台:统一门户,凸显IT运维价值
WeOps IT服务台促进IT团队对业务部门提供更加及时有效的运维持续性服务,支持快速构建服务流程,并可联动自动化工具提供自助服务的能力,提升IT服务满意度。
- 快速构建服务流程
- 为业务人员提供IT自助服务
资产记录:资产管理自动化,构建自动化运维基石
WeOps资产清单全面管理IT资产数据,自动采集资产的配置信息和关联关系,生成应用架构拓扑,提升企业IT资产管理的规范性和数据准确性。
- 自动发现资产数据和配置信息
- 自动生成架构拓扑
- 配置文件管理
- 变更记录
远程管理:一键远程,提供安全高效的连接通道
WeOps远程管理提供统一、安全、高效的运维连接通道,简化服务器故障分析和处理过程。
- 一键远程,高效运维
- 加密传输,安全运维
运维工具:持续积累的自动化工具,灵活丰富的故障处理手段
IT团队可以通过WeOps自动化工具将常用的脚本打包成简单易用的运维工具,支持批量快速下发脚本。 并且运维工具可被其他模块调用,如智能告警、IT服务台,形成故障自愈、自助服务等自动化能力。
- 简单易用,批量快速下发脚本
- 自定义制作运维工具
- 支持被其他模块调用
健康扫描:故障预防,消除潜在威胁
WeOps健康扫描针对各类IT资产提供了专业的巡检指标,全面检查主机、数据库、中间件、云平台等资产健康,并提供相应的改善建议。
- 定时批量扫描,高效巡检
- 专家定制巡检指标,自动生成专业的扫描报告
补丁安装:批量安装,省时省力,执行结果一目了然
WeOps补丁安装是省时省力的补丁批量安装工具,工程师不再需要彻夜紧盯,定时自动安装补丁,等待结果通知即可。
- 定时批量自动安装补丁
- 补丁安装成功率高
- 执行结果一目了然
知识库:经验复用让运维工作有迹可循
WeOps知识库和其他模块全方位打通:告警自动匹配解决方案、辅助完成服务工单、快速生成各类运维报告,让工作中沉淀的经验,灵活运用到工作中。
数据大屏:通过可视化展示全局视图
WeOps数据大屏动态汇总全局状态,运维全局一目了然,帮助管理人员直观审视业务运营与IT运维中的有效信息,提升企业IT管理的效能。
动态展现业务运行状况
持续增加场景化的精美大屏
产品优势
一站式运维体验
- 基于蓝鲸一体化平台构建,数据无缝对接,消除信息孤岛,统一访问入口,一站式使用各项运维模块,无需频繁切换。
构建故障全生命周期管理能力
- 围绕业务系统故障全生命周期管理,通过资源纳管、健康扫描、监控告警、数据大屏、运维工具之间的场景联动,贯穿“预防故障”、“发现故障”、“解决故障”的全过程,帮助IT构建故障全生命周期能力,实现主动运维。
内置海量知识
- 基于嘉为20年超过200位运维专家知识沉淀打造,助力运维最佳实践的落地。
- 内置丰富的“指标库”、“脚本库”和“知识库”,提供通用资源模型及关联关系拓扑、通用基线指标以及告警最佳实践方案。
术语解释
应用:指WeOps中纳管的业务系统,在传统企业中称为“应用系统”。
集群:用于区分一个业务的不同环境,或者同一个环境的多个部署区域。常见定义有,按照环境类型区分:正式集群、测试集群。按照区域区分:华东区、华北区。
模块:模块是业务拓扑管理的最小单位,通常用于标识一组固化的进程集合,例如 DB、DR、Login、Web 等。
空闲机:通过资源池分配到业务,默认放到空闲机模块中,在空闲机模块下即被定义为没有被设计资源。
实例:也称为配置实例,WeOps每条有意义的记录主体都是一个配置实例,例如一个交换机、一个主机等
模型:模型是对同类配置实例进行标准格式的定义,例如主机和机房有不同的配置记录需要:主机需要包含固资编号,机房需要包含运营商信息,可以定义主机、机房两个模型,以保证相关配置录入 的时候必须包含所需信息。除了属性列表以外,模型还能够定义唯一性校验、可关联性等。
关联关系:模型关联关系的分类,如主机与交换机、路由之间的关系可以分类为“上联”类型,软件与主机之间的关系是 “运行” 等。
监控指标:一般称为 Metric(s)、Item 或度量,即监控的内容,一般是坐标系中的纵坐标,比如 CPU 使用率、在线人数等
维度:一般称为 Dimension,区分指标的条件,比如 IP、主机名或平台(IOS、Andriod)
拨测节点:拨测发起的节点,就是要设置探测的源头,多个不同的位置节点检测同一个目标更能体现服务在地域上面的可用性。
活动告警:监控产品检测到的所有未恢复且未关闭的告警。
历史告警:已经恢复的告警事件。
告警级别:告警分为三个级别:“致命” Emergency 最严重,核心指标出现严重问题,将影响业务的稳定性,需要重点关注,红色;“预警” Critical 一般严重,需要关注,可能会导致更加严重的问题,橙色;“提醒”Warning 提示作用,需要了解,出现了问题的苗头,黄色
服务:服务场景的最小单元,具体提供服务的实体对象
服务目录:以目录列表形式,向外提供服务
流程:由处理人与处理节点,以及处理规则共同组成,以实现特定服务需求的功能
节点:流程中涉及到的每个具体步骤,或环节,或活动
知识库:面向用户或管理员的知识库,按类别及全文检索管理知识库