嘉为蓝鲸WeOps 3.16产品介绍
产品背景
近年来,我国数字经济规模及GDP占比逐年增高,传统产业数字化转型升级的意义被不断放大,同时得到国家政策的大力支持。在数字化转型的新形势下,原来以设备为中心的模式不再适用,企业需要以业务为中心,基于全局思维开展运维工作。变革为企业带来机遇的同时也迎来了新的挑战,转型过程中的业务连续性成为了企业快速发展过程中的生命线,而业务连续性管理将成为运维的核心。
IT运维困境
灭火式运维
- 故障后知后觉,用户投诉后才知道,匆忙处理
故障恢复依赖专家经验
- 故障恢复全靠经验,或者极度依赖外部资源,缺乏高效稳妥手段
可用工具功能单一
- 厂商自带或者开源工具功能过于单一,无法覆盖从预防到解决问题的全过程
配置混乱难管理
- 资源配置各不相同,不符合等保配置基线要求,存在隐患却整改困难
其他
- 新技术涌现,IT管理难度增大
- 烟囱式工具建设陷阱
- 招聘难、人员流动性大
- 价值体现难
产品定位
WeOps是为企业的IT运维部门提供覆盖资源管理、监控告警、健康扫描、运维工具、知识库等多项功能为一体的运维工具,通过打通各业务单元、贯穿各技术栈,以故障定位和全生命周期管理为核心,持续保障业务连续性。
产品架构
产品模块
智能监控:业务及组件全方位监测,及时全面感知问题
WeOps性能监控提供统一的视图看到应用整体的运行情况,覆盖:网站、系统(虚拟化、邮件系统、AD、IIS)、软件(服务器、数据库、中间件)和硬件(网络设备、存储)等常用技术。 与其他监控工具不同,WeOps各模块之间融合联动,性能监控和智能告警、知识库以及自动化工具共同组成“发现问题-分析问题-解决问题-沉淀经验”的场景闭环,有效提升IT运维质量。
- 便捷易用,提供统一的应用视图
- 强大的监控能力,覆盖常用IT对象的2000+指标
- 具备自动化能力快速分析和解决问题
智能告警:故障及时感知,降低故障排查时间,提升运维效率降低运维成本
WeOps智能告警提供智能处理告警的能力,集中海量的告警事件进行降噪和关联分析,辅助根因定位,并可联动自动化工具实现故障自愈,从而提升企业的运维效率,降低运维成本。
- 支持接入其他系统的告警事件进行集中管理
- 自动屏蔽无效告警,过滤重复告警
- 展示告警对象的关联拓扑,辅助根因定位和影响分析
- 故障自愈
IT服务台:统一门户,凸显IT运维价值
WeOps IT服务台促进IT团队对业务部门提供更加及时有效的运维持续性服务,支持快速构建服务流程,并可联动自动化工具提供自助服务的能力,提升IT服务满意度。
- 快速构建服务流程
- 为业务人员提供IT自助服务
资产记录:资产管理自动化,构建自动化运维基石
WeOps资产清单全面管理IT资产数据,自动采集资产的配置信息和关联关系,生成应用架构拓扑,提升企业IT资产管理的规范性和数据准确性。
- 自动发现资产数据和配置信息
- 自动生成架构拓扑
- 配置文件管理
- 变更记录
远程管理:一键远程,提供安全高效的连接通道
WeOps远程管理提供统一、安全、高效的运维连接通道,简化服务器故障分析和处理过程。
- 一键远程,高效运维
- 加密传输,安全运维
运维工具:持续积累的自动化工具,灵活丰富的故障处理手段
IT团队可以通过WeOps自动化工具将常用的脚本打包成简单易用的运维工具,支持批量快速下发脚本。 并且运维工具可被其他模块调用,如智能告警、IT服务台,形成故障自愈、自助服务等自动化能力。
- 简单易用,批量快速下发脚本
- 自定义制作运维工具
- 支持被其他模块调用
健康扫描:故障预防,消除潜在威胁
WeOps健康扫描针对各类IT资产提供了专业的巡检指标,全面检查主机、数据库、中间件、云平台等资产健康,并提供相应的改善建议。
- 定时批量扫描,高效巡检
- 专家定制巡检指标,自动生成专业的扫描报告
补丁安装:批量安装,省时省力,执行结果一目了然
WeOps补丁安装是省时省力的补丁批量安装工具,工程师不再需要彻夜紧盯,定时自动安装补丁,等待结果通知即可。
- 定时批量自动安装补丁
- 补丁安装成功率高
- 执行结果一目了然
知识库:经验复用让运维工作有迹可循
WeOps知识库和其他模块全方位打通:告警自动匹配解决方案、辅助完成服务工单、快速生成各类运维报告,让工作中沉淀的经验,灵活运用到工作中。
数据大屏:通过可视化展示全局视图
WeOps数据大屏动态汇总全局状态,运维全局一目了然,帮助管理人员直观审视业务运营与IT运维中的有效信息,提升企业IT管理的效能。
动态展现业务运行状况
持续增加场景化的精美大屏
产品优势
一站式运维体验
- 基于蓝鲸一体化平台构建,数据无缝对接,消除信息孤岛,统一访问入口,一站式使用各项运维模块,无需频繁切换。
构建故障全生命周期管理能力
- 围绕业务系统故障全生命周期管理,通过资源纳管、健康扫描、监控告警、数据大屏、运维工具之间的场景联动,贯穿“预防故障”、“发现故障”、“解决故障”的全过程,帮助IT构建故障全生命周期能力,实现主动运维。
内置海量知识
- 基于嘉为20年超过200位运维专家知识沉淀打造,助力运维最佳实践的落地。
- 内置丰富的“指标库”、“脚本库”和“知识库”,提供通用资源模型及关联关系拓扑、通用基线指标以及告警最佳实践方案。
术语解释
应用:指WeOps中纳管的业务系统,在传统企业中称为“应用系统”。
集群:用于区分一个业务的不同环境,或者同一个环境的多个部署区域。常见定义有,按照环境类型区分:正式集群、测试集群。按照区域区分:华东区、华北区。
模块:模块是业务拓扑管理的最小单位,通常用于标识一组固化的进程集合,例如 DB、DR、Login、Web 等。
空闲机:通过资源池分配到业务,默认放到空闲机模块中,在空闲机模块下即被定义为没有被设计资源。
实例:也称为配置实例,WeOps每条有意义的记录主体都是一个配置实例,例如一个交换机、一个主机等
模型:模型是对同类配置实例进行标准格式的定义,例如主机和机房有不同的配置记录需要:主机需要包含固资编号,机房需要包含运营商信息,可以定义主机、机房两个模型,以保证相关配置录入 的时候必须包含所需信息。除了属性列表以外,模型还能够定义唯一性校验、可关联性等。
关联关系:模型关联关系的分类,如主机与交换机、路由之间的关系可以分类为“上联”类型,软件与主机之间的关系是 “运行” 等。
监控指标:一般称为 Metric(s)、Item 或度量,即监控的内容,一般是坐标系中的纵坐标,比如 CPU 使用率、在线人数等
维度:一般称为 Dimension,区分指标的条件,比如 IP、主机名或平台(IOS、Andriod)
拨测节点:拨测发起的节点,就是要设置探测的源头,多个不同的位置节点检测同一个目标更能体现服务在地域上面的可用性。
活动告警:监控产品检测到的所有未恢复且未关闭的告警。
历史告警:已经恢复的告警事件。
告警级别:告警分为三个级别:“致命” Emergency 最严重,核心指标出现严重问题,将影响业务的稳定性,需要重点关注,红色;“预警” Critical 一般严重,需要关注,可能会导致更加严重的问题,橙色;“提醒”Warning 提示作用,需要了解,出现了问题的苗头,黄色
服务:服务场景的最小单元,具体提供服务的实体对象
服务目录:以目录列表形式,向外提供服务
流程:由处理人与处理节点,以及处理规则共同组成,以实现特定服务需求的功能
节点:流程中涉及到的每个具体步骤,或环节,或活动
知识库:面向用户或管理员的知识库,按类别及全文检索管理知识库