邮储银行智能运维应用探索
- 2023-08-09 浏览:1809
作者:中国邮政储蓄银行数据中心总经理 马德辉
新时期的IT运维不仅要完成对海量数据的实时采集,还要具备智能化分析能力,进而为运维决策提供数据支撑。与此同时,伴随各类云原生应用的日趋成熟,按需分配、灵活调用的发展理念已深入人心,消除“虚实差异”成为当前数据中心实现“云化”转型升级的关键挑战之一。顺应上述趋势,智能化应用的快速发展为实现IT运维转型提供了全新抓手,将为数据中心发展提供新动能。
一、运维体系能力
邮储银行借鉴互联网企业的先进微服务化理念,通过搭建一体化运维平台,实现运维体系转型升级。一体化运维平台从数据中心全局出发,着眼未来发展规划,打造以场景智能驱动的监、管、控一体化的数字化运维平台,实现全行运维向数字化、敏捷化、智能化发展的目标,向上与IT组织融合、向下与各类技术平台融合、横向与IT管理和操作流程融合,消除管理和操作之间的天然瓶颈,降低运维操作风险,提高运维服务水平及业务连续性,全面提升业务响应、问题处理、客户服务质量和效率。新运维体系具备以下能力。
1.统一配置管理(CMDB)。配置管理需记录数据中心所有软硬件资源信息及资源间的关联关系,作为自动化运维体系的基石,也是自动化运维体系建设的重中之重,是平台监控和自动化管理的前提与基础。
2.统一监控能力。需实现对两地四中心基础硬件、基础软件、应用告警、日志、云平台等的统一监控,建立集中告警管理,整合不同资源产生的各类运行告警,统一处理、集中展现。另一方面,需基于CMDB开展应用系统之间、应用系统与基础资源环境之间的告警关联分析,以便完成应用系统异常的故障根源分析和业务影响分析,提高快速定位、评估影响范围、快速应急处置的效率,最终达到快速恢复业务的效果。
3.自动化运维能力。需实现对各专业条线的自动化操作,通过自动化全面覆盖数据中心各运维场景,实现常用运维操作脚本服务化、日终作业集中化管理、业务应用的持续部署、重大灾难时的快速切换、生产问题的一键处置,并通过与生态内其他工具的对接,为全行IT运维和运营提供全方位的自动化运维服务。
4.统一流程管理。数据中心的运维活动及对象涉及种类较多,需要从全局的角度进行计划、组织、协调与控制。需具备一套统一的流程管理,将各类运维对象及运维活动进行流程化、电子化管理,实现操作合规、风险可控以及过程可视。通过流程管理,结合邮政金融信息系统现状,建设实现工单管理、事务管理、问题管理、变更管理、发布管理、知识管理、作业计划等运维工作流程,通过管理人员、技术和流程的有机结合,实现IT运维管理标准化和规范化,形成整体运维业务需要的IT管理体系。
5.统一门户。针对用户对应用系统的访问操作,打造集中登录与统一的账号管控平台。在不改变现有软硬件及网络环境的前提下,无缝整合数据中心现有应用系统,实现统一的用户端安全接入、统一的应用端安全访问控制,以及访问过程的细粒度安全管控。整体实现用户对应用系统访问的统一安全防护和管控,提高用户工作效率,提升用户使用体验,保障安全合规。
6.移动运维能力。需搭建基于移动端APP的移动运维功能,以一体化运维平台为依托,在安全运维基础上,实现移动审批、集中数据展示等场景服务,保障对业务的快速响应和支持能力。
二、运维平台建设
1.平台功能架构。基于运维体系转型要求,在平台建设阶段,邮储银行重点强化了“平台化、服务化、智能化”等技术特点。“平台化”主要指基于“平台+APP”的方式开展集约化建设,即在一个统一的平台上承载不同领域的运维工具应用APP,以实现集中建设、统一控制。“服务化”主要指在搭载运维工具时强调以CMDB为核心、以应用为中心、流程即服务等发展理念,并尽可能提高自动化操作比例,以实现内部处置效率和对外输出质量的双重提升。“智能化”主要指在运维平台中构建大数据分析以及机器学习能力,以支持平台在一定范围内进行自主分析和决策,并通过算法开发促进组织级运维管理。
2.平台业务架构。一体化运维平台用户主要涵盖运维人员、业务人员、开发人员,平台提供运维门户、服务门户两大门户入口。其中运维门户主要面向运维人员,包含总行、省分行、厂商的运维人员,通过一体化运维平台进行生产环境的发布、变更、投产相关操作,以及工单、流程的申请、审批和处理。平台业务架构如图1所示。
图1 平台业务架构
三、探索智能运维场景
一是告警归并。通过引入机器学习技术提取规则,使得出现告警风暴时大量减少原始告警噪声、加快故障修复质效及降低故障处理成本。二是容量预测。在容量预测场景中采用智能化趋势预测技术,基于指标预测算法,实现了容量监控智能化管理及事前预测,支持提前预知容量使用情况。三是故障自愈。面向故障自愈场景,实现了告警管理、规则触发服务以及运维自动化工具的有机组合,并通过逐步丰富规则库来提升自愈覆盖率(如图2所示)。四是信息系统健康度管理。在现有运行监控平台的基础上全新构建了一套信息系统运行健康度体系,旨在从数据治理、标准化建模、评估多维化等方面,以指标化数据体现信息系统综合运行状况。
图2 故障自愈处理流程
四、总结及展望
通过一体化运维体系和平台的搭建,基于运维转型和智能运维的探索研究,邮储银行的运维工作有了很多提升。
1.运维效率提升,企业IT成本降低。各运维场景自动化及智能化的建设与实施,使得操作执行效率大大提升,操作完成时间得到保证。批量调度场景探索实现了原本分散的各系统日终的集中展示和处理;应用发布场景探索实现了一键升级发布,大幅减少操作时间,降低手工升级误操作风险;灾备切换场景探索有效提高应用系统RTO和RPO水平;应急处置场景探索提高了应急效率,管控操作风险。数据中心日常运维工作已向全面自动化和智能化转变。
2.运维风险控制力提升。实现运维操作的标准化、自动化、智能化,确保操作过程可追溯、可管控、可审计,消除人工操作存在的误操作、遗忘操作、随意操作、恶意操作风险,预防重大事故发生。
3.运维工作向高价值服务转型。将运维人力从低水平、重复性劳动中释放出来,将其知识和技能应用于更有价值的工作和任务上,沉淀运维经验,形成知识库,提升系统可靠性,提高运维人员工作价值,打造智慧型运维专家团队。
4.运维工作场景化和服务化。通过统一的运维入口,避免工具割裂化的竖井管理,形成面向各位运维群体的标准化、可视化、服务化的操作平台,实现运维工具的流转和共享,让运维工作持续的模板化、服务化,将长期积累的经验和知识落地,形成运维生态化的发展体系,从而利于智能化场景的进一步扩大,提升数据中心服务质量和服务效率。
本文来源:微信公众号《金融电子化》
免责声明:所载内容来源互联网、微信公众号等公开渠道,我们对文中观点保持中立,仅供参考、交流等非商业目的。转载的稿件版权归原作者和机构所有,如有侵权,请AG电投厅删除。