数据中心数智化运维的探索与实践

chinamoney 2024-10-29 10:27:14

内容提要

作为国家重要的金融市场基础设施,中国外汇交易中心(以下简称“外汇交易中心”)积极发展新质生产力,经过多年的不懈努力使数据中心运维在自动化、数字化与智能化方面取得了突破性的成绩。文章主要阐述了计算资源、存储资源、网络体系、机房管理及运管系统建设方面取得的成果,同时探讨了如何持续完善数据中心运维治理体系和安全防护体系。

随着本外币交易系统对外服务时间逐步延长(面向银行间市场提供5×20小时交易服务),运维服务时间实现7×24小时覆盖。目前,外汇交易中心已初步建成“两地三中心”运维体系,分别在上海建立生产、同城数据中心,在北京建立异地灾备中心。根据外汇交易中心业务连续性总体建设规划,未来要构建“大同城、小异地”,并不断推进核心生产系统生产、同城双活架构改造,以满足核心系统RTO=2分钟、RPO接近于0的目标。近年来,生产系统可用性持续保持99.99%,核心系统可用性达99.999%。

一、构建新型数字基础设施底座

根据人民银行《金融科技发展规划(2022—2025年)》总体要求,外汇交易中心持续规划完善算力、存储和网络体系。

在计算和存储资源方面,不断提升资源管理效率和自主可控能力。一是生产环境主要使用虚拟化技术对计算资源进行灵活调拨,满足业务系统建设及生产运行要求。二是推进基础算力和存储信创改造,通过超融合技术实现信创服务器计算资源和存储资源的供给,降低了光纤交换机无信创方案的影响,充分盘活了信创PC服务器上的计算资源和存储资源,整合后对外提供虚拟化后的服务。目前,外汇交易中心生产环境已有近百节点规模。信创容器云也已在外汇交易中心投入使用,基于国内的商业容器软件,提供兼容国际主流容器技术的容器服务。三是在非生产环境则应用云服务技术,实现开发测试资源的统一调度。当前非生产基础设施云平台共纳管420多台物理服务器,受控云主机超过3500台,为开发环境提供基础设施资源服务。云平台按外汇交易中心现有组织架构,规划了以部门为单位的资源配额总量管理方式,同时云平台自身也提供计价工具,便于分项统计资源使用成本及用作参考。云平台采用自服务模式,使用人员可以自助申请计算和网络资源服务,减少了流程沟通和运维人力支出。

网络方面,不断完善安全泛在的银行间市场服务网络。一是提供专线网、互联网、VPDN等多种网络接入方式,满足不同用户的接入需求,目前共有几千根会员专线。二是支持会员从上海、北京、广州、深圳及香港多地接入。三是在网络建设方面,外汇交易中心核心骨干网基于SDN软件定义网络思想、进行架构设计,由Underlay、Overlay两层网络架构组成,数据平面与控制平面分离。数据平面承载了外汇交易中心包括外高桥、来安路、浦江及北京在内各个数据中心之间的业务及管理流量;控制平面实现对网络资源的集中管理及灵活调度。骨干网采用了最先进的SRv6 Policy(Segment Routing+IPv6)分段路由结合IPv6技术,大大提高了外汇交易中心网络的先进性、可扩展性,提升了外汇交易中心的网络管理水平,为下一步实现数据中心流量在线调度、资源精益化管理提供了可靠依据。

二、建立健全智能化运维机制

在机房管理方面,引入了智能巡检机器人,以提升运维效率、增强异常发现能力、保障业务系统的安全稳定运行,同时解放人力以致力于更多运维技术研究。2023年,外汇交易中心在外高桥和浦江数据中心正式部署了巡检机器人,自动定时进行机房环境和IT设备状态检查,覆盖了210多个机柜、1400多台生产设备。经1500多次实际运行,准确率达到99%以上,高于行业水准指标。巡检机器人采用行业内较为先进的无轨技术,针对性进行机房模块冷通道移门的适应性改造,利用多传感器融合感知技术及智能路径规划算法,能够高效、灵活地规划巡检路径,自主导航并避开障碍物,保证机房运行安全性。在配置过程中,外汇交易中心投入了大量精力将各设备的指示灯状态都进行了分析归类,由机器人通过深度学习和模式识别算法,准确识别和解读各种指示灯的状态,与其他传感器数据融合分析,最大限度地提高了对设备状态的准确识别能力。后续外汇交易中心计划将巡检机器人与数据中心运维管理系统对接,通过各类运维监控数据联动分析,以提高异常发现和故障预测能力,增强运维决策的准确性和及时性,从而为业务发展提供更为可靠的支撑。

在运管系统建设方面,初步建成以“监、管、控”为一体、覆盖两地三中心的自动化运维平台,覆盖了诸多运维自动化场景。近年来,外汇交易中心努力研究应用新的技术手段,对监控信息、日志等运维大数据进行深度分析和有效处理,初步建立了更为强大的智能运维体系,使生产运维从自动化、标准化走向智能化、可视化,从高效运维走向智慧运营。

在“监”方面,整体监控已具备覆盖应用系统及软硬件IT基础设施的异常感知能力。目前监控对象已达120万项,监控策略已达80万条。事件总线实现多数据中心告警的集中管理;采用Spark引擎增强事件总线高并发处理能力(4000条/秒);引入evolution算法实现跨数据中心的告警联合派生,同时结合多种限流算法实现告警风暴精准抑制;实现外汇交易中心特色的本币外汇节假日维护期、升降级以及告警丰富功能。在日志监控方面,目前采用流式处理模式,能高效地处理海量数据,每天处理的日志量已达2.5TB,处理峰值达275103条/秒。同时,可实时地以可视化方式展示IT基础资源(软/硬件)、网络、业务应用、云平台组件等性能与告警信息。

在“管”方面,目前已纳入配置管理的配置数据总计达43万条,涵盖网络、服务器、存储、操作系统等各类软硬件相关基础设施配置项。同时,配置管理基于Redfish接口、RESTAPI接口、SNMP协议及本地代理等多种方式自动完成配置数据采集,并依托信息数据上报系统,以实现配置数据与央行的数据自动对接。另外,通过配置模型自动建立关联关系,为分布式链路追踪监控提供了底层基础设施与应用系统的关联信息。

另一方面,流程管理可通过可视化拖拉拽的方式灵活定制流程,并提供主流标准接口与集中监控、配置管理、应用发布和作业管理等周边系统交互,实现了监控告警自动开单、应用系统变更升级和防火墙策略自动开通与启停等运维流程自动化。

在“控”方面,作业管理已实现了对接服务器、防火墙等基础设施,为应用系统版本发布、应急切换等运维场景提供了可支持跨数据中心的自动化作业调度与执行能力。在2023年度中,应用变更(包括例行、普通、紧急、快速变更)共实施约941次,其中自动化部署573次,应用系统普通变更自动化率达90%以上。在今年2月底央行本币双活系统切换突击演练中,作业管理切换本币交易系统仅耗时21.8秒。作业管理还与堡垒机和特权系统对接,实现作业执行鉴权功能,确保作业执行过程中的安全可控。

引入AI技术提升服务硬能力。智能客服系统持续优化运行机制,目前系统的语音字识别率达到96%、语义识别率约90%。技术场务技能组智能客服分流率约为16.08%。办公技术支持智能客服接到五千多通电话,目前形成了118条流程。

三、持续完善数据中心治理体系

外汇交易中心围绕ITILv4,更加聚焦运维价值、信息自动化、信息资产的统一,结合生产运维需求,建立并完善全周期闭环管理的应急管理体系,覆盖事前、事中和事后各流程。

外汇交易中心于2016年11月通过ISO 20000 IT服务管理标准认证和ISO27001信息安全认证,持续完善数据中心运维体系建设,不断提升治理能力;深度参与人民银行数据中心运维管理相关规范建设,包括《金融数据中心能力建设指引》(JR/T 0265-2023)、《金融信息基础设施运行指标体系》(待正式发布)等。

四、持续完善网络安全防护体系

外汇交易中心深入贯彻总体国家安全观,更好地统筹发展与安全。一是严格落实上级最新安全保障要求。平稳完成年度各项重保任务,2023年在全国重点单位网络安全现场检查和国家网络安全攻防演习中,取得全国金融行业优异成绩,并因情报上报位列行业第二而获人民银行表扬。二是建设以安全态势感知平台为核心的新一代纵深防御体系,凭借安全运营(SOC)子系统实现事件统一纳管,利用上线漏洞管理子系统优化资产识别和漏洞管理效率,通过不断优化防火墙管理子系统,实现访问策略集中管理。同时引入攻击面管理和防护有效性验证服务,提高外部风险识别能力和内部安全体系有效性。

作者:中国外汇交易中心工程运行部

0 阅读:1