浅谈运维场景下多方信息协作管理系统的设计与建设
随着银行业务场景数字化程度的提升,新技术、新产品、新框架被持续引入,IT系统运维场景日益复杂。随着云、容器相关虚拟化技术的蓬勃发展,在提供高可用部署方式同时,信息系统运行的集中性风险随之扩大。随之而来的问题就是,在紧急故障处置、集中投产、系统切换、重要业务保障等场景下,多技术领域、多地点、多团队的相关方进行联动处理,信息的传递转换为网状分布式交互,多环节的信息如何收集、展示,各岗位角色的信息需求如何满足,面对海量数据,保证关键信息迅速、准确交互,成为了银行业IT运维信息协作关注的重点。
一、当下运维场景中的痛点
1.信息收集和过滤效率低
在多方参与的运维场景下,对信息的清洗、解释、分析、汇总会消耗大量资源,一些看似不重要但关键的信息在紧急场景下很容易被忽略掉。并且重要的指令下达后,对应的执行人员出于种种原因可能无法做到快速响应。
2.协处置与反馈的矛盾
对于参与处置人员,在埋头排查问题的同时,还要响应调度和管理层多次的信息反馈要求,经常面对的情况是同一个问题要解释汇报多次,或者需要其他领域技术人员提供诸如IP地址、流水号、进程号等信息,无法快速得到回应,打乱处置节奏和思路,拖慢处置速度。
3.协作秩序难以保证
在紧急情况下,人员召集效率低,热点人员电话始终占线,管理层或其他领域人员的指令或需求难以有效传达到对应人员。在处置过程中,各岗位间的配合以及关键决策点靠人来调度,难免会出现由于个别人员紧张度不足或恢复优先级不明确等问题拖慢整体处置进度的情况。
4.人员能力差异
对于运维操作中已经成型的工具预案和操作流程,不同人员的执行效果存在差异,紧急情况下,可能会拖慢故障的恢复速度,甚至出现误操作,扩大故障影响。
二、建设目标
随着近年来G行自建的视频、语音、生物识别、影响分析、历史经验辅助、运营日志中心等类型的平台纷纷建成,结合在运维标准化、自动化和智能化方面深耕多年的丰富经验,为解决以上痛点提供了可行的技术方案以及相对完善的理论体系。
信息协作管理系统建设,旨在提升在紧急故障处置、集中投产、系统切换、重要业务保障等各类运维场景下多人、多地协同处置的信息交互效率,提升处置人员操作的准确度和时效性,为决策层提供直观、快速的信息获取渠道和便捷、有效的指令发布途径。包括以下几个方面:
1.