2016年发布的《国家信息化发展战略纲要》和《“十三五”国家信息化规划》均提出要建设“新型智慧城市”。同年,国家发展改革委、中央网信办牵头,会同国家标准委、教育部等23个相关部门成立了新型智慧城市建设部际协调工作组,并组织开展“新型智慧城市评价工作”,标志着智慧城市建设进入了新的发展阶段。
智慧城市项目没有统一技术标准,具有属地化、定制化特点,业务系统也十分庞杂,涉及的厂家和产品种类较多。智慧城市项目的运维与其他领域产品线的运维相比,难度较大,不仅运维技术要求较高,还需面对协同效率低、故障定位难、问题响应慢等问题。
笔者近些年参与了一些典型智慧城市项目的维护工作,针对这类项目的常见问题,总结了一套行之有效的集成运维模式。集成运维模式为用户和厂商提供统一运维界面,明确责任分工,建设专业运维管理平台,从业务全局的角度统筹管理智慧城市项目的运维工作。将业务运行可视化、问题处理流程化,使得问题处理和需求响应在所有项目参与方中实现高效运转,解决智慧城市项目运维工作中普遍存在的散、难、慢等问题。
数字政府和智慧城市运维充满机遇
智慧城市运维市场空间较大
伴随着数字中国的建设发展,我国在智慧城市、数字政府领域的投资规模也不断扩大。2012年我国智慧城市市场规模仅0.65万亿元,至2021年提升至21.08万亿元,2012—2021年期间年均复合增长率为47.2%。据前瞻预测,至2025年智慧城市市场规模将超过30万亿元。“有建必有维”,海量智慧城市建设带来了巨大的运维需求。信息化项目每年的运维费用大约占建设费用的15%,预计到2025年数字政府和智慧城市运维的市场规模将超过4.5万亿元,市场发展空间巨大。
各级政府积极营造运维产业良好生态
我国各级政府及行业组织引导颁布了多项关于支持和鼓励运维行业规范发展的相关政策。
2022年国务院印发的《“十四五”国家应急体系规划》指出,建设新一代智能运维体系和具备纵深防御能力的信息网络安全体系。
2022年中国银行保险监督管理委员会发布的《关于银行业保险业数字化转型的指导意见》指出,建立对信息科技资源全方位覆盖的统一监控平台。提高运维侧研发能力,积极运用大数据加强态势感知、故障预警和故障自愈,不断提高运维智能化水平。
在地方政府层面,早在2021年,《河北省建设全国产业转型升级试验区“十四五”规划》就指出,提升运维服务水平,建设智能化建筑设施系统,搭建信息化运维管理平台,发展智慧感知、物业通信、运维互联等智慧运维产业。
2022年印发的《湖北省应急体系“十四五”规划》指出,建立全面立体的安全防护体系和科学智能的运维管理体系,实现多层次、多维度的安全防控,保障全省应急管理网络和信息系统安全、稳定、高效、可靠运行。
数字政府和智慧城市运维复杂度升级
在数字政府和智慧城市领域,运维工作的复杂度主要体现在3个方面。一是技术栈多、网络复杂、运维层级深、安全要求高;二是厂商众多,难以统筹和协同,运维数据之间易形成“壁垒”;三是由于问题定界、定位困难,各方易相互推诿,导致问题无法快速解决。综合来看,其特点可总结为“难”“散”“慢”。
第一个特点是“难”
智慧城市和数字政府系统从基础设施层到平台层再到应用层,每一层的产品和组件众多,架构复杂,技术栈多种多样。此外,网络环境也较复杂,系统多是跨云部署,业务运维层级深入,数据和网络安全要求高。
深圳市智慧城市建设总体架构如图1所示,不仅包括基础设施层、平台层、应用层、网络和信息安全保障体系、政策及标准规范体系、统一运维及统一运营体系等模块,还有各个模块所包含的系统、组件、设施以及应用等。
图1 深圳市智慧城市建设总体架构
第二个特点是“散”
传统的IT运维多由系统建设方提供,运维数据分散在各个厂家,形成“数据烟囱”,多厂家各自分散运维,缺少统筹指挥。当系统发生故障后,问题定界与定位缺少全局视野及高效协同,各相关运维单位容易互相推脱责任,致使问题不能及时处理,系统故障的影响被放大。
图2为某市数字政府运维现状的调研情况分析,其中的数字为样本数量。从结果来看,各市直单位和各区县已建系统数量繁多,且运维方“碎片化”现象严重,其中包括管理部门自运维、上级管理部门运维、承建方或第三方运维,甚至有些系统无运维单位,缺少统一的运维管理体系。此种情况存在较大的运维风险,不利于业务的健康稳定发展。
图2 某市数字政府运维现状调研结果
第三个特点是“慢”
客观上的“难”,以及传统分散运维方式带来的“散”,导致运维效率低,故障恢复慢。具体来看,问题排查需要从数据源头开始查找,问题定界慢;问题定位的手段参差不齐,问题数据不能及时发现,问题定位慢;多厂家协同机制不完善,没有考核约束,问题处理慢。
数字政府和智慧城市运维模式亟需变革
“烟囱式”运维已无法满足当前需求
现有的“烟囱式”运维模式在集约化经营和数字化转型的背景下,显现出越来越多的弊端,不能适应数字政府和智慧城市建设发展的要求。
以下两个数字政府领域的案例可以充分体现运维现状。
2022年1月,某市“一码通”系统崩溃,故障时间长达数个小时。时值疫情期间,“一码通”是市民出行、核酸检测最重要的凭证,该系统注册用户超千万,此次崩溃造成大量市民出行与核酸检测受阻,该市大数据局局长被免职。
2022年9月,某市核酸检测系统出现故障,卡顿严重。时值全面核酸检测时期,大量市民因系统故障无法做核酸,在大雨中排队数个小时,多家媒体报道该新闻。在故障发生后,系统各相关厂家互相推诿,迟迟无法及时协同处理问题。
从以上案例可以看出,数字政府和智慧城市领域的系统由于用户量大,又多与民生相关,一旦发生故障,很容易引发较大的社会影响,因此系统的稳定运行至关重要。
集成运维模式有望解决当前痛点
针对当前智慧城市的运维需求,本文提出了新型的集成运维模式,并在一些大型项目中落地验证,取得了良好效果。
在集成运维模式下,用户依靠专业的运维团队和工具,可以从业务维护工作中解脱出来。由此可见,集成运维可以更好地为业务发展提供支持,解决运维“难”的问题。
集成运维模式可以整合现有运维资源,有效组织起现有的零散运维单位,实现运维数据与告警统一管理、故障处理统筹推进,从而解决“散”的问题。
集成运维模式需要打造专业的智能化运维管理平台,对业务系统资源统一纳管,实现业务系统性能端到端的管理,从真实用户视角对业务系统的应用情况与用户体验进行监控,主动发现问题,定位应用系统的错误及异常,助力问题定位更加高效,从而解决“慢”的问题。
智慧城市项目在集成运维模式管理下,用户可以更专注于业务服务体验,不再对运维问题做人力投入。项目建设厂商可以节省大量运维投入,减少定界不清的责任推诿,同时获得产品及服务的优化建议,使得用户和项目建设厂商实现共赢。
集成运维模式的方案设计
集成运维模式体系设计
集成运维体系框架设计参考国际最佳实践ITIL、国际标准IS020000、ITSS等先进理念,以及行业先进经验与理论指导,将其与智慧城市运维实际需求结合,优化运维服务管理流程、制度等,形成结构化、体系化的流程、制度,并构建持续改进的机制,促进运维服务管理体系不断优化完善。
集成运维模式定义
集成运维模式是多方协同参与的一种新型运维模式,由用户、集成运维方、项目建设厂商等共同组建集成运维团队,基于专业的运维团队、智能化运维管理工具、标准的服务目录、规范的业务流程及管理制度,由集成运维方统一调度运维人员、运维工具和运维资源,建立面向用户的统一入口。运维团队集中管理项目资源及系统权限,处理用户反馈的问题,明确厂商问题处理边界,打破厂商间的责任壁垒,增强问题处理的全局性、协同性,实现复杂业务场景下的低风险、低成本、高效率和精细化运维,为智慧城市项目提供“管家式运维服务”。集成运维模式如图3所示。
图3 集成运维模式示意
集成运维模式要素
1.运维团队
集成运维团队面向用户与项目建设厂商,作为项目运维中间桥梁,制定运维管理规范,向上对用户汇报运维工作开展情况,承接用户反馈的运维需求及问题,向下管理各集成厂商运维工作,考核各厂商的运维服务水平、产品稳定性等指标,督促厂商整改问题项及修复安全漏洞,通过持续协同作业保障项目系统运行稳定性不断提升。
集成运维团队统一管控项目资源,通过安全管理平台审计运维操作,并结合服务流程管控日常运维工作。各厂家提供少量研发人员,其职责是关注系统稳定性,解决日常告警故障,解决系统运行bug,提供系统变更升级方案。
2.制度规范
运维制度规范编制从智慧城市项目运维需求出发,保障常态化运维制度的落实并开展制度执行情况检查。
运维制度覆盖需求管理、事件管理、应急处理、安全管理、质量管理等常用运维场景,对运维人员具备行为约束和指导作用。
图4 集成运维模式制度规范示意
3.流程规范
在流程规范方面,需梳理并制定统一的、可执行的、符合ITIL标准的服务流程,统一运维服务台,明确问题分工,闭环管控问题解决过程。
建立健全工单管理系统以及常用运维场景的审批流程和内容流程,快速实现灵活多变的流程配置,通过线上填报和审批完成无纸化办公,满足电脑端和手机端协同办公需要,实现运维工作全流程管控和SLA考核落地。
4.运维技术
在制度和流程具备的前提下,引入自动化运维、大屏显示、业务链监控、根因分析、故障预测等先进运维技术,满足智慧城市复杂业务场景的运维需求。提升监控覆盖和可视化水平,可辅助运维团队更好地掌握业务运行情况,提升应急场景下的运维决策能力;提升自动化运维水平,可解放人力,降低人为操作风险。
5.运维平台
运维管理平台可以实现从基础设施到业务的多层级、“穿透式”运维,统一对外提供业务资源监控、告警处理、日志管理、自动化运维、流程管理、跨网管理等服务能力。同时具备数据、流程、操作等运维标准,打通运维壁垒,实现多单位协同运维,提供集约化、主动式和高质效的“管家式运维服务”。
集成运维模式效果评估
集成运维模式旨在通过集中管控,明确各方在项目中的分工,实现运维工作高效协同,降低沟通成本,减少推诿扯皮;通过运营化管理、可视化业务运行状态、以及流程化运维服务,实现运维服务标准化和精准考核;通过智能运维工具,提升工作效率,降低人力成本,大幅减轻智慧城市复杂业务场景的运维压力。集成运维模式效果评估可参照的5个关键指标如表1所示。
表1 集成运维模式效果评估可参照的5个关键指标
集成运维模式行业实践及效益分析
集成运维模式行业实践
我国西北某省致力于建设中西部领先、全国一流的服务型数字政府。随着数字政府建设的不断深入,IT系统愈发庞大复杂。目前已建400多套业务系统、4000多节点资源,共涉及3个云平台、6个网络区。
中国移动承接该省智慧城市项目后期运维服务,初步引入集成运维模式。由省政府、中国移动、相关运维单位共同成立了集成运维中心,中国移动牵头编制数字政府运维管理制度,设计数字政府运维服务管理流程,建设一体化运维管理平台,搭建数字政府运维服务质量保证体系。实现了省、地市范围内所有业务系统、主机、数据库、中间件等业务资源的统一纳管和监控,并以集成运维角色管理项目参与方的日常运维工作。
引入集成运维模式近一年后,集成运维中心累计受理4.4万余次运维热线咨询、近万人次直接或转派运维需求,系统平均故障修复时间从当初的60分钟缩短至现在的29分钟。期间组织完成春节、国庆、重大会议等14次重保支撑工作,支撑该省高考、地市中考查分保障工作,高效完成240余万人次查分保障工作,完成省政府210场次会议保障、132场次演示支撑,成为数字政府复杂业务场景下集成运维模式探索落地的标杆。
集成运维模式效益分析
1.降低运维服务风险
运维的基本目的是保障业务系统的平稳与安全运行,核心办法是减少、避免运维过程中潜在的人员、管理、技术等各类风险。集成运维模式通过制定规范的流程制度,提供更标准化、更稳定、更可靠的运维服务,降低业务中断序号指标指标解释1运维成熟度运维服务标准达到ITSS二级及以上2运维服务响应时间故障出现后1分钟内告警通知到位,10分钟内人员联动响应3问题定界率99%以上的故障能定界清楚,无推诿情况发生4平均故障修复时间(MTTR)业务故障平均修复时间在30分钟以内5系统运行稳定性系统年平均稳定运行时间在99.9%以上表1集成运维模式效果评估可参照的5个关键指标风险。依托运维管理平台,工作人员能够及时发现系统风险,在问题发生之前将其解决。
2.优化运维服务成本
运维投入是持续性的,用户、项目建设厂商每年都要投入大量的人力、物力和时间以确保业务系统的稳定运行。而不可预测的支出往往导致服务成本频繁增加,同时也意味着难以持续控制并降低服务成本。集成运维模式通过建设专业运维团队、集中管控业务资源、量化服务成本,释放项目建设厂商的运维压力、提高协同处理问题的效率、达到优化成本的效果。
3.强化运维服务效能
运维的基础目标是稳定,高层次目标是效能提升。集成运维模式实施标准化的运维服务,经运维服务后评估、资源使用后评估、产品质量后评估等,能更合理地分配和使用IT资源,让用户所采购的IT资源能够得到最充分、合理的使用。该模式凭借专业的运维团队、规范的运维流程以及统一的运维平台工具,可以实现运维效能的全面提升。
4.提升运维服务质量,助力精细化运营
通过量化和监控,运维服务方可以更好地提升服务质量,从而有助于提升用户满意度。凭借深厚的运维经验、专业的运维工具和先进的运维理念,集成运维团队可实现资产、资源、人员、作业等的精细化运营管理,辅助决策层制定长期发展战略,全面助力用户业务发展。