数据中心运营是指用于运营数据中心设施的系统、流程和工作流。这些操作包括几个方面:
在本文中,让我们看看数据中心的运营,包括运行和支持数据中心的核心组件。
数据中心的工作原理
包括AWS、谷歌和微软在内的大型云供应商运营着遍布全球的数据中心设施,为数百万商业组织和互联网消费者提供基于云的计算服务。2021 年全球 IT 数据中心支出已达到1960 亿美元。全球有超过 700 个超大规模数据中心在运行。
随着2020 年全球互联网流量增长40% ,互联网用户数量翻了一番,互联网流量以每年 30% 的速度增长。在家工作的商业实践和视频流服务的流行极大地促进了对高可用性数据中心运营的需求增加。导致数据中心高能耗的其他因素包括:
- 机器学习训练和推理
- 比特币和其他加密货币挖矿
这些服务以服务水平协议(SLA)中规定的特定性能和依赖水平交付给最终用户。此外,这些数据中心设施的运行符合严格的全球法规,例如 ISO/IEC 27001、GDPR、HIPAA 和 SOC 2 等。
数据中心运营的组成部分
为了实现这些不同的目标,现代数据中心运营涵盖以下关键支柱:
- 物理组件
- 物联网、连接系统和数据驱动控制
- 标准和流程工作流
让我们来看看每个支柱。
物理数据中心组件
物理设计方面对于管理高度依赖的数据中心运营至关重要。一些最高效的数据中心位于低温地理区域,安全可靠,不受自然和人为灾难事件的影响,随时可以使用公用事业和紧急服务。
数据中心的常见物理元素包括:
- 设施。可高效使用公用事业和紧急服务的建筑空间。由于数据中心是一些最耗能的建筑设施,因此该架构针对空间和环境控制进行了优化。选择特定湿度和低温区域的自然冷却来抵消数据中心组件冷却所需的能源消耗。数据中心约占全球电力需求的 1%,约为 250 TWh。
- 核心组件。这包括向大型客户群提供计算服务所需的标准 IT 设备和软件。其中包括服务器、网络设备、机架等基础设施、HVAC 和电气系统,以及其他计算基础设施资源。
- 支持基础设施。这包括空间的物理安全、HVAC 冷却、发电机和电池组等不间断电源 (UPS)、公用事业服务基础设施。获得紧急服务对于维持数据中心的运营至关重要。
- 运营人员。支持数据中心的工作人员,其中可以包括本地员工以及致力于管理和维护数据中心运营以满足定义的性能、安全性和合规性标准的场外团队。
物联网、连接系统和数据驱动控制
现代数据中心高度依赖于连接设备的网络,这些连接设备传递有关数据中心运营的几个关键属性的信息。这些不仅限于计算性能和网络安全,还包括设施在以下方面的整体性能:
- 冷却
- 能源消耗
- 气流
- 可靠性
- 费用
数据中心基础设施管理 (DCIM) 解决方案集成了物联网传感器网络,以捕获来自设施和数据中心组件的相关信息日志。这些技术使用复杂的算法和分析功能来:
- 数据中心性能报告
- 优化数据中心运营各个方面的决策指南
- 针对服务器上运行的网络流量和软件应用程序管理 IT 网络物理层的工作流程更改
因此,计算资源的供应针对不断变化的需求和网络流量进行了优化。
为了实现这些目标,DCIM 还物理跟踪由 RFID 芯片标记的 IT 环境的每个组件。因此,DCIM 提供了所有组件当前状态的整体仪表板视图,并帮助工程师相应地管理流程工作流。
标准和流程工作流
很大一部分数据中心优化发生在逻辑层面。管理信息流、系统设计、工程和业务实践以及端到端数据中心生命周期程序的运营工作流管理着数据中心设施的有效性。
行业标准和组织——包括劳伦斯伯克利国家实验室、绿色网格、开放计算项目、ITI 和 TBM 委员会——提供了管理数据中心运营的指南。这些指南涵盖数据中心运营的端到端生命周期,包括:
- 设计和部署
- 管理和故障排除
- 数据中心组件的退役
美国国家标准与技术研究院 (NIST) 等组织提供有关信息系统和 IT 环境设计架构的指南。
为客户价值优化数据中心运营
基于云的数据中心运营的最后一个元素对应于交付给最终用户的 IT 服务。数据中心组织可以采用ITIL 4等工具来集成多种服务管理运营模型,从而帮助组织优化 IT 运营以实现最大的业务价值。