使用温度术语冷热来区分存储选项源于我们数十年来存储数据的物理方式。更靠近数据中心的物品被更频繁地访问,并且实际上位于很热的存储设施中。
距离数据中心较远的项目加载时间较慢,因此它成为存储您需要访问的数据的地方,访问频率要低得多。这种类型的存储与热存储不同——通常使用旧驱动器或完全关闭的驱动器。这些存储类型不会产生其他存储设施产生的热量。让我们看一下数据存储,包括云如何影响我们存储和计算数据的方式。
云存储与本地存储:热、温、冷
哪个存储是热的,哪个存储是冷的,取决于您使用的存储架构类型:
在使用边缘设备的分布式系统中,热存储可以作为每个单独的边缘设备的计算 内存和存储。
纯云服务可以提供冷热计算内存和存储,任何使用冷存储的云外设备。
何时使用热存储
您需要能够立即访问的所有数据都必须放在热存储中。这可以包括以下数据:
- 已知会改变
- 用于客户查询目的
- 用于任何当前项目
热存储需要立即和可靠的访问。例如,亚马逊和谷歌的服务有 99.95% 的可用性,而 Azure 提供高达 99.99% 的可用性。来自热存储系统的数据可以称为“数据流”。许多复杂的系统在数据从您的存储流入时对其进行处理。
数据传输速度取决于一个主要因素:数据从主机到目的地要经过多少条路线?在最接近其来源处处理的数据将是最快的。必须通过几个不同的网络传输并到达开发人员笔记本电脑的数据可能需要更长的时间才能访问。
例如,如果数据托管在 Google 存储中,并且用户希望通过另一个 Google 服务器或在Google Colab 笔记本中检索和处理该存储,他们应该会发现他们的处理速度相当快。如果从 Google Storage 获取数据并传输到本地外部硬盘驱动器,则数据必须通过更多路径。该数据还取决于将数据写入新硬盘驱动器的网络速度和读/写速度。
在机器学习项目中,数据被多次读取,需要快速提供给 ML 模型,所以应该放在热存储中。该数据可以位于建模者笔记本电脑的驱动器上或外部驱动器上。对于拥有众所周知的大型数据集的大公司来说,可能需要立即访问数 TB 或 PB 的数据,而云服务提供商可以帮助管理他们的热存储选项。一旦数据被使用或替换并准备好退役,数据就可以存储在冷存储中,用于团队的数据版本控制。
何时使用冷库
冷存储适用于很少使用的数据。这是由于某些原因需要保留的数据,例如法律原因、合规性或简单的记录保存。数据版本控制变得越来越普遍,因此旧版本的数据集是保存在冷存储中的好项目。它可能是不再更新但仍在查询的数据。该数据也称为“休眠数据”。
冷存储数据检索可能比热存储花费更长的时间。访问冷存储数据可能需要几分钟到几小时,因此这些数据非常适合用于需要耐心和计划的项目——而不是紧迫的期限。冷存储甚至可能需要一个人在物理上筛选一组物理硬盘驱动器,例如存储设备库,然后将其连接到计算机并检索数据。当它与这样的计算机完全断开连接时,物理存储实际上是冷的。在后一种情况下,冷存储可用于引用未存储在云中的任何数据。
云中的存储
许多服务正在向云迁移,冷热存储选项也是如此。他们的术语,冷热,是他们在云之前的代名词。每个主要供应商都有自己的冷热层。
定价可能很复杂,因为它取决于几个因素,例如存储是在一个时区还是跨多个时区可用。一个好的经验法则是冷存储的成本是热存储的一半。
云选项正在改变我们看待数据计算和数据存储的方式。但是冷热术语仍然主要指的是您的存储的可访问性。快速便捷的可访问性很热门。缓慢而困难的可达性是冷的。