数据仓库中的数据主要用于企业决策分析,涉及的数据操作主要是数据查询。某个数据一旦进入数据仓库,一般会保存很长时间,即数据仓库中有大量的查询操作,但修改和删除操作很少,通常只需要定期加载和刷新即可。数据仓库中的数据通常包含历史信息,系统记录从过去某一点(如数据仓库开始使用的时间)到当前阶段的信息。通过这些信息,可以定量分析和预测企业的发展历史和未来趋势。
近两年,大量资本涌入数据库市场,导致数据库市场竞争更加激烈。几乎所有投资者都对数据库上的云趋势持乐观态度。在云数据库和云原生数据库的呼声高涨的同时,云数据仓库成为一条新的赛道,开始进入大众的视野。但是,在分析什么是云数据仓库,为什么云数据仓库流行之前,我们需要先了解数据仓库的定义。
什么是云数据仓库?与本地数据仓库相比有什么区别?
随着云计算的深入发展,云已经成为企业应用的主流趋势,而数据库上的云已经成为企业应用的最后一步。众所周知,云数据库的概念是指在虚拟计算环境中优化或部署的数据库,能够实现按需付费、按需扩展、高可用性和存储集成等优势。云数据仓库和云数据库的定义非常相似,这意味着数据仓库可以部署在本地、云或混合环境中。
从过去的实践来看,数据仓库都部署在本地,但本地数据中心和服务器的可扩展性较差,因此云成为数据仓库的主流趋势。然而,云数据仓库也有一个挑战,那就是将所有PB级的数据迁移到云中涉及到计算、存储和内存的成本。另外,如何快速上云也是一个挑战。当然,随着市场的不断发展,这些问题已经不再是问题。现在有超大规模的云服务提供商提供大容量的基于磁盘的数据传输服务。最后,是选择本地数据仓库、云数据仓库还是数据湖和数据集市,要根据企业的具体数据量和增长率来决定。建议用户先取少量数据进行测试,或者将一些数据托管在云上,然后将成熟的架构扩展到核心关键业务。
为什么数据仓库特别重要?
企业使用数据仓库的原因是,在OLTP中,索引的创建和使用受到数量和数据类型的限制,当值接近峰值或数据类型不符合规范时,用户的数据分析和查询速度会变慢。但是如果把数据放在数据仓库中,用户可以自定义主题,根据需要对数据进行分析和查询。同时,在数据仓库中使用数据不会影响OLTP数据库的写入性能。最重要的是,企业不仅可以提高数据处理速度,还可以分析多源数据。比如在使用OLTP支持的相关应用时,销售人员只能处理特定的事务,却看不到销售场所的天气,但销售人员希望有天气预报功能。我该怎么办?如果所有与天气相关的数据都添加到数据仓库中,销售可以使用数据模型来判断当地的天气情况。
什么是数据仓库?数据仓库和商业智能是一回事吗?
一般来说,数据库分为关系数据库(SQL)或非关系数据库(NoSQL)、在线事务处理(OLTP)、事务处理、在线分析处理(OLAP)和混合业务处理(HTAP)。此外,除了这些常见的数据库类型之外,专有数据库极大地提升了业务升级,但随着数据库技术的发展,专有数据库已经成为“数据孤岛”的代名词。
之后,一些聪明的企业开始尝试从不同的数据源收集数据。这些以原始格式存储数据的方式被称为数据湖;一般格式或经过处理和集成的数据被归类为数据仓库。不同的数据仓库以不同的方式获取数据。例如,一些直接从操作环境中获取数据,而另一些从企业级数据仓库中获取数据。这些满足不同场景需求的数据仓库也被称为数据集市。换句话说,数据集市是数据仓库的一个子集。
本质上,数据仓库是一个分析数据库,通常是一个关系数据库。它由两个或两个以上的数据源创建,通常可以存储PB或以上规模的历史数据,然后用大量的计算和内存资源运行复杂的查询操作,最后生成数据报告。此外,数据仓库也是商业智能(BI)系统和机器学习获取直接数据源的唯一途径。
数据仓库和数据湖是什么关系?
数据仓库之所以不同于数据湖,是因为数据存储格式不同,数据的“读取模式”也不同。数据湖是一种读取模式,许多数据以易于读取的格式存储。而数据仓库是一种“写模式”,可以支持各种数据类型的存储,在索引查询和各种数据关系的处理上更加方便快捷。这种“读取模式”适合从多个聚合根(不同上下文)读取数据,避免数据丢失。但是有一个缺点就是很多数据会变成死数据,应用程序不会被使用,会占用大量的存储资源。“写入模式”适用于具有特定目的的数据,并且所使用的数据必须与来自其他来源的数据正确关联。但有时会因为数据格式错误而被丢弃,导致有价值的数据没有被使用。
主流的数据仓库架构有哪些?
一般来说,数据仓库架构分为三层,包括源数据、数据仓库和数据应用。源数据层包括来自销售、营销和其他业务部门的运营数据,也可能包括社交媒体和外部数据,如人口统计调查和统计数据。临时数据库是指从数据源中检索到的数据,属于临时存储区,为下一次数据处理做准备。例如,如果来源是非结构化的,比如社交媒体文本,则需要通过质量检查,删除质量差的数据。数据仓库层,也叫细节层,所有数据一致、准确、干净,对源数据进行清洗去除杂质。数据应用层是指从前端应用直接读取的数据源,是指根据报表直接生成或根据科目要求计算的数据。
数据仓库获取的数据以及在仓库中实现的转换和流程可以看作是ETL过程,即通过ETL工具提取出清洗后的数据,进行任何需要的映射和转换,将数据加载到数据存储层。ELT(提取、加载和转换)工具意味着先存储数据,然后转换数据。使用ELT工具的好处是数据跳过传统的临时存储层,直接进入数据湖。租用服务器可咨询梦飞云idc了解。