数据是指记录和识别客观事件的符号,是记录客观事物的性质、状态和相互关系或这些物理符号组合的物理符号。它是一个可识别的抽象符号。如何实现“数据找人而不是人找数据”的梦想?“数据织物”悄然出现。IBM大中华区技术事业部云计算与认知软件事业部数据与人工智能信息架构产品总监王积杰称之为“数据经纬度”,而高德纳高级研究总监孙鑫则认为“数据编织”更适合,因为他认为数据编织更“动态”。在Data Fabric问世之前,数据结构的设计主要部署为静态基础设施,但未来将需要采用更加动态的数据网格方法进行彻底的重新设计。孙鑫在接受记者采访时表示,Data Fabric不是产品,而是一种设计理念,利用AI、机器学习和数据科学的功能来访问数据或支持数据动态集成,从而发现可用数据之间独特的、与业务相关的关系。
然而,IBM对数据结构的看法与高德纳专家提到的“动态”、“数据网格”和人工智能赋能并不冲突。IBM中国R&D中心首席技术官赵俊伟解释说:“经纬作为名词,原本是指织物的直线和水平线,引申为万物相连的规律。”《左传·赵专公二十五年》写道——‘礼,纪律上下,天地经纬’。”作为地理概念,经纬度可以定位地球上的任何位置,而‘数据经纬度’可以定位复杂企业数据目录中的任何数据源。经纬是动词,意思是规划和治理。《周树》中提到的“田静狄威纪”,意思是治理天下。"
“我们可以将Data Fabric视为虚拟网络,它不是点对点连接,而是虚拟连接。每个节点可以是不同的数据系统,不同系统上的数据可以在互联网上快速定位和找到。数据结构的主要功能是在正确的时间将正确的数据提供给正确的人。通过数据结构,合适的人可以在合适的时间从合适的地点获得合适的数据。”王积杰告诉记者。目前数据连接的架构设计主要以“人找数据”为主,而Data Fabric设计的核心是“数据找人”,可以在合适的时间将合适的数据推送给需要的人。
为什么Data Fabric会成为一种趋势,为什么未来会有越来越多的企业以这种方式部署?王积杰谈到了数据利用结构模式的变化。在传统的IT时代,无论是早年的“数据仓库”还是近年来的“数据湖”“大数据”时代,其实数据利用都是一个集中的结构,将数据集中在一起,让企业数据分析师和BI (Business Intelligence)分析师对数据进行分析。然而,在云计算时代,用户的业务部署在多云的环境中,收集分布在不同云中的数据成本高、费力,因此采用分散、分布式的数据网络架构是必然的选择。
数据结构可以同时为业务和技术团队带来明显的价值。王积杰表示,从业务角度来看,因为企业可以轻松获得高质量的数据,他们可以更快、更准确地获得企业数据洞察。从技术方面来说,数据复制的次数和频率更少,减少了数据整合的工作,方便了数据质量和标准的维护,降低了硬件架构和存储的开销。由于减少了数据复制并大大优化了数据流,数据处理过程得到了加速和简化,从而通过实施自动化的整体数据策略减少了数据访问管理的工作。
Gartner认为,随着数据复杂性的不断增加和数字服务的加速发展,Data Fabric已成为支持组合数据分析及其各种组件的基础架构。由于在技术设计中可以使用/重用和组合不同的数据集成方法,Data Fabric可以将集成设计时间缩短30%,部署时间缩短30%,维护时间缩短70%。IBM 7月发布的Cloud Pak for Data4.0增加了智能数据结构功能,其中AutoSQL(结构化查询语言)可以通过AI自动访问、集成和管理数据,可以帮助客户以8倍的速度、不到一半的成本获得分布式查询的答案。
如何“编织”数据?
数据结构如何“编织”实现“数据找人而不是人找数据”?据王积杰介绍,数据结构至少需要四个维度。首先,它可以在数据之间建立虚拟链接,简化数据访问模式,从而减少数据复制的次数。二是建立企业数据目录,利用AI技术自动实现语义和知识分析,理解数据及其业务含义,建立知识图谱,从而使数据目录智能化、自动化。需要数据的用户可以随时知道哪里需要数据以及如何需要数据。三是建立自动化数据平台,允许用户以自助方式访问和获取数据。第四,通过提供全面的自动化策略,我们可以确保数据安全,增加数据隐私和权限保护,并提高数据质量。
数据编织是一种新的设计理念,是数据管理和数据收集理念的转变。它不是与数据仓库、数据湖等技术的替代关系。既可以利用数据中心、数据湖、数据仓库的现有技术和技能,也可以在未来增加新的方法和工具。孙鑫谈到了实现Data Fabric的一些关键技术,比如增强数据目录。为了找到数据而不是数据的人,需要一个增强的数据目录。应该涵盖用户数据使用的频率和机制,了解数据和业务的关系。它还包括知识地图,通过知识地图可以发现数据和业务之间的关系,并找到元数据利用的集成策略。还包括推荐引擎和数据准备阶段的低代码等工具。低代码工具的作用是降低数据使用的门槛。
从Data Fabric推动的困难来看,“一是概念层面的问题,中国用户还没有意识到数据利用和使用的方式发生了变化,传统的集中收集和复用的方式已经不能满足需求。二是目前很多企业对元数据不够重视。第三,从人的角度出发,需要提高企业数据工程师培训知识图谱、图语言、图建模等数据工具的能力。第四,数据编织的实现不是找厂家就能完成的。这是一段旅程,需要分几步走。”据孙鑫介绍,从用户角度来看,率先采用Data Fabric的是金融电信行业和数据应用场景复杂的用户。在这一点上,王积杰表达了与孙鑫相同的观点——这是一个方向,但不可能一蹴而就。用户需要一步一步地实现它。关键是要意识到趋势,并在后续的项目实施中按照Data Fabric的思路进行构建。
国产厂商为何止步不前?
虽然Gartner、Forrester等分析师在几年前就指出,Data Fabric是数据利用和分析领域的革命性变革,是未来的方向,但记者在国内大数据相关领域企业采访时发现,了解或布局,甚至找不到的企业并不多。这与国内大数据厂商的分布有关。“国内做数据库和BI(商业智能)的企业很多,但做数据集成的企业很少。事实上,国外的数据编织往往是由数据集成和数据虚拟化厂商完成的。这很好地理解了为什么国内大数据厂商没有进入Data Fabric,因为这样的企业并不多。”孙鑫告诉记者。
大厂商不进入市场很容易理解,因为在Data Fabric的思想下,往往需要用点和边的新方式来描述数据关系,需要知识图谱、图数据库等。,这往往是新公司正在做的领域,而大厂商往往都有自己的数据集成工具,都希望在自己的平台上进行集成,但这种情况在未来几年肯定会改变。“数据结构(Data Fabric)的概念在全球范围内变得炙手可热,但目前国内了解它的IT用户并不多。十年前,大数据概念在国外兴起后,不到三年就被中国用户广泛接受。未来中国接受和应用这种数据结构概念需要多长时间?等待时间给出答案。”王积杰说道。租用服务器可咨询梦飞云idc了解。