「术」20. 数据整合最新

「术」20. 数据整合

数据整合是将来自不同来源的数据组合成一个统一视图的过程。整合从数据提取开始,包括清理、ETL 映射和转换等步骤。数据集成最终使分析工具能够产生有效的、可操作的商业洞察。数据整合解决方案的组成部分通常包括数据源网络、主服务器和从主服务器访问数据的客户端。数据整合是整个数据管理过程的主要组成部分之一,随着大数据集成和共享现有数据的需求不断增长,数据整合的使用频率越来越高。

 

在典型的数据整合过程中,客户端向主服务器发送数据请求,然后主服务器从内部和外部来源获取所需的数据,从来源中提取数据,然后合并为一个单一的、有凝聚力的数据集,返回给客户端以供使用。

 

数据整合可以帮助解决的一些问题包括:

 

  • 大数据:大数据是科技界的一个主流话题。虽然由于数据量大,管理大数据看起来很费劲,但数据多样性通常是一个更大的问题。数据整合有助于理解组织内的所有数据,无论数据是内部生成的还是外部收集的。
  • 数据孤岛:数据孤岛是指将数据存储在特定位置的异构数据源。由于系统和部门脱节,长期以来一直是一个问题。过去,部门只考虑自己的需求来选择数据存储的软件和方法。现在必须考虑跨部门、跨职能存储数据。整合数据有助于将数据带入任何团队成员都可以轻松访问的新系统中。
  • 语义整合:使用各种系统收集数据或让多人收集数据的常见问题是本体问题。这意味着拥有多种类型的数据来描述相同的事物,但组织方式不同。这方面的一个例子可能是日期的存储方式(“DD/MM/YYYY”、“MM/DD/YYYY”、“月日、年”等)。通过删除变体并创建结构化数据仓库,能够更轻松地查找数据、分析并更有效地理解数据。
  • 无障碍:“一次创造,多次交付”。通过创建中央数据源,公司内的数据用户都将能够访问相同的信息,这可以减少提出的问题数量、提高数据访问速度并避免错误复制数据。用户可以从一个中心位置访问需要的内容。

 

数据整合经常与应用程序整合和 ETL/ELT 混淆。虽然它们密切相关,但三个术语之间存在重要区别:

 

  • 数据整合是一个过程,其中来自多个来源的数据进入一个集中位置,通常是一个数据仓库。终端位置需要足够有弹性,以处理大量不同类型的潜在大量数据。
  • 应用程序整合涉及在各个应用程序之间来回移动数据以保持同步。通常,每个单独的应用程序都有特定的发送和接收数据的方式,并且这些数据以较小的量移动。应用程序整合是支持运营的理想选择。
  • ETL 代表提取、转换和加载,指从源系统中提取数据、将其转换为不同的结构或格式并将其加载到目的地的过程。数据整合和应用整合是 ETL 的两种类型。

 

关联词

API

API 即 Application Programming Interface 的缩写,它是一个软件中介,允许两个应用程序相互交流。

「术」20. 数据整合