分布式数据仓库

1 集中式与分布式

集中式场景:业务和数据都是集中管理和应用的,分布存储弊大于利

  • 数据在整个企业范围内集成,并且只有总部才会使用
  • 业务是集中式运作的
  • 数据量非常大,集中存储更妥当
  • 分布存储存取困难

分布式场景:

  • 分布式数据

    数据在分布式环境中处理。称为技术上分布的数据仓库。

  • 分布式业务

    业务是分布式,形成了局部/全局数据仓库。远程站点上的局部数据仓库负责提供和处理数据,全局数据仓库提供企业方位内集成的数据。

  • 分布式数据仓库

    多个数据仓库先后建立。

2 局部/全局数据仓库

(1) 建立条件

分支机构数据处理逻辑多,并且总部也需要这些数据和业务活动。

(2) 局部数据仓库

局部数据仓库仅包含对分支机构有意义的数据。

局部数据仓库除了作用环境为局部外,与其他数据仓库具有相同的功能。

局部数据仓库间数据和数据结构不需要协调。由全局数据仓库负责。

(3) 全局数据仓库

包含涉及整个企业的集成数据和需要全局管理的数据。

使用公共的数据结构包含和定义企业内的所有公共数据。

(4) 局部到全局的映射

局部到全局的数据映射很可能是建造全局数据仓库最困难的部分。

数据仓库的迭代式开发也主要反应在局部到全局的数据映射。

一种变化形式是:将全局数据仓库的数据缓冲区域保存在分支机构。分支机构在传送数据前先缓冲,由分支机构决定传送的数据和版本。

需要正确定义不同级别数据仓库的管辖范围,保证互斥。

原则上,局部数据局部使用,全局数据全局使用。

需要处理好不同信息请求的路径选择问题和数据传输问题。

局部数据昂库数据应当尽量灵活,以便分割和重组。

3 技术分布式数据仓库

优点:

  • 造价低
  • 数据量在理论上没有限制

缺点:

  • 频繁的网络数据传输

4 独立开发的分布式数据仓库

需要管理和协调企业内的多个数据仓库

参考资料

《数据仓库》