1 集中式与分布式
集中式场景:业务和数据都是集中管理和应用的,分布存储弊大于利
- 数据在整个企业范围内集成,并且只有总部才会使用
- 业务是集中式运作的
- 数据量非常大,集中存储更妥当
- 分布存储存取困难
分布式场景:
分布式数据
数据在分布式环境中处理。称为技术上分布的数据仓库。
分布式业务
业务是分布式,形成了局部/全局数据仓库。远程站点上的局部数据仓库负责提供和处理数据,全局数据仓库提供企业方位内集成的数据。
分布式数据仓库
多个数据仓库先后建立。
2 局部/全局数据仓库
(1) 建立条件
分支机构数据处理逻辑多,并且总部也需要这些数据和业务活动。
(2) 局部数据仓库
局部数据仓库仅包含对分支机构有意义的数据。
局部数据仓库除了作用环境为局部外,与其他数据仓库具有相同的功能。
局部数据仓库间数据和数据结构不需要协调。由全局数据仓库负责。
(3) 全局数据仓库
包含涉及整个企业的集成数据和需要全局管理的数据。
使用公共的数据结构包含和定义企业内的所有公共数据。
(4) 局部到全局的映射
局部到全局的数据映射很可能是建造全局数据仓库最困难的部分。
数据仓库的迭代式开发也主要反应在局部到全局的数据映射。
一种变化形式是:将全局数据仓库的数据缓冲区域保存在分支机构。分支机构在传送数据前先缓冲,由分支机构决定传送的数据和版本。
需要正确定义不同级别数据仓库的管辖范围,保证互斥。
原则上,局部数据局部使用,全局数据全局使用。
需要处理好不同信息请求的路径选择问题和数据传输问题。
局部数据昂库数据应当尽量灵活,以便分割和重组。
3 技术分布式数据仓库
优点:
- 造价低
- 数据量在理论上没有限制
缺点:
- 频繁的网络数据传输
4 独立开发的分布式数据仓库
需要管理和协调企业内的多个数据仓库
参考资料
《数据仓库》