数据仓库高级话题

数据仓库的成型,直接原因是企业数据模型,间接原因是最终用户的需求。

在数据仓库中,最终用户的需求并不是直接满足的,而是通过指示数据的重组方式满足。

1 探查型数据仓库

普通数据访问和繁重统计处理不能在数据仓库中良好融合,因为存在资源竞争。

探查性数据仓库(或数据挖掘型数据仓库)是一种特殊形式的数据仓库,用于解决资源竞争问题。

思考:额外建立的、环境分离的、用于启发式分析的数据仓库?

特点:

  • 数据仓库的子集,环境分离
  • 使用便利区,通过先计算再存入,简化统计分析
  • 历史性
  • 颗粒
  • 以项目为中心
  • 生命周期基于项目

探查型数据仓库面向广度优化,数据挖掘型数据仓库面向深度优化。两者区别很小,只有在业务复杂的公司才会区分。

由于进行启发式分析,探查型数据仓库不能在分析时快速和有规律地更新,否则将影响分析的准确性。

由于集成需求不同,外部数据适应探查型数据仓库,不适应数据仓库。

2 数据集市环境分离

数据集市与数据仓库,数据集市间应当环境分离。

  • 集中式依赖高性能硬件,费用更高
  • 集中管理复杂
  • 部门间相对独立

3 数据生命周期

  • 事件或交易触发数据捕获
  • 捕获数据经过基本编辑和范围检查
  • 数据调入应用程序,用于在线访问
  • 数据经过集成,进入数据仓库
  • 使用频率降低,进入近线存储
  • 基本不使用,进入存档

image-20200630224646219

4 数据流追踪

用于支持最终用户分析。

image-20200630224608859

5 数据速率

指从捕获到分析的数据传输速率。

思考:数据采集加工效率?

6 数据推拉

推:进入数据仓库

拉:导出数据仓库

7 粒度管理器

用于在进入数据仓库前清洗和聚合网络数据

8 概要记录

一种形式信息,用于从ODS到数据仓库转移数据

由于响应时间要求,网站访问ODS,而不是数据仓库。

9 记录系统

所有信息值的信息源。

是数据更新的地方,其他地方只是复制。

选择标准:

  • 精确
  • 当前
  • 细致
  • 完整

10 企业信息工厂与政府信息工厂

思考:企业信息工厂CIF即现今的数据仓库?

企业应用集成EAI用于应用程序间传递数据。

企业信息工厂CIF与政府信息工厂GIF不同:

  • 数据集成和分享广度要求不同,企业更小
  • 数据保存时间不同,企业更短
  • 安全不同,企业更弱

11 其他

数据仓库的本质就是不断调整。

参考资料

《数据仓库》