数据仓库的成型,直接原因是企业数据模型,间接原因是最终用户的需求。
在数据仓库中,最终用户的需求并不是直接满足的,而是通过指示数据的重组方式满足。
1 探查型数据仓库
普通数据访问和繁重统计处理不能在数据仓库中良好融合,因为存在资源竞争。
探查性数据仓库(或数据挖掘型数据仓库)是一种特殊形式的数据仓库,用于解决资源竞争问题。
思考:额外建立的、环境分离的、用于启发式分析的数据仓库?
特点:
- 数据仓库的子集,环境分离
- 使用便利区,通过先计算再存入,简化统计分析
- 历史性
- 颗粒
- 以项目为中心
- 生命周期基于项目
探查型数据仓库面向广度优化,数据挖掘型数据仓库面向深度优化。两者区别很小,只有在业务复杂的公司才会区分。
由于进行启发式分析,探查型数据仓库不能在分析时快速和有规律地更新,否则将影响分析的准确性。
由于集成需求不同,外部数据适应探查型数据仓库,不适应数据仓库。
2 数据集市环境分离
数据集市与数据仓库,数据集市间应当环境分离。
- 集中式依赖高性能硬件,费用更高
- 集中管理复杂
- 部门间相对独立
3 数据生命周期
- 事件或交易触发数据捕获
- 捕获数据经过基本编辑和范围检查
- 数据调入应用程序,用于在线访问
- 数据经过集成,进入数据仓库
- 使用频率降低,进入近线存储
- 基本不使用,进入存档
4 数据流追踪
用于支持最终用户分析。
5 数据速率
指从捕获到分析的数据传输速率。
思考:数据采集加工效率?
6 数据推拉
推:进入数据仓库
拉:导出数据仓库
7 粒度管理器
用于在进入数据仓库前清洗和聚合网络数据
8 概要记录
一种形式信息,用于从ODS到数据仓库转移数据
由于响应时间要求,网站访问ODS,而不是数据仓库。
9 记录系统
所有信息值的信息源。
是数据更新的地方,其他地方只是复制。
选择标准:
- 精确
- 当前
- 细致
- 完整
10 企业信息工厂与政府信息工厂
思考:企业信息工厂CIF即现今的数据仓库?
企业应用集成EAI用于应用程序间传递数据。
企业信息工厂CIF与政府信息工厂GIF不同:
- 数据集成和分享广度要求不同,企业更小
- 数据保存时间不同,企业更短
- 安全不同,企业更弱
11 其他
数据仓库的本质就是不断调整。
参考资料
《数据仓库》