数据仓库是体系结构化环境的核心,是决策支持系统处理的基础。
数据仓库应该进行一致性编码。
数据加载时是以静态快照的格式进行。
数据仓库中数据与当前值不同。
(1) 结构
数据存在着不同的细节级:
早期细节级
数据过期后,由当前细节级转入。通常存储在备用海量存储器上。
当前细节级
导入数据
轻度综合数据级(数据集市级)
高度综合数据级

(2) 面向主题
数据仓库面向高层企业数据模型中已定义好的企业主题域。
每个主题域由多个相互关联的物理表组成。
主题域中,所有物理表通过一个公共关键字联系。
每条记录都有一个时间元素。其中以起止时间为基础组织的,称为数据的连续组织。


(3) 逐步构建
数据仓库是有序逐步构建的。
- 熟悉操作型事务处理系统
- 第一个主题域加载最初的表数据
- 更多的数据加载到数据仓库
- 数据集市兴起
- 多维系统出现
- 体系结构充分发展
(4) 粒度
粒度是设计数据仓库的最重要方面。
粒度指数据单元的的细节程度或综合程度,影响数据量和数据仓库应答能力。
1) 优势
- 观察数据的不同角度。
- 细粒度带来改变观察角度的灵活性,可以自由综合。
- 包含企业活动和事件的历史。
- 应对未知需求的能力。
2) 劣势
细粒度数据量大,查询检索过程耗费大
粗粒度综合程度高,细节丢失多

3) 双重粒度
适用于数据量大时,基于费用、效率、易用和应答能力的最佳选择。
包含两种类型数据:轻度综合数据和“真实档案”数据
轻度综合数据应对大部分处理,“真实档案”数据应对更大细节级分析处理。
(5) 活样本数据库
是周期刷新的数据仓库的数据子集。
不是通用的数据库,适用于统计分析和趋势观察,不适用于处理单条数据。
使用选择函数(通常为随机)抽取数据仓库样本。
优点是存取次效率高。
可用于DSS分析员需求理解时的迭代处理。
(6) 分区
分区是数据仓库设计中的第二个主要问题。
目的是将数据划分为小的可管理的物理单元,以应对数据增长和管理。
一个数据单元属于且仅属于一个分区。
常见分区标准:
- 时间
- 业务范围
- 地理位置
- 组织单位
- 以上所有
分区方式:
系统层
依赖于DBMS和操作系统,不知道分区间的关系,通常只有一种数据定义
应用层
由开发者控制,可以有不同的数据定义
(7) 数据组织
简单堆积
以逐个记录为基础堆积数据,最简单和常用。细节丰富,但数据量大
轮转综合
周期地按层次综合数据。相对紧凑,但有细节丢失。时间越久,细节丢失越多。
简单直接
操作型数据间隔一定时间的快照。可以是时间窗口内简单直接文件的综合,也可以是当前快照与最近连续文件的追加。
(8) 审计
不应该在数据仓库中进行审计。
主要原因:出现之前没有的数据、改变时间标定过程、改变备份和恢复机制、限制粒度为最细
(9) 异构
数据仓库中的数据是异构的。主题域间不同,域内表间不同。
(10) 数据清理
- 轮转综合
- 移动到备份大容量存储中
- 删除
- 体系结构层次转移,如从操作层到数据仓库层
(11) 报表
操作型系统和数据仓库都可以报表处理,但是面向对象和用户不同。
操作型报表
主要是行式项目,供基层人员使用
数据仓库报表
主要是综合或其他计算,供管理层使用
(12) 数据纠错
更改先前错误数据
优点
干净、彻底
缺点
1 破坏集成性。利用错误数据生成的报表失去一致性
2 在数据仓库环境中更新。
3 需要修正的条目众多。由于其他数据对该数据的依赖?
额外加入修正条目
优点
反应最新数据状态
缺点
1 需要修正的条目众多。
2 可能修正公式复杂。
重置当前数据
优点
不用考虑之前的数据
缺点
1 需要与应用、过程约定
2 缺乏对错误数据的解释。错误数据在哪?
参考资料
《数据仓库》
近线存储:磁带,自动控制的基于卡式磁带机的串行磁带。
操作型窗口:操作型环境中档案数据的时间范围。