数据仓库环境

数据仓库是体系结构化环境的核心,是决策支持系统处理的基础。

数据仓库应该进行一致性编码。

数据加载时是以静态快照的格式进行。

数据仓库中数据与当前值不同。

(1) 结构

数据存在着不同的细节级:

  • 早期细节级

    数据过期后,由当前细节级转入。通常存储在备用海量存储器上。

  • 当前细节级

    导入数据

  • 轻度综合数据级(数据集市级)

  • 高度综合数据级

image-20200606120925192

(2) 面向主题

数据仓库面向高层企业数据模型中已定义好的企业主题域。

每个主题域由多个相互关联的物理表组成。

主题域中,所有物理表通过一个公共关键字联系。

每条记录都有一个时间元素。其中以起止时间为基础组织的,称为数据的连续组织。

image-20200606121316915

image-20200606121353051

(3) 逐步构建

数据仓库是有序逐步构建的。

  • 熟悉操作型事务处理系统
  • 第一个主题域加载最初的表数据
  • 更多的数据加载到数据仓库
  • 数据集市兴起
  • 多维系统出现
  • 体系结构充分发展

(4) 粒度

粒度是设计数据仓库的最重要方面。

粒度指数据单元的的细节程度或综合程度,影响数据量和数据仓库应答能力。

1) 优势

  • 观察数据的不同角度。
  • 细粒度带来改变观察角度的灵活性,可以自由综合。
  • 包含企业活动和事件的历史。
  • 应对未知需求的能力。

2) 劣势

细粒度数据量大,查询检索过程耗费大

粗粒度综合程度高,细节丢失多

image-20200606122820695

3) 双重粒度

适用于数据量大时,基于费用、效率、易用和应答能力的最佳选择。

包含两种类型数据:轻度综合数据和“真实档案”数据

轻度综合数据应对大部分处理,“真实档案”数据应对更大细节级分析处理。

(5) 活样本数据库

是周期刷新的数据仓库的数据子集。

不是通用的数据库,适用于统计分析和趋势观察,不适用于处理单条数据。

使用选择函数(通常为随机)抽取数据仓库样本。

优点是存取次效率高。

可用于DSS分析员需求理解时的迭代处理。

(6) 分区

分区是数据仓库设计中的第二个主要问题。

目的是将数据划分为小的可管理的物理单元,以应对数据增长和管理。

一个数据单元属于且仅属于一个分区。

常见分区标准:

  • 时间
  • 业务范围
  • 地理位置
  • 组织单位
  • 以上所有

分区方式:

  • 系统层

    依赖于DBMS和操作系统,不知道分区间的关系,通常只有一种数据定义

  • 应用层

    由开发者控制,可以有不同的数据定义

(7) 数据组织

  • 简单堆积

    以逐个记录为基础堆积数据,最简单和常用。细节丰富,但数据量大

  • 轮转综合

    周期地按层次综合数据。相对紧凑,但有细节丢失。时间越久,细节丢失越多。

  • 简单直接

    操作型数据间隔一定时间的快照。可以是时间窗口内简单直接文件的综合,也可以是当前快照与最近连续文件的追加。

(8) 审计

不应该在数据仓库中进行审计。

主要原因:出现之前没有的数据、改变时间标定过程、改变备份和恢复机制、限制粒度为最细

(9) 异构

数据仓库中的数据是异构的。主题域间不同,域内表间不同。

(10) 数据清理

  • 轮转综合
  • 移动到备份大容量存储中
  • 删除
  • 体系结构层次转移,如从操作层到数据仓库层

(11) 报表

操作型系统和数据仓库都可以报表处理,但是面向对象和用户不同。

  • 操作型报表

    主要是行式项目,供基层人员使用

  • 数据仓库报表

    主要是综合或其他计算,供管理层使用

(12) 数据纠错

  • 更改先前错误数据

    • 优点

      干净、彻底

    • 缺点

      1 破坏集成性。利用错误数据生成的报表失去一致性

      2 在数据仓库环境中更新。

      3 需要修正的条目众多。由于其他数据对该数据的依赖?

  • 额外加入修正条目

    • 优点

      反应最新数据状态

    • 缺点

      1 需要修正的条目众多。

      2 可能修正公式复杂。

  • 重置当前数据

    • 优点

      不用考虑之前的数据

    • 缺点

      1 需要与应用、过程约定

      2 缺乏对错误数据的解释。错误数据在哪?

参考资料

《数据仓库》

近线存储:磁带,自动控制的基于卡式磁带机的串行磁带。

操作型窗口:操作型环境中档案数据的时间范围。