大型数据仓库

1 数据量快速增长原因

  • 历史数据
  • 细节数据
  • 多种数据

2 海量数据影响

  • 经费开销大
  • 使用率低
  • 管理工作量大

3 数据分类

  • 非活动数据(休眠数据):不经常使用的数据
  • 活动数据:经常使用的数据

OLTP对所有数据进行随机访问,而DSS在两种数据的使用上有明显的区分。

4 不同存储介质

将大量数据集中存储在磁盘,不仅成本增加,并且查找和扫描代价增加。

  • 磁盘存储

  • 近线存储(海量存储器)

  • 存档存储

    与近线存储区别是数据的访问频率更低

自上而下,速度变慢,成本降低。

存档存储对最终用户是不透明的,用户可以感知。

磁盘存储和近线存储对最终用户是透明的,数据在形式上一致,对数据库系统可用

5 介质间数据转移

  • 手工

  • 分级存储管理方法

    在介质间移动整个数据集

  • 交叉介质存储管理方法

    根据请求在行粒度级上移动数据

image-20200625225448514

6 数据仓库监控器

监控查询和结果集,观察数据使用情况

  • DBMS供应商提供

    需要大量资源

  • 第三方(适合数据仓库)

    需要少量资源

7 数据仓库转换

普通仓库中,当前数据存储在磁盘上;转换数据仓库,当前数据存储在近线存储中。

可以使用多个基于磁盘的DBMS程序提高并行数量,减少性能损耗。

8 最大容量

衡量计算机容量标准:

  • 数据量
  • 用户数
  • 工作复杂度

三者相互制约,需要根据应用场景平衡关系。

参考资料

《数据仓库》

臭鼬式预算:开始投入很少,后期投入巨大

农民:以可预测方式使用数据的用户

探险家:以不可预测方式使用数据的用户