1 数据量快速增长原因
- 历史数据
- 细节数据
- 多种数据
2 海量数据影响
- 经费开销大
- 使用率低
- 管理工作量大
3 数据分类
- 非活动数据(休眠数据):不经常使用的数据
- 活动数据:经常使用的数据
OLTP对所有数据进行随机访问,而DSS在两种数据的使用上有明显的区分。
4 不同存储介质
将大量数据集中存储在磁盘,不仅成本增加,并且查找和扫描代价增加。
磁盘存储
近线存储(海量存储器)
存档存储
与近线存储区别是数据的访问频率更低
自上而下,速度变慢,成本降低。
存档存储对最终用户是不透明的,用户可以感知。
磁盘存储和近线存储对最终用户是透明的,数据在形式上一致,对数据库系统可用
5 介质间数据转移
手工
分级存储管理方法
在介质间移动整个数据集
交叉介质存储管理方法
根据请求在行粒度级上移动数据
6 数据仓库监控器
监控查询和结果集,观察数据使用情况
DBMS供应商提供
需要大量资源
第三方(适合数据仓库)
需要少量资源
7 数据仓库转换
普通仓库中,当前数据存储在磁盘上;转换数据仓库,当前数据存储在近线存储中。
可以使用多个基于磁盘的DBMS程序提高并行数量,减少性能损耗。
8 最大容量
衡量计算机容量标准:
- 数据量
- 用户数
- 工作复杂度
三者相互制约,需要根据应用场景平衡关系。
参考资料
《数据仓库》
臭鼬式预算:开始投入很少,后期投入巨大
农民:以可预测方式使用数据的用户
探险家:以不可预测方式使用数据的用户