数据仓库粒度

1 粗略估算

根据业务活动和用户规模(含潜在)粗略估算数据量的存储空间。需要考虑备份和恢复的空间。

image-20200612111300923

2 溢出存储器

睡眠数据(或不活跃数据):不经常使用的数据

分离睡眠数据到海量备用存储中。

鉴别睡眠数据,需要有数据监控工具。数据监控工具了解数据的存储位置和数据的活跃程度。数据移动是通过跨介质存储管理器(CMSM)控制。

鉴别睡眠数据方法:

  • 达到一定时间长度
  • 根据数据类型

3 确定粒度

以合理的推测为起点,通过用户反馈和调整,不断迭代精进。

经验如下:

image-20200612112200785

4 填充数据集市

由于适用范围的影响,数据仓库中的粒度必须是所有数据集市所需数据中的最小粒度。保证数据细节能够满足所有部门适用,且数据量不至于过多。

参考资料

《数据仓库》