外部数据与数据仓库

1 外部数据与内部数据

  • 内部数据:从现有系统抽取的、来自于企业内部的、结构化的数据。

  • 外部数据:来自企业外部的、非结构化的、不可预测的数据。

在一定时间范围内,将内部数据与外部数据比较,可以提供独特的数据视角。但是难以在两者间找到公共的关键字。

2 外部数据

通常,在使用外部数据时,容易忽视对数据源等附加信息的捕获,导致外部数据难以查找和再次利用。

外部数据难以查找的原因:

  • 展现方式没有固定的模式,需要建立监控
  • 引用时间和来源不可预测,需要通过元数据和索引与数据仓库连接

3 通知数据

用于指示用户关心的外部数据分类。

当加载的数据时某些用户感兴趣的数据时,发送相应的通知。

4 存储外部数据

平衡存储代价和访问效率对外部数据的不同部分存储在不同的介质环境中。

外部数据的元数据应登记数据来源等附加信息。

同内部数据,需要决定使用 生命周期和丢弃/归档策略。

5 外部数据建模

外部数据是不可塑的,难以与现有数据模型融合。

需要在关键字和关键字解释范围内,记录数据模型和外部数据的区别。

6 辅助报告

如果外部数据是周期产生的,可以按照时间根据细节数据产生辅助报告,帮助管理决策。

参考资料

《数据仓库》