决策支持系统的发展

数据仓库是一个面向主题的、集成的、非易失且随时间不断变化的数据集合。

数据仓库是一个从整体上入手,然后逐步解决具体问题的体系结构。

数据仓库是一种体系结构,而不是一种技术。

数据仓库从根本上不同于数据集市。

数据仓库的建立不同于应用程序的开发方法。

将操作型数据库与信息型数据库分离的原因:数据、技术、用户和处理特点不同

操作型数据存储(ODS)与数据仓库体系结构相似,但是ODS仅适用于操作型系统。

决策支持系统(DSS)主要讨论问题:

  • 数据粒度
  • 数据分区
  • 元数据
  • 数据缺乏可信度
  • 数据集成
  • 数据时间基准
  • 确定数据源
  • 数据迁移及方法

1 演化

image-20200603122005464

信息管理系统(MIS, 或DSS),用于管理决策的处理过程。

2 自然体系化结构->体系结构化数据仓库

image-20200603122301989

抽取之上再抽取,形成了抽取处理的“蜘蛛网”。——自然演化体系结构

产生的问题:

  • 可信性
    • 无时间基准
    • 算法差异
    • 多层次抽取
    • 外部数据
    • 无公共数据源
  • 生产率
    • 数据量庞大
    • 数据检索工作量大
    • 抽取程序复杂
  • 信息转化不可行
    • 大量的应用程序
    • 应用间缺乏集成
    • 缺乏历史数据

解决:体系结构化的数据仓库环境

两种数据:差异巨大,不能在 同一数据库中

  • 原始数据
  • 导出数据

image-20200603161717158

结构层次:

image-20200603161907979

主管信息系统(EIS)运行在层上。

数据从操作型环境传向数据仓库环境是,需要集成。通常由ETL软件自动执行。

数据仓库的用户是DSS分析员,首先是商务人员,其次是技术人员。作用是定义和发现企业决策中的信息。

注意:了解DSS分析员的想法和其对数据仓库使用的理解很重要。因为他们的思考和工作对业务开展是合理、广泛的,开发方式和使用方式对数据仓库的有影响。

3 操作型环境与数据仓库环境差异

(1) 开发生命周期

image-20200603162738002

传统应用开发使用瀑布式开发方法(系统生命周期,SDLC)。

数据仓库几乎与SDLC相反,从数据开始,集成数据、检验偏差、编写程序、分析结果,到需求理解。在不断的重复以上过程,以满足不同需求。称为螺旋式开发方法。

(2) 硬件利用模式

操作型环境对硬件是持续占用,而数据仓库环境是按需占用,因此两者硬件模式优化方法不同,也从根本上表明两者不能混合在同一环境中。

4 利于重建工程

从生产环境到体系结构化数据仓库环境优势:

  • 数据迁移

    利于纠错、重构、监控和索引

  • 信息处理迁移

    迁移出信息处理功能,维护更加简单

5 监控

性能管理需要对数据仓库监控。

主要操作成分:数据和数据的使用情况

监控策略:

  • 终端:性能影响小,但管理困难
  • 服务端:管理简单,但对性能有影响

参考资料

《数据仓库》