数据仓库是一个面向主题的、集成的、非易失且随时间不断变化的数据集合。
数据仓库是一个从整体上入手,然后逐步解决具体问题的体系结构。
数据仓库是一种体系结构,而不是一种技术。
数据仓库从根本上不同于数据集市。
数据仓库的建立不同于应用程序的开发方法。
将操作型数据库与信息型数据库分离的原因:数据、技术、用户和处理特点不同
操作型数据存储(ODS)与数据仓库体系结构相似,但是ODS仅适用于操作型系统。
决策支持系统(DSS)主要讨论问题:
- 数据粒度
- 数据分区
- 元数据
- 数据缺乏可信度
- 数据集成
- 数据时间基准
- 确定数据源
- 数据迁移及方法
1 演化
信息管理系统(MIS, 或DSS),用于管理决策的处理过程。
2 自然体系化结构->体系结构化数据仓库
抽取之上再抽取,形成了抽取处理的“蜘蛛网”。——自然演化体系结构
产生的问题:
- 可信性
- 无时间基准
- 算法差异
- 多层次抽取
- 外部数据
- 无公共数据源
- 生产率
- 数据量庞大
- 数据检索工作量大
- 抽取程序复杂
- 信息转化不可行
- 大量的应用程序
- 应用间缺乏集成
- 缺乏历史数据
解决:体系结构化的数据仓库环境
两种数据:差异巨大,不能在 同一数据库中
- 原始数据
- 导出数据
结构层次:
主管信息系统(EIS)运行在层上。
数据从操作型环境传向数据仓库环境是,需要集成。通常由ETL软件自动执行。
数据仓库的用户是DSS分析员,首先是商务人员,其次是技术人员。作用是定义和发现企业决策中的信息。
注意:了解DSS分析员的想法和其对数据仓库使用的理解很重要。因为他们的思考和工作对业务开展是合理、广泛的,开发方式和使用方式对数据仓库的有影响。
3 操作型环境与数据仓库环境差异
(1) 开发生命周期
传统应用开发使用瀑布式开发方法(系统生命周期,SDLC)。
数据仓库几乎与SDLC相反,从数据开始,集成数据、检验偏差、编写程序、分析结果,到需求理解。在不断的重复以上过程,以满足不同需求。称为螺旋式开发方法。
(2) 硬件利用模式
操作型环境对硬件是持续占用,而数据仓库环境是按需占用,因此两者硬件模式优化方法不同,也从根本上表明两者不能混合在同一环境中。
4 利于重建工程
从生产环境到体系结构化数据仓库环境优势:
数据迁移
利于纠错、重构、监控和索引
信息处理迁移
迁移出信息处理功能,维护更加简单
5 监控
性能管理需要对数据仓库监控。
主要操作成分:数据和数据的使用情况
监控策略:
- 终端:性能影响小,但管理困难
- 服务端:管理简单,但对性能有影响
参考资料
《数据仓库》