`
adamed
  • 浏览: 181465 次
社区版块
存档分类
最新评论

《数据仓库》读书笔记1

阅读更多
今天读了《数据仓库》第一章,做个总结。


读了本章有以下感悟:

1、理解了什么事数据仓库

2、结合浙江移动网优项目将目前项目中遇到的问题及自己发现的一些遗留问题与书籍中描述的方法论进行印证,发现部分问题是设计时没有以数据仓库方式设计导致的。

3、了解了数据仓库开发流程,也解释了为什么当初会发生2感悟中遇到的问题。

4、了解了数据仓库中对于重要性要素与OLTP中重要性要素是不同的。比如相应时间。

5、DSS环境(DSS决策支持系统)的响应事件与在线事物处理(OLTP)环境中的响应事件有很大不同。在DSS中相应时间不是决定性的,响应地,在DSS数据仓库环境中相应事件以分钟和小时计,在某些情况下以天记。(和浙江网优项目要求相去甚远,目前还没想好如何将此方法论应用到项目的修改中。)

6、原始数据和导出数据有很大差异,它们不能存在于同一数据库中,甚至不能共存于同一个环境下。作者对此给出一个硬件的解释(书1.4节):在数据仓库环境中,存在一个根本不同 的硬件利用模型,即利用的二元模型。要命利用全部硬件,要么根本不用硬件。所以可以针对操作型处理优化机器,或者针对数据仓库处理优化机器。但是不能在同一台设备上同时实现两者。(操作型是永远100%使用硬件环境)

下面是第一章最后的小结:

本章讨论了数据仓库的起源及其所适合的更大的体系结构化环境。这个体系结构化环境伴随着信息处理的哥哥不同阶段的历史一直演化发展。体系结构化环境中的数据和

处理有四个层次---操作层、数据仓库层、部门/数据集市层和个体层。
数据仓库是根据源自操作型环境中的应用数据建立起来的。吧这些应用数据转到数据仓库中是要进行集成(个人理解用“数据汇总”比较合适)。数据集成的任务是非常

复杂和乏味的。数据从数据仓库流入部门/数据集市环境。部门/数据集市环境中的数据是根据部门的独特处理需求形成的。
数据仓库是在一种与传统应用系统使用的开发方式完全不同观点另一种方式指导下开发的。传统应用时按照SDLC(可理解为瀑布模型的开发方式)开发生命周期开发的,

而数据仓库则是在一种螺旋式开发方法学的知道下开发的。螺旋式开发方法要求先开发数据仓库的几个小部门,然后对数据仓库的其他小部门以反复的方式进行开发。
数据仓库环境的用户以一种完全不同的方式使用系统,数据仓库用户不像操作型环境用户那样能够直接定义需求,而是工作在一种发现的模式下。数据仓库的用户说:“

给我看下我说我想要的东西,然后,我才能告诉你我真正想要什么。”
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics