当前位置：Linux教程 - Linux综合 - 数据仓库学习心得

数据仓库学习心得

　　一．概念 1．数据仓库：是指面向主题的，一致的，不同时间的，稳定的数据集合，用于支持经营管理中的决策支持过程。从广义上讲数据仓库是指存储大量历史数据的数据库。每一个记录代表特殊时间点上的一个数据。它是一种把收集的各种数据转变成有商业价值的信息技术，并把收集的信息体现在报告中。包括收集数据，过滤数据，存储数据，之后把数据应用于分析、报告等应用程序。 2．数据仓库目标：确认数据结构，寻找趋势，辅助决策，为经营管理提供决策信息。 3．．DSS：决策支持过程。 4．数据仓库组成部分：数据市场，关系型数据库，数据源，数据准备，种服务工具 5．维度: 6．多维: 7．聚合:获取并集中一个群体或总和的结构.聚合是在一个多维层次内移动数据的概念. 9．类别:为类别和区分特定数据而分类的,在一个维度内,为提供详细分类系统而定义的分类. 10．详细类别:一个维度内最底层的分类. 11．分解与合成: 12．指标量: 13．OLAP：联机分析 14．OLTP联机事务处理二．数据模型规范化 1．概念：规范化：是一个正规的方法，它应用一套规则使属性和实体相关联。实体：是一个主要的数据对象，对用户至关重要。它通常是将被记录在数据库中的一个人、一个地点、一样东西或者一件事情。属性：实体包括属性，属性就是特征，修饰成分、质量、数量或者特性。范式：规范化由几个能够减少褓以获得更满意的物理我的步骤组成，这些步骤称为范式。第一范式：一个不包含重复列的表归于第一范式。第二范式：如果一个表归于第一范式且只包含依赖于主键的列，则归于第二范式。第三范式：如果一个表归于第二范式且只包含那些非传递性地依赖于主键的列，则归于第三范式。二．信息需求建模: 1．自上而下建模方法:利用具体数据元素,将这些元素组织到各个维度与指标中, 2．自下而上建模方法:从用户的观点设计,优点是设计者可以转纸一个通常主题或商务领域运 3．开发. 是自上而下与自下而上的方法的结合. 4．举例：销售收入应从预算和实际等角度表示. 指标:产品销售的实际收入,产品销售的预算收,产品销售的估计收维度:已经销售的产品. 三．设计数据仓库，经常询部用户的几个问题？ 1.用户所在部门承担的任务 2.用户在部门中承担的任务 3.为完成任务，用户需哪些报表 4.目前从何处获取这些信息? 5.得到信息如何处理? 6.信息是应用户需要产生的,还是在定期报表中产生的? 7.用户把信息输入到过工作表中吗?以便进一步分析吗? 8.怎样处理这些信息才算及时? 信息包的编制: 信息包:________________________ 维度:____________________________________________ 　类别: 　　指标（预测销售，实际销售，预测偏差）四．建立多维数据模型要建立多维数据库： 1．选择用来分析被建模主题的商业过程。建模主题：比如想通过产品线和地区分析消费者的购买倾向来制订市场策略，此时数据模型主题就是“销售”。 2．确定事实表的粒度。事实表粒度通常代表每一个相关维的最底层。选择以“天”为粒度，就表示“时间维”中的每一记录代表一天。 3．区分每一个事实表的维和层。已定义的粒度与维相关。 4．区分事实表的度量。度量不仅包括数据本身，而且包括你从已存在的数据计算得到的新值。当设计数据模型时，必须做出决策：是否储存事实表里的计算结果或在运行阶段获得这些值。如：比值。 5．确定每一个维表的属性。一般情况下，定义的每一个维表属性的数量，应该保持最小。
[1] [2] 下一页

6．让用户验证数据模型。欢迎您给我发Email , 让我们共同进步。 mailto: [email protected] [email protected] [email protected]

（出处：http://www.sheup.com）

上一页 [1] [2]

站点导航

赞助商链接