日历

2008 9.6 Sat
    123
45678910
11121314151617
18192021222324
252627282930 
«» 2007 - 11 «»

日志分类

文章搜索

日志文章列表

2007年11月29日 14:23:21

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第九讲 具有序数排序实例的带级别维度

对于名词级别来说,可以很容易按照某种原则对其进行排序,例如,对于地理维度中的商店级别,可以按照销售额进行排序,或者对于国家级别可以按照人口进行排序。如果一个带有级别的维度中的某些级别已经经过了排序,那么这个时候可以将排序操作作用到该维度的级别上,这种数据集的一般形式如下:
(Type.level.ordinal_ordering.)~ [Content1,Content2,…]
上述表达式可以理解为对于该类型排序级别中的每一个实例,表达式左边和右边之间的符号“~”表示了一个一对一的关系,在这里就是说左边的每一个元素都和右边的某个内容值相对应。下面是一些例子:按照最终名词(L)排序的运动员的年龄(C)维度,按照最近一次竞选中政党获得票数(L)排序的投票者收入中位数(C)维度,或者是按照商店大小(L)排序的新商店(C)维度的投资回报率。
让我们回顾一下上下文对层次的谈论,其中存在着两种基本的类型关系:⊿M/I和⊿I/M。非水平层次的一个弱点是它缺乏对于⊿M/I的支持。这是因为对于一个实例而言,除了直接的兄弟关系外,就没有其他自然的、非层次和跨越式的引用功能。即使对于兄弟关系,也必须..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1799) |  收藏
2007年11月23日 12:31:44

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第七讲 水平或者对称的层次

虽然非对称的层次非常常见,但是并不是所有的层次都是非对称的。如图3.7.1中的时间层次,其中的每一个成员,无论从上到下还是从下而上,它们的距离都是一样的。对于对称层次来说,你可以按照它们的层次来引用。因此,在图3.7.1中,度量季度的所有实例就是所有叶子有两个度量上升的节点,也就是距离根节点有一个度量下降的节点:它可以简单地用季度层次来引用。
'800')this.width='800';if(this.height>'600')this.height='600';" border="0" />
虽然非水平层次非常适合于对非规范的块状数据进行汇总,但是它们没有提供跨堂兄弟分析的功能。但是该方法的语法并不适合于所有的非水平层次。水平层次则不同,由于提供了级别的概念,所以可以进行任何类型的系列分析。基于级别的层次的特征和使用方法将在后面排序部分介绍。


第八讲 具有名词排序实例的带级别维度

在业务维度中,一个典型的名词级别维度的例子是地理位置,如图3.8.1所示。请注意其中命名的级别是商店、城市、地区、国家等。实例需要满足级别之间必须有允许连接的条件。每一个商店必须连接到某个城市,每个城市必须连接到一个或者多个商店。..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1689) |  收藏
2007年11月19日 15:56:50

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第六讲 维度层次(3)

不同类型层次之间一个关键差别是从层次的根节点或者叶子节点共享相同距离m的一组实例,是否也从叶子节点或根节点共享相同的距离m,考虑图3.6.1、图3.6.2和图3.6.3。对于图3.6.1中的层次,如果需要访问所有到根节点的距离与家电产品相同的节点,则结果如图3.6.2所示。结果包括了桌子、椅子、床、家电产品和办公用品。其中所有的元素距离根节点的距离都是2。
但是从根节点下降两个m距离的层次维度的成员和叶子节点的距离并不完全相同。如图3.6.3所示,其中包含的产品层次和图3.6.2相同,但是其中着重显示了家电产品距离叶子节点相同的元素。家电产品和根节点的距离是2,而叶子节点的距离也是2。但是当我们从叶子节点开始计算的时候,其他距离根节点是2的节点没有一个和叶子节点距离一样的。这种类型的层次被称为非对称或者是非水平的。在实践中,产品、组织和地区报表层次常常都是非水平的。
'800')this.width='800';if(this.height>'600')this.height='600';" border="0" />
'800')this.width='800';if(this.height>'600')this.height='600';" border="0" />
'800')this.width='800';if(this.height>'600')this..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1746) |  收藏
2007年11月15日 12:17:57

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第五讲 维度层次(2)

让我们回顾一下由一组具有不同度量的实例——度量对所组成的层次类型,当然这里所有的度量都应该保证可比较性。因此实例——度量对的差别可能存在于两个方面:对于给定的实例可能度量会有所不同,或者是给定了度量但是实例有所不同。所有父——子、祖先——后裔、层次、粒度、换算系数或者分解的概念都可以用每个i的⊿m或者m/i表示。具体如图3.5.1所示。
所有的层次都存在一些⊿m/i、父——子、多对一、或者换算系数的关系。在一个层次类型中,最大刻度的度量或者根节点,没有父节点度量。最小刻度的度量或者叶子没有子节点。当降低任何inmn中的m的时候,例如i1m1,该操作通常称做寻找子节点、寻找第一个后裔或者降低i1m1的层次。同样,提升i2m2或者i3m2中的m,通常称为寻找父节点、寻找第一个祖先,或者是提升i2或者i3的层次。




和⊿m/i关系相对应的是⊿i/m关系。所有的邻居和系列之间的关系都是形如⊿i/m的关系。在图3.5.1中,只存在一个⊿i/m关系。从i1m1浏览或者引用i2m1的动作通常称为调用邻居或者是在i1m1所在的层次中移动。更进一步的⊿i/m关系依赖于其他的属性例如排序。在OLAP、关系数据库和统计中..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1686) |  收藏
2007年11月14日 11:08:28

《一个案例——从信息角度看数据价值》之三——企业财务数据的..

如果说信息是企业的资源的话,企业财务信息更是企业的宝贵资源。我曾经看到过一篇文章,大意是对企业财务总监提出的要求,文章说现今的企业财务总监,不但要成为企业财务管理的带头人,还应该成为企业全面信息分析的领头羊,从信息中不但向董事会提出各种决策的理论依据,还要善于利用信息为企业赢得更大利益。

企业的信息是伴随企业的生产、管理、销售、市场、服务产生的。企业信息具有其鲜明的特征和特点。在这里我对要讨论的信息对象做了定界,将我探讨的信息内容归结为企业信息集合,它有别于泛指的信息。因为从信息论的角度,信息是抽象的概念,而我更愿意研究实际存在的内容。那么企业信息到底具有什么特点和特征呢?企业信息的特征就是:企业信息的生成是企业各种流程操作的结果,企业信息在传递和加工过程中随时间及空间变化具有衰减和放大的特点。获得企业信息的方式有两种;一种是直接的,即通过自己的感觉器官,耳闻、目睹等直接了解;一种是间接的,即通过语言、文字、信号等传递消息而获得企业信息。总结上面的讨论有以下的总结。
1、企业信息与企业生产、管理、销售、市场、服务密切相联,但不是这些具体行为本身。企业信息是依附于这些具体行为之上的,没有..

阅读全文>>

Tags: OLAP   数据分析   信息价值  

类别: 无分类 |  评论(0) |  浏览(1681) |  收藏
2007年11月13日 10:36:12

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第四讲 维度层次(1)

很多商业和科学的维度都具有层次结构。类似的概念还有抽象、分组、多层关系、聚合和合并。简单地说,每个人都应该熟悉某些层次维度。我们以时间为例子,其中包含小时、天、星期、月份、季度和年份,从而组成了一个层次维度。地理位置,其中包含了邻居、城市、省份和国家,组成了另外一个层次维度。企业报表结构,经常会包括任务、项目、部门、业务单元和企业级别,从而也组成了层次维度等。
相反,场景维度对于很多业务模型来说都是非常常见的,典型的场景通常只包含了少量的成员,例如,实际成员、一个或多个计划成员,以及计划成员和实际成员联合后的变化成员。场景维度几乎从来不会做成层次结构。
对于商业活动和其他的人类活动来说,层次几乎是无所不在的。如果企业的数据全部位于事务层,则很难想象如何有效地运转整个公司。无论是用手工还是计算机处理,你都需要记录不同类型产品的汇总情况。即使你管理的是一个只有少量产品的小公司,你还是需要对产品销售情况按时间进行汇总,以更大的时间跨度来查看业务情况,一了解哪些产品销售的好、哪些产品的销售情况不好,而这些都是无法从事务层的数据中直接得..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1580) |  收藏
2007年11月12日 11:13:05

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第三讲 非层次结构(3)

4)度量
所有的实例都和度量是相关的
粗看起来,维度似乎就是由一组实例组成,并且可能带有一定的层次结构。毕竟,你可以在很多不同的OLAP产品中定义层次,在这些OLAP产品中都没有让你定义单位或度量。因此你可能会问为什么要引入单位或度量呢?一个快速简单的答案就是每一次你使用父节点、子节点和层次的时候,其实都隐含地引用了度量。
类型或维度的名称意味着一组可能的实例。例如,以维度命名的城市所指的是如上海或者广州之类有效的城市名称,而不是像红色、蓝色等表示颜色的记号,这些表示颜色的名称是无效的实例。虽然OLAP工具没有强制你一定要保证实例的同质性,但是我还是建议你应该遵循这个原则。让我们考虑如下的例子。如果是你今天担任数据仓库管理员的第一天,现在你正在熟悉公司的维度模型,当你看到一个叫“产品”的类型或者维度,并且发现其中混杂了经理或者城镇的名字的时候,如果你还希望保住自己工作的话,你很可能会将它们作为异常剔除出去。因此,组成类型的事物、元素、实例、成员、位置等从模型的角度上至少可以平等地对待。
我们应该把维度的名称看成是所有实例的一个速记,所以维度..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1307) |  收藏
2007年11月07日 14:58:40

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第二讲 非层次结构(2)

3)排序
有些读者可能已经从一些统计方面的书籍中知道了名词(nominal)、序数(ordinal)和基数(cardinal)序列之间的差别。一组政党或者赛跑者的列表是一个典型的名词序列。赛跑者在公路赛跑中的名次则是一个序数序列。而整数则是基数序列的一个例子。
由于维度层次的某些区别是由于排序不同造成的,排序的不同对于类型上的可行的操作有很大的影响,排序在维度分析中是一个非常重要的概念,因此我们将对不同的排序做详细的介绍。这里使用的矩阵应该被看做关系左边的实例I和关系右边所有可能实例iªn的一种简洁的表示方法。矩阵单元中的每一个等号表示了代表左边元素的行号i和代表右边元素的列号j之间的关系。
l       名词排序实例
如果实例是名词排序的,那么任何两个实例之间的关系只能是等于(=)或者不等于(≠)。表3.2.1描述了由4个实例组成的维度,以及每两个实例之间可定义的关系。实例中的上标a表示了其位于关系的左边。而带有上标的实例表示其位于关系的右边。
由名词排序实例组成的类型可以使用类似集合的操作,如连接、交叉和联合。它们支持的唯一的比较操作是相等比较..

阅读全文>>

类别: 无分类 |  评论(1) |  浏览(1685) |  收藏
2007年11月05日 15:47:57

数据分析讲堂

数据分析讲堂

第三课 维度的内部结构

第一讲 非层次结构(1)

对于层次的强有力支持是联机分析处理(OLAP)的第二个逻辑需求,同时也是OLAP与传统的SQL数据库及电子表格的首要区别。定义层次的两种主要方法,如图3.1.1所示,通常被称为水平的层次和非水平的层次。你可以把它们理解为观察世界的两种视角。就象如果你戴着蓝色的眼镜,那么世界看起来就是蓝色的;如果你戴着非水平层次的眼镜,那么世界看起来就是非水平层次的。这些方法之间的差别是不是很显著?如果存在差别的话,是不是其中的一种方法要比另一种方法更好和更加通用?还是这两种方法是彼此互补的,每一种都有其更加适合的情况呢?是否可能将这两种方法组合成一种更加通用的层次解决方案呢?
当你阅读完本课内容后,将知道为什么OLAP工具需要同时支持水平和非水平形式的层次和语言才能提供完整的层次功能。也就是说,如果一个工具仅仅支持水平或者非水平层次,那么就无法有效地对某些关系进行建模和计算。在你了解OLAP产品应该具有的功能后,你就可以更加方便地使用你目前的OLAP产品,因为你已经了解它的局限。当你需要寻求一个OLAP工具的时候,你也知道该问些什么问题了。
维度、变量或度量,以及属性或特..

阅读全文>>

类别: 无分类 |  评论(0) |  浏览(1701) |  收藏