童年原是一生最美妙的阶段,那时的孩子是一朵花,也是一颗果子,是一片懵懵懂懂的聪明,一种永远不息的活动,一股强烈的欲望。——巴尔扎克
现在位置:首页 > 大数据平台建设系列:(四)数据集市和指标体系建设中的困难

大数据平台建设系列:(四)数据集市和指标体系建设中的困难

玉龙之乡    2020-2-8  12500  0评论

一.数据集市起源

数据仓库和数据集市都是企业的一种数据分析环境。数据仓库数据规模较大、建设周期比较长,一些规模比较小的企业,数据规模不大,投入精力有限,没必要建立大型的数据仓库,小而美的数据集市更适合他们。规模较大的企业或集团已经建立起数据仓库,为更好的给业务部门、子公司提供不同主题(例如:用户、商品等)的数据,会在数据仓库的基础上,构建面向部门特定主题的数据集市。我们把第一种称为独立数据集市,第二种成为非独立数据集市。

  • 独立数据集市:上游数据源为业务系统,具有自己的ETL处理过程,实现相对简单,是一种小型数据仓库;实现方案:将需要分析的数据接入到分析型数据库即可,分析型数据库可选择Apache Kylin、Apache Druid、Clickhouse等。如果需要图形化展现Superset会是个比较好的选择。上述方案实现速度快,成本比较低。
  • 非独立数据集市:数据源为数据仓库,存储数据仓库统计分析后的结果,有特定的应用主题,强调数据使用的灵活性(上卷、下钻等)。实现方案上侧重点在纬度建模(星型、雪花、星座等),分析型数据库选型可参照独立数据集市。

从数据集市的起源我们可以看出数据集市与数据仓库的区别,独立数据集市可以理解为一种小型数据仓库。非独立数据集市是数据仓库的延伸,目的是更好的组织和规划数据。至于如何建设数据集市可根据自身企业特点,我们剩下的内容主要谈一下非独立数据集市建设中的困难。

二.数据集市和指标体系建设中的困难

我们先抛出一个问题:有了数据仓库为什么还需要数据集市呢?

这个问题困扰过我一段时间,直到公司在规划数据资产管理方面系统时,才渐渐有了些体会,可以简单说一下自己的观点。在没有数据集市之前,我们将数据仓库的分析结果同步到数据报表平台,供业务方使用,久而久之,我们处理的需求越来越多,统计指标也越来越多,被需求方牵着鼻子走,如果数据处理方能提前跟业务方沟通好相关主题、统计逻辑,提供方便灵活的数据获取方式,完全可以避免上述问题。另外通过建设数据集市梳理好指标体系,将为后续的数据资产化节省很多时间。

因此数据集市的建设很必要,它使数据仓库更加灵活,数据处理方能化被动为主动,通过梳理指标体系为后续数据资产管理打下基础。

指标体系建设中的困难

我们在日常处理数据需求时,经常会碰到相同指标名称统计结果不一致的现象,一旦出现该现象,排查原因和解释成本比较高。老指标应对新规则以及指标定义频繁变化是指标体系建设过程中遇到的比较大的问题。在摸索实践中发现分类治理可以解决该问题。我们将数据指标分为活跃指标和稳定指标两类,具体定义和处理方式如下:


大数据平台建设系列:(四)数据集市和指标体系建设中的困难

数据集市数据指标定义

我们聊了下数据集市和指标体系建设,简单说了下我们在建设指标体系过程中遇到的问题,可能不具有共性,希望在大家遇到该问题时,能够提供一种解决思路。

评论一下 分享本文 联系站长
 草原上的建筑- 草原上的建筑模型-玉龍之鄉
看完文章就评论一下!
挤眼 亲亲 咆哮 开心 想想 可怜 糗大了 委屈 哈哈 小声点 右哼哼 左哼哼 疑问 坏笑 赚钱啦 悲伤 耍酷 勾引 厉害 握手 耶 嘻嘻 害羞 鼓掌 馋嘴 抓狂 抱抱 围观 威武 给力
提交评论

清空信息
关闭评论

sitemap