自助分析又称自助BI,是数据急剧增长环境下,商业智能(BI)为适应环境,不断进化的产物。自助BI的出现,将数据分析的范围逐渐从数据科学家、数据分析师和专业IT人员扩大到业务人员。『数据导向,人人都是数据分析师』的数据分析文化,正在优化企业的决策流程,加速企业的数字化转型。
一:为什么要建设自助分析平台
自助BI之前,数据分析能力主要掌握在数据科学家、数据分析师和有IT背景的技术人员手中,他们一般集中在企业技术部门,是个中心化的数据服务场景。在大数据时代,数据分析需求日益增加的情况下,中心化数据服务场景的弊端日益显现。
- 需求开发耗时长:从前期需求评审、中期需求开发、后期的数据验收,每个环节都需要跟需求方沟通、确认,耗时较长;
- 报表展现不灵活:报表展现一般为列表或简单的折线图、柱状图,不能灵活的诠释数据意义;
- 技术部门负担重:所有数据需求处理都压在技术部门,技术部门的吞吐能力直接决定着数据流通速度,而数据流通速度往往直接影响着分析决策的时效性。
二:自助分析平台建设要解决的问题
Gartner将Self Service BusinessIntelligence(SSBI)定义为『终端用户在被批准和支持的平台或工具组合中设计和部署自己的报告和分析』。从定义中我们可以看出自助分析平台需要解决数据管控和可视化设计和部署两个问题。
- 数据管控:数据管控主要解决什么人看什么数据,即数据权限问题。需要一套安全、高效的数据管控机制。
- 可视化设计与部署:提供灵活的数据分析能力和高度可配置的图表设计和部署能力。主要用于数据自助分析和生成图表丰富的数据报告。
三:商业产品外的自研解决方案
3.1 数据开放平台
在不暴露隐私数据的前提下,通过多种安全机制实现数据授权,为使用人员提供 SQL 交互式查询分析、数据定制下载能力,对分析结果提供自助式报表配置功能。
技术实现
我们将数据仓库、数据集市中的数据授权给各部门、子公司或 ISV 进行查询分析。为保证数据安全和企业间数据相互隔离,在实现过程中定义了专区的概念,一个专区可以理解为一个部门、子公司或 ISV。专区由后台管控系统负责开通,专区内设管理员和操作员,管理员负责添加操作员账号,操作员可在前台系统内进行查询分析、数据下载、报表配置等操 作。架构图如下图所示:
数据开放平台架构图
专区内又分为实验区、生产区和报表区,具体概念如下表所示:
- 专区:为企业提供数据服务而开通的专属区域,包括实验区、生产区、报表区三部分。专区间数据相互隔离。
- 实验区:专区中的开发环境,可进行SQL交互式查询、数据发布等操作。
- 生产区:专区中的生产环境,主要完成实验区已发布数据的周期性更新功能。
- 报表区:为关系型数据库或集市主题数据,存储周期性更新的查询分析结果。
在技术实现上分为后台管控系统和前台查询系统两部分。
- 后台管控系统:适用人员为数据部门的数据管理人员,管控端主要完成数据仓库、集市等元数据同步、专区开通、数据授权等操作。 数据管理人员根据各部门、子公司或ISV申请,开通专区账号,账号开通后由专区负责人添加操作员账号。专区账号开通后,数据管理人员根据数据授权申请,向企业专区进行数据授权。为做到相互隔离和数据安全,后台管控系统通过条件限制控制数据的授权,对手机号、身份证号、邮箱等敏感信息管控端采用加密算法防止数据泄露。授权流程如下图所示:
数据授权流程
加密脱敏
- 前台查询系统:前台查询系统适用人员主要为部门、子公司、ISV的业务查询分析人员。前台查询系统对查询分析结果提供定制下载、API接口调用和报表配置三种数据输出能力。
数据查询界面
数据查询流程
3.2 数据可视化平台
数据可视化平台已与数据开放平台打通,业务分析人员可将数据开放平台中发布的报表数据通过可视化平台进行可视化探索分析。为保证数据的时效性,数据可视化平台还具有实时数据分析能力。
技术实现
我们通过对Apache Superset进行二次开发,与自研的数据开放平台打通,来完成数据的可视化探索分析工作。数据可视化平台的数据源分为实时和离线两种:
- 实时数据源:来源于实时数据仓库,数据存储为Apache Druid;
- 离线数据源:来源于数据开放平台,数据存储为HDFS。
图表分析探索
数据分析报告
自助BI的出现标志着商业智能分析正在从『技术主导的报表模式』向『业务主导的自助分析模式』转变。去中心化的数据服务场景,拉近了数据与业务人员的距离,使数据科学家、分析师和IT人员摆脱繁杂的数据需求开发,专注于复杂的数据需求分析,更好的支持分析决策。
- 版权申明:此文如未标注转载均为本站原创,自由转载请表明出处《草原上的建筑- 草原上的建筑模型-玉龍之鄉》。
- 本文网址:https://liangzhidong.cn/?post=113
- 上篇文章:raid1 raid2 raid5 raid6 raid10各自优点
- 下篇文章:大数据平台建设系列:(四)数据集市和指标体系建设中的困难