如何利用数据仓库优化数据分析?

  • 时间:
  • 浏览:0

数据分析要求数据是干净、删剪的,而数据仓库最核心的一项工作时候ETL过程,流程如下:

事实上,除此之外,数据防止人员还应该从中学习到数据仓库的思想:面向主题,逐层加工。36大数据(http://www.36dsj.com/)

亲戚另一个人还可否 想看 ,整个数据仓库被分为十大主题,而金融行业所有的数据、业务时候被这十大主题含有。当亲戚另一个人时需找某个信用卡账户信息时,亲戚另一个人就去协议(AGREEMENT)主题,时需某次存款交易信息时就去探寻事件(EVENT)主题,时需某个理财产品相关信息就挖掘产品(PRODUCT)主题,那末类推,亲戚另一个人就会发现十大主题将整个金融行业的数据划分得非常清晰,亲戚另一个人时需做的时候拿到业务需求,理解数据仓库的模型,数据理解也就水到渠成了。

数据仓库是面向主题的,好多好多 其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。下图是Teradata关于金融行业的性成熟是什么是什么 的句子的句子 图片 期模型:

业务理解 – 数据理解 – 数据准备 – 建模 – 评估 – 部署

而数据仓库肯能对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量做了较好的保障。

3. 熟悉数据字典表:数据字典是数据仓库物理存储的信息库,还可否 通过数据字典了解库、表、字段不同层级的关系、存储、类型等信息;

3. 数据跨系统关联

笔者总结了如下经验:36大数据(http://www.36dsj.com/)

上图是数据仓库的一好好多个 简单架构,还可否 想看 ,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库完后 ,相当于防止了数据分析中的好好多个 问提:

在整个数据分析流程中,数据防止的时间往往要存在70%以上!你这人数字有那末我能 震惊呢?为了提高分析下行速率 和质量,借用数据仓库进行数据分析是一好好多个 很好的选取,删剪的工作最好的辦法 本文时候所介绍。

第一,跨系统数据分发问提,同一好好多个 客户的储蓄交易和理财交易亲戚另一个人在同一张事件表就还可否 找到;

来源:51CTO

数据分析大致包括以下流程:36大数据(http://www.36dsj.com/)

4. 研究ETL脚本:学习好多个数据仓库ETL加工脚本,能更细致的探索数据加工防止逻辑,更清楚的理解数仓加工模式,快速掌握数据加工技巧;

首先,亲戚另一个人来了解一下数据仓库吧!数据仓库是一好好多个 面向主题的、集成的、相对稳定的、反应历史变化的数据集合。那数据分析又是干哪些的呢?笔者凭借个人的经验认为,基于业务需求,结合历史数据,利用相关统计学最好的辦法 和好多好多 数据挖掘工具对数据进行整合、分析,并形成一套最终防止某个业务场景的方案时候数据分析的过程。

第二,跨系统关联问提,同一好好多个 客户肯能在不同系统中记录了不同的客户号,甚至存在不同的账号,进行数据整合时,一直时需找到同去的“纽带”来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,完美防止跨系统关联问提。

利用数据仓库进行数据分析无疑可否 给亲戚另一个人的工作带来很大便利,那末,究竟要何如操作呢?亲戚另一个人首先时需了解数据仓库的优势,数据仓库相当于还可否 从如下好好多个 方面提升数据分析下行速率 :

2. 学习数据仓库设计文档:设计文档是业务与数据,数仓与源系统的桥梁,熟悉表间mapping映射,就能快速定位需求变量的来源和防止逻辑,全面了解相关业务;

5. 观察明细数据:你会真正了解数据,就时需对具体数据进行不同维度和层次的观察;比如事件表,从交易类型、时间、渠道、业务种类等多个维度捞好多个数据,观察某个相同条件下不同维度的交易变化,了解银行交易的全景信息,帮助理解业务,熟悉数据。

1. 数据理解

觉得,每一好好多个 数据分析师肯能数据防止师时候有个人的工作习惯和经验,以上是笔者经历两年多数据仓库开发、三年数据仓库和数据分析兼职者的经验总结的好多好多 心得,希望对亲戚另一个人有所帮助。

面向主题是指让杂乱的数据结合业务划分,更容易着手防止原来杂乱的数据,数据防止人员只需知道哪些数据属于哪个主题,好多好多 基于主题再进一步防止;逐层加工则是指让细粒度的数据走向宽表的过程清晰,有层次,数据防止过程中清楚每一步的产出是哪些。

可见,数据仓库是整合的、面向主题的、数据质量高的、跨系统的优质数据源,那末,亲戚另一个人该何如充分利用哪些优势呢?

2. 数据质量

1. 研究数据仓库模型:数仓的精髓时候面向主题的模型,能理解各大主题域范畴,熟悉不同主题间的关系,基本就掌握了数仓的架构;

好多好多 ,何如高效、快速地进行数据理解和防止,往往决定了数据分析项目的进度和质量。而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往可否 更加保证数据质量和数据删剪性。36大数据(http://www.36dsj.com/)

肯能数据分析对数据质量、格式的要求天然冰就比较高,对数据的理解也时需非常深刻,使得数据契合业务需求也要一定的过程,原来,根据亲戚另一个人的经验,在整个数据分析流程中,用于数据防止的时间往往要存在70%以上。

本文作者:毕马威大数据挖掘