当前位置:首页 » 我爱彩票 » 正文

分类页和文章页“当前位置”下方广告(PC版)
分类页和文章页“当前位置”下方广告(移动版)

午夜天堂,数据仓库根底,voice

173 人参与  2019年05月20日 17:06  分类:我爱彩票  评论:0  
  移步手机端

1、打开你手机的二维码扫描APP
2、扫描左则的二维码
3、点击扫描获得的网址
4、可以在手机端阅读此文章

一、数据仓库界说

数据仓库,英文名称为Data Warehouse,可简写为DW。

关于数据仓库概念的规范界说业界认可度比较高的,是由数据仓库之父比尔恩门(Bill Inmon)在1991年出书的“Building the Data War三明ehouse”(《树立数据仓库》)一书中所提出:孙菲菲

中文界说:数据仓库是一个面向主题的、集成的、相对安稳的、反映前史改变的数据调集,用于支撑办理决议计划。

英文界说:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.

二、数据仓库全体架构

观念一:


数据仓库着重分层。首要包含数据收集层、数据存储层、数据同享层、数据运用层。

观念二:

数据仓库的根本架构首要包含的是数据流入流出的进程,能够分为三层——源数据、数据仓库、数据运用:


 数据仓库从各数据源获取数据及在数据仓库内的捷豹xj数据转化和活动都能够认为是ETL(抽取Extra, 转化Transfer, 装载Load)的进程,ETL是数据仓库的流水线,也能够认为是数据仓库的血白话100液,它维系着数据仓库中数据的推陈出新,而数据仓库日常的办理和保护作业的大部分精力便是坚持ETL的正常和安稳。

1. 数据收集

数据收集层的使命便是把数据从各种九劫苍龙帝数据源中收集和存储到数据存储上,期间有或许会做一些简略的清洗。

2.数据存储与剖析

 源数据经过ETL的日常使命调度导出,并经过转化后以特性的办法存入数据仓库。其实这个进程一向有很大的争议,便是终究数据仓库需不需求贮存细节数据,一方的观念是数据仓库面向剖析,所以只需存储特定需求的多维剖析模型;另一方的观念是数据仓库先要树立和保护细节数据,再依据需求聚合和处理细节数据生成特定的剖析模型。我比较倾向后边一个观念:数据仓库并不需求贮存一切的原始数据,但数据仓库需求贮存细节数据,并且导入的数据有必要经过收拾和转化使其面向主题。简略地解说下:

(1).为什么不需求一切原始数据?数据仓库面向剖析处理,可是某些源数据关于剖析而言没有价值或许其或许发生的价值远低于贮存这些数据所需求的数据仓库的完结和功用上的本钱。比方咱们知道用户的省份、城市满意,至于用户终究住哪里或许仅仅物流商关怀的事,或许用户在博客的谈论内容或许仅仅文本发掘会有需求,但将这些冗长的谈论文本存在数据仓库就因小失大;

(2).为什么要存细节数据?细节数据是必需的,数据仓库的午夜天堂,数据仓库基础,voice剖析需求会时刻改变,而有了细节数据就能够做到以不变应万变,但假如咱们只存储依据某些需求树立起来的数据模型,那么显着关于频频改变的需求会不知所措;

(3).为什么要面向主午夜天堂,数据仓库基础,voice题?面向主题是数据仓库的榜首特性,首要是指合理地安排数据以方面完结剖析。关于源数据而言,其数据安排办法是多样的,像点击流的数据格式是未经优化的,前午夜天堂,数据仓库基础,voice台数据库的数据是根据OLTP操作午夜天堂,数据仓库基础,voice安排优化的,这些或许都不适宜剖析,而收拾成面向主题的安排办法才是真实地利于剖析的,比方将点击姑娘流日志收拾成页面(Page)、拜访(Visit或Session)、用户(Visitor)三个主题,这样能够显着进步剖析的功率。

3.数据同享

指的是数美高梅据剖析与核算后的成果寄存的当地,其实便是联系型数据库和NOSQL数据库

4.数据运用

事务用户经过BI产品进行运用。

5.实时核算

在海量数据下,依托传统数据库和传统完结办法根本完结不了,需求的是一种分布式的、高吞吐量的、延时低的、高牢靠的实时核算结构

6.使命调度与监控

使命调度与监控体系,它作为数据仓库/数据渠道的中枢,担任调度和监控一切使命的分配与运转。

7.元数据办理

元数据(Meta Date),其实应该叫做解说性数据,或许数据字典,即数据的数据。首要记载数据仓库中模型的界说、各层级间的映射联系、监控数据仓库的数据状况及ETL的使命运转状况。一般会经过元数据资料库(Metadata奔跑e260 Repository)来共同地存储和办理元数据,其首要意图是使数据仓库的规划、布置、操作和办理能达到协同和共同闽南师范大学。

数据仓库建造过程:

1.体系剖析,确认主题

确认一下几个要素:

操作呈现的频率,即事务部分每隔多长时刻做一次查询剖析。

在体系中需求保裤子尺码存多久的数据,是一年、两年仍是五年、十年。

用户查询数据的首要办法,如在时刻维度上是依照天然年,仍是财务年。

用户所能承受的呼应时刻是多长、是几秒钟,仍是几小时。

2.挑选满意数据仓库体系要求的软件渠道

挑选适宜的软件渠道,包含数据库、建模东西、剖析东西等。有许多要素要考虑,如体系对数据量、呼应时刻、剖析功用的要求等,以下是一些公认的挑选规范:

厂商的布景和支撑才能,能否供给全方位的技术支撑和咨询服务。

数据库对大数据量(TB级)的支撑才能。

数据库是否支撑并行操无界一点通官网作。

能否供给数据仓库的建模东西,是否支撑对元数据的办理。

能否供给支撑大数据量的数据加载、转化、传娘西游输东西(ETT)。

能否供给完好的决议计划支撑东西集,满意数据仓库中各类用户的需求。

3.树立数据仓库的逻辑模型

具体过程如下:

(1)确认树立数据仓库逻辑模预订大瓜型的根本办法。

(2)根据主题视图,把主题视图中的数据界说转到逻辑数据模型中。

(3)辨认主题之间的联系。

(4)分化多对多的联系母乳。

(5)用范式理论查验逻辑数据模型。

(6)由用户审阅逻辑数据模型。

4.逻辑数据模型转化为数据仓库数据模型

具体过程如下:

(1)删去非战略性数据:数据仓库模型中不需求午夜天堂,数据仓库基础,voice包含逻辑数据模型中的悉数数据项,某些用于操作处理的数据项要删去。

(2)添加时刻主键:数据仓库中的数据一定是时刻的快照,因而有必要添加时刻主键。

(3)添加派生数据:关于用户常常需求剖析的数据,或许为了进步功用,能够添加派生数据。

(4)参加不同等级粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总满月酒邀请函程度越高。粒度是数据仓库规划的一个重要要素,它直接影响到驻留在数据仓库中的数据量和能够履行的查询类型。显着,粒度等级越低,则支撑的查询越多;反之,能支撑的查询就有限。

5.数据仓库数据模型优化

数据仓库规划时,功用是一项首要考虑要素。在数据仓库建成后,也需求常常对其功用进行监控,并跟着需求和数据量的改变进行调整。

优化数据仓库规划的首要办法是:

兼并不同的数据表。

经过添加汇总表防止数据的动态汇总。

经过冗余字段削减表衔接的数量,不要超越3~5个。

用ID代码而不是描绘信息作为键值。

对数据表做分区。

6.数据清洗转化和传输

因为事务体系所运用的软硬件渠道不同,编码办法不同,事务体系中的数据在加载到数据仓库之前,有必要进行数据的清洗和转化,确保数据仓库中数据的共同性。

在规划数据仓库的数据加载计划时,有必要考虑以下几项要求:

加载计划有必要能够支撑拜访不同的数据库和文件体系。

数据的清洗、转化和传输有必要满意时刻要求,能够在规矩的时刻范围内完结。

支撑各种转化办法,各种转化办法能够构成一个作业流。

五行健康操支撑增量加载,只把自上一次加载以来改变的数据加载到数据仓库

7.开发数据仓库的剖析运用

树立数据仓库的终究意图是为事务部分供给决议计划支撑才能,有必要为事务部分挑选适宜的东西完结其对数据仓库中的数据进行剖析的要求。

信息部分所挑选的开发东西有必要能够:

神经性耳鸣满意用户的悉数剖析功用要求。数据仓库中的用户包含了企业中各个事务部分,他们的事务不同,要求的剖析功用也不同。如有的用户仅仅午夜天堂,数据仓库基础,voice简略的剖析报表,有些用户则要求做猜测和趋势剖析。

供给灵敏的体现办法。剖析的成果有必要能够以直观、灵敏的办法体现,支撑杂乱的图表。运用办法上,可所以客户机/服务器办法,也可所以浏览器办法。

现实上,没有一种东西能够满意数据仓库的悉数剖析功用需求,一个完好的数据仓库体系的功用或许是由多种东西来完结,因而有必要考虑多个东西之间的接口和集成性问题,关于用户来说,期望看到的是嘉峪关气候共同的界面。

8.数据仓库的办理

只注重数据仓库的树立,而忽视数据仓库的办理必定导致午夜天堂,数据仓库基础,voice数据仓库项意图失利。数据仓库办理首要包含数据库办理和元数据办理。

数据库办理需求考以下几个方面:

安全性办理。数据仓库中的用户只能拜访到他的授权范围内的数据,数据在传输进程中的加密战略。

数据仓库的备份和康复。数据仓库的巨细和备份的频率直接影响到备份战略。

怎么确保数据仓库体系的可用性,硬件仍是软件办法。

数据老化。规划数据仓库中数据的寄存时刻周期和对过期数据的老化办法,如前史数据只保存汇总数据,当年数据保存具体记载。

但是,元数据办理贯穿于整个体系的建造进程中,元数据是描绘数据的数据。在数据收集阶段,元数据首要包含下列信息:

源数据的描绘界说:类型、方位、结构。

数据转化规矩:编码规矩、行业规范。

方针数据仓库的模型描绘:星型/雪花模型界说,维/现实结构界说。

源数据到方针数据仓库的映射联系:函数/表达式界说。

代码:生成转化程序、主动加载程序等。

在数据办理阶段,元数据首要包含下列信息:

汇总数据的描绘:汇总/聚合层次、物化视图结构界说。

前史数据存储规矩:方位、存储粒度。

多维数据结构描绘:立方体界说、维结构、度量值、钻取层次界说等。

在数据展示阶段,元数据首要包含以下信息:

报表的描绘:报表结构的界说。

计算函数的描绘:各类计算剖析函数的界说。

成果输出的描绘:图、表输出的界说。

元数据不可是独立寄存,并且对用户是通明的,规范元数据之间能够相互转化网站建造。

图片均来源于网络。

转载请保留出处和链接!

本文链接:http://www.tjjxsh.com/articles/177.html

文章底部广告(PC版)
文章底部广告(移动版)
百度分享获取地址:http://share.baidu.com/
百度推荐获取地址:http://tuijian.baidu.com/,百度推荐可能会有一些未知的问题,使用中有任何问题请直接联系百度官方客服!
评论框上方广告(PC版)
评论框上方广告(移动版)
推荐阅读