千字文解读数据仓库!详细
数据仓库的诞生
1991年(Bill Inmon)比尔·恩门提出数据仓库概念,在其著作《建立数据仓库》一书中定义了数据仓库的概念,该书中提供了建立数据仓库的意见和基本原则,因此(Bill Inmon)比尔·恩门被称为数据仓库之父。
数据仓库的发展
简单报表阶段:系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。
数据集市阶段:主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。
数据仓库阶段:主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。
数据仓库的概念
数据仓库是在企业管理和决策中,面向主题的、集成的、与时间相关的、不可修改的数据集合。
面向主题的:
在建设企业级数据仓库中,数据是分主题域的,比如:以某车辆管理数仓项目为例:城市主题域、车辆品牌主题域、车辆信息主题域、订单主题域、用户主题域等。
集成的:
数据仓库中的数据,是由分散的多个业务方数据库(mysql/oracle/其他数据库相关)、数据文件(文字、图片、视频、声音等**)、用户日志(按空格分隔开的数据、按_分隔开的数据)抽取来的,集成的数据来源,一般是内部数据(局域网内部数据,外网访问不到的)和外网数据(业务采集服务器上或者可访问接口拿到的数据等)
与时间相关的:
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。
数据仓库的数据随时间的变化表现在以下三个方面:
1.数据仓库的数据时限一般要远远长于操作型数据的数据时限
2.业务系统存储的是当前数据,而数据仓库中的数据是历史数据
3.数据仓库中的数据是按照时间顺序追加的,都带有时间属性
不可修改的:
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。
简单总结一下:数据仓库中保存的数据是一系列企业数据的历史快照,不建议被修改(实际分析会有数据回补的情况)。用户只能通过分析工具进行查询和分析。
数据仓库的作用
把数据源集中起来为企业管理和决策提供数据支持
降本增效
数仓开发人员,提供出T+1结果给不同用户(上级领导、客户等)展示
作者:教你学懂大数据
欢迎关注微信公众号 :教你学懂大数据