技术与应用
 
数据仓库
多维分析
数据挖掘
XBRL简介
现金流预估
软件测试服务
BPM业务流程管理
大型项目管理经验
    
 
 
当前位置:技术与应用-> 数据仓库
 
     
== == 数据仓库 == ==

什么是数据仓库

数据仓库,英文名称为Data Warehouse,简写为DW“数据仓库之父”W.H.Inmon对数据仓库的定义是:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
对于数据仓库的概念可以从两个层次进行理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库的特点

  1. 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。
  2. 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须保证数据仓库内的信息是关于整个企业的一致的全局信息。
  3. 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析只用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新。
  4. 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,以对企业的发展历程和未来趋势做出定量分析和预测。

为何要建立数据仓库

数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。它是一个过程而不是一个项目。

企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。

数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期,从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。

数据仓库的体系结构


如上图所示,整个数据仓库系统包含五个层次:

  1. 数据源层。是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。
  2. 数据导入层。是数据在进入数据仓库前的一个临时存放区,通过数据调度工具将业务系统传送过来的数据表、文本文件等加载到临时存放区。
  3. 数据服务层。是整个数据仓库系统的核心。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。
  4. 应用服务层。应用服务层的功能主要是建立多维数据集、进行OLAP分析、生成各种静态报表并以WEB方式提供各种功能的查询分析。
  5. 用户层。根据对数据仓库需求的不同,数据仓库的用户可以分为普通用户、技术用户、高级管理用户这三类。不同用户对数据仓库访问的需求层次以及复杂度都是不同的,简单的需求是访问一些固定的静态报表和查询分析,复杂的可以通过前端展现的工具生产一些灵活、动态的即席查询报表,以满足业务部门一些临时的、迫切的报表需求。

数据仓库项目的实施周期

数据仓库的成功实施取决于能否完美地集成众多的任务和部件。单独拥有完美的数据模型或者最好的技术仍然不够,还需要将数据仓库的许多特性协调起来,这非常类似于乐队指挥必须将管弦乐队中的许多乐器协调起来,任何一名独奏者都不能支撑整个管弦乐队。同样地,数据仓库实施也必须合理地、有步骤地安排各个部件的工作,才能确保数据仓库的设计、开发和部署等过程是真正可操作地,才能确保项目的成功。

  1. 项目规划。关注的是数据仓库项目的定义和范围,其中包括项目准备评估和业务合理性证明。
  2. 业务需求定义。数据仓库设计人员必须了解有效地确定各种业务需求,并且将其转变成设计时所考虑的各个事项的业务驱动关键因素。
  3. 维度建模。将业务分析的结果和数据分析结果结合起来,研制出某种维度模型,该模型可以确定事实表的粒度、相关维度、属性以及各种事实。
  4. 物理设计。用于支持逻辑数据库设计的各种物理结构,包括定义命名标准和建立数据库环境。
  5. 数据登台设计与开发。这个过程就是所谓的ETL开发过程,从数据源抽取所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
  6. 部署。将技术、数据以及各种最终用户应用集中起来,以方便用户使用。
  7. 维护与增长。在完成最初的数据仓库部署之后,仍然有许多工作要做。需要继续关注业务用户情况,提供正在进行的支持和培训。还应该集中关注后台情况,以确保这些过程和步骤对当前正在进行的数据仓库操作都是合适、有效的。

数据仓库的应用行业

在竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋,如银行、证券、保险、电信、零售、医药、税务等行业。

银行
如何防范银行的经营风险、实现科学管理以及进行决策,是当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的一个经验,对每一个投资方向、每一笔贷款做出科学的判断,可以有效控制投资、信贷风险。

证券
证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券尚在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。

保险
随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。

税务
增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;而是对不同行业、产品和市场中纳税人的行为特征进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。