知名百科 >> 数据仓库 >> 历史版本
编辑时间历史版本内容长度图片数目录数修改原因
2024-05-06 10:43 最新历史版本 12112 1 6
  返回词条

数据仓库

数据仓库是面向主题的、集成的、稳定的和时变的数据集合。它是一个综合性的解决方案,主要用于帮助相关部门和业务人员做出更符合业务发展规律的决策。它具有分析历史数据、集成多个来源的数据以及一致和准确的数据质量的优势。

数据仓库的最早概念可以追溯到20世纪70年代,其最初目标是实现企业范围的集成。比尔。学者Inmon最早将数据仓库上升到理论层面进行分析,并提出了数据仓库的概念。数据仓库在20世纪90年代开始流行。1994年,Ralph Kimball提出了数据集市的概念,允许构建更小、更专用的数据仓库来解决企业级数据仓库的实施困难。随着数据集市的增加,企业面临着数据一致性的问题。最后,比尔·恩门提出的CIF(企业信息工厂)体系结构将数据集市集成到一个统一的企业信息框架中。

其基本架构包括数据源、数据存储和计算、OLAP服务器以及前端工具和应用程序。该系统分为逻辑结构、客户机/服务器(C/S)结构和不同的体系结构模式。它包括五个层次:数据源、数据提取、元数据、数据仓库管理和数据集市,并涵盖索引和分区等技术。因为它为最终用户提供了处理所需决策信息的有效方法,所以它被广泛应用于银行、金融服务、消费品和零售及批发部门,以及许多基于需求的产品的生产部门。

目录

发展历史

萌芽阶段

数据仓库的最早概念可以追溯到麻省理工学院在20世纪70年代进行的一项研究,该研究致力于开发一个技术框架。麻省理工学院的研究人员曾经提出一个指导意见,建议将业务系统和分析系统分开,将业务处理和分析处理分为不同的级别,并采用单独的数据存储和完全不同的设计标准。

20世纪80年代初,数据库、模型库和方法库的概念和方法被初步提出,这与麻省理工学院的研究成果不谋而合,并描述了一个具有决策系统的理想框架。然而,当时数据库技术还没有广泛应用,理论研究多于系统建设,以至于决策支持系统的开发缺乏可操作、可实施的技术、方法和工具。于是在20世纪80年代中后期,DEC作为当时技术最先进的公司,集结众人研究新的分析系统框架,并结合麻省理工学院的研究,创建了TA2(Technical Architecture 2)规范,推动了数据仓库的发展。后来在1988年,IBM爱尔兰公司的巴里·德夫林和保罗·墨菲提出了“信息仓库”的概念。虽然IBM仅用于市场营销,尚未在实践中应用,但数据仓库的基本原理和体系结构已初步形成,相关技术如关系数据访问、网络、客户机-服务器体系结构和图形界面也已基本具备。。

发展阶段

1991年,比尔·恩门发表了关于数据仓库的开创性著作,解释了数据仓库的必要性和好处,并提供了构建指南。这本书奠定了他在该领域的权威地位,为数据仓库的基本理论、体系结构和分析原理奠定了基石。

1994年,企业级数据仓库的设计和实施变得越来越困难,第一家实施数据仓库的公司遭遇了大规模失败。因此,数据仓库的构建者和分析者开始考虑只构建企业级数据仓库的一部分,然后逐步增加它,但这种想法与比尔·恩门相反。此时,Ralph Kimball提出了数据集市和详细指导的概念,在传统关系数据模型和多维OLTP之间建立了良好的桥梁,解决了当前的企业级问题。从那以后,数据集市取代数据仓库变得流行起来。

1996年,关于“企业级数据仓库和部门级数据集市”和“关系和多维”出现了“Inmon”和“Kimball”两个对立的流派。最初,数据集市的成功实施占了上风,但随着数据集市的增加,企业面临数据一致性的问题,因此数据集市被视为OLTP系统之一。由于数据集市经常出错,因此出现了一些新的应用,如数据仓库、数据集市和ODS。由于概念模糊,数据仓库被理解为OLTP。直到2001年,比尔·恩门提出的CIF(Corporation Information Factory)体系结构终于将数据集市集成到一个统一的企业信息框架中。

快速发展

21世纪初,随着互联网技术的飞速发展,大数据时代即将到来。数据仓库与大数据的融合也成为当前的发展趋势。例如,在传统数据源的基础上,引入来自传感器、地理信息、社交网络等方面的非关系数据,通过Hadoop进行数据处理,利用数据虚拟化技术可以整合不同的数据源,然后利用压缩技术管理更大规模的数据,从而进一步提供数据分析。随着数据仓库技术在大数据场景中的广泛应用,传统的数据仓库工具逐渐被大数据工具取代,如OLAP(在线分析处理)。它是一种呈现综合决策信息的方法,常用于决策支持系统、商业智能或数据仓库。其主要功能是便于大规模数据分析和统计并为决策提供参考和支持。

基本架构

数据仓库的基本架构包括数据源、数据存储和计算、OLAP服务器以及前端工具和应用程序。数据源主要由来自多个业务系统的数据组成。数据存储和计算主要负责对数据进行清洗和处理,构建数据仓库的基础元数据系统。OLAP服务器主要重组多维数据模型分析所需的数据,支持用户多角度、多层次的分析。前端工具和应用主要包括数据仓库的查询、分析和报表工具以及基于数据仓库开发的各种应用。

核心成分:数据仓库的组成主要包括五层:数据源、数据抽取、元数据、数据仓库管理和数据集市。

数据源:数据仓库中的数据来自多种数据源,主要来自大中型关系数据库(如Oracle、SQL Server等。)、桌面数据库(如Access、FoxBase等。)、文件和其他(如Excel、Word、图像文件、图形文件等。)和互联网上的数据(如网页和电子邮件数据)。从地理上看,数据源可以分布在不同的区域。在数据结构和数据模式方面,它具有不同的结构形式,在数据内涵方面,它具有不同的语义理解。它们构成了数据仓库的原始信息源,并为数据仓库处理数据提供了基本材料。

数据析取:数据提取层是数据源和数据仓库之间的数据接口层。它的任务是将分散在网络节点中的数据源经过该层处理后,构建一个统一平台、统一结构和统一语法(语义)的数据实体——数据仓库。因此,这一层的功能极其重要。它的主要任务是为数据仓库提供统一的数据并及时更新这些数据。一个完整的数据提取功能包括数据提取、数据转换和清理、数据加载和刷新,它们构成了数据提取过程的四个连续阶段。因为数据抽取由三部分组成:抽取、转换和加载,所以通常也称为ETL。

元数据:元数据是指从数据源中的数据到数据仓库中的数据的转换过程需要按照一定的规则进行,这些规则往往由一定的规则表示。元数据通常存储在元数据管理系统中并由其管理。元数据类似于数据库管理系统中的数据字典,主要用于抽取和刷新,是抽取和刷新的基本依据。

数据仓库管理:数据仓库管理一般由数据仓库管理系统完成,其管理方法类似于传统的关系数据库管理系统。因此,传统的数据库管理系统一般经过适当的更改后用于数据仓库管理,例如racle、DB2和SQL Server,它们可以用作数据仓库管理系统,有时它也可以用于特殊系统管理。

数据集市:数据仓库是反映主题的全局数据组织,但全局数据组织往往过于庞大。在实际应用中,它们被设置为根据部门或特定任务反映子主题的本地数据组织,这被称为数据集市。数据集市和数据仓库的关系相当于传统数据库中视图和数据库的关系。数据集市的数据来自数据仓库,数据仓库是数据仓库中数据的一部分,通常是直接面向应用的层。

逻辑结构

数据仓库的逻辑结构包括三个部分:后期数据源、中间数据存储管理和前期数据分析。

后数据源:主要指操作系统数据存储,数据仓库中的数据信息来源广泛,包括企业的内部数据和外部数据,通过相应的数据存储进行存储。

中间数据存储管理:主要是在定义决策主题需求后,进行数据建模,然后对存储的数据信息进行清洗和转换,放入数据仓库,划分维度,确定数据仓库的物理存储结构。

前置数据分析:是指数据仓库中的数据经过部门数据中心或多维数据中心,形成对用户查询和应用有用的信息。在这个过程中,需要多维分析工具、数据挖掘工具、报表和查询工具来实现自己的决策支持功能。

C/S结构:通用的C/S结构不仅可以简化整个工作流程,还可以减少系统的数据传输。数据仓库具有这样的典型特征,提高了整个数据仓库的效率。客户端的主要功能需求包括客户交互、格式化查询、报表生成等。服务器上的主要功能包括辅助决策查询、复杂计算等综合支持功能。

架构模式

星形模式:星型模式是最常见的数据仓库结构模式,它由一个数据量大且无冗余的大型事实表和一组小型维度表组成。每个维度表都通过主键连接到事实表。这个模式图就像一个恒星爆发,维度表显示在中心表周围的射线上。

雪花图案:雪花图案是星形图案的延伸,与雪花的形状相似。该模型进一步规范了一些维度表,将数据进一步分解为多个详细的类别表,并减少了事实表。

主要特征

面向主题的:数据仓库中的数据是按照某个主题领域组织的。主题是一个抽象的概念,是指仅使用数据仓库进行决策时用户关心的关键领域。面向主题的数据组织方法是在更高层次上对分析对象的数据进行完整、一致的描述,可以完整、统一地刻画每个分析对象所涉及企业的数据以及数据之间的关系。

数据仓库数据仓库

完整的:数据仓库中的数据主要是对不同来源的数据进行整合,这些数据是在对原始分散的数据库数据进行提取和清洗的基础上,经过系统的加工、汇总和整理而得到的。数据仓库决策支持系统需要集成的数据,而全面正确的数据是有效分析和决策的首要前提。相关数据越完整,结果就越可靠。因此,源数据的集成是数据仓库建设中最关键也是最复杂的一步。

稳定的:数据仓库中的数据主要用于决策分析,它存储相对稳定的历史数据。涉及的数据操作主要是数据查询和定期更新。一旦某个数据被加载到数据仓库中,它一般会作为数据文件保存很长时间,并且几乎不会进行任何修改或删除。

时变:数据仓库中的数据通常包含长期历史数据,因此它总是包含一个时间维度,以便可以研究趋势和变化。数据仓库系统通常记录一个单位从过去某个时期到现在的信息。通常,这些信息可以对该股的发展历史和未来趋势做出定量分析和预测。

关键环节

数据析取:数据提取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程从联机事务处理、外部数据源和脱机数据存储介质中导入数据。数据抽取主要涉及互联、复制、增量、转换、调度和监控。

数据清理:数据清洗是数据仓库构建的关键步骤,主要是消除错误和不一致数据以及解决记录重复问题的过程。因此它也被称为数据清理和数据擦洗。数据清洗主要应用于数据仓库、数据挖掘和综合数据质量管理。

数据变换:数据转换是将数据源中的数据按照转换规则转换为数据仓库中的数据,转换规则一般包括数据类型转换、数据表示方法、命名转换、数据合成和数据筛选。一般情况下,数据转换的实现只能通过相应的软件工具来实现。

数据挖掘技术:数据挖掘是一种从超大型数据库或数据仓库中发现和提取隐藏信息的新技术。其目的是帮助决策者发现JUs之间的潜在关系,并找到经营者忽略的因素,这些因素可能是对预测趋势和决策行为非常有用的信息。

系统设计

数据仓库系统的设计分为五个步骤,即需求分析、概念模型设计、逻辑模型设计、物理模型设计和数据仓库生成。

需求分析:它是数据仓库设计的基础。在数据仓库设计之初,我们应该详细了解需求。

概念模型:它是从现实世界到计算机世界的中间层次。通过概念模型,客观世界中的具体问题可以用适合计算机世界的语言和模型来描述。

逻辑模型设计:目的是定义每个加载主题的逻辑实现,并将相关内容记录在数据仓库的元数据中。

物理模型设计:主要目的是确定数据和其他物理相关内容的存储结构、索引策略和存储策略。

数据仓库的生成:它是构建数据仓库的重要环节。所需的数据将从数据源中提取出来,并在数据转换后根据预定义的数据仓库模型最终加载到数据仓库中。

相关技术

指数:索引技术的作用是提高数据仓库的访问效率。有三种重要的数据仓库索引技术:位索引技术、广义索引技术和标识技术。

比特索引技术:位索引是数据仓库存储结构中非常重要的索引技术。它在存储数据的方式上不同于传统的关系数据库。它以“示例”而不是“行记录”为单位存储数据,也就是说,它垂直划分数据。对于每条记录,满足查询条件的真值和假值以“1”或“0”的形式表示,或者以该字段中不能取的值(即多位二进制)表示。

广义指数:在从操作数据环境中提取数据并将其加载到数据仓库中的同时,可以根据用户的需求建立各种“广义索引”。对于一些频繁的查询,建立“广义索引”比查询事实表快得多。广义索引一般以元数据的形式存储,但其建立的目的与普通索引一样,都是为了帮助用户快速完成信息查询。

识别技术:使用标准数据库技术来存储数据仓库是非常昂贵的,而更好的替代方案是使用基于身份的技术来存储数据仓库。它的优点是可以压缩大量数据,索引所有行和列,并且数据越多,识别数据就比基于标准记录的数据更有优势。标识技术是为数据库中的每个实体创建一个标识,原始数据库可以简化为一系列标识。识别记录后,存储这些记录的空间将大大减少。此外,数据量越大,标准数据库和标识数据库之间的存储需求差异就越大,基于标识的数据库的优势就越明显。

划分:数据分区在数据仓库中非常重要,通常在应用层。它将数据分解成小的物理单元,以便可以在小的离散单元中管理数据。这将使数据仓库中的数据加载更加容易,索引建立更加顺利,数据归档更加容易。

应用领域

银行业务:银行部门使用数据仓库进行市场研究、单个产品的性能评估、汇率和汇率研究以及制定营销计划。通过分析持卡人的交易、消费习惯和商户分类,提供利润丰厚的议价和特殊优惠。银行家可以通过数据仓库解决方案有效地处理可用资源。帮助他们做出更好的决策可以更好地检查消费者数据、政府要求和市场趋势。甚至一些银行使用数据仓库来有效管理其可支配资源。

政府:政府公共部门可以使用数据仓库进行与会计相关的服务,如薪酬管理、人力资源、招聘等。除了将完整的刑法数据库连接到下属的数据仓库外,政府还可以使用数据仓库来维护和分析税务记录和医疗保险信息。这有助于根据模式和趋势预测犯罪活动,查找恐怖分子档案,评估威胁并发现欺诈。从前罪犯的历史信息的数据分析中获得的模式和趋势可用于预测犯罪活动。

制造业生产和流通:制造和分销供应商可以使用数据仓库将所有数据集成在一起。这有助于预测市场变化,检查当前模式,确定潜在的增长领域,并最终做出积极的决策。

零售数据管理:零售商使用数据仓库来组织数据存储。这可以密切关注产品、广告活动和消费者购买模式。此外,您还可以使用预测消除过程通过分析销售额来确定快销和滞销产品线,并计算每个产品线的货架空间。

保险承保:数据仓库对于保险业非常重要。它可以保存当前客户的记录,并对其进行分析以发现模式。除了跟踪记录之外,它主要用于评估数据模式和未来的客户趋势。保险促销和优惠可以为每个客户量身定制。最后,它最突出的用途是评估承保过程中的客户风险并设定最佳保险费。

标签