[浅析基于数据仓库的OLAP联机分析技术与数据挖掘技术] 数据仓库与数据挖掘教程课后答案

来源:求职职场 发布时间:2019-05-21 05:37:44 点击:

  摘要: 数据仓库,联机分析,数据挖掘都是信息领域中近年来快速发展起来的新技术,本文浅析了数据仓库技术,联机分析技术,数据挖掘技术的相关概念,论述了数据挖掘的方法,最后阐明了联机分析技术与数据挖掘技术的区别与联系,强调实际中相互配合使用有助于进行更好的决策。
  关键词: 数据仓库;数据挖掘;联机分析
  
  随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。大量的数据的背后隐藏着许多重要的信息,人们希望对其进行高层次的有效分析,以达到充分利用这些数据,于是数据仓库技术、联机分析处OLAP理技术和数据挖掘技术就随此诞生了。
  
  1 数据仓库技术
  
  数据仓库(Data Warehouse)简称DW。最早被誉为“数据仓库之父”的W.H.Inmon将数据仓库明确地定义为:数据仓库是集成的面向主题的数据库集合。但数据仓库系统并非一个简单由各种数据合并而成的超大型数据库,而是一种专为联机分析应用和决策支持系统(DDS)提供数据分析和决策工具的结构化数据环境。它涉及数据的抽取、转换、装载、数据存取、元数据管理、查询、报表、分析工具及相应的开发方法等。它是用来支持决策,支持功能的。
  它具有如下特征:
  1.1它是面向主题的。
  主题的含义是指在较高层次上将信息系统中的数据综合、归类并进行分析利用的抽象。数据仓库中的数据面向主题与传统数据库面向应用相对应。面向主题的数据组织方式,就是在较高层次上对分析对象的数据做一个完整的、一致的描述,并统一分析对象所涉及的数据项及数据项之间的联系。
  1.2数据的集成性
  数据仓库的集成特性是指在数据进入数据仓库之前.必须通过数据加工集成,这是建立数据仓库的关键步骤。
  1.3数据的相对稳定性
  数据仓库中的数据是相对稳定的。它不进行实时更新,一旦数据进入数据仓库中去就不能由用户进行更新。但从数据仓库存贮的数据内容上,可分为当前数据和历史数据。在一定时间间隔后,当前数据需要按一定的方法转换成历史数据。对分析处理不再有用的数据需要从数据仓库中删除,这些工作是由系统管理员或由系统自动完成的。因此,可以说数据仓库在一定时间间隔内是稳定的。
  
  2联机分析处理技术
  
  联机分析处理技术即OLAP技术,是利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形势将分析结果返回给决策分析人员。OLAP联机分析技术是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一种新的技术,总体上讲联机分析技术可以分成两种类型,一种是基于关系数据库系统实现的联机分析系统,简称ROLAP。其基本思想是对数据仓库中的数据模式进行合理组织,直接通过关系查询实现切片、切块、下钻、上翻和旋转等基本分析操作。另一种是基于多维模型实现联机分析,主要研究如何减少存储空间来实现查询功能,而且还可以给用户提供强大的多维和多层分析、统计和以报表处理功能,甚至可以进行趋势分析。OLAP技术还可以和数据挖掘技术联系起来运用,即数据挖掘可以利用OLAP的分析结果,可以拓展分析的深度,可以发现OLAP联机技术所不能发现的更为复杂、细致的信息。
  
  3 数据挖掘
  
  数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的人们事先不知道的,但又是潜在有用的信息和知识的过程。
  数据挖掘综合了各个学科技术,有很多的功能,包括、聚类分析、关联分析、分类、预测、时间序模式和偏差等。需要注意的是数据挖掘的各项功能不是独立存在的 而是在数据挖掘中互相联系的一起发挥作用。
  数据挖掘的方法也有很多种,简要介绍如下:
  3.1 聚集分析(ClusterDetection)
  聚集分析是将一个数据集分为几个特征相同的簇, 即把特征相同的数据聚集在一起。非3.2 决策树(Decision Tree)
  它将基础集中数据分为不相交的子集, 每个子集可由一定的规则来描述。此规则在逻辑上具有层次结构, 因此可用树型的数据结构来表示,树上的每个节点代表一条规则。
  3.3链路分析(Link Analysis)
  它用来分析对象之间的关系,用图数据结构来表示。具体方法是将对象看成是图的节点, 它们之间存在的关系则看成是图的边即链路,然后用图论的方法进行数据分析。
  3.4 神经网络(NeutralNetwork)
  这是最常见的一种有效的数据挖掘方法。即在计算机上模拟神经元及其连接的方法,其中神经网络实际上是完成从已知数据项到目的数据项的一种非线性映射, 它获取的知识就存在于网络结构中。神经网络主要用来进行分类、估计和预测等来实现有向数据挖掘, 也可以用于聚集等无向的数据挖掘。
  3.5人工智能(artificial intelligence)
  人工智能的一个重要组成部分是人工智能专家系统,在专家系统中,最困难的是把专家的知识表达出来,而且还要把专家的知识变得十分有条理。专家系统很难解决很常性的问题。虽然人工智能技术有待提高,但是在发现有用的信息方面,是必不可少的,它总是为数据的查找提供很好的方向。
  3.6 遗传算法(GeneticAlgorithms)
  它是一种遗传学原理和自然选择机制来搜索最优解的方法。在数据挖掘中,用来寻找实现分类、估计和预测功能的最优参数集。过程是先产生一组解法, 然后用重组、突变和选择等进化过程来得到下一代解法。随着进化过程的继续, 较差的方法将被抛弃, 从而逐步得到最优的解法。
  
  4 联机处理技术与数据挖掘的关系
  
  目前, 联机处理技术与数据挖掘是信息系统领域内的研究重点,OLAP作为一种多维分析的工具, 可以为用户提供多层面、多角度的逻辑视图,按照用户所提出问题进行假设,分析,并将呈现给用户。
  数据挖掘是在海量的数据集合中寻找模式的决策支持过程,它从大量数据中发现潜在的模式并作出预测性分析, 是现有的最新的技术和统计学等成熟技术在特定系统中的具体的应用。
  同时,数据挖掘与OLAP都属于分析型工具, 从某种角度上说OLAP联机分析方法也是一种数据挖掘方法。但二者之间有着明显的区别,数据挖掘的分析过程是全自动的, 用户可以不必提出确切的问题, 只需工具去挖掘隐藏的模式并预测将来的趋势, 这样有利于发现未知的事实;而OLAP更多地依靠用户输入问题和假设, 由于用户先入为主的参与问题和假设的范围, 从而会影响最后的结论。从对数据分析的深度角度来讲, 它比较浅显, 数据挖掘则可以发现OLAP 所不能发现的更为复杂的信息
  数据挖掘存在的主要问题是实现很困难,因为数据库或数据仓库中存在大量数据和每个数据又有很多属性, 由于挖掘分析过程是全自动的, 用户仅仅指定挖掘的任务, 而不提供搜索线索, 这样导致搜索的空间过大, 生成相当多的外模式, 其中绝大部分有可能是无意义的是用户不感兴趣的模式。OLAP分析虽然可给用户提供在不同角度、不同抽象级别的视图, 但是由于对用户的需求了解调研的不够全面, 视图中缺乏所应包含的维度, 从不同的视图得到的结果可能并不相同, 容易产生错误引导, 用户需做大量的数据打捞工作才能够猜出正确的结果。
  实际上数据挖掘的各个方法之间, 数据挖掘和联机分析处理之间都有着密不可分的关系,有些是可以由OLAP 来展现或分析的,而数据挖掘的结果又可以指导生成OLAP多维模型。
  从上述分析可以看出, OLAP与数据挖掘技术由于内在技术方面和适用范围的不同, 在实际决策分析中必须协调配合使用才能发挥最好的作用。
  
  参考文献:
  [1]施伯乐 数据仓库与数据挖掘的研究进展,复旦大学
  [2]廖里 数据挖掘和数据仓库及其在电信业中的应用 2000年 《重庆邮电学院学报》
  [3]石磊 OLAP与数据挖掘一体化模型的分析与讨论 2000年 《小型微型计算机系统》
  [4]竖 苎 数据仓库的建设与数据挖掘技术浅析 2003年第3期《现代信息技术》
  [5]宋中山 数据仓库技术研究与应用 2003年 《计算机工程与应用》
  
  作者简介:
  孟雅凤 哈尔滨市黑龙江农垦职业学院计算机应用技术系 工学硕士 讲师

推荐访问:技术 联机 浅析 数据仓库
上一篇:农田水利建设为何陷在误区里?|农田水利建设
下一篇:最后一页

Copyright @ 2013 - 2018 四八文档网-文档下载,办公室文档软件 All Rights Reserved

四八文档网-文档下载,办公室文档软件 版权所有 沪ICP备09019570号-4