毕业论文课题相关文献综述
一、研究背景:
数据挖掘是指从存放在数据库、数据仓库或其他信息库的大量数据集中识别出有效的、新颖的、潜在有用的、最终可理解的模式(信息、知识)的非平凡过程。它是一门涉及面很广的交叉学科,包括了机器学习、数理统计、数据库、模式识别、神经网络、模糊数学、粗糙集理论和高性能计算等相关技术。是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。
K近邻算法(K- Nearest Neighbors, KNN)是基于统计的分类方法,是数据挖掘分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。KNN算法的核心思想是如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值,如权值与距离成正比。
对离群点的定义为前n个与其最近第k个邻居的距离最大的点被认为是离群点,避免了基于距离的离群点检测算法需要用户设定距离参数值d的局限,它使用基于划分的方法并对数据集中的点N有线性的时间复杂度,且数据的维数对算法的执行时间影响不大,但它只以与最近第k个邻居的距离作为判断离群点的标准有时也不够准确,即无法判断在与最近的第k个邻居的距离相同时哪个点更可能是离群点。
离群点检测算法大致可分为:基于分布的方法、基于深度的方法、基于距离的方法、基于密度的方法和基于聚类的方法。基于分布的方法采用标准统计分布模型,那些偏离模型的点被认为是离群点;基于深度的方法主要采用几何学的方法,把数据对象组织到数据空间的不同层面中,那些在较浅层面的数据更有可能是离群点;基于密度的方法为数据集中的点定义局部离群因素(LOF),且用LOF来计算数据对象的离群程度,离群点被认为是离群程度比较大及与周围的邻居点关系比较疏离的点;基于聚类的方法认为离群点是那些数据集聚类后的副产品。
二、国内现状:
近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,涉及到人工智能、数据库、数理统计、机器学习、知识获取、数据可视化、高性能计算等多个领域。离群点检测作为知识发现的重要部分被广泛地应用于欺诈识别、入侵检测、故障诊断及恶劣天气预报等领域。近年来,随着人们对离群数据挖掘重要性认识的不断加深,以及越来越广泛的应用,离群点挖掘成为了数据挖掘领域的热点之一。
三、设计目的:
