分类算法在大数据时代的应用文献综述

 2022-09-02 08:09

文献综述

1.决策树国内外研究现状

最早的决策树学习系统要追溯到Hunt于1966年研制的一个概念学习系统(CLS: Concept Learning System),该系统第一次提出使用决策树进行概念学习,是许多决策树学习算法的基础。CLS算法的基本思想是:从一棵空决策树开始,选择某一属性(分类属性)作为测试属性,该测试属性对应决策树中的决策结点,根据该属性的值的不同,可将训练样本分成相应的子集,如果该子集为空,或该子集中的样本同属一类,则该子集对应于决策树的叶结点,否则

该子集对应于决策树的内部结点,即为测试结点,需再选择一个新的分类属性对该子集进行划分,直到所有的子集都为空或属于同一类。CLS算法可描述如下:

  1. 生成一棵空决策树和一张训练样本属性表;
  2. 若样本集中的样本都属于同一类,则生成结点T,并终止学习算法,否则;
  3. 根据某种策略从训练样本属性表中选择属性A作为测试属性,并生成测试结点A;
  4. 若A的取值为,则根据A的取值的不同,将T划分为M个子集 ;
  5. 从训练样本属性表中删除属性A;
  6. 转步骤(2),对每一子集递归调用CLS a

只要训练样本是可分的,即所有属性完全相同的对象属于同一类,则算法CLS是可结束的。因为极端情况下,将所有属性(不含分类结果属性)都作为分类属性,显然最终所有的子集都属于同一类。

1979年,J. R. Quinlan提出的迭代分类器(ID3: Iterative Dichotomizer 3)算法是决策树算法的代表。它采用分治策略,在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以便在每一个非叶节点上进行测试时,能获得关于被测试记录最大的类别信息。ID3算法的贡献在于把信息论中信息嫡的概念引入了决策树算法中。

1983年,A. Patterson和T. Niblett扩展了ID3算法,提出了类似概念学习系统(ACLS: Analog Concept Learning System)算法, ACLS算法的主要改进是允许属性取任意的整数值。这种改进极大地扩展了决策树算法的应用范围,使决策树可以处理一些比较复杂的任务,比如图像识别等。

CART(Classification And Regression Trees)分类方法是由L. Breiman, J.FriedMan等人在1984年提出的一种决策树分类方法。这种方法选择具有最小基尼指数值的属性作为测试属性,最终生成二叉树,然后利用重采样技术进行误差估计和树剪枝(基于最小代价复杂性),

然后选择最优的作为最终构建的决策树。这些算法均要求训练集全部或一部分在分类的过程中一直驻留在内存中。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。