决策树

✍ dations ◷ 2024-11-05 18:47:13 #决策树
统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种决策树的自顶向下归纳 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。数据以如下方式表示:其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。在数据挖掘中,决策树主要有两种类型:术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。有些集成的方法产生多棵树:还有其他很多决策树算法,常见的有:构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。假设y的可能取值为 J {displaystyle J} 个类别,另 i ∈ { 1 , 2 , . . . , J } {displaystyle iin {1,2,...,J}} , p i {displaystyle p_{i}} 表示被标定为第 i {displaystyle i} 类的概率,则基尼不纯度的计算为:ID3, C4.5 和 C5.0 决策树的生成使用信息增益。信息增益 是基于信息论中信息熵与自信息理论.信息熵定义为:其中 p 1 , p 2 , . . . {displaystyle p_{1},p_{2},...} 加和为1,表示当前节点中各个类别的百分比。例如,数据集有4个属性:outlook (sunny, overcast, rainy), temperature (hot, mild, cool), humidity (high, normal), and windy (true, false), 目标值play(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。使用属性windy做划分时,产生2个子节点:windy值为真与为假。当前数据集,6个数据点的windy值为真,其中3个点的play值为真,3个点的play值为假;其余8个数据点的windy为假,其中6个点的play值为真,2个点的play值为假。 windy=true的子节点的信息熵计算为:windy=false的子节点的信息熵计算为:这个划分(使用属性windy)的信息熵是两个子节点信息熵的加权和:为计算使用属性windy的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的play有9个yes与5个no:使用属性windy的信息增益是:与其他的数据挖掘算法相比,决策树有许多优点:在决策树中, 从根节点到叶节点的路径采用汇合或与。 而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。演化算法可以用来避免局部最优的问题

相关

  • 头孢丙烯头孢丙烯属于第二代头孢菌素抗生素,可以被用来治疗支气管炎或者其他细菌感染。头孢丙烯可以采用片剂或是混悬剂形式。
  • 虐待儿童虐待儿童,简称虐儿、虐童,是指对儿童的虐待,也是家庭暴力的一种。虐待儿童的情形一般包括身体虐待、精神虐待、性虐待和疏忽四种类型。对于儿童,踢、踹、捏、打耳光、拉耳朵、拉
  • 米切尔·贝克温妮费德·米切尔·贝克(英语:Winifred Mitchell Baker,1957年-)。现任Mozilla基金会和Mozilla公司运行董事长。贝克曾担任网景公司的律师工作。2005年,被时代杂志评选为全球最具
  • 远视远视(Hypermetropia, Hyperopia)是指平行光线经过眼的屈光介质在视网膜后聚焦的不正常屈光状态。轻度远视的患者因为眼的调节功能大多不会有症状,40岁左右的轻度患者因为调节功
  • 弹道学弹道学(英语:ballistics)是一门研究抛射物飞行、受力及其它运动行为的应用物理学科。通过弹道学,子弹、炮弹、重力炸弹、火箭等非制导武器可以达到理想的状态。弹道学是兵器类专
  • 实验科学实验(德语、英语、瑞典语、荷兰语: Experiment),区别于试验,实验是在科学研究中,在设定的条件下,用来检验某种假设,或者验证或质疑某种已经存在的理论而进行的操作。科学实验是可以
  • 布达佩斯布达佩斯(匈牙利语:Budapest,发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Code2000","Gentium"
  • 杰斐逊县杰斐逊县(Jefferson County, Georgia)是位于美国佐治亚州东北部的一个县。面积1,372平方公里。根据美国人口调查局2000年统计,共有人口17,266人。县治路易斯维尔。成立于1796年
  • 纳瓦族纳瓦人,又称纳瓦特尔人(纳瓦特尔语:Nahuatlacah;西班牙语:Nahuas)指的是位在墨西哥中部使用阿兹特克方言—纳瓦特尔语的族群。其为墨西哥最大的美洲原住民族群(1990统计人数为1,197
  • 赞助赞助是一种双方得益的公共关系活动。当中有赞助人付出金钱、礼物、服务、名誉等,支持受赞助人进行指定活动、表演、学习、研究等项目。其中由于受到赞助,使某些有意义的事项及