决策树学习

✍ dations ◷ 2025-11-26 09:40:23 #决策树,分类算法

统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。

在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。

在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。

一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。


数据以如下方式表示:

其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。

在数据挖掘中,决策树主要有两种类型:

术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。

有些的方法产生多棵树:

还有其他很多决策树算法,常见的有:

构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。

假设y的可能取值为 J {\displaystyle J} (sunny, overcast, rainy), (hot, mild, cool), (high, normal), and (true, false), 目标值(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。

使用属性做划分时,产生2个子节点:值为真与为假。当前数据集,6个数据点的值为真,其中3个点的值为真,3个点的值为假;其余8个数据点的为假,其中6个点的值为真,2个点的值为假。 =true的子节点的信息熵计算为:

=false的子节点的信息熵计算为:

这个划分(使用属性)的信息熵是两个子节点信息熵的加权和:

为计算使用属性的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的有9个yes与5个no:

使用属性的信息增益是:

与其他的数据挖掘算法相比,决策树有许多优点:

在决策树中, 从根节点到叶节点的路径采用汇合或。而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。

演化算法可以用来避免局部最优的问题

相关

  • 内酯内酯(英文:Lactone)即环状的酯,由一化合物中的羟基和羧基发生分子内缩合环化得到。内酯以五元(γ-内酯)及六元(δ-内酯)环内酯最为稳定,环内的角张力最小。4-羟基酸(R-CH(OH)-(CH2)2-C
  • 丹吉尔丹吉尔(柏柏尔语:ⵜⴰⵏⵊⴰ;阿拉伯语:طنچة‎;转写:Tanja;西班牙语:Tánger;法语:Tanger),又译坦几亚,是北非国家摩洛哥北部的一个滨海城市,在直布罗陀海峡西面的入口,与大西洋及地中
  • 陈锦锭陈锦锭(1954年-),台湾台北人,亚东工专(今亚东技术学院)毕业。夫婿为前立法委员张庆忠、儿子为张庆忠国会助理张钧咏以及将以政二代身份参选2020立委的张智伦。中国国民党党籍,曾任
  • 梓官区梓官区(台湾话:.mw-parser-output .sans-serif{font-family:-apple-system,BlinkMacSystemFont,"Segoe UI",Roboto,Lato,"Helvetica Neue",Helvetica,Arial,sans-serif} Tsú-
  • 极轨道极轨道,地心轨道的一种,其特点是沿此轨道运行的卫星在每次环绕地球的圆周运动中都从两极上空经过。因此这类轨道的倾角是90度或接近90度。极轨道经常为地球测绘卫星、遥感卫星
  • 纽约喷气机国家橄榄球联盟(1970年至今)联会冠军(1) 美国联会:1968分区冠军(4)纽约喷气机(New York Jets)是美国国家橄榄球联盟在新泽西洲东卢瑟福的一支球队。喷气机在1960年作为美国橄榄球联
  • VAJA坐标:35°45′04″N 51°27′25″E / 35.751°N 51.457°E / 35.751; 51.457伊朗政府与政治 系列条目伊朗情报与国家安全部(波斯语:وزارت اطّلاعات جمهوری
  • 佐拉·尼尔·赫斯顿卓拉·尼尔·赫斯特(Zora Neale Hurston,1891年1月7日-1960年1月28日),女,美国哈莱姆文艺复兴时期的民俗学家,作家。她著有四本小说,超过五十篇短故事、剧本及短文,当中以1937年的小
  • 温岭温岭市在中国浙江省东南沿海,是台州地级市下辖和代管的县级市。温岭全市总面积为926平方公里,(2017年)年末全市户籍总人口1220090人,其中男性人口617459人,女性人口602631人,男女性
  • 奥莉加·亚历山德罗芙娜·拉德任斯卡娅奥莉加·亚历山德罗芙娜·拉德任斯卡娅(俄语:Óльга Алекса́ндровна Лады́женская,1922年3月7日-2004年1月12日),俄罗斯数学家。她主要对于偏微分