决策树学习

✍ dations ◷ 2025-10-23 06:16:20 #决策树,分类算法

统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。

在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。

在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。

一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。


数据以如下方式表示:

其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。

在数据挖掘中,决策树主要有两种类型:

术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。

有些的方法产生多棵树:

还有其他很多决策树算法,常见的有:

构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。

假设y的可能取值为 J {\displaystyle J} (sunny, overcast, rainy), (hot, mild, cool), (high, normal), and (true, false), 目标值(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。

使用属性做划分时,产生2个子节点:值为真与为假。当前数据集,6个数据点的值为真,其中3个点的值为真,3个点的值为假;其余8个数据点的为假,其中6个点的值为真,2个点的值为假。 =true的子节点的信息熵计算为:

=false的子节点的信息熵计算为:

这个划分(使用属性)的信息熵是两个子节点信息熵的加权和:

为计算使用属性的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的有9个yes与5个no:

使用属性的信息增益是:

与其他的数据挖掘算法相比,决策树有许多优点:

在决策树中, 从根节点到叶节点的路径采用汇合或。而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。

演化算法可以用来避免局部最优的问题

相关

  • 武汉市长1912年中华民国建立,实行共和政体,地方政权裁府留道,州厅并称县。武汉各县成立自治机构参议会。1914年,袁世凯下令解散县参议会,停办自治。1926年秋,国民革命军北伐攻克武汉,始建立
  • 史蒂芬·杰·古尔德史蒂芬·杰伊·古尔德(英语:Stephen Jay Gould,1941年9月10日-2002年5月20日)是一名美国古生物学家、演化生物学家,科学史学家与科普作家,职业生涯中大多在哈佛大学担任教职,并曾在
  • 大撕裂大撕裂是一种宇宙论假说,在2003年首度被发布,关于宇宙的终极命运,假说中认为宇宙中的物质,从恒星和星系到原子和次原子粒子,在有限时间的未来会因为宇宙的膨胀进一步的被撕裂。理
  • 侄,或作姪,是一种亲属关系的称谓,指哥哥或弟弟的子女。男性的侄称为侄子或侄儿,女性的侄则称为侄女;自己为男性,对方称呼自己作伯父或叔父,自己为女性,对方称呼自己作姑母。现代除非
  • 反对党反对党(Opposition party),或反对派,是多党政治体制中与建制或执政联盟对立的政党,其主要职责是监督执政党的行为,同时也为在将来的选举中获胜从而成为执政党打基础。有效管治之实
  • ʔ̞吱嘎音声门近音,被使用于一些口语中,其国际音标写作⟨ʔ̞⟩或⟨ʔ̰⟩。发此音时会使声门紧缩,经过的气流也会明显减少(与其前后的元音相比),但不会完全阻断气流。此音为许多语言
  • 准谷物准谷物,也称为假谷物,是和谷物一样可以作为粮食的阔叶植物(非禾本科)。其种子可以磨成粉或是像谷物一样食用。常见的准谷物有苋属植物(尾穗苋、红苋菜、千穗谷)、藜麦及荞麦.
  • 重度抑郁症重性抑郁疾患(英语:Major depressive disorder,缩写MDD),也可简称为抑郁症,是一种精神疾患,特征为超过两周的大多数时间都抑郁不已。常常伴随着没有精神、对一般休闲活动没有兴趣、
  • 扬-奥克·荣松扬-奥克·荣松(Jan-Åke Jonsson)自2005年4月1日起就一直是Saab的总裁。1951年9月18日在瑞典瓦尔德马什维克市(Valdemarsvik)出生,荣松从乌普萨拉大学获得工商管理学士学位,并在19
  • 氢正离子氢正离子(英语:hydron)在化学中常指为原子氢的阳离子形式。由于氢原子只有一个电子,因此氢正离子实际上就是氢原子核。同位素氢-1(H)的正离子实际上就是质子。在水溶液中,氢正离子