决策树学习

✍ dations ◷ 2025-12-04 12:22:50 #决策树,分类算法

统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。

在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。

在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。

一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。


数据以如下方式表示:

其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。

在数据挖掘中,决策树主要有两种类型:

术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。

有些的方法产生多棵树:

还有其他很多决策树算法,常见的有:

构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。

假设y的可能取值为 J {\displaystyle J} (sunny, overcast, rainy), (hot, mild, cool), (high, normal), and (true, false), 目标值(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。

使用属性做划分时,产生2个子节点:值为真与为假。当前数据集,6个数据点的值为真,其中3个点的值为真,3个点的值为假;其余8个数据点的为假,其中6个点的值为真,2个点的值为假。 =true的子节点的信息熵计算为:

=false的子节点的信息熵计算为:

这个划分(使用属性)的信息熵是两个子节点信息熵的加权和:

为计算使用属性的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的有9个yes与5个no:

使用属性的信息增益是:

与其他的数据挖掘算法相比,决策树有许多优点:

在决策树中, 从根节点到叶节点的路径采用汇合或。而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。

演化算法可以用来避免局部最优的问题

相关

  • 乏核燃料乏核燃料是经受过辐射照射、使用过的核燃料,通常是由核电站的核反应堆产生。这种燃料无法继续维持核反应。乏核燃料中仍然包含有大量的放射性元素,因此具有放射性,如果不加以妥
  • 柱头柱头(英语:stigma)位于花的心皮(或多个心皮愈合)的顶端,以花柱连接子房。传粉时花粉落到柱头上,并萌发出花粉管以到达胚珠。柱头通常具有粘性,并演化出各种不同有利于接受花粉的形式
  • 尹 浩尹浩(1959年8月27日-)是一位中国通信网络领域专家,军事科学院系统工程研究院研究员,曾任该所总工程师、副所长。2013年当选为中国科学院院士。1959年出生于江苏南京,籍贯山东日照,1
  • 性精神病态《性精神病态》或译为《性心理疾病》(拉丁语:Psychopathia Sexualis),发表于1886年,其作者理查德·克拉夫特·埃宾(Richard von Krafft-Ebing)采用传统的临床精神病学方法,搜集各种
  • Eocene始新世(英语:Eocene)是地质时代中古近纪(Paleogene)的第二个主要分期,大约开始于5600万年前-终于3400万年前,介于古新世(Paleocene)与渐新世(Oligocene)之间。始新世(Eocene)之名,字源来自
  • 苏格兰绿党苏格兰绿党(英语:Scottish Green Party;苏格兰盖尔语: Pàrtaidh Uaine na h-Alba;低地苏格兰语:Scots Green Pairty),英国苏格兰的一个绿党组织,成立于1990年,党部位于爱丁堡。苏格兰
  • 东恒伽东恒伽王朝 (奥里亚语 : ଗଙ୍ଗ ବଂଶ ଶାସନ)是印度次大陆的印度教政权。东恒伽王朝源自羯陵伽,从11世纪到15世纪早期统治包括今印度整个奥里萨邦和西孟加拉邦、安得
  • ICD-10 第一章:某些传染病和寄生虫病ICD-10 第一章:某些传染病和寄生虫病,主要包括被视为具有可传播性和可传染性的疾病。肠道传染病(A00-A09)结核病(A15-A19)由特定动物传染的细菌性疾病(A20-A28)其他细菌性疾病(A30-A4
  • 古希腊经济在古希腊的经济中,由于希腊贫瘠的土地,农业极其重要.到了公元前6世纪,工艺和贸易(主要是海上贸易)开始发展,然后变得重要。经济这个概念在古希腊跟现代并不相同。 希腊语oikonomia
  • 德拉克罗瓦欧仁·德拉克罗瓦(法语:Eugène Delacroix,1798年4月26日—1863年8月13日)是法国著名浪漫主义画家。1798年4月26日出生于法国瓦勒德马恩省,曾师从法国古典主义画派画家皮埃尔-纳