决策树学习

✍ dations ◷ 2024-09-20 14:35:26 #决策树,分类算法

统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。

在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。

在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。

一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。


数据以如下方式表示:

其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。

在数据挖掘中,决策树主要有两种类型:

术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。

有些的方法产生多棵树:

还有其他很多决策树算法,常见的有:

构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。

在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。

假设y的可能取值为 J {\displaystyle J} (sunny, overcast, rainy), (hot, mild, cool), (high, normal), and (true, false), 目标值(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。

使用属性做划分时,产生2个子节点:值为真与为假。当前数据集,6个数据点的值为真,其中3个点的值为真,3个点的值为假;其余8个数据点的为假,其中6个点的值为真,2个点的值为假。 =true的子节点的信息熵计算为:

=false的子节点的信息熵计算为:

这个划分(使用属性)的信息熵是两个子节点信息熵的加权和:

为计算使用属性的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的有9个yes与5个no:

使用属性的信息增益是:

与其他的数据挖掘算法相比,决策树有许多优点:

在决策树中, 从根节点到叶节点的路径采用汇合或。而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。

演化算法可以用来避免局部最优的问题

相关

  • 原始希腊原始希腊语(Proto-Greek、Proto-Hellenic)是假定的所有已知希腊语变体的最近公共祖先,包括了迈锡尼语,古希腊语方言如雅典-爱奥尼亚方言, 伊欧里斯方言,多利亚方言和西北希腊方言
  • 基巴基帕 (希伯来文:כִּפָּה‎,Kippah)是犹太人男性所佩带的一张薄布料或羊毛纺织制成的头饰,用发夹固定。今天佩带基帕原因有:犹太教因教派不同,令其教派男性所佩带的基帕和以
  • 氯化铁氯化铁(FeCl3)又称三氯化铁,是三价铁的氯化物。它易潮解,在潮湿的空气会水解,溶于水时会释放大量热,并产生啡色的酸性溶液。这个溶液可蚀刻铜制的金属,甚至不锈钢。无水的氯化铁是
  • 奥尔伯里奥尔伯里(Albury)是澳大利亚新南威尔士州的一座城市,位于墨累河北岸,距悉尼550公里,距墨尔本325公里。本地为澳大利亚的一个地方政府,由奥尔伯里市政府统辖。奥尔伯里是瑞福利纳地
  • 恐鸟参见内文恐鸟(学名:Dinornithidae),又称摩亚鸟(毛利语:moa),是对生活于新西兰的一群体型高大、外型近似现今的鸸鹋而不能飞行的平胸鸟类的总称。恐鸟是现今已发现最高的鸟类,目前已知
  • 坎登卡姆登(英文:Camden),是美国南卡罗来纳州下属的一座城市。城市类型是“City”。其面积大约为11.39平方英里(29.49平方公里)。根据2010年美国人口普查,该市有人口6,838人,人口密度约
  • 米部米部,为汉字索引中的部首之一,康熙字典214个部首中的第一百一十九个(六划的则为第二个)。就正体和简体中文中,米部归于六划部首。米部通常从左、上、下方为部字。且无其他部首可
  • 比尔·克林顿比尔·克林顿,全名威廉·杰斐逊·克林顿(英语:William Jefferson Clinton,1946年8月19日-)是美国律师、政治人物,民主党成员,曾长期担任阿肯色州州长(1979年-1981年、1983年-1992年)和第
  • 阿瑟·哈登阿瑟·哈登(英语:Arthur Harden,1865年10月12日-1940年6月17日),出生于英国曼彻斯特,英国生物化学家、皇家学会院士,1929年与汉斯·冯·奥伊勒-切尔平因对糖类的发酵以及发酵酶的研
  • 1890年美国人口普查1890年美国人口普查(英语:1890 United States Census)以1890年6月2日为普查日,大多数的1890年人口普查资料在1921年的一场大火中被摧毁了。1890年的人口普查收集所有受访者以下