决策树

✍ dations ◷ 2025-10-17 01:50:03 #决策树
统计学,数据挖掘和机器学习中的决策树训练,使用决策树作为预测模型来预测样本的类标。这种决策树也称作分类树或回归树。在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性。在决策分析中,一棵决策树可以明确地表达决策的过程。在数据挖掘中,一棵决策树表达的是数据而不是决策。本页的决策树是数据挖掘中的决策树。在数据挖掘中决策树训练是一个常用的方法。目标是创建一个模型来预测样本的目标值。例如右图。每个 内部节点 对应于一个输入属性,子节点代表父节点的属性的可能取值。每个叶子节点代表输入属性得到的可能输出值。一棵树的训练过程为:根据一个指标,分裂训练集为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时 递归停止。这种决策树的自顶向下归纳 (TDITD) 是 贪心算法的一种, 也是目前为止最为常用的一种训练方法,但不是唯一的方法。数据以如下方式表示:其中Y是目标值,向量x由这些属性构成, x1, x2, x3 等等,用来得到目标值。在数据挖掘中,决策树主要有两种类型:术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出. 分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。有些集成的方法产生多棵树:还有其他很多决策树算法,常见的有:构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一些最常见的指标。在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。假设y的可能取值为 J {displaystyle J} 个类别,另 i ∈ { 1 , 2 , . . . , J } {displaystyle iin {1,2,...,J}} , p i {displaystyle p_{i}} 表示被标定为第 i {displaystyle i} 类的概率,则基尼不纯度的计算为:ID3, C4.5 和 C5.0 决策树的生成使用信息增益。信息增益 是基于信息论中信息熵与自信息理论.信息熵定义为:其中 p 1 , p 2 , . . . {displaystyle p_{1},p_{2},...} 加和为1,表示当前节点中各个类别的百分比。例如,数据集有4个属性:outlook (sunny, overcast, rainy), temperature (hot, mild, cool), humidity (high, normal), and windy (true, false), 目标值play(yes, no), 总共14个数据点。为建造决策树,需要比较4棵决策树的信息增益,每棵决策树用一种属性做划分。信息增益最高的划分作为第一次划分,并在每个子节点继续此过程,直至其信息增益为0。使用属性windy做划分时,产生2个子节点:windy值为真与为假。当前数据集,6个数据点的windy值为真,其中3个点的play值为真,3个点的play值为假;其余8个数据点的windy为假,其中6个点的play值为真,2个点的play值为假。 windy=true的子节点的信息熵计算为:windy=false的子节点的信息熵计算为:这个划分(使用属性windy)的信息熵是两个子节点信息熵的加权和:为计算使用属性windy的信息增益,必须先计算出最初(未划分)的数据集的信息熵,数据集的play有9个yes与5个no:使用属性windy的信息增益是:与其他的数据挖掘算法相比,决策树有许多优点:在决策树中, 从根节点到叶节点的路径采用汇合或与。 而在决策图中, 可以采用 最小消息长度 (MML)来汇合两条或多条路径。演化算法可以用来避免局部最优的问题

相关

  • 医学索引医学索引(Index medicus)是一医学杂志文章的综合索引,刊登于1879年到2004年间(其中1899年到1902年中断)。由于免费的搜寻引擎如PubMed的广泛应用,2004年美国国家医学图书馆停止出
  • 小白鼠,是一个中文俗名,可以指:
  • 言语病理学言语病理学又称为言语治疗学,前者乃是本学科于美国及加拿大的名称而后者则是于英国的名称。言语病理学一般来说是一门康复医学,涉及范围广范,包括心理学、语言学、甚至生理学等
  • 目录目录可以指:
  • 弗拉基米尔·佐利金弗拉基米尔·科斯马·佐利金(俄语:Владимир Козьмич Зворыкин,1888年7月29日-1982年7月29日)一作兹沃里金,美籍俄裔发明家、工程师,电视技术先驱者。佐利金
  • 欧仁·维奥莱-勒-杜克欧仁·埃马纽埃尔·维奥莱-勒-迪克(Eugène Emmanuel Viollet-le-Duc,1814年1月27日-1879年9月17日)为法国建筑师与理论家,最有名的成就为修复中世纪建筑。法国歌特复兴建筑(Gothi
  • 五声调式,或称五声音阶,是中国音乐中的音阶,这5个音依次定名为宫、商、角(jué,ㄐㄩㄝˊ)、徵(zhǐ,ㄓˇ)、羽,大致相当于西洋音乐简谱上的唱名(do)、(re)、(mi)、(sol)、(la)。将这五个音按高低
  • 大禹禹(前2123年-前2055年),姒姓,夏后氏,传说名文命,后世尊称为大禹,五帝之一,也是三官大帝之一。远古时期中国神话人物,是黄帝轩辕氏玄孙,因在大禹治水中成功治理洪水之患的故事而广为人知
  • 约翰·卡蒂约翰·约瑟夫·卡蒂(英语:John Joseph Carty,1861年4月14日-1932年12月27日),美国电气工程师,电话线和相关技术的主要贡献者。卡蒂曾获得IEEE爱迪生奖章。作为AT&T的首席工程师,他对
  • 潜内能潜内能是指系统要产生相变时的内能变化,会随系统的成分(纯物质或混合物),温度及压力,以及要产生的相变而不同。例如汽化热、熔化热、升华热等。潜内能一般会用单位质量或是单位莫