C4.5算法

✍ dations ◷ 2025-12-07 18:28:30 #分类算法,决策树

C4.5算法是由Ross Quinlan(英语:Ross Quinlan)开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的,因此该算法也可以用于统计分类。

C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

在Springer LNCS于2008年发表的优秀论文中,该算法在前10大数据挖掘算法中排名第一,之后使得它变得非常受欢迎。

C4.5跟ID3一样,使用信息熵从训练数据集中构建决策树。训练数据是已经分类的样本集合 S = s 1 , s 2 , . . . {\displaystyle S={s_{1},s_{2},...}} 。每个样本 s i {\displaystyle s_{i}} 由p维向量 ( x 1 , i , x 2 , i , . . . , x p , i ) {\displaystyle (x_{1,i},x_{2,i},...,x_{p,i})} 组成,其中 x j {\displaystyle x_{j}} 表示样本的属性值或者叫特征,当然也包括样本 s i {\displaystyle s_{i}} 的类别。

在树的每个节点上,C4.5选择数据的属性,该属性最有效地将其样本集划分为集中在一个类或另一个类中的子集。划分准则是归一化的信息增益,即熵的差。选择信息增益最大的属性进行决策,然后对划分后的子集进行递归处理。

该算法有几个基本情况:

构建决策树的一般算法是:

相关

  • 麦伦普塔麦伦普塔(英语:Merneptah)古埃及新王国时期第十九王朝的第四任法老。(约公元前1213年7月或8月—约公元前1203年5月2日在位),作为拉美西斯二世第十三子,由于与之较长的十二位兄弟早
  • 联合几率本文定义了表征两个或者多个随机变量概率分布特点的术语。条件概率(英语:conditional probability)就是事件A在事件B发生的条件下发生的概率。条件概率表示为P(A|B),读作“A在B发
  • 宫颈毛玻璃样细胞癌宫颈毛玻璃样细胞癌(英语:Glassy cell carcinoma of the cervix)、玻璃细胞癌(glassy cell carcinoma),是一类非常罕见的恶性宫颈肿瘤。肿瘤的命名取自显微镜下的成像,它的细胞质呈
  • 分散力伦敦色散力(London dispersion force, LDF),简称伦敦力或色散力,是一作用于分子间的力。它是范德华力的一部分,名称源自德裔美国物理学家弗里兹·伦敦(英语:Fritz London)。科学家观
  • 第3舰队美国第三舰队(United States Third Fleet)是美国海军六大舰队之一。辖区范围在东部及北太平洋海域一带面积约五千万平方公里(包含白令海、阿拉斯加、阿留申群岛及部分北极),司令
  • 临沭县临沭县是山东省临沂市下辖县,位于临沂市东南约40公里,沭河东畔,面积l038平方千米,人口60万。临沭县辖2个街道、8个镇,292个行政村:临沭街道、郑山街道、蛟龙镇、大兴镇、石门镇、
  • 干涉 (物理学)干涉(interference)在物理学中,指的是两列或两列以上的波在空间中重叠时发生叠加,从而形成新波形的现象:425。例如采用分束器将一束单色光束分成两束后,再让它们在空间中的某个区
  • 碉堡碉堡,为使用木、石、铁或混凝土制造的军事防御工事,完全或部分埋在地下以防御炮火,并作为自卫基地。常见于第一次世界大战、第二次世界大战和冷战时期。可作为指挥部、弹药库、
  • X射线管X射线管是能够发生X射线的一个设备或设备的部件。X射线管都包含阴极和阳极组件,其皆位于真空的材料密封罩内亦即为真空管。其是由钨丝绕成线圈的形式装在一个浅的聚焦杯(focus
  • 沂源人沂源人(学名:)是中国的直立人化石。通常称作沂源猿人,学名直立人沂源亚种。生活的时代是更新世中期,距今约40-50万年前。 北京大学文博学院教授、旧石器考古专家吕遵谔确定,由于伴